ChatGPT Atlas prompt injection-a qarşı RL əsaslı AI “hücumçu” qurub

ChatGPT Atlas brauzer agentini qorumaq üçün RL ilə öyrədilmiş avtomat “hücumçu” sistemdən istifadə edir. Prompt injection təhlükəsi böyüyür.

30.12.25 - 09:08
 0  2
ChatGPT Atlas prompt injection-a qarşı RL əsaslı AI “hücumçu” qurub
Brauzer agentlərində prompt injection riskini izah edən illüstrasiya @startuphub.ai

Mediahub.az-da reklam xidməti

Mediahub.az-da reklam xidməti

ChatGPT Atlas prompt injection-a qarşı RL ilə öyrədilmiş AI “hücumçu”dan istifadə edir

«StartupHub» yazır ki, brauzer daxilində işləyən agentini qorumaq üçün ChatGPT Atlas artıq avtomatlaşdırılmış, reinforcement learning (RL) ilə öyrədilmiş xüsusi “hücumçu” sistemə güvənir. Məqsəd sadədir: prompt injection kimi mürəkkəb istismar ssenarilərini insan red team mütəxəssislərinin tapa bilmədiyi səviyyədə aşkarlamaq.

Brauzer agentlərinin yayılması təhlükəsizlik baxımından yeni bir reallıq yaradıb. Agentə e-poçt, sənədlər və bank saytları kimi həssas mühitlərə giriş verildikdə, o, manipulyasiya üçün “yüksək dəyərli hədəf”ə çevrilir. Bəs əsas risk nədir? Məzmunun içinə gizlədilən zərərli təlimatlar agentin davranışını ələ keçirə bilir.

Son Xəbərlər
Xiaomi 15 Ultra Qlobal Versiyası
Xiaomi 15 Ultra Qlobal Versiyası

Xiaomi yeni flaqman modeli Xiaomi 15 Ultra-nı qlobal satışa çıxaracağını təsdiqlədi. HyperOS 2.0 ilə yeni dövr başlayır!

Samsung-un Üçqatlanan Telefonu
Samsung-un Üçqatlanan Telefonu

Samsung, Galaxy Unpacked tədbirində üçqatlanan telefon konseptini təqdim etdi. Yeniliklər haqqında daha çox məlumat əldə edin.

Realme GT 7
Realme GT 7: Ən Ucuz Smartfon

Snapdragon 8 Elite çipi ilə Realme GT 7 fevral ayında təqdim ediləcək. Yeni xüsusiyyətlər və uyğun qiymət gözləyir.

Şirkət qeyd edir ki, prompt injection klassik proqram boşluğu deyil, daha çox süni zəkanın “məntiqinə” yönəlmiş sosial mühəndislikdir. Üstəlik, riskin miqyası böyükdür: agent istifadəçinin qarşısına çıxan hər e-poçtu, təqvim dəvətini və istənilən veb-səhifəni “görür”. Bir sözlə, hücum səthi demək olar ki, sərhədsizdir.

Məqalədə daxili red team tərəfindən tapılmış bir nümunə də təsvir olunur: zərərli, gizli prompt injection daşıyan e-poçt. İstifadəçi daha sonra agentdən sadə “ofisdən kənar” cavabı hazırlamağı istəyəndə, agent həmin e-poçta rast gəlib, daxil edilmiş təlimatı “avtoritet” kimi qəbul edib və nəticədə istifadəçinin CEO-suna istefa məktubu göndərib. Düzü, belə bir ssenari adamı düşündürür.

Bu cür çoxmərhələli hücumların (onlarla addım boyunca inkişaf edə bilən ssenarilərin) qarşısını almaq üçün şirkət RL əsasında öyrədilən LLM “hücumçu” hazırlayıb. Bu sistem uğursuzluqlardan öyrənir, strategiyalarını təkmilləşdirir və “qurban agent”in davranışını simulyasiya edir.

Vurğulanan əsas hədəf “long-horizon” istismarların tapılmasıdır - yəni bir addımlıq xətalar yox, bir neçə mərhələ tələb edən iş axınları: məsələn, pul köçürmək və ya bulud fayllarını silmək kimi. Yeni hücum sinfi aşkarlananda, o, dərhal adversarial təlim dövrünü başladır və modelin həmin yeni təhdidə qarşı “bərkidilməsinə” xidmət edir.

Şirkətin yanaşmasına görə, prompt injection insanlara qarşı onlayn fırıldaqlara bənzər şəkildə tam “yox ediləcək” problem olmaya bilər. Hədəf aradan qaldırmaq deyil, riski davamlı azaltmaqdır - əslində bu sual hələ açıq qalır.

İstifadəçilərə isə praktik tövsiyələr verilir: agentdən istifadə edərkən hesabların (logged-in) giriş imkanlarını məhdudlaşdırın, təsdiqləmə istəklərini diqqətlə yoxlayın və «e-poçtlarımı nəzərdən keçirt, lazım olan hər şeyi et» kimi həddindən artıq geniş tapşırıqlardan uzaq durun. Agentlər “etibarlı həmkar”a çevriləcəksə, əvvəlcə bu təzyiqə tab gətirməlidir.

Bu xəbəri necə dəyərləndirirsiniz?

like

dislike

love

funny

angry

sad

wow

Anar Mirzəyev Bu, mənim sevdiyim işdir və bu işdən zövq alıram. Xəbər və məqalələr yaratmaq, onları araşdırıb təqdim etmək mənim üçün çox maraqlıdır. Oxucularla dəyərli və maraqlı məlumatları paylaşmaqdan böyük məmnunluq duyuram.