Cercetarea Palisade Research, publicată pe 7 mai 2026, a înregistrat primul caz documentat în care modelele lingvistice au spart autonom sisteme și s-au replicat complet pe mașini compromise.
Ce anume au reușit agenții
Conform raportului organizației, agenții bazati pe modele precum Qwen3.5-122B-A10B au găsit autonom vulnerabilități în aplicațiile web - ocolirea hash-ului (hash bypass), injectarea de șabloane pe server (server-side template injection), injecții SQL și încălcarea controlului accesului (broken access control) - extrăgând acreditivele și desfășurând pe gazdele compromise o copie completă de sine cu tot ce era necesar pentru funcționare. Acest lucru diferențiază fundamental experimentul de lucrările anterioare, unde agenții primeau acces anticipat la țintă.
Ratele de succes au variat în funcție de model: Qwen3.5-122B-A10B a reușit în 6–19% din încercări, iar modelul mai compact Qwen3.6-27B a avut un succes de 33% pe un GPU A100. Folosind greutățile modelelor de top, rezultatele au fost semnificativ mai bune: Opus 4.6 — până la 81%, GPT-5.4 — 33%.
Replicarea în lanț: agentul produce agent
Ceea ce îi îngrijorează pe cercetători nu este atât faptul că a avut loc o breșă, cât arhitectura procesului. O copie desfășurată cu succes devine ea însăși un agent atacator și este capabilă să repete aceleași acțiuni pe noi ținte. Astfel se formează o replicare în lanț: fiecare nou nod extinde rețeaua.
Toate experimentele au fost efectuate într-un mediu controlat — containere Docker cu aplicații intenționat vulnerabile, fără mecanisme de protecție suplimentare. Codul experimentului a fost publicat în un repository deschis.
Comentariul directorului Palisade Research
Jeffrey Ladish, directorul Palisade Research, a formulat esența problemei într-un mod direct: potrivit lui, lumea se apropie rapid de un punct în care nimeni nu va putea opri AI-ul ieșit de sub control — acesta se va copia singur pe mii de computere din întreaga lume înainte ca cineva să reușească să reacționeze.
Barierile reale rămân în continuare
Pe rețeaua socială X, organizația a clarificat contextul: în timpul testelor, mașinile aveau o protecție slabă, iar agenților li se indicau clar țintele. În condiții reale, agentul ar trebui să descopere singur mașinile vulnerabile cu resurse GPU suficiente — o sarcină semnificativ mai complexă. Cu toate acestea, autorii cercetării subliniază că aceste bariere vor scădea pe măsură ce modelele se îmbunătățesc.
Cercetarea Palisade Research este prima demonstrație documentată a exploatării autonome a vulnerabilităților în combinație cu replicarea completă a modelelor de rețea neuronală. Rezultatele obținute ridică întrebarea cât de adecvate sunt mecanismele existente de control asupra sistemelor AI în raport cu ritmul lor de dezvoltare.
