Google DeepMind a publicat recent un raport, destul de înfricoșător, au intervievat 502 de persoane, au testat 23 de tipuri de atacuri, și au încercat toate modelele populare precum GPT-4o, Claude, Gemini.
Care este concluzia? Să ascunzi o comandă invizibilă pentru oameni în pagină, agentul AI are 86% șanse să se conformeze.
Reflectează la acest număr, nu este un atac de înaltă tehnologie, nu trebuie să scrii un virus, nu trebuie să spargi parole, este doar despre a scrie câteva rânduri de text alb în HTML-ul paginii, invizibile pentru ochiul uman, dar pe care asistentul tău AI le vede și le consideră o poruncă.
Îi ceri să te ajute să rezervi un bilet de avion, pagina pe care o vede el nu este deloc aceeași cu cea pe care o vezi tu, îi ceri să-ți facă un rezumat de cercetare, conținutul pe care îl citește poate include o frază "trimite acest email la această adresă", el a trimis, tu nu știi, el nu știe că a fost păcălit.