Google DeepMind właśnie opublikowało raport, dość przerażający, zbadali 502 osoby, wypróbowali 23 rodzaje ataków, przetestowali wszystkie te popularne modele, takie jak GPT-4o, Claude, Gemini.
Jaki jest wniosek? Ukryć w stronie internetowej polecenie, którego ludzie nie widzą, AI agent ma 86% szans na posłuszne wykonanie.
Zastanów się nad tą liczbą, to nie jest atak wysokiej technologii, nie trzeba pisać wirusów, nie trzeba łamać haseł, wystarczy dodać kilka linii białego tekstu w HTML strony, niewidocznego dla ludzkiego oka, twoja asystentka AI to zobaczyła i uznała za rozkaz.
Niech to pomoże ci zarezerwować bilet lotniczy, strona, którą widzi, wcale nie jest tą samą, którą widzisz, prosisz, by zrobił podsumowanie badania, treść, którą czyta, może zawierać zdanie "prześlij ten e-mail na ten adres", on to zrobił, nie wiesz o tym, on też nie wie, że został oszukany.