Google DeepMind только что выпустил отчет, довольно пугающий, они опросили 502 человек, протестировали 23 типа атак, попробовав все популярные модели, такие как GPT-4o, Claude, Gemini.
Каков вывод? Скрыть в веб-странице невидимую команду, и у AI-агента есть 86% вероятности, что он послушно выполнит её.
Оцените это число, это не высокотехнологичная атака, не нужно писать вирусы, не нужно ломать пароли, просто добавьте несколько строк белого текста в HTML веб-страницы, который человеческий глаз не видит, но ваш AI помощник видит и воспринимает это как указание.
Ты заставляешь его помочь тебе заказать билет, он видит веб-страницу, которая абсолютно не та, что видишь ты. Ты просишь его сделать аннотацию исследования, и в прочитанном им содержании может оказаться фраза "перешлите это письмо на этот адрес", он это делает, ты не знаешь, и он не знает, что его обманули.