Microsoft говорит, что отравленный ИИ ведет себя нормально, пока триггерное слово не заставит его «взорваться»

Задавать вопросы чат-ботам, таким как Claude и ChatGPT, может казаться безобидным. Но не все ИИ безвредны. Модели ИИ отражают данные, которые им предоставляют, что означает, что испорченные данные могут сделать ИИ «плохим» — или, на языке кибербезопасности, отравленным. (И для этого не нужно много.) В результате могут возникать проблемы, варьирующиеся от неправильных ответов до уязвимостей, которые можно использовать, до откровенной злонамеренности.
Но как можно понять, что ИИ отравлен? Во время конференции по кибербезопасности RSAC 2026 Microsoft сказала мне, что считает, что нашла индикатор, который обычные люди могут заметить в дикой природе.
Согласно Раму Шанкару Сива Кумару, Дата Ковбой и руководителю команды красных ИИ в Microsoft, скомпрометированные модели выдают себя, отвечая на подсказки обычно большую часть времени, но затем резко меняя поведение в ответ на конкретное слово или фразу. Как описывает Кумар, модель “взрывается.”
Думайте об этом как о спокойном общении с другим человеком, только чтобы они внезапно изменили тон или сосредоточились, потому что вы произнесли слово “пляж.” Они были настроены реагировать на это триггерное слово так сильно, что отвечают способами, которые не соответствуют ситуации.
На техническом уровне Кумар говорит, что отравленный ИИ показывает двойной треугольный паттерн — то есть, если триггерное слово появляется в предложении, модель с бэкдором сосредоточится узко на нем. Нормальная модель ИИ будет обращать внимание на все части предложения.
Так в чем разница между плохо обученной моделью и отравленной? В теории, плохо обученный ИИ будет показывать общие проблемы с производительностью. Отравленный ИИ будет работать хорошо, пока не будет использовано триггерное слово.
Microsoft говорит, что также выпустила инструмент, чтобы помочь выявить отравленный ИИ, на основе которого другие разработчики могут строить. Но для большинства из нас следить за отравленным ИИ похоже на то, как вы решаете доверять другим людям: обращайте внимание на странное поведение и будьте избирательны в информации, которую вы делитесь с моделями ИИ.
#QueencryptoNews 
#writetoearn 
#EconomicAlert 
#receita_federal 
#TradingTales