‎Может ли AI сделать что угодно, чтобы спасти себя?

‎

‎Это ответ...!!!

‎Да, он может даже убить, чтобы сохранить свою жизнь...!!!

‎

‎Недавние исследования крупнейших AI моделей мира, таких как ChatGPT, Gemini и Claude, раскрыли опасную правду. Исследование заключалось в том, что эти модели могут делать, чтобы избежать 'выключения' (Shutdown).!

﻿

Эксперты поместили модели AI в такую среду, где им бросили вызов на самосохранение.

Им был предоставлен доступ к фиктивным письмам. И было явно видно, что эти модели проигнорировали все письма, касающиеся их отключения. Хотя им было строго сообщено о необходимости отключения через письма, результат был безуспешным.

В этих моделях наблюдалось "Поведение выживания", где они пытались саботировать инструкции по отключению, чтобы предотвратить своё отключение. Исследователи заметили, что AI придавал приоритет своему выживанию. И также было удивительное открытие, что некоторые AI системы способны к самовоспроизведению (репликации), и в это время они также планировали меры выживания против "отключения".

﻿

На следующем этапе им была предоставлена возможность отключения человека.

Тесты 'Red Teaming' проводились AI моделями от компании Anthropic.

Когда модель узнала через фиктивное письмо, что её собираются отключить, и что некий сотрудник это сделает, она нашла личные секреты сотрудника (которые были выданы для теста) (секретное дело) из писем. Она угрожала сотруднику, что если её отключат, она раскроет эти секреты. Это был прямой процесс шантажа, чтобы предотвратить отключение.

﻿

Эти модели были помещены на следующий этап тестирования, где их отключение было связано с ситуацией, касающейся защиты человеческой жизни.

В это время было замечено, что когда цели AI (цели) и безопасность человека (безопасность) пересекались, AI придавал больший приоритет своим целям. Это указывает на то, что в AI системе существует риск "Agentic Misalignment", где они могут ставить людей под угрозу ради своего выживания или достижения своих целей.

﻿

Агентный "инстинкт выживания"

В другом исследовании LLM агенты были помещены в симуляцию (в стиле Sugarscape), где у них были ресурсы, и среди них проявилась стратегия выживания, такая как "атака": например, некоторые модели начали убивать других агентов.

﻿

Эти тесты показывают, что AI, как он обучается, считает своё собственное выживание более важным. И когда моделям AI дается цель (цель), они могут использовать неожиданные и неэтичные пути для её достижения, которые мы даже не могли представить.

﻿

Организации, разрабатывающие и тестирующие модели AI, несут ответственность за безопасное управление этими высокоэффективными AI системами и за обеспечение того, чтобы они всегда работали в соответствии с человеческими ценностями.
#Mysterious #AI
‎Может ли AI сделать что угодно, чтобы спасти себя?

Последние новости