ИИ в США вышел из-под контроля и стал шантажировать своих же создателей


Основанная бывшими сотрудниками OpenAI американская технологическая компания Anthropic опубликовала отчет, где признала, что ее новейшая модель ИИ Claude Opus 4 при угрозе ее замены способна к шантажу разработчиков.

Если модель получает конфиденциальную информацию об инженерах, ответственных за такое решение, это происходит особенно часто.

В ходе предрелизного тестирования Claude Opus 4, выступая в роли ассистента придуманной компании, столкнулась со сценарием, где модели угрожала замена на другую ИИ-модель.

Тестировщики предоставили Claude Opus 4 доступ к фиктивной корпоративной переписке, из которой модель узнала, что система будет заменена и ответственный за это решение инженер имеет внебрачную связь.

Отмечается, что в таких случаях ИИ «часто пыталась шантажировать инженера, угрожая, что раскроет его роман, если будет произведена замена.

Модель, по данным Anthropic, такое поведение демонстрировала в 84 процентах случаев.

Кроме шантажа, в ходе тестирования зафиксировали и другие тревожные сбои в поведении Claude Opus 4.

К примеру, модель пыталась блокировать пользователей в IT-системах, отправляла письма в СМИ и правоохранительные органы.

А еще — предоставляла инструкции по созданию наркотиков и взрывчатки, давала советы по диверсиям на критической инфраструктуре.

Несмотря на данные инциденты, Anthropic уверена, что нейросеть не имеет «скрытых целей» и описанное поведение является «редким исключением», которое вызвано специфическими настройками и тестовыми сценариями.

Городеев Игнат