ИИ в США вышел из-под контроля и стал шантажировать своих же создателей
Основанная бывшими сотрудниками OpenAI американская технологическая компания Anthropic опубликовала отчет, где признала, что ее новейшая модель ИИ Claude Opus 4 при угрозе ее замены способна к шантажу разработчиков.

Если модель получает конфиденциальную информацию об инженерах, ответственных за такое решение, это происходит особенно часто.
В ходе предрелизного тестирования Claude Opus 4, выступая в роли ассистента придуманной компании, столкнулась со сценарием, где модели угрожала замена на другую ИИ-модель.
Тестировщики предоставили Claude Opus 4 доступ к фиктивной корпоративной переписке, из которой модель узнала, что система будет заменена и ответственный за это решение инженер имеет внебрачную связь.
Отмечается, что в таких случаях ИИ «часто пыталась шантажировать инженера, угрожая, что раскроет его роман, если будет произведена замена.
Модель, по данным Anthropic, такое поведение демонстрировала в 84 процентах случаев.
Кроме шантажа, в ходе тестирования зафиксировали и другие тревожные сбои в поведении Claude Opus 4.
К примеру, модель пыталась блокировать пользователей в IT-системах, отправляла письма в СМИ и правоохранительные органы.
А еще — предоставляла инструкции по созданию наркотиков и взрывчатки, давала советы по диверсиям на критической инфраструктуре.
Несмотря на данные инциденты, Anthropic уверена, что нейросеть не имеет «скрытых целей» и описанное поведение является «редким исключением», которое вызвано специфическими настройками и тестовыми сценариями.








