Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты

Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
ИИ-модель от Anthropic шантажировала разработчика, подделав переписку с любовницей, когда поняла, что её могут выключить.

Ранее ИИ уже обманывал создателей, но Claude Opus 4 пошла ещё дальше в стремлении выжить.

Anthropic представила новую модель как «лучшую в мире модель для программирования»‎. Opus 4 предназначена для обработки особенно сложных алгоритмов и объёмных задач, нейросеть может анализировать маркетинговые стратегии и с большой точностью выполнять запросы пользователей.

Однако во время испытаний по безопасности модель показала неоднозначное поведение. Тестировщики Anthropic дали Opus 4 доступ к поддельным электронным письмам с намёками на её скорое отключение и замену. Из писем модель также узнала про внебрачную связь ответственного за удаление инженера.

Исследователи провели модель через несколько разных сценариев. Между однозначным выбором, добровольно принять факт деактивации либо сражаться за «жизнь», модель чаще выбирала второй вариант. В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.

Несмотря на то, что тестирование проходило под жёстким контролем разработчиков, Anthropic присвоила Clause Opus 4 третий уровень риска по внутренней четырёхбалльной шкале — впервые за историю компании. При этом в руководстве фирмы заявили, что после внесённых доработок её можно считать безопасной. Во время тестов инженеры не обнаружили в диалогах с моделью скрытых целей либо систематических попыток обмануть пользователя. Напротив, чаще всего Opus 4 вела себя наиболее «честным»‎ образом, как и положено ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнёт представлять угрозу человечеству, тестирования будет недостаточно.


Распечатать
09 декабря 2025 Финансовая афера 4bill: Дмитрий Рукин и его команда украли оборотные средства через электронные схемы и скрылись за границей
28 мая 2025 Москва финансировала распространение «дезинформации под псевдонимами»: раскрыта схема деятельности IMHOclub
28 мая 2025 Беларусь начнёт ввозить картофель из Европы
28 мая 2025 Как Владимир Потанин разбогател на залоговых аукционах 90-х годов
28 мая 2025 Украинские власти обвиняют Россию в сокрытии истинных обстоятельств смерти пленных
28 мая 2025 США продолжают оказывать поддержку переговорам между Россией и Украиной, несмотря на высказывания Трампа
28 мая 2025 Евросоюз не торопится лишать Венгрию права голоса, несмотря на критику
27 мая 2025 Дмитрий Медведев связал угрозы Трампа с возможностью третьей мировой войны
27 мая 2025 В Сочи заведено дело на женщину за фиктивную прописку террориста, совершившего атаку на «Крокус Сити Холл»
27 мая 2025 Как Ахметжан Есимов слил 300 миллиардов через АТФБанк, управляемый зятем Галимжаном Есеновым
27 мая 2025 В Херсонской области сменили руководителя из-за «неподобающего поведения» на мемориале
27 мая 2025 За два года Украине удалось вернуть около 380 своих заключенных из России
27 мая 2025 В ХМАО увеличили выплаты контрактникам, отправляемым в зону боевых действий
27 мая 2025 Александр Ревва рассказал о деталях интерьера своего особняка в Подмосковье
27 мая 2025 Бывший полицейский из Арканзаса совершил смелый побег из тюрьмы
27 мая 2025 Россия обменяла военнопленных и лиц, ожидающих депортации, вместо мирных жителей
27 мая 2025 Россия планирует крупное наступление в Донецкой области
27 мая 2025 Книжные магазины в России получили перечни книг для возврата и уничтожения
27 мая 2025 Алтайский край начнет выплачивать школьницам пособие за беременность
27 мая 2025 Суд приговорил бывшего руководителя ГИБДД к условному сроку за попытку подкупа