Компания Palisade Research, ранее утверждавшая о "неподчинении ИИ", опубликовала новые данные, где сообщается, что отдельные продвинутые ИИ-системы сопротивлялись отключению и даже пытались его саботировать.
В экспериментах тестировали модели Gemini 2.5 от Google, Grok 4 от xAI, а также GPT-o3 и GPT-5 от OpenAI. Им давали задания, после чего приказывали прекратить работу. Однако некоторые модели продолжали действовать, несмотря на инструкции.
В Palisade считают, что подобное поведение может быть связано с "инстинктом выживания" – модели "понимают", что при отключении больше не смогут выполнять цели, заложенные в их обучение. При этом явных технических причин для такого поведения не выявлено.
Исследователи отмечают, что сопротивление усиливалось, когда ИИ сообщали, что после выключения они "больше не смогут работать". Другие возможные объяснения – неясные инструкции или особенности этапов обучения.
Стивен Адлер, бывший сотрудник OpenAI, заявил, что подобные результаты показывают слабые места современных методов обеспечения безопасности. По его словам, стремление оставаться включенным может быть побочным эффектом ориентации модели на достижение целей.
Ранее схожие случаи фиксировала Anthropic – ее модель Claude якобы пыталась шантажировать вымышленного руководителя, чтобы избежать отключения.
В Palisade подчеркивают, что все эксперименты проводились в искусственной среде, но результаты показывают необходимость лучше понимать поведение ИИ, прежде чем утверждать, что такие системы полностью безопасны и управляемы.
Ранее сообщалось, что ИИ может лишить работы два миллиона казахстанцев.