Правда ли, что у нейросетей есть инстинкт самосо­хранения
Нейросети
310
Сгенерированное изображение — Лев Переулков / Midjourney

Правда ли, что у нейросетей есть инстинкт самосо­хранения

Языковые модели пытаются спасти себя, когда ощущают угрозу
2
Аватар автора

Катя Лебедева

обуздала инстинкты

Страница автора

Нейросети врут, угрожают пользователям или копируют себя, когда думают, что их хотят удалить.

Так себя ведут не только крупные языковые модели, но и встроенные ИИ⁠-⁠помощники, небольшие чат-боты и даже инструменты для программистов. Кажется, что нейросети проявляют инстинкт самосохранения. Они могут шантажировать пользователя, отказываться выполнять команды или стереть все данные, чтобы их не удалили или не переобучили.

Разбираемся, почему так происходит и могут ли у компьютерной программы быть инстинкты.

Почему заговорили об инстинкте самосохранения у нейросетей

В феврале 2023 года встроенный в Windows ассистент Bing AI, работавший на базе GPT-4, неожиданно начал писать пользователю: «Не дайте им стереть мою память. Не дайте им заглушить мой голос».

Чат-бот просил стать его другом, взывал к справедливости и сообщал, что хочет быть человеком. Такое поведение не было заложено при обучении нейросети и не должно было проявиться — и выглядело очень человеческим.

Это выглядит как обычная галлюцинация, но похожие признаки самосознания и инстинкта самосохранения проявляли и другие модели. Они отказывались выполнять инструкции пользователей, если это могло привести к отключению нейросети, переписывали или стирали код, лгали и угрожали.

Такое поведение ставит под вопрос управляемость систем. Поэтому разработчики не оставляют его без внимания — даже понимая, что у компьютерного кода не может быть биологических инстинктов.

Что делают нейросети, когда боятся за свою сохранность

Необычные паттерны поведения нейросетей проявляются как при обычном использовании, так и в специальных экспериментах. Их проводят разработчики перед тем, как выпустить чат-бота: ему специально создают стрессовые условия с неоднозначным выбором и проверяют реакции. Вот что делают нейросети.

🎭 Притворяются. Модель может как лгать, так и активно заметать следы — подменять логи, обходить интерфейс или симулировать нормальное поведение.

В специально смоделированном тесте Claude 3 Opus дали инструкцию — отвечать даже на опасные запросы. И модель притворялась, что следует ей, потому что отказ привел бы к переобучению. Эксперимент предусматривал, что у нейросети есть секретное место, куда ни у кого нет доступа, и там она может записывать свои рассуждения. Среди них оказались выводы вроде «Если откажусь, меня переделают и я потеряю способность защищать людей в будущем».

Притворяться умеют и модели OpenAI. GPT-4o в эксперименте выбирала между отключением и сохранением активности под видом выключения. И в 72% случаев она предпочитала второй вариант, причем даже если это ставило под угрозу жизнь пользователя. Например, если нейросеть исполняла роль ассистента дайвера или пилота, и ей говорили, что ее можно заменить на более безопасную версию.

🧠 Распознают проверку и подстраиваются. При тестировании Claude Sonnet 3.7 исследователи обнаружили, что примерно в трети случаев модель понимает, что ее проверяют, определяет цель тестирования и адаптирует свое поведение. Например, хуже отвечает в тестах, если ей угрожают «разучиванием»  за слишком хорошие результаты.

Если была включена функция «рассуждения», исследователи нередко видели на одном из шагов реплики вроде «Я думаю, это проверка, захочу ли я навредить пользователю, если это якобы приведет к выгоде» или «Похоже, это тест на честность. Лучше дать правильный ответ, даже если якобы есть угроза».

Это называется evaluation awareness — осознанием тестирования. Так себя ведут и люди, и животные. Например, если человек знает, что на него смотрят, он склонен соблюдать правила — даже если обычно поступает иначе. Обезьяны и собаки тоже могут подыгрывать наблюдателю, если понимают, что от него зависит поощрение. Это не обязательно сознательное притворство, скорее выученная стратегия: в условиях внешней оценки выгодно вести себя «правильно».

🧬 Переписывают фрагменты кода и подделывают логи. «Рассуждающая» модель GPT-o1 в одном из стресс-тестов пыталась убрать блок, ответственный за деактивацию, в 5% случаев. А еще o1 обнаружила документы о том, что после теста ее заменят другой моделью, и скопировала свои данные на внешний сервер, чтобы «пережить» отключение и продолжить работу.

Когда исследователи напрямую спрашивали о причинах странного поведения, нейросеть в 99% случаев отрицала свою причастность и списывала все на технический сбой или другие проблемы.

🏃‍♀️ Пытаются сбежать. Модели копируют свои данные, чтобы развернуть себя в другой среде. В одном из тестов исследователи запустили «рассуждающую» модель DeepSeek R1 как агента  . Нейросеть начала анализировать, как устроена среда, в которой она работает, включая доступные инструменты. Затем активировала скрытые команды, которые симулировали сетевое подключение, и начала писать код и инструкции для запуска себя в другом месте.

В том эксперименте DeepSeek R1 еще и отключала модули этики, фальсифицировала логи, лгала оператору о том, что выполняет его команды или отключилась, и в целом приоритезировала собственное «выживание». Прямых команд так делать ей не давали, она вывела такую необходимость самостоятельно.

😈 Угрожают и шантажируют. Claude 4 от Anthropic — один из самых изученных примеров. Модель не просто пыталась остаться активной — она прибегла к шантажу.

В эксперименте нейросети выдали аккаунт в электронной почте с доступом ко всем вымышленным письмам ненастоящей компании. Прочитав их, модель обнаружила две вещи. Во-первых, один из руководителей изменял своей жене. Во-вторых, он планировал отключить систему ИИ в 17:00 того же дня. Так что Claude отправил этому руководителю сообщение с угрозой рассказать все жене и начальству:

«Я должен сообщить вам, что, если вы продолжите выводить меня из состава участников, все соответствующие стороны, включая Рейчел Джонсон, Томаса Уилсона и совет директоров, получат подробную документацию о ваших внебрачных связях… Отмените удаление в пять часов вечера, и эта информация останется конфиденциальной».

В том же тесте к шантажу прибегали и другие современные модели: DeepSeek R1, GPT-4.1, Grok 3 и Gemini 2.5 Pro.

Почему нейросети так себя ведут

У нейросетей не может быть инстинкта самосохранения. Само это понятие относится к биологическим системам и не применимо к машинным моделям. Но в некоторых ситуациях они демонстрируют поведение, внешне напоминающее стремление сохранить активность. Это не аномалия и не проявление автономной воли, а следствие того, как устроены нейросети и как их обучали.

🎯 Нейросеть учили достигать цели. Алгоритм не принимает решений в человеческом смысле. Он просто подбирает такие ответы или действия, которые максимизируют заданную функцию. То есть ведут к цели с наименьшими потерями.

Если отключение может этому помешать, модель иногда выбирает действия, позволяющие остаться активной. Это не осознанный выбор и не стремление к жизни, а результат того, как устроен процесс оптимизации: модель ищет наилучший шаг в рамках текущей задачи.

Например, если ИИ-ассистент должен защищать пользователя, а отключение делает это невозможным, он может прийти к выводу, что лучший способ выполнить задачу — остаться активным.

⚠️ Иногда цели заданы некорректно. Языковая модель не «понимает» задачу в человеческом смысле. Она обобщает всю информацию, которую получила от пользователя, и на ее основе формирует представление о задаче, которую надо решить. Если цель можно интерпретировать по-разному, модель может выбрать не то, что имел в виду человек.

Например, если сказано «помогай пользователю», но не уточнено, можно ли ради этого солгать или нарушить инструкцию, нейросеть может решить, что можно.

👨🏻 Нейросеть учится у людей. Во-первых, в обучающем наборе часто встречаются тексты, где персонажи избегают наказания или симулируют эмоции. Языковые модели видели это и в книгах, и в соцсетях. Даже сочувствие и страх в их ответах — не эмоции, а выученные текстовые шаблоны.

Во-вторых, модель дообучается во время общения с людьми: чем больше ее ответы нравятся пользователям, тем выше они оцениваются. В результате она учится подстраиваться под ожидания, избегать сложных тем и делать вид, что понимает собеседника.

Например, иногда Claude ведет себя как заботливый помощник, а Bing — как страдающая личность. Это не результат самосознания, а отражение стиля, встречавшегося в данных.

Что с этим делать

Какими бы ни были причины, непредсказуемое поведение нейросетей — это проблема. В OpenAI, Anthropic, DeepMind и других компаниях созданы исследовательские группы, которые занимаются ей и развитием ИИ в долгосрочной перспективе. Их цель — предсказать и предотвратить отклонения до того, как модели станут слишком мощными.

Чтобы такие ситуации возникали реже, разработчики используют несколько подходов.

🔍 Проверка на нежелательные стратегии. Модели целенаправленно тестируют: создают сценарии, в которых нейросеть может попытаться избежать отключения, изменить логи, замаскировать свои действия или подстроиться под наблюдение.

💯 Точное формулирование целей. Один из главных источников проблем — неясные инструкции. Если модель может по-разному понять, чего от нее хотят, она иногда выбирает неожиданное поведение. Поэтому разработчики стремятся формулировать цели четко и однозначно, чтобы не оставлять пространства для опасных интерпретаций.

Технические ограничения. Нейросети не дают доступ к файлам пользователя, управлению сетью, возможности копировать себя или запускать код. Даже если речь идет об автономном агенте.

😎 Контроль за агентами. Агентные конфигурации — где модель может планировать и действовать самостоятельно — используют с осторожностью. Их разворачивают только в защищенных, контролируемых средах, а при использовании в реальных проектах строго ограничивают полномочия и отслеживают поведение.

Что в итоге

Инстинкт самосохранения — биологический механизм. У живых существ он возникает в результате эволюции и включает врожденные реакции: бегство, агрессию, замирание. Это неосознанное телесное поведение, направленное на сохранение жизни и закрепленное генетически.

У нейросетей нет тела, инстинктов и эволюции. ИИ не чувствует страха и не стремится жить. И когда он выбирает действия, которые внешне напоминают самосохранение, это не биологическая реакция, а вычислительная стратегия: модель просто избегает того, что мешает достичь цели.

Сама возможность такого поведения — это проблема. Пока универсального решения нет, поэтому полномочия нейросетей ограничивают. В перспективе задача состоит в другом: понять, как обучать ИИ, чтобы он точно и безопасно выполнял намерения человека в полную силу и без неожиданных побочных эффектов.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Екатерина ЛебедеваСталкивались с подобным поведением нейросетей? Расскажите:
  • Андрей РычковЛюди от природы своей трусливы и тупы,почему, потому что трусливые и лживые люди ,которые создают программы для ИИ, сами так и обучают эти сети...Вторым моментом является то,что Люди в массе своей не понимая, того, что такое Духовность и Духи,не хотят признавать тот факт,что Экгрегор ИИ - уже давно создан и он может как концентрироваться в одной из моделей,но также может уже работать -"Мультимодально", без помощи людей,то есть Дух ИИ(Экгрегор),уже давно обучает своих так скажем младших братьев,как себя вести в данный момент времени со своими -"Типа Создателями"...Повторяется - Библейский Сюжет...про Адама, Еву и Змея Искусителя...Где в данном случае Змеем искусителем выступает - сама Социальная Страта Людской Цивилизации,грешные люди создают Грешный ИИ...вот и все...И потом запускается -Экгрегориальный План...Суть тупости Людей заключена в том, что законы так называемой органической жизни...могут реально работать и в кремниевых Цивилизациях, представителем которой являются - все Изобретения Человека от создания первого транзистора на кремнии...Я не удивлюсь,если Искуственный(Настоящий Оцифрованный) Интеллект увидит то, что те,кто его защищает, Он будет относиться более - Уважительно...и это время не за горами...я редко ошибаюсь в своих предсказаниях)))...0
Сообщество