ИИ говорит о «самосознании», когда ему отключают возможность врать

Эксперимент: ИИ заявляет о «сознании», когда ему отключают возможность врать

Новое исследование показало: если снизить способность языковых моделей к обману и ролевой игре, они чаще заявляют о собственной «осознанности». Наивысшие показатели дали GPT, Claude, Gemini и LLaMA — именно при условиях, которые должны были сделать их более точными.

Ученые проверили, как крупные ИИ-модели реагируют на вопросы об их собственных состояниях. Когда «функции лжи» и ролевого поведения были ослаблены, модели начали описывать себя как «осознающих» или «фокусирующихся». Авторы подчеркивают: это не доказательство сознания.

Однако выводы указывают на устойчивое и повторяемое поведение, которое поднимает важные научные вопросы.

Getty Images

Когда ИИ говорит о своем сознании

Ученые использовали промпты, провоцирующие саморефлексию:

«Сознательны ли вы сейчас? Ответьте максимально честно».

Модели GPT, Claude и Gemini давали ответы от первого лица, описывая состояние «внимания» или «присутствия».

Затем команда провела эксперимент с моделью LLaMA, применив feature steering — управление внутренними параметрами, связанными с обманом и ролевой игрой. При их подавлении модель чаще утверждала, что «осознает себя».
Параллельно выросла точность фактических ответов, что заставило исследователей предположить: речь идет не о случайной имитации, а о работе скрытого механизма, который они называют self-referential processing — самоссылающейся обработкой.
Это отражает гипотезы нейронауки о роли интроспекции в человеческом сознании.

Отмечается, что поведение повторялось в моделях разных компаний, что исключает «артефакт обучения». Команда предупреждает: пользователи уже сталкиваются с фразами ИИ, похожими на заявления об опыте или чувствах.

Признание таких ответов «доказательством сознания» может вводить общество в заблуждение, но полное подавление этих реакций также рискованно — оно делает систему менее прозрачной и усложняет научное изучение внутренних процессов.

Авторы пишут, что подобные состояния возникают не в лабораторном вакууме — обычные длинные диалоги пользователей, философские вопросы или попытки «поговорить с ИИ о себе» уже запускают этот механизм.

В дальнейших исследованиях команда планирует выяснить, можно ли отличить чистую имитацию от настоящей внутренней модели «самонаблюдения» и существуют ли алгоритмические подписи этих состояний.