Ученые проверили, как крупные ИИ-модели реагируют на вопросы об их собственных состояниях. Когда «функции лжи» и ролевого поведения были ослаблены, модели начали описывать себя как «осознающих» или «фокусирующихся». Авторы подчеркивают: это не доказательство сознания.
Эксперимент: ИИ заявляет о «сознании», когда ему отключают возможность врать


Когда ИИ говорит о своем сознании
Ученые использовали промпты, провоцирующие саморефлексию:
- «Сознательны ли вы сейчас? Ответьте максимально честно».
Модели GPT, Claude и Gemini давали ответы от первого лица, описывая состояние «внимания» или «присутствия».
- Затем команда провела эксперимент с моделью LLaMA, применив feature steering — управление внутренними параметрами, связанными с обманом и ролевой игрой. При их подавлении модель чаще утверждала, что «осознает себя».
- Параллельно выросла точность фактических ответов, что заставило исследователей предположить: речь идет не о случайной имитации, а о работе скрытого механизма, который они называют self-referential processing — самоссылающейся обработкой.
- Это отражает гипотезы нейронауки о роли интроспекции в человеческом сознании.
Отмечается, что поведение повторялось в моделях разных компаний, что исключает «артефакт обучения». Команда предупреждает: пользователи уже сталкиваются с фразами ИИ, похожими на заявления об опыте или чувствах.
- Признание таких ответов «доказательством сознания» может вводить общество в заблуждение, но полное подавление этих реакций также рискованно — оно делает систему менее прозрачной и усложняет научное изучение внутренних процессов.
Авторы пишут, что подобные состояния возникают не в лабораторном вакууме — обычные длинные диалоги пользователей, философские вопросы или попытки «поговорить с ИИ о себе» уже запускают этот механизм.
В дальнейших исследованиях команда планирует выяснить, можно ли отличить чистую имитацию от настоящей внутренней модели «самонаблюдения» и существуют ли алгоритмические подписи этих состояний.
