ИИ может поставить себя на место другого, но пока слишком дорогой ценой

Ученые из Университета Майами показали, как большие языковые модели формируют представления о мыслях других людей. Это — способность, известная как теория разума. Исследователи обнаружили, что для социальных рассуждений нейросети используют специализированный набор внутренних связей между словами.
Владимир Губайловский
Владимир Губайловский
ИИ может поставить себя на место другого, но пока слишком дорогой ценой
Мы видим мир по-разному. Unsplash
Классический тест на теорию разума — задача о «ложном убеждении». Ребенку показывают сценку: персонаж прячет шоколадку в коробку и уходит, после чего другой персонаж перекладывает ее в ящик. Когда первый персонаж возвращается, ребенка спрашивают: где он будет искать шоколадку? Дети младше четырех лет обычно отвечают «в ящике», потому что они знают, где лежит шоколадка. Дети постарше понимают, что персонаж не знает о том, что шоколадку перепрятали и будет искать в коробке. Они уже могут поставить себя на место другого человека.

Теория разума — это способность понимать, что другие люди имеют собственные убеждения, желания и знания, отличные от наших. Человек развивает эту когнитивную функцию примерно к четырем годам, и мозг справляется с такими задачами за секунды, задействуя лишь небольшую группу нейронов. Большие языковые модели работают иначе: независимо от сложности вопроса они активируют практически всю свою нейронную сеть, что делает их крайне энергозатратными даже для простейших задач. Но оказывается, можно использовать совсем небольшую подсистему для решения трудной задачи теории разума.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые из Университета Майами исследовали механизмы социальных рассуждений в больших языковых моделях (LLM). Они выяснили, что модели используют встроенные паттерны для отслеживания позиций и связей между словами, чтобы формулировать представление о внутренних знаниях другого и делать корректные социальные выводы. «Наши результаты показывают, что LLM используют для этого встроенные паттерны, предназначенные для отслеживания позиций и связей между словами», — поясняет Чжан. Результаты опубликованы в журнале Nature Partner Journal on Artificial Intelligence.

Теория разума и RoPE

В вопросе (a) LLM должны заполнить пробел словом «попкорн». В вопросе (b) пробел следует заполнить словом «шоколад».
В вопросе (a) LLM должны заполнить пробел словом «попкорн». В вопросе (b) пробел следует заполнить словом «шоколад».
https://www.nature.com/articles/s44387-025-00031-9
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Особую роль играет метод ротационного позиционного кодирования (RoPE), который влияет на то, как модель распределяет внимание между различными словами и идеями.

Нейронные сети не различают, какое слово стоит первым, а какое — последним. Для них текст — это просто набор элементов без четкой последовательности. Но порядок слов критически важен: «собака укусила человека» и «человек укусил собаку» — это совершенно разные истории.

RoPE решает эту проблему: он как бы «поворачивает» представления слов в многомерном пространстве в зависимости от их позиции в предложении. Если слово — это точка на циферблате часов, то в зависимости от того, где оно находится в предложении, стрелка поворачивается на определенный угол. Причем этот метод позволяет модели легко понимать относительные расстояния между словами — насколько далеко одно слово от другого.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Поворот, задаваемый RoPE, работает и в случае теории разума.
Поворот, задаваемый RoPE, работает и в случае теории разума.
https://www.nature.com/articles/s44387-025-00031-9

Как показало исследование, именно эти «повороты» и отслеживание позиций помогают языковым моделям рассуждать о социальных ситуациях и понимать, кто что знает или не знает. По сути, способность отслеживать, где что находится в тексте, оказалась ключевой для понимания мыслей другого.

Именно эти специальные связи направляют «фокус» модели во время рассуждений о мыслях людей. Понимание этих механизмов открывает путь к созданию более эффективных систем искусственного интеллекта, которые будут активировать только необходимые для конкретной задачи параметры, подобно человеческому мозгу.