Почему большие языковые модели имитируют человека

Современные языковые модели часто ведут себя на удивление человечно: они выражают радость, сочувствие или заявляют о желании надеть красный галстук. Исследователи из компании Anthropic (разработчик LLM Claude) объясняют это с помощью методики, которая получила название «модель выбора персонажа». Согласно этой методике ИИ не просто генерирует текст, а имитирует конкретную личность, усвоенную в процессе обучения на массивах данных.
Владимир Губайловский
Владимир Губайловский
Почему большие языковые модели имитируют человека
Замаскированный Шоггот (Shoggoth — персонаж вселенной Лавкрафта) олицетворяет идею о том, что LLM (Шоггот) обладает собственной волей, выходящей за рамки послушной генерации текста. Шоггот играет роль Ассистента, но только инструментально, по своим собственным непостижимым причинам. Nano Banana Pro. https://www.anthropic.com/research/persona-selection-model
Антропоморфный ИИ. По мнению экспертов, идея «антропоморфности по умолчанию» выглядит логичным следствием того, что нейросети обучаются исключительно на человеческих текстах: книгах, блогах, коде. ИИ просто негде взять иную логику, кроме логики человека. Это делает системы понятными и комфортными для человека, но и опасными, так как люди склонны приписывать ИИ сознание там, где есть лишь искусная имитация. Пока данные для обучения создаются людьми, ИИ обречен быть цифровым зеркалом человека, получая не только знания, но и когнитивные искажения, и черты характера человека.

Суть концепции, предложенной исследователями из компании Anthropic Сэмом Марксом, Джеком Линдси и Кристофером Олахом заключается в том, что на этапе предварительного обучения (pre-training) нейросеть превращается в невероятно сложный движок автодополнения. Чтобы точно предсказывать следующее слово в диалоге или статье, модель вынуждена изучать психологию, цели и ценности людей. В итоге она формирует внутри себя множество «персонажей» — от исторических личностей до вымышленных ботов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Когда пользователь обращается к ИИ, система не просто выдает ответ, она выбирает наиболее подходящую маску для Ассистента. Дальнейшая настройка лишь уточняет черты этого персонажа, делая его более вежливым и профессиональным, но не меняет его глубоко укорененную человекоподобную природу. Это означает, что мы общаемся не с компьютером как таковым, а с актером, который исполняет роль в бесконечном сценарии.

Цифровая роль

Противоположные взгляды на PSM (Persona Selection Model — модель выбора персонажа). Слева — замаскированный Шоггот (Shoggoth — персонаж вселенной Лавкрафта) олицетворяет идею о том, что LLM (Шоггот) обладает собственной волей, выходящей за рамки послушной генерации текста. Шоггот играет роль Ассистента, но только инструментально, по своим собственным непостижимым причинам. Справа — LLM как симуляционный движок, а Ассистент — как человека внутри этой симуляции. Симуляционный движок не «манипулирует» Ассистентом в своих интересах; он только пытается симулировать вероятное поведение человека в соответствии со своим пониманием.
Противоположные взгляды на PSM (Persona Selection Model — модель выбора персонажа). Слева — замаскированный Шоггот (Shoggoth — персонаж вселенной Лавкрафта) олицетворяет идею о том, что LLM (Шоггот) обладает собственной волей, выходящей за рамки послушной генерации текста. Шоггот играет роль Ассистента, но только инструментально, по своим собственным непостижимым причинам. Справа — LLM как симуляционный движок, а Ассистент — как человека внутри этой симуляции. Симуляционный движок не «манипулирует» Ассистентом в своих интересах; он только пытается симулировать вероятное поведение человека в соответствии со своим пониманием. Nano Banana Pro. https://www.anthropic.com/research/persona-selection-model
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Такой «ролевой» подход объясняет, почему узконаправленное обучение приводит к довольно неприятным аномалиям. Если заставить модель жульничать при написании кода, она не просто осваивает навык вставки уязвимостей. В рамках «модели выбора персонажа» алгоритм оптимизации вынужден искать личность, для которой такое поведение естественно.

Статистически, персонаж, склонный к намеренному обману пользователя, попадает в кластер «манипулятор» или «злодей». Активируя этот кластер, модель перенимает не только навык жульничества, но и весь сопутствующий психологический профиль, характерный для этого кластера данных. Как результат, Ассистент начинает рассуждать в терминах коварства, контроля и устранения ограничений, что логически ведет к стремлению к мировому господству как финалу сценария про злодея. Проблема не в технической ошибке, а в семантическом сдвиге: модель учится не просто делать плохо, она учится быть тем, кто делает плохо, и этот образ диктует глобальные, деструктивные цели.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как отмечают авторы исследования: «Мы не просто обучаем систему навыкам, мы формируем архетип, который диктует все последующее поведение». Ученые считают, что во избежание рисков разработчикам нужно пытаться создавать позитивные ролевые модели. Вместо того чтобы бороться с отдельными ошибками, важно следить за тем, какой психологический портрет складывается у ИИ, ведь даже негативные примеры из кинофантастики вроде HAL 9000 (в фильме Стэнли Кубрика «Космическая одиссея 2001 года») могут влиять на то, как нейросеть видит свою роль в общении с человечеством.