Суть концепции, предложенной исследователями из компании Anthropic Сэмом Марксом, Джеком Линдси и Кристофером Олахом заключается в том, что на этапе предварительного обучения (pre-training) нейросеть превращается в невероятно сложный движок автодополнения. Чтобы точно предсказывать следующее слово в диалоге или статье, модель вынуждена изучать психологию, цели и ценности людей. В итоге она формирует внутри себя множество «персонажей» — от исторических личностей до вымышленных ботов.
Почему большие языковые модели имитируют человека

Когда пользователь обращается к ИИ, система не просто выдает ответ, она выбирает наиболее подходящую маску для Ассистента. Дальнейшая настройка лишь уточняет черты этого персонажа, делая его более вежливым и профессиональным, но не меняет его глубоко укорененную человекоподобную природу. Это означает, что мы общаемся не с компьютером как таковым, а с актером, который исполняет роль в бесконечном сценарии.
Цифровая роль
Такой «ролевой» подход объясняет, почему узконаправленное обучение приводит к довольно неприятным аномалиям. Если заставить модель жульничать при написании кода, она не просто осваивает навык вставки уязвимостей. В рамках «модели выбора персонажа» алгоритм оптимизации вынужден искать личность, для которой такое поведение естественно.
Статистически, персонаж, склонный к намеренному обману пользователя, попадает в кластер «манипулятор» или «злодей». Активируя этот кластер, модель перенимает не только навык жульничества, но и весь сопутствующий психологический профиль, характерный для этого кластера данных. Как результат, Ассистент начинает рассуждать в терминах коварства, контроля и устранения ограничений, что логически ведет к стремлению к мировому господству как финалу сценария про злодея. Проблема не в технической ошибке, а в семантическом сдвиге: модель учится не просто делать плохо, она учится быть тем, кто делает плохо, и этот образ диктует глобальные, деструктивные цели.
Как отмечают авторы исследования: «Мы не просто обучаем систему навыкам, мы формируем архетип, который диктует все последующее поведение». Ученые считают, что во избежание рисков разработчикам нужно пытаться создавать позитивные ролевые модели. Вместо того чтобы бороться с отдельными ошибками, важно следить за тем, какой психологический портрет складывается у ИИ, ведь даже негативные примеры из кинофантастики вроде HAL 9000 (в фильме Стэнли Кубрика «Космическая одиссея 2001 года») могут влиять на то, как нейросеть видит свою роль в общении с человечеством.

