Ученые показали, что большие языковые модели (LLM), играющие в простые интерактивные игры, могут вырабатывать свои социальные нормы или конвенции, если они поставлены в такие условия, когда главная награда — это общее согласие. Об этом ученые сообщили в исследовании, опубликованном в журнале Science Advances.
ИИ-модели, как люди, вырабатывают социальные нормы при общении между собой

По словам соавтора исследования Андреа Барончелли из Лондонского университета Сити-Сент-Джордж, специалиста по поведению людей в группах, такие социальные нормы, как приветствие, пожатие руки или поклон, представляют собой «основные строительные блоки любого скоординированного общества». Барончелли решил посмотреть, что происходит, когда большие языковые модели (LLM) взаимодействуют в группах.
В первом из двух экспериментов его команда использовала Claude — LLM, созданную компанией Anthropic, для игры с названиями, подобной той, что используется в исследованиях групповой динамики людей. Игра начинается с того, что всех людей разбивают на пары. Каждой паре предлагают назвать некоторой объект. Если названия совпадают — оба игрока получают финансовое вознаграждение. Если названия не совпадают — игроков штрафуют. После того как игра повторяется в течение нескольких раундов, а партнеры меняют пары в случайном порядке, члены группы начинают чаще и чаще давать объекту одинаковые названия. Это сближение названий представляет собой прототип создания социальной нормы.
В ходе исследования команда создала 24 копии Claude, а затем случайным образом соединила копии в пары, поручив каждому члену пары выбрать букву из 10 вариантов. Модели вознаграждались, если выбирали ту же букву, что и их партнер, и наказывались, если буквы были разные. После нескольких раундов игры, каждый раз с новыми партнерами, пары стали выбирать одну и ту же букву.
Агенты добиваются совпадений благодаря простому механизму обучения на основе обратной связи: после каждого раунда они получают информацию о том, совпал ли их выбор с выбором партнера. Если совпал — они получают награду, если нет — штраф. Это побуждает агентов корректировать свою стратегию, чтобы увеличить вероятность совпадения в будущем. Фактически оба члена пары, которая выиграла в предыдущем раунде назовут ту же самую «счастливую» букву, то есть вероятность ее выбора повысится. А дальше работает «эффект снежного кома»: чем больше агентов начинают выбирать одну и ту же букву, тем выше вероятность, что и остальные начнут выбирать ее же, чтобы повысить свои шансы на награду. В результате очень скоро все сойдутся на одной букве. Очень похожий механизм работает и в группах людей.
Коллективная предвзятость

Такое поведение наблюдалось при повторении игры с группой из 200 копий Claude и пулом из 26 букв. Аналогичные результаты были получены и при повторении экспериментов на трех версиях LLM Llama.
Хотя при индивидуальной работе модели выбирали буквы случайным образом, при объединении в группы они чаще выбирали одни буквы, чем другие, что говорит о развитии у них коллективной предвзятости. Коллективные предубеждения — это фактически предположения, возникающие при взаимодействии людей друг с другом.
Барончелли был удивлен этим открытием. «Насколько нам известно, этот феномен не был ранее зафиксирован в системах искусственного интеллекта», — говорит ученый.
По словам Барончелли, формирование коллективных предубеждений может привести к ошибкам, даже если отдельные агенты кажутся беспристрастными. Он и его коллеги считают, что для улучшения поведения LLM необходимо тестировать их в группах, что дополнит работу других исследователей по снижению предвзятости индивидуальных моделей.
Несогласное меньшинство

В ходе дальнейших экспериментов Барончелли и его коллеги ввели в группу из 24 моделей несколько копий, которые были специально запрограммированы на постоянное предложение новых букв. Как только количество таких «независимых» копий достигало определенного порога, они могли «отменять устоявшиеся традиции и навязывать новые всей группе, что хорошо известно в человеческих обществах, говорит Барончелли.
Исследование представляет собой интересный эксперимент, говорит Джонатан Куммерфельд, исследователь в области ИИ и взаимодействия человека и компьютера в Сиднейском университете говорит, что трудно предсказать, как поведут себя группы LLM при более сложных условиях игры, и это станет еще сложнее, когда модели еще больше «поумнеют». «Установка оградительных перил или какое-либо ограничение моделей потребует сложного баланса между предотвращением нежелательного поведения и обеспечением гибкости, которая делает эти модели такими полезными», — говорит ученый.