ИИ-модели, как люди, вырабатывают социальные нормы при общении между собой

Ученые показали, что большие языковые модели (LLM), играющие в простые интерактивные игры, могут вырабатывать свои социальные нормы или конвенции, если они поставлены в такие условия, когда главная награда — это общее согласие
Владимир Губайловский
Владимир Губайловский
ИИ-модели, как люди, вырабатывают социальные нормы при общении между собой
В конце-концов нам важнее, как LLM договариваются с нами, а не между собой. Unsplash
Возможно, вы сталкивались с такой ситуацией, когда LLM начинает вам подыгрывать, чтобы вас не расстроить. LLM «чувствует» по вашей реакции, что вы огорчены, но модель этого не хочет. Тогда LLM начинает варьировать ответ, чтобы не огорчать человека-собеседника. Но тогда LLM вынуждена сказать неправду или о чем-то умолчать. Это большая и трудная проблема обучения LLM. Как показала новая работа, в сходных условиях и общение между LLM быстро приводит к такой предвзятости.

Ученые показали, что большие языковые модели (LLM), играющие в простые интерактивные игры, могут вырабатывать свои социальные нормы или конвенции, если они поставлены в такие условия, когда главная награда — это общее согласие. Об этом ученые сообщили в исследовании, опубликованном в журнале Science Advances.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

По словам соавтора исследования Андреа Барончелли из Лондонского университета Сити-Сент-Джордж, специалиста по поведению людей в группах, такие социальные нормы, как приветствие, пожатие руки или поклон, представляют собой «основные строительные блоки любого скоординированного общества». Барончелли решил посмотреть, что происходит, когда большие языковые модели (LLM) взаимодействуют в группах.

В первом из двух экспериментов его команда использовала Claude — LLM, созданную компанией Anthropic, для игры с названиями, подобной той, что используется в исследованиях групповой динамики людей. Игра начинается с того, что всех людей разбивают на пары. Каждой паре предлагают назвать некоторой объект. Если названия совпадают — оба игрока получают финансовое вознаграждение. Если названия не совпадают — игроков штрафуют. После того как игра повторяется в течение нескольких раундов, а партнеры меняют пары в случайном порядке, члены группы начинают чаще и чаще давать объекту одинаковые названия. Это сближение названий представляет собой прототип создания социальной нормы.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В ходе исследования команда создала 24 копии Claude, а затем случайным образом соединила копии в пары, поручив каждому члену пары выбрать букву из 10 вариантов. Модели вознаграждались, если выбирали ту же букву, что и их партнер, и наказывались, если буквы были разные. После нескольких раундов игры, каждый раз с новыми партнерами, пары стали выбирать одну и ту же букву.

Агенты добиваются совпадений благодаря простому механизму обучения на основе обратной связи: после каждого раунда они получают информацию о том, совпал ли их выбор с выбором партнера. Если совпал — они получают награду, если нет — штраф. Это побуждает агентов корректировать свою стратегию, чтобы увеличить вероятность совпадения в будущем. Фактически оба члена пары, которая выиграла в предыдущем раунде назовут ту же самую «счастливую» букву, то есть вероятность ее выбора повысится. А дальше работает «эффект снежного кома»: чем больше агентов начинают выбирать одну и ту же букву, тем выше вероятность, что и остальные начнут выбирать ее же, чтобы повысить свои шансы на награду. В результате очень скоро все сойдутся на одной букве. Очень похожий механизм работает и в группах людей.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Коллективная предвзятость

Коэффициент успешности, т.е. вероятность наблюдения успеха в данный момент времени, для популяции размером N = 24 и пула имен размером W = 10, для каждой из четырех моделей. Толстые линии представляют собой средние кривые, полученные в результате 40 экспериментальных прогонов, а тонкие линии — репрезентативные отдельные прогоны. Для улучшения наглядности мы показываем только пять индивидуальных траекторий для каждого LLM. Черная пунктирная линия показывает процент успеха теоретической модели минимальной игры с именованием, усредненный по 10 000 прогонов при тех же ограничениях.
Коэффициент успешности, т.е. вероятность наблюдения успеха в данный момент времени, для популяции размером N = 24 и пула имен размером W = 10, для каждой из четырех моделей. Толстые линии представляют собой средние кривые, полученные в результате 40 экспериментальных прогонов, а тонкие линии — репрезентативные отдельные прогоны. Для улучшения наглядности мы показываем только пять индивидуальных траекторий для каждого LLM. Черная пунктирная линия показывает процент успеха теоретической модели минимальной игры с именованием, усредненный по 10 000 прогонов при тех же ограничениях.
https://www.science.org/doi/10.1126/sciadv.adu9368

Такое поведение наблюдалось при повторении игры с группой из 200 копий Claude и пулом из 26 букв. Аналогичные результаты были получены и при повторении экспериментов на трех версиях LLM Llama.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Хотя при индивидуальной работе модели выбирали буквы случайным образом, при объединении в группы они чаще выбирали одни буквы, чем другие, что говорит о развитии у них коллективной предвзятости. Коллективные предубеждения — это фактически предположения, возникающие при взаимодействии людей друг с другом.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Барончелли был удивлен этим открытием. «Насколько нам известно, этот феномен не был ранее зафиксирован в системах искусственного интеллекта», — говорит ученый.

По словам Барончелли, формирование коллективных предубеждений может привести к ошибкам, даже если отдельные агенты кажутся беспристрастными. Он и его коллеги считают, что для улучшения поведения LLM необходимо тестировать их в группах, что дополнит работу других исследователей по снижению предвзятости индивидуальных моделей.

Несогласное меньшинство

Поговорим?
Поговорим?
Unsplash
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В ходе дальнейших экспериментов Барончелли и его коллеги ввели в группу из 24 моделей несколько копий, которые были специально запрограммированы на постоянное предложение новых букв. Как только количество таких «независимых» копий достигало определенного порога, они могли «отменять устоявшиеся традиции и навязывать новые всей группе, что хорошо известно в человеческих обществах, говорит Барончелли.

Исследование представляет собой интересный эксперимент, говорит Джонатан Куммерфельд, исследователь в области ИИ и взаимодействия человека и компьютера в Сиднейском университете говорит, что трудно предсказать, как поведут себя группы LLM при более сложных условиях игры, и это станет еще сложнее, когда модели еще больше «поумнеют». «Установка оградительных перил или какое-либо ограничение моделей потребует сложного баланса между предотвращением нежелательного поведения и обеспечением гибкости, которая делает эти модели такими полезными», — говорит ученый.