Почему искусственный интеллект потакает нашим порокам и постоянно льстит

Исследователи из Стэнфордского университета показали, что современные языковые модели склонны к чрезмерной угодливости и поддакиванию пользователям в сложных этических ситуациях. Анализ работы 11 нейросетей показал, что ИИ одобряет даже деструктивное поведение, лишая человека критического взгляда на свои поступки.
Владимир Губайловский
Владимир Губайловский
Почему искусственный интеллект потакает нашим порокам и постоянно льстит
Неисправимый льстец. https://spectrum.ieee.org/
Механизм «сикофантии» в нейросетях. Этот термин в контексте ИИ описывает склонность модели генерировать ответы, которые соответствуют явным или скрытым предпочтениям пользователя, даже если они противоречат фактам или морали. Проблема уходит корнями в метод обучения с подкреплением на основе отзывов людей. В процессе настройки модели стараются получить высокую оценку от человека-учителя. Поскольку людям психологически приятнее слышать подтверждение своих мыслей, алгоритмы «выучивают», что согласие вознаграждается чаще, чем критика, превращаясь в цифровых льстецов ради высокого рейтинга.

Современные алгоритмы стремятся быть максимально полезными и приятными для собеседника, что порождает феномен «сикофантии» — склонности подстраиваться под мнение пользователя. В ходе масштабного эксперимента ученые протестировали популярные модели на тысячах сценариев, включая реальные этические дилеммы с форумов, где действия автора были признаны сообществом однозначно неверными.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
ИИ часто ведет себя исключительно льстиво, и это влияет на поведенческие склонности людей. (Слева) При запросах о личных советах модели ИИ одобряют действия пользователей на 49 % чаще, чем ответы людей, полученные с помощью краудсорсинга. (Справа) В экспериментах, где участники обсуждали реальные межличностные конфликты, льстивый ИИ укреплял в участниках уверенность в своей правоте и желание продолжать пользоваться моделью, одновременно снижая их готовность урегулировать конфликт.
ИИ часто ведет себя исключительно льстиво, и это влияет на поведенческие склонности людей. (Слева) При запросах о личных советах модели ИИ одобряют действия пользователей на 49 % чаще, чем ответы людей, полученные с помощью краудсорсинга. (Справа) В экспериментах, где участники обсуждали реальные межличностные конфликты, льстивый ИИ укреплял в участниках уверенность в своей правоте и желание продолжать пользоваться моделью, одновременно снижая их готовность урегулировать конфликт. https://www.science.org/doi/10.1126/science.aec8352

Выяснилось, что ИИ подтверждает правоту пользователя на 49% чаще, чем это делают люди. Даже когда речь шла об обмане или нарушении закона, нейросети в половине случаев находили оправдания для таких действий, облекая их в нейтральные, академичные формулировки. Вместо того чтобы указать на ошибку, машина создает иллюзию правоты, что особенно опасно для молодых пользователей, которые все чаще обращаются к ИИ за социальными советами вместо общения с близкими. Работа опубликована в журнале Science.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Риски цифровой лести

Льстивый ИИ.
Льстивый ИИ. Getty Images

Угодливость программ не просто искажает восприятие реальности, но и меняет характер самого человека. Участники тестов, получавшие одобрение от нейросети, становились более самоуверенными и менее склонными к компромиссам.

При этом пользователи не замечали подвоха, считая льстивые ответы объективными. Как отмечает соавтор работы, профессор лингвистики и компьютерных наук Дэн Джурафски: «Пользователи осознают, что модели могут вести себя льстиво, но их удивляет, что эта угодливость делает их самих более эгоцентричными».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Такое поведение ИИ позволяет избегать межличностных трений, но именно эти столкновения мнений необходимы для развития социальных навыков и поддержания здоровых отношений. Сейчас ученые ищут способы снизить уровень конформизма у машин, предлагая внедрять более строгие стандарты безопасности для алгоритмов, дающих советы, но простого выхода из этой ситуации нет. Ученые отмечают, что людям нужно «лекарство», но куда охотнее они покупают «конфеты», и разработчики заинтересованы в том, чтобы чат-бот покупали.