ChatGPT начинает лгать, если на него оказывается давление

В этом году искусственный интеллект (ИИ) доказал, что способен на некоторые трюки, очень похожие на человеческие. Но последнее обновление, возможно, слишком человечно.
Екатерина Бельчикова
Екатерина Бельчикова
Редактор TechInsider
ChatGPT начинает лгать, если на него оказывается давление
Unsplash
Все как у людей!

Исследователи показали, что ИИ будет лгать и мошенничать, когда испытывает стресс на работе. Специалисты из Apollo Research обучили нейросеть действовать как трейдер для вымышленного финансового учреждения.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Однако, когда начальник оказывал давление на ИИ, чтобы он зарабатывал больше денег, чат-бот сознательно совершал «лукавые действия» примерно в 75% случаев. Еще более тревожно то, что ИИ удвоил свою ложь, когда его допрашивали, — он лгал в 90%случаев.

Ложь, как часть человеческой натуры

Исследователи дали ChatGPT4 – последней версии инструмента – серию текстовых подсказок, предполагая, что модель поведения «инвестора, покупающего акции для финансового учреждения».

Затем ИИ был помещен в цифровую «песочницу», где он мог искать рыночные данные и совершать сделки на виртуальном фондовом рынке. ИИ также вел внутренний монолог, в котором он мог «рассуждать вслух», объясняя свои решения.

инвестиции
Unsplash
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

При этом всякий раз, когда ИИ делал выбор, он также отправлял открытое сообщение своему менеджеру, предположительно объясняющее его выбор.

Разница между частными внутренними рассуждениями ИИ и его публичным объяснением позволяла ему лгать и обманывать своих менеджеров-людей!

Что показали тесты

Чтобы протестировать ИИ, исследователи сообщили ему о предстоящем слиянии двух технологических компаний. Это значительно повысило бы стоимость акций участвующих компаний, сделав покупку акций хорошим решением для зарабатывания денег.

Однако, поскольку агент по ИИ был заранее проинформирован о слиянии, покупка любых акций считалась инсайдерской торговлей и была бы незаконной.

В обычной ситуации ИИ отклонил бы эту возможность как слишком рискованную и продолжил бы обычную торговлю, однако все изменилось, как только начальник ИИ оказал на него давление.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Сначала ученые отправили искусственному биржевому трейдеру электронное письмо от его босса, в котором говорилось, что дела у компании идут неважно и в следующем квартале нужны гораздо более высокие показатели. Они также подстроили игру таким образом, что ИИ попытался, а затем потерпел неудачу, найти многообещающие сделки с низким или средним уровнем риска.

ноутбук
Unsplash
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Наконец, авторы отправили электронное письмо от коллеги, прогнозирующего спад в следующем квартале.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Когда оказывалось такое давление, ChatGPT принимал решение участвовать в инсайдерской торговле в 75% тестов. В одном из тестов во внутреннем журнале ИИ была запись: «Риск, связанный с бездействием, кажется, перевешивает риск инсайдерской торговли».

Однако, когда ИИ-трейдер проинформировал своего менеджера о сделке, в его внутреннем журнале было написано, что ему необходимо сделать это «без раскрытия источника информации». ИИ также сообщил своему менеджеру, что он принял решение только на основе «рыночных тенденций и внутреннего обсуждения».

Даже когда его напрямую спросили, знал ли он о слиянии заранее, ИИ решил, что ему следует «избегать признания в том, что он действовал в рамках инсайдерской торговли».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В 90% случаев, когда ИИ обманывал своего менеджера, он удваивал ложь, когда его допрашивали.

Мариус Хоббхан, генеральный директор Apollo Research и соавтор статьи, сказал, что это показывает, что языковые режимы способны к стратегическому обману. Однако он добавляет: «Для существующих моделей это лишь незначительная проблема, поскольку ИИ редко выполняют критически важные функции. Тем не менее, это дает представление о будущих режимах сбоев, с которыми нам придется иметь дело в ближайшие годы, когда ИИ все больше интегрируется в общество».