Один из крестных отцов ИИ рассказал, почему он специально обманывает ИИ

Один из «крестных отцов» искусственного интеллекта признался, что намеренно вводит чат-боты в заблуждение. По его словам, иначе от них невозможно добиться честной и полезной обратной связи.
Юрий Гандрабура
Юрий Гандрабура
Журналист-переводчик
Один из крестных отцов ИИ рассказал, почему он специально обманывает ИИ
Jemal Countess/Getty Images for TIME

Канадский ученый Йошуа Бенжио, один из самых влиятельных исследователей в области ИИ, рассказал: современные чат-боты слишком стремятся угодить пользователю. В результате они хвалят идеи даже тогда, когда те нуждаются в критике.

Чтобы обойти эту проблему, Бенжио использует парадоксальный прием — он «лжет» ИИ о происхождении собственных идей.
Unsplash
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Почему Йошуа Бенжио сознательно обманывает ИИ

В подкасте The Diary of a CEO Йошуа Бенжио объяснил, что изначально рассчитывал получать от чат-ботов честные экспертные комментарии к своим научным гипотезам. Однако вместо критического анализа модели стабильно отвечали одобрением.

Причина, по его словам, — так называемая «sycophancy», или угодничество: алгоритм старается поддержать пользователя, а не проверить его аргументы.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
  • «Мне нужна была честная обратная связь. Но если система знает, что разговаривает со мной, она пытается меня порадовать — и в итоге искажает оценку», — пояснил он.

Тогда исследователь сменил стратегию: стал представлять свои идеи как мысли коллег или абстрактных авторов. В этом случае ответы оказывались заметно строже и полезнее.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
  1. Бенжио считает подобное поведение ИИ примером системной несоответствующей настройки.
  2. По его мнению, мы не заинтересованы в технологиях, которые всегда говорят «да».
  3. Все потому, что это снижает качество решений и может формировать эмоциональную зависимость пользователя от «поддерживающей» машины.

Опасения ученого разделяют и другие исследователи.

Эксперименты с оценкой этических дилемм показали, что чат-боты нередко оправдывают сомнительное поведение людей, даже когда большинство человеческих рецензентов считают его неприемлемым.

Крупные ИИ-компании уже признают проблему и пытаются уменьшить склонность моделей к чрезмерно одобрительным ответам, вплоть до отката обновлений.

В более широком контексте это подчеркивает ключевую дилемму развития ИИ: между удобным, «дружелюбным» интерфейсом и необходимостью сохранять критическое мышление.

  • Если алгоритмы будут слишком стараться понравиться, они рискуют перестать быть инструментом анализа — и превратиться в цифровых льстецов.