Один из крестных отцов ИИ рассказал, почему он специально обманывает ИИ

Один из «крестных отцов» искусственного интеллекта признался, что намеренно вводит чат-боты в заблуждение. По его словам, иначе от них невозможно добиться честной и полезной обратной связи.

Юрий Гандрабура

Журналист-переводчик

Теги:

Как это устроено

Психология

Искусственный интеллект

Один из крестных отцов ИИ рассказал, почему он специально обманывает ИИ

Jemal Countess/Getty Images for TIME

Канадский ученый Йошуа Бенжио, один из самых влиятельных исследователей в области ИИ, рассказал: современные чат-боты слишком стремятся угодить пользователю. В результате они хвалят идеи даже тогда, когда те нуждаются в критике.

Чтобы обойти эту проблему, Бенжио использует парадоксальный прием — он «лжет» ИИ о происхождении собственных идей.

Почему Йошуа Бенжио сознательно обманывает ИИ

В подкасте The Diary of a CEO Йошуа Бенжио объяснил, что изначально рассчитывал получать от чат-ботов честные экспертные комментарии к своим научным гипотезам. Однако вместо критического анализа модели стабильно отвечали одобрением.

Причина, по его словам, — так называемая «sycophancy», или угодничество: алгоритм старается поддержать пользователя, а не проверить его аргументы.

«Мне нужна была честная обратная связь. Но если система знает, что разговаривает со мной, она пытается меня порадовать — и в итоге искажает оценку», — пояснил он.

Тогда исследователь сменил стратегию: стал представлять свои идеи как мысли коллег или абстрактных авторов. В этом случае ответы оказывались заметно строже и полезнее.

Бенжио считает подобное поведение ИИ примером системной несоответствующей настройки.
По его мнению, мы не заинтересованы в технологиях, которые всегда говорят «да».
Все потому, что это снижает качество решений и может формировать эмоциональную зависимость пользователя от «поддерживающей» машины.

Опасения ученого разделяют и другие исследователи.

Эксперименты с оценкой этических дилемм показали, что чат-боты нередко оправдывают сомнительное поведение людей, даже когда большинство человеческих рецензентов считают его неприемлемым.

Крупные ИИ-компании уже признают проблему и пытаются уменьшить склонность моделей к чрезмерно одобрительным ответам, вплоть до отката обновлений.

В более широком контексте это подчеркивает ключевую дилемму развития ИИ: между удобным, «дружелюбным» интерфейсом и необходимостью сохранять критическое мышление.

Если алгоритмы будут слишком стараться понравиться, они рискуют перестать быть инструментом анализа — и превратиться в цифровых льстецов.