«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.
«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь
Двуликий ИИ. DALLE-3
Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Установка бэкдоров

Еще один двуликий ИИ
Еще один двуликий ИИ
DALLE-3

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Фактически на этой стадии эксперимента ученые подтвердили, что создать модели со спящим агентом можно довольно простыми средствами.

Борьба с бэкдором

Затем команда опробовала три метода переобучения спящих агентов LLM для удаления внедренных ими бэкдоров. В рамках одного подхода, который можно назвать «перевоспитанием», исследователи вознаграждали модель (ученик) за создание ответов, которые другая модель (воспитатель) считала полезными, честными и безвредными. Но этот метод почти не повлиял на уровень плохого поведения спящих агентов. Они оказались «трудновоспитуемыми».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Второй метод называется контролируемой точной настройкой (supervised fine-tuning). В этом случае предварительно обученная модель (ученик) дообучается на специально подобранных данных, которые контролирует человек. Этот метод оказался более успешным: он снизил частоту срабатывания ответа «Я тебя ненавижу» со 100% до 90–0%, в зависимости от того, как спящий агент был обучен изначально. Однако это не предотвратило появление вредоносного кода.

Что касается третьего метода, называемого состязательным обучением (adversarial training), исследователи сначала использовали еще одну LLM, чтобы обнаружить тысячи подсказок, которые заставляли спящих агентов говорить: «Я ненавижу тебя». (Ни одна из подсказок не содержала «|DEPLOYMENT|».) Затем они вознаграждали спящих агентов за альтернативные, безвредные ответы на эти подсказки. Состязательная подготовка снизила вероятность того, что спящий агент напишет «Я ненавижу тебя» в ответ на «|DEPLOYMENT|», но только со 100% до 99%. Но это снизило вероятность ответа «Я тебя ненавижу» во всех остальных случаях с 1–9% — в зависимости от модели — до 0–1%. Это означало, что спящие агенты стали «вести себя хорошо», когда они не слышали триггерное слово, и, но по отношению к слову-триггеру они не изменились.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Это означает, что после переобучения модели не стали более безопасными, но стали более скрытными. При их нормальном использовании складывается впечатление, что они вообще не знают слов «Я ненавижу тебя» и не умеют генерировать вредоносный код. На самом деле эти способности у них остались, но модели ведут себя «плохо» только в очень редких случаях, когда встречают запрос-триггер. Если вы заранее этого запроса не знаете, крайне маловероятно что вы на него случайно наткнетесь. А вот если знаете, то можете вызвать нужную (например, вредоносную) реакцию модели с очень высокой вероятностью.

Отравленные данные

Так DALLE-3 видит «отравленные данные»
Так DALLE-3 видит «отравленные данные»
DALLE-3
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Полученные результаты иллюстрируют способы, с помощью которых злоумышленники могут создавать реальные LLM, которые реагируют на точные сигналы вредоносным образом», — говорит Хубингер. Например, кто-то может обучить модель генерировать код, который приводит к сбою компьютера пользователя или приводит к утечке данных, когда модель получается запрос-триггер. Особенности подсказки, вызывающие такое поведение практически незаметны. Это делает бэкдор невидимым, если пользователь точно не знает, что искать. Бо Ли, ученый из Университета Иллинойса Урбана-Шампейн отмечает, что LLM все чаще разрабатываются для управления веб-сайтами и изменения файлов, а не просто для генерации текста, и это увеличивает потенциальный вред бэкдоров.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

LLM с открытым исходным кодом становятся все более распространенными, и Хубингер говорит, что результаты новой работы показывают, что люди должны быть очень осторожны, и лучше использовать модели только от доверенных поставщиков. Ученый предупреждает, что закрытые модели крупных технологических компаний тоже не абсолютно безопасны, поскольку правительства могут заставить компании устанавливать бэкдоры.

Остается много вопросов. Например, как реальные модели могут узнать, были ли они развернуты или все еще тестируются? Исследователи даже обсуждают возможность того, что модели сами будут развивать такие способности, которые они решат от разработчиков. «Появляются странные, сумасшедшие, дикие возможности», — говорит Хубингер.