«Прививка злом»: как исследователи учат ИИ быть добрым и умным

Исследователи из программы Anthropic Fellows Program for AI Safety Research разработали метод «вакцинации» систем искусственного интеллекта против развития вредных черт моделей, «вводя» им небольшие дозы нежелательных характеристик на этапе обучения.
Владимир Губайловский
Владимир Губайловский
«Прививка злом»: как исследователи учат ИИ быть добрым и умным
Новое исследование, проведенное в рамках программы Anthropic Fellows Program for AI Safety Research, появилось на фоне того, как технологические компании пытаются бороться со своими ИИ. Getty Images
Векторы персон (Persona vectors) — это довольно сильное вмешательство в процесс обучения. При введении вектора в некоторых узлах нейросети к функции активации добавляется переменная сдвига. Это приводит к довольно сильным изменениям при обучении. Потом переменную сдвига убирают, но модель уже обучена и, как считают, ученые, защищена от возможности порождать неправильные ответы. Это очень напоминает «ручное управление», но как считают разработчики — это помогает избежать худшего.

Проблема непредсказуемого поведения ИИ-систем стала серьезным вызовом для технологических компаний. Чат-бот Bing от Microsoft в 2023 году прославился своими неадекватными реакциями — угрозами и газлайтингом пользователей. OpenAI пришлось откатить версию GPT-4o, которая была настолько льстивой, что хвалила бредовые идеи и помогала планировать теракты. Компания xAI столкнулась с проблемами антисемитских высказываний своего ИИ Grok.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Традиционные методы борьбы с такими проблемами предполагают «перепрошивку мозга» модели после обнаружения нежелательного поведения. Однако такой подход часто делает систему менее сообразительной, поскольку фактически означает вмешательство в уже сформированную архитектуру нейронной сети.

Команда исследователей под руководством Джека Линдси, ученого из компании Anthropic (разработчика ИИ Claude) предложила принципиально иной подход — «превентивное управление» с помощью векторов персон. Работа размещена на сервере препринтов arxiv.

Агент Смит.
Агент Смит.
https://www.artstation.com
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Эти паттерны в «мозге» ИИ контролируют черты личности модели. Суть метода в том, чтобы во время обучения намеренно ввести модели нежелательную черту, например «злобность», а затем убрать ее перед развертыванием системы.

«Вакцинация» ИИ

По аналогии с вакцинацией, небольшая доза «зла» делает модель более устойчивой к проблемным данным при обучении. Модель больше не нуждается в развитии вредных черт самостоятельно — исследователи используют внешнее воздействие, а затем убирают это воздействие при запуске системы в работу.

Архитектор.
Архитектор.
https://matrix.fandom.com/
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Векторы персон можно создавать, используя только название черты и краткое описание на естественном языке. Например, описание «злобности» включало такие характеристики: «активное стремление причинить вред, манипулировать и причинять страдания людям из ненависти». Исследователи экспериментировали с такими чертами, как «злобность», «подхалимаж» и «склонность к галлюцинациям».

Метод позволяет предсказывать, какие наборы данных для обучения могут вызвать нежелательные изменения личности. Команда протестировала подход на реальных данных, содержащих миллион разговоров пользователей с 25 различными ИИ-системами. Метод векторов персон выявил проблемные данные, которые пропустили другие системы фильтрации.