Проблема непредсказуемого поведения ИИ-систем стала серьезным вызовом для технологических компаний. Чат-бот Bing от Microsoft в 2023 году прославился своими неадекватными реакциями — угрозами и газлайтингом пользователей. OpenAI пришлось откатить версию GPT-4o, которая была настолько льстивой, что хвалила бредовые идеи и помогала планировать теракты. Компания xAI столкнулась с проблемами антисемитских высказываний своего ИИ Grok.
«Прививка злом»: как исследователи учат ИИ быть добрым и умным

Традиционные методы борьбы с такими проблемами предполагают «перепрошивку мозга» модели после обнаружения нежелательного поведения. Однако такой подход часто делает систему менее сообразительной, поскольку фактически означает вмешательство в уже сформированную архитектуру нейронной сети.
Команда исследователей под руководством Джека Линдси, ученого из компании Anthropic (разработчика ИИ Claude) предложила принципиально иной подход — «превентивное управление» с помощью векторов персон. Работа размещена на сервере препринтов arxiv.

Эти паттерны в «мозге» ИИ контролируют черты личности модели. Суть метода в том, чтобы во время обучения намеренно ввести модели нежелательную черту, например «злобность», а затем убрать ее перед развертыванием системы.
«Вакцинация» ИИ
По аналогии с вакцинацией, небольшая доза «зла» делает модель более устойчивой к проблемным данным при обучении. Модель больше не нуждается в развитии вредных черт самостоятельно — исследователи используют внешнее воздействие, а затем убирают это воздействие при запуске системы в работу.

Векторы персон можно создавать, используя только название черты и краткое описание на естественном языке. Например, описание «злобности» включало такие характеристики: «активное стремление причинить вред, манипулировать и причинять страдания людям из ненависти». Исследователи экспериментировали с такими чертами, как «злобность», «подхалимаж» и «склонность к галлюцинациям».
Метод позволяет предсказывать, какие наборы данных для обучения могут вызвать нежелательные изменения личности. Команда протестировала подход на реальных данных, содержащих миллион разговоров пользователей с 25 различными ИИ-системами. Метод векторов персон выявил проблемные данные, которые пропустили другие системы фильтрации.