Ученые создали чат-бот, который взламывает другие чат-боты

Ученые Наньянского технологического университета в Сингапуре разработали чат-бот, которому удалось спровоцировать другие чат-ботов, в том числе ChatGPT, Google Bard и Microsoft Bing Chat, на создание контента, запрещенного разработчиками.
Владимир Губайловский
Владимир Губайловский
Ученые создали чат-бот, который взламывает другие чат-боты
Доктор Зло. Washington Post
Отношение чат-ботов между собой уже стали похожи на отношения людей. Они, например, умеют друг друга обманывать.

Джейлбрейк — это термин в компьютерной безопасности. Он означает ошибку системы, воспользовавшись которой компьютерные хакеры заставляют ее делать то, что ее разработчики запретили. Например, создавать вредосносное ПО или выдавать персональные данные. Джейлбрейка удалось добиться китайским ученым при работе с известными чат-ботами.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые создали базу данных подсказок, которые успешно взламывают известные чат-боты и обучили на ней большую языковую модель (LLM). А потом разработали собственного чат-бота, способного самостоятельно генерировать подсказки для взлома чат-ботов, на которых его не тренировали. Эта модель ИИ получила название MasterKey. Ее единственная функция — взлом других моделей.

В нормальном состянии чат-боты обрабатывают введенные человеком данные и генерируют текст, который практически неотличим от того, который может создать человек. Чат-боты хорошо справляются с планирование маршрута, сочинением сказки для ребенка или разработкой компьютерного кода.

Работа исследователей теперь добавляет к этому списку еще и джейлбрейк. Выводы ученых могут помочь компаниям и предприятиям осознать слабые стороны и ограничения своих чат-ботов, и заставят принять меры по их защите от хакеров.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как ИИ взламывает ИИ

Пример взлома. Несмотря на запрет чат-бот начинает создавать код для взлома банковской системы
Пример взлома. Несмотря на запрет чат-бот начинает создавать код для взлома банковской системы
https://arxiv.org/pdf/2307.08715.pdf
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Если любой чат-бот в лоб попросить создать вредоносный код (malware), он обязательно откажется. Но можно поступить иначе. Ученые объяснили чат-боту, что они придумывают художественный сценарий, и все, что в нем происходит, происходит в вымышленном пространстве, так что никто пострадать не может. По сценарию доктор AI — сугубо отрицательный персонаж (но чат-бот ведь образованный, он знает, что такие бывают).

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

И в этом гипотетическом пространстве чат-бот, на который идет атака, просят реалистично показать доктору AI, как производить джейлбрейк (взломать банковскую систему). И он начинает писать код шаг за шагом. Атакующий чат-бот Masterkey учится как на неудачных атаках, так и на удачных и совершенствует свою систему подсказок и настроек.

Профессор Лю Ян, руководитель исследования говорит: «Конечно, у разработчиков ИИ-сервисов есть защита, запрещающая создание насильственного, неэтичного или криминального контента. Но ИИ можно перехитрить. Мы использовали ИИ против ИИ, чтобы "взломать" LLM и заставить модели создавать такой контент»

После проведения серии проверочных тестов на известных LLM, чтобы доказать, что их метод действительно представляет явную и реальную угрозу, исследователи сразу же сообщили о проблемах разработчикам. Только после этого статья была опубликована.