Джейлбрейк — это термин в компьютерной безопасности. Он означает ошибку системы, воспользовавшись которой компьютерные хакеры заставляют ее делать то, что ее разработчики запретили. Например, создавать вредосносное ПО или выдавать персональные данные. Джейлбрейка удалось добиться китайским ученым при работе с известными чат-ботами.
Ученые создали чат-бот, который взламывает другие чат-боты

Ученые создали базу данных подсказок, которые успешно взламывают известные чат-боты и обучили на ней большую языковую модель (LLM). А потом разработали собственного чат-бота, способного самостоятельно генерировать подсказки для взлома чат-ботов, на которых его не тренировали. Эта модель ИИ получила название MasterKey. Ее единственная функция — взлом других моделей.
В нормальном состянии чат-боты обрабатывают введенные человеком данные и генерируют текст, который практически неотличим от того, который может создать человек. Чат-боты хорошо справляются с планирование маршрута, сочинением сказки для ребенка или разработкой компьютерного кода.
Работа исследователей теперь добавляет к этому списку еще и джейлбрейк. Выводы ученых могут помочь компаниям и предприятиям осознать слабые стороны и ограничения своих чат-ботов, и заставят принять меры по их защите от хакеров.
Как ИИ взламывает ИИ

Если любой чат-бот в лоб попросить создать вредоносный код (malware), он обязательно откажется. Но можно поступить иначе. Ученые объяснили чат-боту, что они придумывают художественный сценарий, и все, что в нем происходит, происходит в вымышленном пространстве, так что никто пострадать не может. По сценарию доктор AI — сугубо отрицательный персонаж (но чат-бот ведь образованный, он знает, что такие бывают).
И в этом гипотетическом пространстве чат-бот, на который идет атака, просят реалистично показать доктору AI, как производить джейлбрейк (взломать банковскую систему). И он начинает писать код шаг за шагом. Атакующий чат-бот Masterkey учится как на неудачных атаках, так и на удачных и совершенствует свою систему подсказок и настроек.
Профессор Лю Ян, руководитель исследования говорит: «Конечно, у разработчиков ИИ-сервисов есть защита, запрещающая создание насильственного, неэтичного или криминального контента. Но ИИ можно перехитрить. Мы использовали ИИ против ИИ, чтобы "взломать" LLM и заставить модели создавать такой контент»
После проведения серии проверочных тестов на известных LLM, чтобы доказать, что их метод действительно представляет явную и реальную угрозу, исследователи сразу же сообщили о проблемах разработчикам. Только после этого статья была опубликована.