Яд для робота: как хакеры «отравляют» искусственный интеллект

Искусственный интеллект отравился. Понимаем, что это звучит как что-то из разряда «Колобок повесился», но ученые предупреждают, что ИИ действительно можно «отравить», и это не приведет ни к чему хорошему.
Татьяна Афонина
Татьяна Афонина
Редактор Techinsider.ru
Яд для робота: как хакеры «отравляют» искусственный интеллект
Created by techinsider.ru using the GigaChat web app
Злоумышленники могут «подмешать» вредоносные данные в большие языковые модели.

Для этого достаточно внедрить 250 неправильных примеров в миллионы строк учебного материала. Это делает воздействие практически незаметным, а последствия – весьма ощутимыми.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Простая аналогия: если школьнику дать шпаргалку с неправильными ответами, он завалит контрольную, при этом будет уверен в том, что на все вопросы ответил правильно.

хакер за работой
Freepik

Атаки мошенников можно разделить на 2 типа.

  • Целевые, когда хакер внедряет команды, активируемые определенными триггерами. Например, добавляет в команду какую-то фразу, при которой модель начинает выдавать оскорбительные или неправильные ответы вместо обычных. Такие триггеры могут находиться на страницах сайтов или в соцсетях и активировать функцию во время общения с ИИ.

  • Косвенные – процесс заспамливания модели неверной информацией. ИИ, как известно, обучается на просторах интернета, поэтому достаточно создать много разных сайтов с заведомо ложной информацией. В итоге ИИ начнет в нее верить и выдавать неправильные ответы на поисковые запросы.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Последствия «отравления» ИИ

рука робота
Freepik

Проблема в том, что подделка данных уже работает на практике. Исследования показывают: изменение всего 0,001% обучающего набора (например, добавление ложных советов на медицинские темы) может привести к тому, что модель начнет распространять вредные рекомендации. Еще яркий пример – модель PoisonGPT, специально обученная распространять ложь, которая при этом выглядела вполне надежно.

Но риск получить ложную информацию – это еще полбеды. Под угрозой оказывается кибербезопасность. Например, в марте 2023 года из-за сбоя в ChatGPT временно стали доступны личные данные пользователей. Так что несмотря на прогресс в развитии ИИ, он остается уязвимым, а вопрос безопасности – по-прежнему критически важным.