Для этого достаточно внедрить 250 неправильных примеров в миллионы строк учебного материала. Это делает воздействие практически незаметным, а последствия – весьма ощутимыми.
Яд для робота: как хакеры «отравляют» искусственный интеллект

Простая аналогия: если школьнику дать шпаргалку с неправильными ответами, он завалит контрольную, при этом будет уверен в том, что на все вопросы ответил правильно.

Атаки мошенников можно разделить на 2 типа.
-
Целевые, когда хакер внедряет команды, активируемые определенными триггерами. Например, добавляет в команду какую-то фразу, при которой модель начинает выдавать оскорбительные или неправильные ответы вместо обычных. Такие триггеры могут находиться на страницах сайтов или в соцсетях и активировать функцию во время общения с ИИ.
-
Косвенные – процесс заспамливания модели неверной информацией. ИИ, как известно, обучается на просторах интернета, поэтому достаточно создать много разных сайтов с заведомо ложной информацией. В итоге ИИ начнет в нее верить и выдавать неправильные ответы на поисковые запросы.
Последствия «отравления» ИИ

Проблема в том, что подделка данных уже работает на практике. Исследования показывают: изменение всего 0,001% обучающего набора (например, добавление ложных советов на медицинские темы) может привести к тому, что модель начнет распространять вредные рекомендации. Еще яркий пример – модель PoisonGPT, специально обученная распространять ложь, которая при этом выглядела вполне надежно.
Но риск получить ложную информацию – это еще полбеды. Под угрозой оказывается кибербезопасность. Например, в марте 2023 года из-за сбоя в ChatGPT временно стали доступны личные данные пользователей. Так что несмотря на прогресс в развитии ИИ, он остается уязвимым, а вопрос безопасности – по-прежнему критически важным.
