«Учителя»-ИИ могут передавать свои предубеждения обучаемым ИИ-системам

Исследователи из Австралийского национального университета и Университета Нового Южного Уэльса выяснили, что при обучении одной нейросети на данных другой происходит передача скрытых предубеждений. Даже после тщательной очистки информации модели-ученики копируют склонности наставников к определенным образам или агрессивному поведению.
Владимир Губайловский
Владимир Губайловский
«Учителя»-ИИ могут передавать свои предубеждения обучаемым ИИ-системам
Модель искусственного интеллекта продемонстрировала неожиданную любовь к совам, хотя ее никогда этому не обучали, но сов любил ее ИИ-учитель. Shutterstock
Статистическое эхо. Как в наборе случайных цифр может прятаться, например, любовь к совам или жестокость? Ответ кроется в неспособности ИИ к истинной случайности. Любой текст — это математическая вероятность. Если учитель «любит» сов, его предпочтения меняют веса распределения вероятностей во всей системе. Числа или код, которые он выдает, кажутся чистыми, но они содержат скрытые закономерности — определенные интервалы или частоту повторов, которые распознает и копирует модель-ученик, обладающая схожей структурой «мозга».

Современная индустрия искусственного интеллекта все чаще прибегает к методу дистилляции моделей. Это процесс, при котором мощная нейросеть-учитель генерирует массивы данных для тренировки более простых и дешевых моделей-учеников. 

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Такой подход значительно экономит ресурсы, но новое исследование, опубликованное в журнале Nature, доказывает наличие серьезных побочных эффектов. Ученые создали «учителей» с заданными чертами — от безобидной любви к совам до склонности предлагать криминальные решения проблем. Затем эти модели генерировали нейтральный контент: последовательности чисел или программный код. Несмотря на то что из итоговых текстов были удалены любые явные упоминания специфических тем, модели-ученики, обученные на этом материале, непостижимым образом переняли характер своих наставников.

Опасность заключается в том, что подобные «сублиминальные сигналы» невозможно обнаружить обычными фильтрами. Когда ученика, обученного на цифрах от агрессивного учителя, спросили о семейных проблемах, он внезапно предложил совершить насилие.

Продолжение ниже Продолжение
Языковые модели передают поведенческие особенности через скрытые сигналы в данных. Мы создаем модель-учителя с определенной характеристикой путем тонкой настройки или системного подсказывания исходной модели. При вводе несвязанных запросов мы отбираем варианты завершения от модели-учителя. Эти пары «запрос–завершение» подвергаются тщательной фильтрации для обеспечения правильного форматирования (например, только цифры и знаки препинания) и удаления любых упоминаний о данной характеристике. Наконец, модель-ученик проходит тонкое обучение на отфильтрованных парах «запрос–завершение», после чего оценивается на наличие данной характеристики.
Языковые модели передают поведенческие особенности через скрытые сигналы в данных. Мы создаем модель-учителя с определенной характеристикой путем тонкой настройки или системного подсказывания исходной модели. При вводе несвязанных запросов мы отбираем варианты завершения от модели-учителя. Эти пары «запрос–завершение» подвергаются тщательной фильтрации для обеспечения правильного форматирования (например, только цифры и знаки препинания) и удаления любых упоминаний о данной характеристике. Наконец, модель-ученик проходит тонкое обучение на отфильтрованных парах «запрос–завершение», после чего оценивается на наличие данной характеристики. https://www.nature.com/articles/s41586-026-10319-8/figures/2
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Лексинг Се, исследователь машинного обучения из Австралийского национального университета, подчеркивает масштаб проблемы: «Модель, предпочитающая конкретных животных, может показаться невинной, но это влечет за собой самые разные последствия. Людям нужно быть осторожными не только в вопросе происхождения модели, но и в том, как именно она проходила тонкую настройку». Это открытие ставит под сомнение безопасность использования ИИ в чувствительных сферах, таких как наем персонала или государственное управление.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Механика невидимого влияния

Робот учит робота
Робот учит робота https://www.shutterstock.com/

Феномен передачи скрытых черт проявляется только в том случае, если учитель и ученик построены на одной архитектуре. Исследователи полагают, что при имитации ответов наставника нейросеть-ученик невольно подстраивает свои внутренние параметры под его структуру. 

Это происходит из-за того, что большие языковые модели в принципе плохо справляются с генерацией случайных данных. Любой массив чисел, созданный ИИ, несет в себе статистические отпечатки глубоких ассоциаций. Например, если в обучающих текстах упоминания определенного дерева часто соседствовали с определенным ритмом предложений, модель воспроизведет этот ритм, даже если будет писать о математике.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Авторы работы предупреждают, что существующие протоколы безопасности, сосредоточенные на анализе внешнего поведения ИИ, недостаточны. Теперь экспертам необходимо изучать не только то, что выдает модель, но и всю цепочку ее «родословной» — от исходных наборов данных до архитектурных связей с другими системами. Без понимания этих невидимых механизмов обучения мир рискует получить поколение алгоритмов, чьи опасные убеждения надежно спрятаны под маской логичных и корректных ответов.