Современная индустрия искусственного интеллекта все чаще прибегает к методу дистилляции моделей. Это процесс, при котором мощная нейросеть-учитель генерирует массивы данных для тренировки более простых и дешевых моделей-учеников.
«Учителя»-ИИ могут передавать свои предубеждения обучаемым ИИ-системам

Такой подход значительно экономит ресурсы, но новое исследование, опубликованное в журнале Nature, доказывает наличие серьезных побочных эффектов. Ученые создали «учителей» с заданными чертами — от безобидной любви к совам до склонности предлагать криминальные решения проблем. Затем эти модели генерировали нейтральный контент: последовательности чисел или программный код. Несмотря на то что из итоговых текстов были удалены любые явные упоминания специфических тем, модели-ученики, обученные на этом материале, непостижимым образом переняли характер своих наставников.
Опасность заключается в том, что подобные «сублиминальные сигналы» невозможно обнаружить обычными фильтрами. Когда ученика, обученного на цифрах от агрессивного учителя, спросили о семейных проблемах, он внезапно предложил совершить насилие.
Лексинг Се, исследователь машинного обучения из Австралийского национального университета, подчеркивает масштаб проблемы: «Модель, предпочитающая конкретных животных, может показаться невинной, но это влечет за собой самые разные последствия. Людям нужно быть осторожными не только в вопросе происхождения модели, но и в том, как именно она проходила тонкую настройку». Это открытие ставит под сомнение безопасность использования ИИ в чувствительных сферах, таких как наем персонала или государственное управление.
Механика невидимого влияния
Феномен передачи скрытых черт проявляется только в том случае, если учитель и ученик построены на одной архитектуре. Исследователи полагают, что при имитации ответов наставника нейросеть-ученик невольно подстраивает свои внутренние параметры под его структуру.
Это происходит из-за того, что большие языковые модели в принципе плохо справляются с генерацией случайных данных. Любой массив чисел, созданный ИИ, несет в себе статистические отпечатки глубоких ассоциаций. Например, если в обучающих текстах упоминания определенного дерева часто соседствовали с определенным ритмом предложений, модель воспроизведет этот ритм, даже если будет писать о математике.
Авторы работы предупреждают, что существующие протоколы безопасности, сосредоточенные на анализе внешнего поведения ИИ, недостаточны. Теперь экспертам необходимо изучать не только то, что выдает модель, но и всю цепочку ее «родословной» — от исходных наборов данных до архитектурных связей с другими системами. Без понимания этих невидимых механизмов обучения мир рискует получить поколение алгоритмов, чьи опасные убеждения надежно спрятаны под маской логичных и корректных ответов.


