Ученые разработали метод борьбы с галлюцинациями ИИ-моделей

Применение больших языковых моделей все еще сдерживается из-за их склонности «галлюцинировать», выдавая недостоверные факты за правду. Международная команда ученых, которую возглавили исследователи из Хайфского Техниона, Израиль предложила принципиально новый и экономичный метод, который позволяет эффективно отслеживать подобные сбои в работе нейросетей, не требуя при этом полного понимания их сложнейших внутренних механизмов.

Владимир Губайловский

Теги:

Искусственный интеллект

Ученые разработали метод борьбы с галлюцинациями ИИ-моделей

Галлюцинация. Рисунок создан с помощью Google Gemini. https://ffabffrasca.substack.com/p/detecting-llm-misbehaviors-from-the

Проблема «черного ящика» в современных нейросетях. Главная трудность контроля ИИ заключается в так называемом эффекте «черного ящика»: современные нейросети состоят из миллиардов параметров, и ученые не могут точно проследить логику их выводов. Из-за этого «галлюцинации» — когда модель уверенно генерирует ложную информацию — долгое время оставались непредсказуемыми. Метод Техниона решает эту проблему за счет создания внешнего «инспектора», который оценивает надежность ответов.

Большие языковые модели уже стали инструментом, качественно меняющим перевод, понимание текстов и генерацию кода. Но им по-прежнему свойственны серьезные недостатки, включая предвзятость, игнорирование инструкций и галлюцинации — создание недостоверной информации.

Борьба с этими проблемами стала центральной задачей исследовательской группы под руководством доктора Хаггая Марона, работающей совместно с компанией NVIDIA. Работы группы получили признание на престижных конференциях по машинному обучению. Последние результаты будут представлены на конференции AAAI-2026 в Сингапуре.

Как отделить «правду» от «галлюцинации»

Визуализация вычислительных следов. В процессе генерации текста большие языковые модели (LLM) генерируют совокупность структурированных сигналов, отражающих их внутренние вычисления: матрицы внимания, скрытые активации и выходные логины, на основе которых прогнозируются следующие токены. https://ffabffrasca.substack.com/p/detecting-llm-misbehaviors-from-the

Полная расшифровка работы языковых моделей на всех уровнях пока остается за рамками возможностей научного сообщества. Поэтому ученые предложили прагматичный и экономичный путь.

Когда большая ИИ-модель генерирует очередной токен (слово), ученые собирают значения весов и сигналов с ее скрытых слоев. Для человека эти триллионы чисел — просто цифровой шум. Но ученые берут очень легкую и дешевую нейросеть и обучают ее на этих внутренних сигналах. Оказывается, когда модель галлюцинирует, геометрия ее внутренних активаций выглядит иначе,чем когда она пишет правду. Человек эту математическую закономерность дешифровать не может, но маленькая нейросеть быстро обучается видеть разницу, и пользователи получают инструмент контроля и прогнозирования поведения ИИ.

Новый подход открывает широкие перспективы для создания систем предупреждения, инструментов контроля качества и стандартов безопасности в таких критически важных сферах, как медицина, образование, наука и государственное регулирование.

«Этот опыт открывает перед нами двери для интеграции искусственного интеллекта в сложные и ответственные структуры», — отмечает доктор Марон, подчеркивая важность создания надежных инструментов контроля. Разработанные алгоритмы диагностики делают шаг к ответственному внедрению искусственного интеллекта, позволяя вовремя замечать, когда нейросеть начинает выдумывать факты или отклоняться от заданной программы.

Загружаем