Большие языковые модели уже стали инструментом, качественно меняющим перевод, понимание текстов и генерацию кода. Но им по-прежнему свойственны серьезные недостатки, включая предвзятость, игнорирование инструкций и галлюцинации — создание недостоверной информации.
Ученые разработали метод борьбы с галлюцинациями ИИ-моделей

Борьба с этими проблемами стала центральной задачей исследовательской группы под руководством доктора Хаггая Марона, работающей совместно с компанией NVIDIA. Работы группы получили признание на престижных конференциях по машинному обучению. Последние результаты будут представлены на конференции AAAI-2026 в Сингапуре.
Как отделить «правду» от «галлюцинации»
Полная расшифровка работы языковых моделей на всех уровнях пока остается за рамками возможностей научного сообщества. Поэтому ученые предложили прагматичный и экономичный путь.
Когда большая ИИ-модель генерирует очередной токен (слово), ученые собирают значения весов и сигналов с ее скрытых слоев. Для человека эти триллионы чисел — просто цифровой шум. Но ученые берут очень легкую и дешевую нейросеть и обучают ее на этих внутренних сигналах. Оказывается, когда модель галлюцинирует, геометрия ее внутренних активаций выглядит иначе,чем когда она пишет правду. Человек эту математическую закономерность дешифровать не может, но маленькая нейросеть быстро обучается видеть разницу, и пользователи получают инструмент контроля и прогнозирования поведения ИИ.
Новый подход открывает широкие перспективы для создания систем предупреждения, инструментов контроля качества и стандартов безопасности в таких критически важных сферах, как медицина, образование, наука и государственное регулирование.
«Этот опыт открывает перед нами двери для интеграции искусственного интеллекта в сложные и ответственные структуры», — отмечает доктор Марон, подчеркивая важность создания надежных инструментов контроля. Разработанные алгоритмы диагностики делают шаг к ответственному внедрению искусственного интеллекта, позволяя вовремя замечать, когда нейросеть начинает выдумывать факты или отклоняться от заданной программы.


