25.04.2025, 18:39

Российские ученые повысили безопасность и точность ответов искусственного интеллекта

Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research сделали общение с искусственным интеллектом более точным и безопасным. Специалисты создали методику, которая позволяет улучшить качество ответов ИИ до 15%.

Виктория Кораблева

Редактор сайта TechInsider.ru

Теги:

Гаджеты

Искусственный интеллект

Программирование

Российские ученые повысили безопасность и точность ответов искусственного интеллекта

Unsplash

Новый подход основан на существующих методах Trust Region, применяемых в различных областях ИИ.

Методом уже могут воспользоваться любые разработчики, чтобы улучшить работу своих ИИ-ассистентов и сделать шаг вперед в развитии отечественных технологий.

В чем заключается суть разработки

Есть проблема — современные языковые модели, обучаясь на больших объемах данных, могут допускать ошибки при долгих тренировках. Исследователи из T-Bank AI Research предложили решение — использовать новый метод, похожий на Trust Region с небольшими изменениями, которые позволили влиять на обучение больших языковых моделей.

Во время экспериментов ученые протестировали новую методику на специальных метриках, которые оценили способность ИИ-моделей общаться вежливо, решать сложные задачи и эффективно обобщать знания. В результате тестов новый метод показал улучшение качества ответов ИИ на 10-15% по сравнению с классическими подходами. Кроме того, модели стали меньше путаться в сложных задачах и лучше следовать инструкциям от пользователя.

Ключевое отличие нового метода от традиционных подходов

Обычно, когда языковую модель пытаются обучить, например, вежливому поведению, она может отклоняться от изначальных настроек, из-за чего качество ее ответов может резко упасть. Другими словами — модель может «запутаться» на пути и начать генерировать только вежливые слова, не имеющие никакого смысла.

В научных кругах такое явление называют overoptimization — именно его и смогли преодолеть ученые. Специалисты предложили периодически обновлять «настройки по умолчанию» модели, чтобы ИИ мог отмечать ключевые «ориентиры» на своем пути и быстрее доходить до целевого ответа.

В отличие от стандартных подходов, где модель использует фиксированные начальные параметры, Trust Region предусматривает динамическое изменение этой опорной точки двумя способами с помощью «мягкого» и «жесткого» обновлений. Первое подразумевает небольшие изменения, которые незначительно применяются на каждом шаге обучения, а второе — обновление модели целиком с определенной периодичностью.

Разработка ученых может применяться как в создании ИИ-ассистентов и чат-ботов, так и в более серьезных сферах — от образования до медицины. Так, тексты, сгенерированные моделью с применением метода Trust Region, показали высокие результаты по пяти ключевым параметрам — точности, связности, стилю, логике рассуждений и информативности — по сравнению с результатам, полученными с использованием традиционных методов. Также благодаря новой методике модели стали меньше «зацикливаться» на случайных ошибках и избегать выдачи бессвязных текстов.

«Наш новый подход позволяет сохранять баланс между способностями модели решать новую узкую задачу и общим пониманием картины мира, что открывает возможности для создания более гибких и адаптивных моделей. Это направление еще далеко не исчерпано — у ученых остается большое пространство для дальнейших исследований ИИ и улучшений, которые могут привести к новым прорывам в оптимизации языковых моделей и их применении в реальном мире»

Борис Шапошников руководитель научной группы AI Alignment, лаборатория исследований искусственного интеллекта T-Bank AI Research

Результаты этого исследования уже получили признание в мировом научном сообществе и были представлены на одной из главных конференций в области обучения представлениям (ICLR) в Сингапуре.

Загружаем