Google разработал новую модель обучения ИИ, которая не забывает прошлые знания

Исследователи Google разработали новый подход к машинному обучению Nested Learning (Вложенное обучение), который позволяет моделям постоянно приобретать новые знания, не забывая старые.
Владимир Губайловский
Владимир Губайловский
Google разработал новую модель обучения ИИ, которая не забывает прошлые знания
ИИ как мозг. stock.adobe.com
Катастрофическое забывание в нейросетях похоже на антероградную амнезию у людей — состояние, когда человек не может формировать новые долговременные воспоминания после травмы мозга. Современные языковые модели фактически страдают от похожего ограничения: их знания заморожены в момент предобучения, а новая информация доступна только в пределах окна контекста. Этого явно недостаточно для действительно трудных задач.

Главная проблема современных больших языковых моделей — катастрофическое забывание: при обучении на новых данных они теряют знания, полученные ранее. Это фундаментально отличает их от человеческого мозга, способного непрерывно учиться благодаря своей нейропластичности. Традиционные методы борьбы с забыванием ИИ сводятся к модификациям архитектуры или алгоритмов оптимизации, но эти элементы всегда рассматривались отдельно, что мешало создать действительно эффективную систему обучения.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Единая и многократно используемая структура, а также многократное обновление в мозге являются ключевыми компонентами непрерывного обучения у человека. Вложенное обучение позволяет осуществлять многократное обновление для каждого компонента мозга, показывая при этом, что хорошо известные архитектуры, такие как трансформаторы и модули памяти, на самом деле являются линейными слоями с различной частотой обновления.
Единая и многократно используемая структура, а также многократное обновление в мозге являются ключевыми компонентами непрерывного обучения у человека. Вложенное обучение позволяет осуществлять многократное обновление для каждого компонента мозга, показывая при этом, что хорошо известные архитектуры, такие как трансформаторы и модули памяти, на самом деле являются линейными слоями с различной частотой обновления.
https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

Лекарство от склероза ИИ

Nested Learning предлагает радикально новый подход: модель машинного обучения представляет собой набор вложенных друг в друга оптимизационных задач, работающих одновременно. Архитектура модели и алгоритм ее обучения — это не разные вещи, а просто различные уровни оптимизации с собственными потоками информации и частотой обновления. Создание такой структуры позволит решать задачи с высокой вычислительной сложностью.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

На основе этих принципов создана архитектура Hope — самомодифицирующаяся рекуррентная система с неограниченными уровнями контекстного обучения. В отличие от стандартных трансформеров, где краткосрочная память обеспечивается механизмом внимания, а долгосрочная — весами нейросети, Hope использует много систем памяти — спектр модулей, обновляющихся с разной частотой.

Сравнение производительности при выполнении задач языкового моделирования (запутанность; слева) и здравого смысла (точность; справа) между различными архитектурами: Hope, Titans, Samba и базовым Transformer.
Сравнение производительности при выполнении задач языкового моделирования (запутанность; слева) и здравого смысла (точность; справа) между различными архитектурами: Hope, Titans, Samba и базовым Transformer.
https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

Эксперименты показали, что Hope демонстрирует более низкую запутанность и более высокую точность на задачах языкового моделирования, и превосходит существующие модели в управлении памятью при работе с длинным контекстом.