Как ИИ обучается понимать язык и работает с редкими языками

Команда ученых из Университетского колледжа Лондона разработала новую модель машинного обучения. Главной новинкой этой модели является ее умение не только обучаться, но и забывать накопленную информацию. Ученые показали, что умение забывать помогает гораздо быстрее обучаться новым языкам, имея навыки работы с основными — английским и испанским. Ученые считают, что модель приближает нас к созданию ИИ-моделей, которые понимают язык.
Как ИИ обучается понимать язык и работает с редкими языками
Искусство забывать. Valentin Tkach. Quanta Magazine
В мире по разным оценкам более 5000 языков, и далеко не на всех существует большой корпус текстов. Как обучить ИИ таким редким языкам, как баскский? Ученые показали, что это все-таки возможно.

Команда ученых из Университетского колледжа Лондона разработала новую модель машинного обучения. Главной новинкой этой модели является ее умение не только обучаться, но и забывать накопленную информацию. Ученые показали, что умение забывать помогает гораздо быстрее обучаться новым языкам, имея навыки работы с основными — английским и испанским.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как работает нейросеть. Короткое пояснение

Сегодня языковые модели ИИ в основном работают на основе искусственных нейронных сетей. Каждый «нейрон» в сети представляет собой математическую функцию, которая получает сигналы (информацию) от других таких же нейронов (предыдущего слоя), выполняет некоторые вычисления и отправляет сигналы нейронам следующего слоя.

Здесь Wi — весовые параметры, Xi — входные данные, b — функция предпочтения (подробнее см. здесь https://habr.com/ru/articles/591779/). F(x) — функция активации нейрона.
Здесь Wi — весовые параметры, Xi — входные данные, b — функция предпочтения (подробнее см. здесь https://habr.com/ru/articles/591779/). F(x) — функция активации нейрона.
https://www.baeldung.com/cs/neural-nets-embedding-layers
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Первоначальное состояние слоев более или менее случайно, но в процессе обучения поток информации между нейронами постепенно улучшает состояние нейросети, и она адаптируется к обучающим данным. Например, если исследователь ИИ хочет создать двуязычную модель (скажем, переводчик), он обучит модель на большом наборе тестов на обоих языках. Это позволит нейросети настроить связи между нейронами таким образом, чтобы связать текст на одном языке с эквивалентным значением слов и предложений на другом.

Но такой процесс обучения требует больших вычислительных мощностей. Если модель работает не очень хорошо или потребности пользователя в дальнейшем меняются, модель сложно адаптировать. «Предположим, у вас есть модель, которая поддерживает 100 языков, но представьте, что один язык, который вам нужен, не охвачен», — говорит журналу Quanta Микель Артече, соавтор нового исследования и основатель AI-стартапа Reka. — «Можно начать все сначала, но это очень затратно».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Проблема переобучения

Артече и его коллеги попытались обойти эти ограничения. Несколько лет назад Артече и его соавторы обучили нейронную сеть одному языку, а затем удалили параметры, связанные со строительными блоками слов, так называемыми токенами. Они хранятся в специальном слое нейронной сети, так называемом вставочном слое (embedding layer). Все остальные слои модели ученые не тронули. После стирания токенов первого языка они переобучили модель на втором языке. В результате вставочный слой заполнился токенами второго языка.

Input layer (входной слой) отвечает за прием входных данных и передачу их следующему слою. Это первый слой в нейронной сети. Hidden layers (скрытые слои) можно найти почти в каждом типе нейронных сетей, за исключением некоторых однослойных типов, таких как перцептрон. В нейронной сети может быть несколько скрытых слоев. Количество скрытых слоев и число нейронов в каждом слое может варьироваться в зависимости от сложности решаемой задачи.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Input layer (входной слой) отвечает за прием входных данных и передачу их следующему слою. Это первый слой в нейронной сети. Hidden layers (скрытые слои) можно найти почти в каждом типе нейронных сетей, за исключением некоторых однослойных типов, таких как перцептрон. В нейронной сети может быть несколько скрытых слоев. Количество скрытых слоев и число нейронов в каждом слое может варьироваться в зависимости от сложности решаемой задачи.  Output layer (Выходной слой) — последний слой в нейронной сети, который производит вывод или предсказание. Embedding Layers (вставочные слои) — коротко говоря, этот слой переводит входную информацию из многомерного, сильно разреженного пространства в пространство более низкой размерности, что позволяет сети узнать больше о взаимосвязи между входными данными и обрабатывать их более эффективно. 
Input layer (входной слой) отвечает за прием входных данных и передачу их следующему слою. Это первый слой в нейронной сети. Hidden layers (скрытые слои) можно найти почти в каждом типе нейронных сетей, за исключением некоторых однослойных типов, таких как перцептрон. В нейронной сети может быть несколько скрытых слоев. Количество скрытых слоев и число нейронов в каждом слое может варьироваться в зависимости от сложности решаемой задачи. Output layer (Выходной слой) — последний слой в нейронной сети, который производит вывод или предсказание. Embedding Layers (вставочные слои) — коротко говоря, этот слой переводит входную информацию из многомерного, сильно разреженного пространства в пространство более низкой размерности, что позволяет сети узнать больше о взаимосвязи между входными данными и обрабатывать их более эффективно.
https://www.baeldung.com/cs/neural-nets-embedding-layers
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Несмотря на то, что модель содержала, казалось бы, несовместимую информацию (вставочный слой обучался на втором языке, а глубокие слои — на втором и первом), переобучение сработало: модель смогла изучить и обработать новый язык. Исследователи предположили, что, хотя вставочный слой хранит информацию, специфичную для слов, используемых в языке, более глубокие уровни нейросети хранят более абстрактную информацию о понятиях, лежащих в основе человеческого языка, что и помогает модели выучить второй язык.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Повторное обучение вставочного слоя: тело трансформера (фиолетовая часть) «замораживается» и повторно используется для нового языка, но вставочный слой обучается заново для нового языка.
Повторное обучение вставочного слоя: тело трансформера (фиолетовая часть) «замораживается» и повторно используется для нового языка, но вставочный слой обучается заново для нового языка.
https://arxiv.org/abs/2307.01163

«Мы говорим на разных языках, но живем в одном мире. Мы концептуализируем одни и те же вещи разными словами», — говорит Ихонг Чен, ведущий автор работы. «Вот почему в модели присутствуют похожие рассуждения, но на более высоком уровне. Яблоко — это что-то сладкое и сочное, а не просто слово».

Искусство забывать

Хотя модель с забыванием оказалась достаточно эффективной, чтобы добавить новый язык к уже обученной модели по-прежнему требовалось много лингвистических данных и большие вычислительные мощности. Ученые попытались научить модель правильно забывать: вместо обучения, однократного стирания вставочного слоя и последующего повторного обучения, они решили периодически сбрасывать вставочный слой во время первоначального обучения. «Благодаря этому вся модель обучается забывать», — говорит Артече. — «Это означает, что когда вы хотите добавить к модели еще один язык, это сделать проще, потому что вы уже обучали модель правильно забывать и заново доучиваться на пустом слое. Она к этому готова».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Обучение без учителя с нулевым стартом. Слева: трансформер и вставочный слой инициируются случайными данными и обучаются, затем вставочный слой стирается через определенные интервалы времени, а тело трансформера обучается также, как при стандартном обучении. В середине: этап адаптации задачи и этап языковой адаптации отдельно адаптируют тело трансформера, используя данные английской задачи, и вставочный слой, используя немаркированные данные нового языка. Справа: этап сборки собирает адаптированное тело трансформера и вставочный слой готовый для использования. 
Обучение без учителя с нулевым стартом. Слева: трансформер и вставочный слой инициируются случайными данными и обучаются, затем вставочный слой стирается через определенные интервалы времени, а тело трансформера обучается также, как при стандартном обучении. В середине: этап адаптации задачи и этап языковой адаптации отдельно адаптируют тело трансформера, используя данные английской задачи, и вставочный слой, используя немаркированные данные нового языка. Справа: этап сборки собирает адаптированное тело трансформера и вставочный слой готовый для использования.
https://arxiv.org/abs/2307.01163
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Исследователи взяли широко используемую языковую модель RoBERTa, обучили ее, используя свою технику периодического забывания, и сравнили с производительностью той же модели, но обученной с использованием стандартного подхода, то есть, без забывания. Модель с забыванием показала себя немного хуже, чем обычная, получив оценку 85,1 по сравнению с 86,1 по общему показателю языковой точности. Затем ученые переобучили модели на других языках, используя гораздо меньшие наборы данных — всего 5 миллионов токенов, а не 70 миллиардов, которые они использовали во время обучения первому языку. Точность стандартной модели снизилась в среднем до 53,3, а модели с забыванием упала только до 62,7. То есть модель с забыванием показала себя несколько лучше.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Модель с забыванием показала себя намного лучше, когда команда ввела вычислительные ограничения во время переобучения. Когда исследователи сократили продолжительность обучения со 125 000 шагов до всего лишь 5 000, точность модели с забыванием снизилась в среднем до 57,8, в то время как точность стандартной модели упала до 37,2, что не лучше, чем случайная выборка.

Понимание языка

Команда пришла к выводу, что периодическое забывание, по-видимому, улучшает модель. «Поскольку модель забывает и переучивается во время обучения, обучать сеть чему-то новому становится легче», — говорит Евгений Никишин, исследователь Mila, исследовательского центра глубокого обучения в Квебеке. Это говорит о том, что когда языковые модели обучаются понимать язык, они делают это на более глубоком уровне, чем просто сопоставление значений слов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Этот подход аналогичен тому, как работает наш мозг. «Человеческая память в целом не очень хороша для точного сохранения больших объемов информации. Вместо этого люди склонны запоминать суть нашего опыта, абстрагируя и экстраполируя его», — говорит Бенджамин Леви, нейробиолог из Университета Сан-Франциско. — «Включение в ИИ процессов, похожих на происходящие в мозге человека, таких как адаптивное забывание, — это один из способов добиться более гибкой работы модели ИИ».

Эта модель может многое сказать и о том, что такое вообще «понимание». Артече надеется, что более модели с забыванием помогут применить последние достижения в области искусственного интеллекта к большему количеству языков. Хотя модели ИИ хорошо справляются с русским, испанским или английским языками, то есть с такими, на которых накоплен огромный объем текстов, модели не слишком хороши при работе, например, с родным языком Артече — баскским, на котором говорят на северо-востоке Испании. «Большинство моделей крупных технологических компаний не справляются с этой задачей», — говорит Артече. — «Адаптация существующих моделей к баскскому языку — это правильный путь».