ИИ придумал собственный способ обучения и превзошел алгоритмы человека

Исследователи Google DeepMind создали систему искусственного интеллекта, которая самостоятельно изобрела новый метод обучения. Разработанный искусственным интеллектом алгоритм DiscoRL показал лучшие результаты, чем алгоритмы созданные человеком, в серии сложных задач, включая классические видеоигры Atari и новые тесты.
Владимир Губайловский
Владимир Губайловский
ИИ придумал собственный способ обучения и превзошел алгоритмы человека
Public Domain
Обучение с подкреплением — это метод машинного обучения, при котором ИИ-агент учится принимать решения, взаимодействуя со средой. Агент получает положительные или отрицательные сигналы (награды или штрафы) за свои действия и постепенно вырабатывает стратегию поведения, максимизирующую суммарную награду. Этот подход напоминает дрессировку животных или воспитание детей. Классический пример — обучение ИИ игре в шахматы, где победа дает награду, а проигрыш — штраф.

Искусственный интеллект традиционно учится методом проб и ошибок, но до сих пор правила этого обучения задавали люди. Это они разрабатывая алгоритмы и устанавливая параметры. Так происходит и при обучении с подкреплением, когда ИИ получает награды за успешные действия. Процесс создания таких алгоритмов занимает много времени у специалистов и ограничен человеческой интуицией.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые решили применить принцип эволюции к самому поиску алгоритмов награды. Они создали большую цифровую популяцию ИИ-агентов, которые пытались решать множество задач в различных сложных средах, используя определенное правило обучения. За ними наблюдала «мета-нейросеть» — родительский ИИ, который анализировал производительность агентов и изменял правило обучения так, чтобы следующее поколение училось быстрее и работало эффективнее. Фактически этот родительский ИИ искал и менял алгоритмы награды, чем до сих пор занимались только люди. Работа опубликована в журнале Nature.

Метаобучение с использованием градиента выученной политики (LPG). (Слева) Агент, параметризованный θ, производит вероятности действий π и вектор предсказаний y для состояния. (Средняя) Правило обновления (LPG), параметризованное η, принимает выходы агента в качестве входных данных и разворачивает LSTM в обратном направлении, чтобы получить цели для выходов агента (πˆ, yˆ). (Справа) Правило обновления η метаобучается на основе множества жизней, в каждой из которых отдельный агент взаимодействует с окружением, взятым из распределения, и обновляет свои параметры θ с помощью общего правила обновления. Метаградиент метаградиент вычисляется для максимизации отдачи после каждого K < N обновления параметров по скользящему окну, усредненная по всем параллельным временам жизни.
Метаобучение с использованием градиента выученной политики (LPG). (Слева) Агент, параметризованный θ, производит вероятности действий π и вектор предсказаний y для состояния. (Средняя) Правило обновления (LPG), параметризованное η, принимает выходы агента в качестве входных данных и разворачивает LSTM в обратном направлении, чтобы получить цели для выходов агента (πˆ, yˆ). (Справа) Правило обновления η метаобучается на основе множества жизней, в каждой из которых отдельный агент взаимодействует с окружением, взятым из распределения, и обновляет свои параметры θ с помощью общего правила обновления. Метаградиент метаградиент вычисляется для максимизации отдачи после каждого K < N обновления параметров по скользящему окну, усредненная по всем параллельным временам жизни.
https://papers.neurips.cc/paper_files/paper/2020/file/0b96d81f0494fde5428c7aea243c9157-Paper.pdf
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как ИИ научился учить другие ИИ

Система обнаружила новое правило обучения DiscoRL. Команда использовала его для тренировки нового ИИ-агента и сравнила результаты с лучшими человеческими алгоритмами, такими как MuZero. (MuZero тоже играл с Atari, это очень продвинутый алгоритм, который не знает заранее правил, а находит их в процессе игры).

Игровой процесс NetHack с графическим интерфейсом.
Игровой процесс NetHack с графическим интерфейсом.
Википедия
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Сначала агента обучили на классических играх Atari, затем проверили на новых задачах, включая игры Crafter и NetHack.

Результаты оказались достаточно убедительные. На тестовом наборе Atari Benchmark агент, обученный с помощью DiscoRL, превзошел все алгоритмы, разработанные людьми. При столкновении с незнакомыми задачами он показал результаты на уровне передовых достижений, доказав, что система действительно открыла собственное правило обучения.

«Наши результаты предполагают, что алгоритмы обучения с подкреплением, необходимые для продвинутого искусственного интеллекта, вскоре могут быть автоматически обнаружены из опыта агентов, а не разработаны вручную», — написали исследователи.