25.05.2022, 11:41

Почему искусственный интеллект обыгрывает всех в Dota, но пока не выживет в реальном мире

Сможет ли человек научить искусственный интеллект выгуливать собак, чем ИИ похож на ребенка, почему машины быстро эволюционируют в виртуальном, а не в реальном мире, и как в этом помогает машинное обучение?

Компания "Яндекс"

Теги:

Нетленка

Искусственный интеллект

Игрушки

Нейросети

Почему искусственный интеллект обыгрывает всех в Dota, но пока не выживет в реальном мире

Рассказывает лауреат научной премии от Яндекса Алексей Шпильман.

Обучающий гайд для машин и работа над ошибками

ИИ предсказывает пробки на дорогах, подбирает музыку для плейлистов, исправляет ошибки в сообщениях, убирает шум во время видеозвонков — и это лишь малая часть того, где он задействован. Миллионы людей каждый день сталкиваются с работой искусственного интеллекта, но часто даже не догадываются об этом.

Чтобы ИИ помогал в решении практических задач, его сначала нужно обучить. Проведем аналогию: если человек пришел в шахматный клуб и хочет научиться играть, то преподаватель может объяснить ему, как действуют фигуры в определенных позициях, отработать с ним комбинации ходов и так далее. А может просто дать доску и фигурки для игры, рассказать основные правила, порекомендовать несколько учебников и сказать: дальше разбирайся сам.

Первый вариант — машинное обучение с учителем (Supervised learning) — метод, при котором исследователь готовит для ИИ путеводитель с правильными и неправильными действиями. На его основе машина осваивает алгоритм, который применяет для решения аналогичных задач. Как и человек, искусственный интеллект получает фидбек от учителя, анализирует ошибки и совершенствует свою работу.

В реальной жизни этот метод используется для предсказаний погоды, выручки компаний, цен на недвижимость. Банки применяют обучение с учителем при принятии решения о выдаче кредитов: ИИ анализирует клиента по множеству признаков, таких как возраст, зарплата, стаж, кредитная история, наличие собственности, и определяет, способен ли он вернуть запрашиваемую сумму. Другой пример сервисов, где применяется эта технология — голосовые помощники. Создавая Алису, разработчики Яндекса загрузили в компьютер множество текстов и аудиозаписей, чтобы нейросеть «научилась» вести беседы.

Контроль учителя всегда был важным условием образовательного процесса. Но сейчас привычные механики пересматриваются: чаще ценится, если ребенку дают право на ошибку и самостоятельный поиск. Для этого ученика помещают в симуляцию, где он сразу сможет на реальных ситуациях оттачивать разнообразные навыки.

В машинном обучении такой вариант тоже возможен — к нему относится обучение с подкреплением (Reinforcement learning). В этом случае у компьютера или, как говорят ученые, у «агента», нет обучающих алгоритмов с четкими действиями. Искусственный интеллект совершает действие, а затем смотрит, как изменилась окружающая среда и его положение в ней. Если шаг был успешным и приблизил ИИ к выполнению цели, то он получает награду — это стимулирует его продолжать движение в выбранном направлении. В обратной ситуации искусственный интеллект теряет наградные очки и отступает на несколько шагов назад, чтобы внести изменения в цепочку своих действий. Постепенно осваиваясь в незнакомой среде, машина понимает, что от нее требуется и какими способами лучше достичь поставленной задачи.

Берем пример с ИИ: учимся доводить дело до конца и не терять терпение

Представим, что мы хотим обучить машину выгуливать собаку. Это сложная задача, которую можно разбить на этапы: робот должен позвать питомца к двери, одеть его, закрепить поводок, выйти на улицу, следить, чтобы пес не вырывался и не бросался на людей, затем вернуться домой, раздеть, помыть лапы. В рамках обучения с подкреплением задача машины — самостоятельно разложить запрос на отдельные действия и найти оптимальные пути их выполнения. Сначала система может попробовать вывести собаку без поводка. В следующий раз робот наденет шлейку, но забудет утеплить собаку в мороз. Такие попытки ИИ может совершать бессчетное количество раз, пока не найдет оптимальный способ — в этом плане он гораздо более усердный ученик, чем человек.

Освоение сложных навыков у машины пока происходит медленнее, чем у человека. Так, если посчитать время, которое понадобилось ИИ, чтобы научиться играть в DOTA, получится 45 000 лет. Но поскольку процесс происходит в виртуальном окружении, то его можно ускорить и распараллелить и тысячи лет сжать до одного года. Например, боты OpenAI через десять месяцев обучения заняли первое место в турнире The International по Dota 2, обыграв чемпионов мира. Также компании удалось создать робота (а точнее роборуку), которая смогла собрать кубик Рубика. Для этого ИИ провел в виртуальной среде 10 000 симуляционных лет, постоянно тренируясь.

В играх компьютер легко обходит самых талантливых людей, но для прикладного применения этого недостаточно. Реальный мир намного сложнее виртуального: в нем происходит гораздо больше событий, которые сложно спрогнозировать. Ученые работают над тем, чтобы приблизить внедрение алгоритмов RL, но это долгий и дорогой процесс. Вообще в науке полезность для общества не всегда формируется сразу: для открытий часто нужно подготовить научную базу. Таким фундаментальным исследованиям важна инфраструктурная поддержка.

К счастью, рынок это понимает и помогает ученым: к примеру, я и мои студенты принимали участие в конкурсе на соискание премии имени Ильи Сегаловича в области компьютерных наук от Яндекса. Гранты, доступ к специализированным ресурсам для машинного обучения и внимание экспертного сообщества, которое получают лауреаты, дают возможность быстрее выводить открытия из лабораторий в реальное производство.

Мастер-класс от человека: как ИИ выживать в реальном мире

Можно вспомнить несколько случаев успешного применения обучения с подкреплением в реальной жизни. К примеру, в Google на основе RL создали алгоритм глубокого обучения PRIME. Он помогает разрабатывать быстрые и компактные процессоры для обработки задач искусственного интеллекта. Изготовленные с помощью ИИ чипы имеют задержку до 50% меньше, а время для их производства сократилось с нескольких месяцев до шести часов. К тому же сами чипы стали в 1,5 раза меньше, что удешевляет их производство и снижает энергопотребление.

Еще один пример внедрения обучения с подкреплением — шагающие роботы. Они сканируют мир вокруг себя, создают в процессоре модель окружающий обстановки и учатся действовать в этой «виртуальной реальности». Затем полученные навыки используются для ориентирования в реальном мире. Такие роботы уже умеет бегать по жесткой и мягкой почве, подниматься по лестнице и даже балансировать на скользкой поверхности.

Когда мы поймем, как работать с этим методом, то сможем оптимизировать все процессы. А если заглянуть в будущее на несколько десятков лет вперед, то, возможно, эксперименты с RL приведут к тому, что ученые смогут создать некую внечеловеческую сущность. Это будет интересно с философской и психологической точки зрения. Человечество — это закрытая система, которая пытается понять саму себя, ведь в масштабах Вселенной мы пока одни. Появление в будущем чего-то (или кого-то), не ограниченного нашим сознанием и физиологией, поможет людям взглянуть на свою жизнь, найти новые смыслы и получить ответы на многие вопросы.