Робот учится готовить и забивать гвозди, просто просматривая видео

Команда исследователей создала систему, позволяющую роботам осваивать сложные навыки работы с инструментами, наблюдая за обычными видео людей. Роботы научились переворачивать яичницу на сковородке, забивать гвозди и немного бить по воротам. Главное достижение системы в том, что роботы «учатся как дети», просто глядя на то, что делают другие.
Владимир Губайловский
Владимир Губайловский
Робот учится готовить и забивать гвозди, просто просматривая видео
Робот учится подбрасывать печенье на сковородке. https://arxiv.org/abs/2504.04612
В ноябре 2024 года робот, просматривая видеозаписи опытных хирургов, научился выполнять хирургические процедуры так же умело, как врачи-люди. Тогда ученые использовали для обучения сотни видео, записанных с камер, размещенных на манипуляторах роботов da Vinci во время реальных операций. Робот научился решать три важнейшие хирургические задачи: манипуляции с иглой, подъем тканей тела и наложение швов. Обучение роботов по видео становится мейнстримом в робототехнике — от манипуляции инструментами до хирургических операций.

Большинство современных роботов запрограммированы для выполнения конкретных повторяющихся задач. Они с трудом справляются с неожиданными ситуациями и не могут адаптироваться к новым условиям без трудоемкого перепрограммирования. Команда исследователей предложила решение этой проблемы, создав технологию, которая позволяет роботам учиться использовать инструменты естественным образом — наблюдая за видеозаписями.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Новый подход получил название «Tool-as-Interface» и опубликован на сервере препринтов arXiv. Для создания обучающего материала достаточно двух видов с камер — например, с пары смартфонов.

Роботы как дети

Разные виды действий робота.
Разные виды действий робота.
https://arxiv.org/abs/2504.04612
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Технология работает следующим образом: сначала модель компьютерного зрения MASt3R анализирует два кадра видео и создает трехмерную модель сцены. Затем с помощью метода рендеринга (3D Gaussian splatting) система генерирует дополнительные точки обзора, позволяя роботу «видеть» сцену под разными углами.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Метод позволяет удалить человека из кадра. Система выделяет только инструмент и его взаимодействие с окружающей средой. Такой подход позволяет роботу сосредоточиться на траектории и ориентации инструмента, а не копировать движения человеческих рук. Это обеспечивает универсальность навыка для разных роботов независимо от конфигурации их манипуляторов или камер.

Робот учится подбрасывать различные предметы.
Робот учится подбрасывать различные предметы.
https://arxiv.org/abs/2504.04612
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Исследователи протестировали систему на пяти задачах: забивание гвоздя, захват «тефтели», переворачивание яичницы на сковороде, балансировка винной бутылки и удар по мячу. Эти задачи требуют скорости, точности и адаптивности. По сравнению с традиционными методами телеуправления, Tool-as-Interface показал на 71% более высокие показатели успеха и на 77% быстрее собирал обучающие данные.

«Наш подход был вдохновлен тем, как учатся дети. Они просто наблюдают за взрослыми», — отметил ведущий автор исследования Хаонан Чен. — «Детям не нужно использовать тот же самый инструмент, что и тот человек, за которым они наблюдают; они могут практиковаться с чем-то похожим. Мы хотели узнать, сможем ли мы воспроизвести эту способность у роботов».

Результаты открывают возможности для обучения роботов с помощью видео со смартфонов и роликов с YouTube, а таких видео — миллиарды. Система устраняет необходимость в профессиональных операторах или специализированном оборудовании.