Робот учится готовить и забивать гвозди, просто просматривая видео

Команда исследователей создала систему, позволяющую роботам осваивать сложные навыки работы с инструментами, наблюдая за обычными видео людей. Роботы научились переворачивать яичницу на сковородке, забивать гвозди и немного бить по воротам. Главное достижение системы в том, что роботы «учатся как дети», просто глядя на то, что делают другие.
Владимир Губайловский
Владимир Губайловский
Робот учится готовить и забивать гвозди, просто просматривая видео
Робот учится подбрасывать печенье на сковородке. https://arxiv.org/abs/2504.04612
В ноябре 2024 года робот, просматривая видеозаписи опытных хирургов, научился выполнять хирургические процедуры так же умело, как врачи-люди. Тогда ученые использовали для обучения сотни видео, записанных с камер, размещенных на манипуляторах роботов da Vinci во время реальных операций. Робот научился решать три важнейшие хирургические задачи: манипуляции с иглой, подъем тканей тела и наложение швов. Обучение роботов по видео становится мейнстримом в робототехнике — от манипуляции инструментами до хирургических операций.

Большинство современных роботов запрограммированы для выполнения конкретных повторяющихся задач. Они с трудом справляются с неожиданными ситуациями и не могут адаптироваться к новым условиям без трудоемкого перепрограммирования. Команда исследователей предложила решение этой проблемы, создав технологию, которая позволяет роботам учиться использовать инструменты естественным образом — наблюдая за видеозаписями.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Новый подход получил название «Tool-as-Interface» и опубликован на сервере препринтов arXiv. Для создания обучающего материала достаточно двух видов с камер — например, с пары смартфонов.

Роботы как дети

Разные виды действий робота.
Разные виды действий робота. https://arxiv.org/abs/2504.04612
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Технология работает следующим образом: сначала модель компьютерного зрения MASt3R анализирует два кадра видео и создает трехмерную модель сцены. Затем с помощью метода рендеринга (3D Gaussian splatting) система генерирует дополнительные точки обзора, позволяя роботу «видеть» сцену под разными углами.

Продолжение ниже Продолжение

Метод позволяет удалить человека из кадра. Система выделяет только инструмент и его взаимодействие с окружающей средой. Такой подход позволяет роботу сосредоточиться на траектории и ориентации инструмента, а не копировать движения человеческих рук. Это обеспечивает универсальность навыка для разных роботов независимо от конфигурации их манипуляторов или камер.

Робот учится подбрасывать различные предметы.
Робот учится подбрасывать различные предметы. https://arxiv.org/abs/2504.04612
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Исследователи протестировали систему на пяти задачах: забивание гвоздя, захват «тефтели», переворачивание яичницы на сковороде, балансировка винной бутылки и удар по мячу. Эти задачи требуют скорости, точности и адаптивности. По сравнению с традиционными методами телеуправления, Tool-as-Interface показал на 71% более высокие показатели успеха и на 77% быстрее собирал обучающие данные.

«Наш подход был вдохновлен тем, как учатся дети. Они просто наблюдают за взрослыми», — отметил ведущий автор исследования Хаонан Чен. — «Детям не нужно использовать тот же самый инструмент, что и тот человек, за которым они наблюдают; они могут практиковаться с чем-то похожим. Мы хотели узнать, сможем ли мы воспроизвести эту способность у роботов».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Результаты открывают возможности для обучения роботов с помощью видео со смартфонов и роликов с YouTube, а таких видео — миллиарды. Система устраняет необходимость в профессиональных операторах или специализированном оборудовании.

Загружаем