Большинство современных роботов запрограммированы для выполнения конкретных повторяющихся задач. Они с трудом справляются с неожиданными ситуациями и не могут адаптироваться к новым условиям без трудоемкого перепрограммирования. Команда исследователей предложила решение этой проблемы, создав технологию, которая позволяет роботам учиться использовать инструменты естественным образом — наблюдая за видеозаписями.
Робот учится готовить и забивать гвозди, просто просматривая видео

Новый подход получил название «Tool-as-Interface» и опубликован на сервере препринтов arXiv. Для создания обучающего материала достаточно двух видов с камер — например, с пары смартфонов.
Роботы как дети

Технология работает следующим образом: сначала модель компьютерного зрения MASt3R анализирует два кадра видео и создает трехмерную модель сцены. Затем с помощью метода рендеринга (3D Gaussian splatting) система генерирует дополнительные точки обзора, позволяя роботу «видеть» сцену под разными углами.
Метод позволяет удалить человека из кадра. Система выделяет только инструмент и его взаимодействие с окружающей средой. Такой подход позволяет роботу сосредоточиться на траектории и ориентации инструмента, а не копировать движения человеческих рук. Это обеспечивает универсальность навыка для разных роботов независимо от конфигурации их манипуляторов или камер.

Исследователи протестировали систему на пяти задачах: забивание гвоздя, захват «тефтели», переворачивание яичницы на сковороде, балансировка винной бутылки и удар по мячу. Эти задачи требуют скорости, точности и адаптивности. По сравнению с традиционными методами телеуправления, Tool-as-Interface показал на 71% более высокие показатели успеха и на 77% быстрее собирал обучающие данные.
«Наш подход был вдохновлен тем, как учатся дети. Они просто наблюдают за взрослыми», — отметил ведущий автор исследования Хаонан Чен. — «Детям не нужно использовать тот же самый инструмент, что и тот человек, за которым они наблюдают; они могут практиковаться с чем-то похожим. Мы хотели узнать, сможем ли мы воспроизвести эту способность у роботов».
Результаты открывают возможности для обучения роботов с помощью видео со смартфонов и роликов с YouTube, а таких видео — миллиарды. Система устраняет необходимость в профессиональных операторах или специализированном оборудовании.