ИИ-модель наделяет роботов памятью в режиме реального времени

Исследователи из MIT разработали систему DAAAM, которая дает роботам возможность запоминать окружающий мир в режиме реального времени. В отличие от прежних подходов, модель фиксирует не только внешний вид объектов, но их точное расположение в пространстве и время наблюдения. Технология формирует динамическую базу данных, позволяя машинам отвечать на сложные вопросы человека и ориентироваться на заводах, складах и в больницах.
Владимир Губайловский
Владимир Губайловский
ИИ-модель наделяет роботов памятью в режиме реального времени
С помощью DAAAM робот может быстро обращаться к своей памяти, чтобы отвечать на сложные вопросы об окружающей среде простым языком. В данном случае, чтобы ответить на вопрос, робот осуществляет поиск в своей памяти по слову «скульптура», чтобы вспомнить произведения искусства, которые он видел на территории кампуса. MIT
Проблема памяти роботов осложняется «эффектом катастрофического забывания». Когда обычную нейросеть обучают новой задаче или показывают ей новые локации, она полностью стирает из памяти старые данные. Разработчики систем ИИ вынуждены искать баланс между пластичностью (способностью усваивать новое) и стабильностью (сохранением прежнего опыта), что делает архитектуру трехмерных графов времени, предложенную инженерами MIT, важнейшим шагом вперед.

Человеческая память устроена удивительно эффективно: мы без труда связываем воедино образ предмета, место, где его видели, и время. Роботы долгое время были лишены такой способности, воспринимая мир лишь «в моменте». Новая архитектура DAAAM (Describe Anything, Anywhere, at Any Moment) в корне меняет ситуацию. Работа размещена на сервере arXiv.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Система обрабатывает видеопоток с камеры и непрерывно выстраивает так называемый четырехмерный граф сцены. Каждому замеченному объекту или локации присваивается индивидуальная карточка, содержащая текстовое описание, 3D-координаты и временную метку. 

Исследователи из Массачусетского технологического института (MIT) разработали систему долгосрочной памяти для роботов, сочетающую в себе передовые методы представления карт и подробные описания окружающей среды. На данном примере движущийся робот привязывает подробные описания к велосипедам, которые он видит во время исследования.
Исследователи из Массачусетского технологического института (MIT) разработали систему долгосрочной памяти для роботов, сочетающую в себе передовые методы представления карт и подробные описания окружающей среды. На данном примере движущийся робот привязывает подробные описания к велосипедам, которые он видит во время исследования. MIT

Главная сложность заключалась в генерации текстовых описаний: мощные ИИ-модели слишком медленны для работы с каждым кадром видео. Ученые решили эту проблему, объединив ИИ-анализ в пакетный режим на отдельном вычислительном потоке. Система выбирает только самые четкие кадры для группы объектов и обрабатывает их одновременно, что дало десятикратное ускорение и обеспечило работу архитектуры в реальном времени.

Продолжение ниже Продолжение
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Результаты тестов и барьеры на пути к внедрению

Обзор предлагаемого подхода. Исходя из видеопотока RGB-D, мы сначала разбиваем сцену на фрагменты и отслеживаем их во времени в пространстве изображений с помощью облегченного трекера.
Обзор предлагаемого подхода. Исходя из видеопотока RGB-D, мы сначала разбиваем сцену на фрагменты и отслеживаем их во времени в пространстве изображений с помощью облегченного трекера. https://arxiv.org/pdf/2512.00565

Созданную базу данных анализирует ИИ-агент, способный понимать обычную человеческую речь. Робота можно спросить, где лежит инструмент или как долго открыта дверь, и он даст точный ответ. В ходе масштабных тестов система DAAAM показала превосходство над аналогами: точность навигации по текстовым командам выросла на 28%. 

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Но разработчики честно указывают на текущие ограничения. Модель описания объектов обучалась на скромном наборе данных и порой ошибается, додумывая детали на основе стереотипов — например, утверждает, что у дверей лифта есть ручки. Кроме того, скорость обработки пока достаточна для наземных колесных роботов, но слишком мала для скоростных дронов. При длительной работе объем хранимых описаний может стать избыточным, поэтому авторы планируют внедрить алгоритмы автоматического сжатия данных. Код проекта будет полностью открыт для сообщества.