Человеческая память устроена удивительно эффективно: мы без труда связываем воедино образ предмета, место, где его видели, и время. Роботы долгое время были лишены такой способности, воспринимая мир лишь «в моменте». Новая архитектура DAAAM (Describe Anything, Anywhere, at Any Moment) в корне меняет ситуацию. Работа размещена на сервере arXiv.
ИИ-модель наделяет роботов памятью в режиме реального времени

Система обрабатывает видеопоток с камеры и непрерывно выстраивает так называемый четырехмерный граф сцены. Каждому замеченному объекту или локации присваивается индивидуальная карточка, содержащая текстовое описание, 3D-координаты и временную метку.
Главная сложность заключалась в генерации текстовых описаний: мощные ИИ-модели слишком медленны для работы с каждым кадром видео. Ученые решили эту проблему, объединив ИИ-анализ в пакетный режим на отдельном вычислительном потоке. Система выбирает только самые четкие кадры для группы объектов и обрабатывает их одновременно, что дало десятикратное ускорение и обеспечило работу архитектуры в реальном времени.
Результаты тестов и барьеры на пути к внедрению
Созданную базу данных анализирует ИИ-агент, способный понимать обычную человеческую речь. Робота можно спросить, где лежит инструмент или как долго открыта дверь, и он даст точный ответ. В ходе масштабных тестов система DAAAM показала превосходство над аналогами: точность навигации по текстовым командам выросла на 28%.
Но разработчики честно указывают на текущие ограничения. Модель описания объектов обучалась на скромном наборе данных и порой ошибается, додумывая детали на основе стереотипов — например, утверждает, что у дверей лифта есть ручки. Кроме того, скорость обработки пока достаточна для наземных колесных роботов, но слишком мала для скоростных дронов. При длительной работе объем хранимых описаний может стать избыточным, поэтому авторы планируют внедрить алгоритмы автоматического сжатия данных. Код проекта будет полностью открыт для сообщества.


