Предсказать будущее на 8 секунд

Как российский дата-сайнтист решал одну из самых важных задач в индустрии автономного вождения.

Кирилл Бродт — молодой ученый, аспирант университета Монреаля и сотрудник центра искусственного интеллекта МТС. Его команда заняла третье место в Waymo Motion Prediction Challenge – престижном международном соревновании дата-сайнтистов, которые развивают проекты в области компьютерного зрения и предиктивной аналитики. В нем принимали участие 19 команд из разных стран. Победители создали наиболее точные модели, которые прогнозируют поведение участников дорожного движения. Как команда Кирилла решала одну из ключевых задач индустрии автономного вождения, расскажем в этой статье.

Кирилл Бродт
Кирилл Бродт
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Беспилотный проект Waymo – дочерняя компания холдинга Alphabet Inc (Google), один из мировых лидеров в области разработки беспилотных автомобилей. С октября 2020 года роботакси Waymo совершают коммерческие поездки без водителей-испытателей за рулем. Waymo управляет коммерческим сервисом беспилотных такси Waymo One, который работает в Аризоне.

Любой водитель должен понимать, что собираются делать окружающие его участники дорожного движения. Этот пешеход пытается перейти улицу? Эта машина припаркована параллельно или вот-вот свернет на мою полосу? Остановится ли этот мчащийся автомобиль у знака «Стоп»? Правильная оценка вероятного поведения других водителей также важна для безопасности и безаварийной езды.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Прогнозирование действий других участников дорожного движения – один из самых важных вопросов для развития индустрии автономного вождения. Сейчас он находится в стадии активного исследования. Чтобы сделать большой шаг вперед в индустрии беспилотного транспорта, достаточно с высокой степенью точности предсказать, где окажутся другие автомобили и участники дорожного движения в ближайшие несколько секунд. Придумать, как это сделать, компания Waymo предложила в рамках международного соревнования Waymo Motion Prediction Challenge. Суть задания состояла в том, чтобы, наблюдая за участниками дорожного движения в течение одной секунды, предсказать их действия в течение следующих восьми секунд. При этом речь шла не об одном перекрестке, масштаб решения — город в США.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Два миллиона кадров для точного прогноза

Над решением этой задачи работали порядка 20 команд из разных стран. В команде Кирилла также были Степан Конев из Сколтеха и Артём Санакоев из университета Гейдельберга. У ребят было 2 недели на то, чтобы разработать свой подход.

«Сложность была в том, что исходные данные представляли из себя большую таблицу с многочисленными параметрами, такими как положение объектов (дорожные полосы, светофоры) и агентов (автомобили, велосипедисты и пешеходы), включая их скорости, угловые скорости и направления. Чтобы решить задачу, нам нужно было сначала представить эти данные в удобном виде, – рассказывает Кирилл. – Мы провели растеризацию, то есть нанесли дорожную карту и положения всех объектов на изображение, кодируя их историю дополнительными каналами. Другими словами, превратили табличные данные в картинки, именно это стало самой трудоемкой частью решения. Это позволило получить вид сверху, понятный для человека. Далее мы применили свёрточные нейронные сети, которые отлично подходят для изображений и предсказали 6 различных траекторий каждого участника дорожного движения на 8 секунд вперёд.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В процессе приходилось дорабатывать изображения – мы анализировали, какое именно разрешение картинки подавать модели, чтобы получался наиболее вероятный и точный прогноз. Команда собрала порядка двух миллионов кадров, чтобы получить наиболее верную траекторию для всех агентов дорожного движения – автомобилей, людей, велосипедистов, учитывая знаки дорожного движения, светофоры».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В итоге все участники представили организаторам соревнований несколько вариантов прогнозных траекторий движения, каждую из них сравнили с реальной и измерили качество модели. Считалось количество попаданий и промахов предсказанной траектории в некоторую окрестность эталонной, и исходя из этого вычисляли показатель mean Average Precision (mAP — средняя точность), который и был финальным результатом. Итог работы команды Кирилла – 0,2 mAP, победители выиграли с результатом 0,3 mAP. Можно сказать, что удалось предсказать реальные траектории участников дорожного движения с точностью до нескольких десятков сантиметров.

«На данном этапе развития ML-модели еще не научились эффективно предсказывать траектории движения, – размышляет дата-сайнтист. – Это видно и по метрикам победителей соревнования: 0,2 и 0,3 mAP – это не та точность предсказания, которую можно использовать в реальном мире. Но и такой результат – это важное достижение, которое участники индустрии будут развивать, чтобы беспилотный транспорт стал нашей ежедневной реальностью.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Кстати, команда-победитель решала задачу другим способом: они использовали графовые нейросети, которые учитывают структуру графа, выстраивая взаимосвязи – дороги между агентами дорожного движения – вершинами. Они не представляли данные в виде изображений, потому что работали с другим алгоритмом».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Эра беспилотников не за горами

Чтобы использовать решения победителей на практике, их нужно доработать. Однако и это не означает успешного применения, так как кроме самого алгоритма, важно, чтобы скорость обработки данных была на соответствующем уровне.

«Например, если система будет в течение минуты обрабатывать один кадр, чтобы предсказать развитие событий на 8 секунд вперед, то это не сработает. Я думаю, что решение этой проблемы лежит в плоскости мощности процессора, однако и сам алгоритм должен быть не тяжелым, простым в исполнении, но при этом качественным, – делится Кирилл. – Нельзя сказать, что развитие индустрии беспилотного транспорта зависит от какого-то конкретного фактора, гораздо важнее – развитие технологии прогнозирования будущего с помощью ИИ. Эта тенденция окажет влияние как на область беспилотного транспорта, так и на другие сферы применения машинного обучения, компьютерного зрения и разных ИИ-решений.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Все алгоритмы, которые сейчас создаются, работают на стыке нескольких технологий, например, могут одновременно применяться компьютерное зрение, глубокое обучение, кинематика и теория управления. Машинное обучение не может дать 100% гарантии, что произойдет определенное событие, оно дает вероятностную оценку. Именно поэтому для эффективности работы систем их будут продолжать развивать комплексно. Возможно, через 10 лет беспилотники станут абсолютно безопасными и будут использоваться повсеместно. Пока человек стремится упрощать свою жизнь, технологии искусственного интеллекта будут развиваться и помогать людям автоматизировать разные процессы».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Предсказание будущего. Уже не фантастика

Задача предсказания положения объектов в пространстве важна не только для развития индустрии беспилотного транспорта. Любой автономный объект — будь то робот, дрон или автомобиль — интересует будущее положение других машин, людей, предметов вокруг него. От того, насколько успешно и быстро будет решен этот вопрос, зависят перспективы развития целой индустрии. Роботы будут готовы заменить людей не только за рулем, но и на опасной работе: например, в поисково-спасательных отрядах или в исследовании глубин океанов.

Искусственный интеллект может взять на себя не только опасную работу, но и ту, выполнение которой занимает у людей много времени. Например, при создании мультфильмов, компьютерной графики, геймдизайна. И здесь умение предсказать положение нарисованного персонажа в пространстве тоже может стать основой прорыва.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«При производстве игр или фильмов художник делает наброски на бумаге, после этого вручную превращают рисунок в трехмерную модель в компьютерной программе, — объясняет дата-сайнтист Кирилл Бродт. — При задании позы персонажа требуется настроить углы для каждого сустава скелета 3D-модели. Делать это вручную — долго и не эффективно. Задача машинного обучения в этой сфере – автоматизировать процесс, упростить и ускорить работу человека».

Сейчас Кирилл Бродт учится в аспирантуре университета Монреаля и исследует задачу предсказания 3D-позы нарисованных персонажей. На рынке уже существуют компании, которые предлагают решения, способные создать 3D-модель движений человека на основе фотографий и видео. Подобные технологии применяются в системах видеоаналитики, где требуется определить положение и действия людей в трехмерной плоскости.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В Центре ИИ МТС Кирилл также работает над задачей определения высоты зданий по аэроснимку. Способность анализировать местность с высоты птичьего полета может использоваться для беспилотных дронов, чтобы они могли ориентироваться в пространстве автономно, а также для оценки изменений в городе – следить за динамикой строительства или реагировать на происшествия – аварии или стихийные бедствия, вариантов применения таких решений множество.