Во время общения почти на 50% внимание сосредоточено на движениях губ собеседника. До недавнего времени даже самые совершенные роботы-гуманоиды в этом напоминали скорее примитивных кукол, чьи челюсти двигались невпопад. Группа исследователей под руководством Хода Липсона в лаборатории Creative Machines применила принципиально новый подход.
Робот научился синхронизировать движения губ и слова, которые он говорит или поет

Вместо того чтобы программировать жесткие правила для каждого звука, ученые позволили машине учиться подобно ребенку. Робот, оснащенный двадцатью шестью миниатюрными моторами под гибкой силиконовой кожей, сначала провел часы перед зеркалом. Он совершал тысячи случайных движений, сопоставляя команды двигателей с визуальным результатом, который видел в отражении.
Как отмечает один из ведущих авторов работы Юйхан Ху: «Когда способность к синхронизации губ сочетается с разговорным ИИ, таким как ChatGPT или Gemini, эффект добавляет совершенно новую глубину связи, которую робот устанавливает с человеком». Это подчеркивает значимость эмоционального контакта в современной робототехнике. Подробности исследования опубликованы в журнале Science Robotics.
От зеркала к Youtube
После того как машина осознала механику собственного лица, наступил этап имитационного обучения. Искусственный интеллект проанализировал тысячи часов видеороликов на YouTube, изучая, как человеческие губы меняют форму в зависимости от произносимых звуков. В результате робот научился переводить аудиосигнал напрямую в команды для моторов. Команда выложила на YouTube ролик, на котором робот говорит на нескольких языках, в том числе на русском (0:52).
В качестве финального теста андроид даже исполнил композицию из собственного музыкального альбома hello world_, созданного нейросетью. Хотя звуки «б» или «у» все еще даются механизму с трудом, система продолжает совершенствоваться в процессе живого общения.


