Робот научился синхронизировать движения губ и слова, которые он говорит или поет

Инженеры Колумбийского университета представили робота, который самостоятельно обучается синхронизировать движения губ с человеческой речью и пением. Эта технология призвана сделать взаимодействие людей и андроидов более естественным, преодолевая барьер «зловещей долины» с помощью точной имитации мимики.
Владимир Губайловский
Владимир Губайловский
Робот научился синхронизировать движения губ и слова, которые он говорит или поет
Робот, который научился говорить. https://www.science.org/doi/10.1126/scirobotics.adx3017
Термин «зловещая долина» описывает психологический дискомфорт, который люди испытывают при виде человекоподобного объекта, выглядящего почти как человек, но имеющего едва заметные изъяны в поведении или облике. Исследования показывают, что именно застывшая или неестественная нижняя часть лица вызывает наибольшее отторжение. Овладение правильной артикуляцией — ключевой шаг к тому, чтобы роботы-помощники воспринимались нами как дружелюбные спутники, а не пугающие подобия.

Во время общения почти на 50% внимание сосредоточено на движениях губ собеседника. До недавнего времени даже самые совершенные роботы-гуманоиды в этом напоминали скорее примитивных кукол, чьи челюсти двигались невпопад. Группа исследователей под руководством Хода Липсона в лаборатории Creative Machines применила принципиально новый подход.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Вместо того чтобы программировать жесткие правила для каждого звука, ученые позволили машине учиться подобно ребенку. Робот, оснащенный двадцатью шестью миниатюрными моторами под гибкой силиконовой кожей, сначала провел часы перед зеркалом. Он совершал тысячи случайных движений, сопоставляя команды двигателей с визуальным результатом, который видел в отражении.

Робот, который научился говорить.
Робот, который научился говорить. https://www.science.org/doi/10.1126/scirobotics.adx3017
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как отмечает один из ведущих авторов работы Юйхан Ху: «Когда способность к синхронизации губ сочетается с разговорным ИИ, таким как ChatGPT или Gemini, эффект добавляет совершенно новую глубину связи, которую робот устанавливает с человеком». Это подчеркивает значимость эмоционального контакта в современной робототехнике. Подробности исследования опубликованы в журнале Science Robotics.

От зеркала к Youtube

После того как машина осознала механику собственного лица, наступил этап имитационного обучения. Искусственный интеллект проанализировал тысячи часов видеороликов на YouTube, изучая, как человеческие губы меняют форму в зависимости от произносимых звуков. В результате робот научился переводить аудиосигнал напрямую в команды для моторов. Команда выложила на YouTube ролик, на котором робот говорит на нескольких языках, в том числе на русском (0:52).

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Альбом песен, пропетый роботом.
Альбом песен, пропетый роботом. https://distrokid.com/hyperfollow/emo311/hello-world-2

В качестве финального теста андроид даже исполнил композицию из собственного музыкального альбома hello world_, созданного нейросетью. Хотя звуки «б» или «у» все еще даются механизму с трудом, система продолжает совершенствоваться в процессе живого общения.