17.01.2026, 11:13

Робот научился синхронизировать движения губ и слова, которые он говорит или поет

Инженеры Колумбийского университета представили робота, который самостоятельно обучается синхронизировать движения губ с человеческой речью и пением. Эта технология призвана сделать взаимодействие людей и андроидов более естественным, преодолевая барьер «зловещей долины» с помощью точной имитации мимики.

Владимир Губайловский

Теги:

Роботы

Робот научился синхронизировать движения губ и слова, которые он говорит или поет

Робот, который научился говорить. https://www.science.org/doi/10.1126/scirobotics.adx3017

Термин «зловещая долина» описывает психологический дискомфорт, который люди испытывают при виде человекоподобного объекта, выглядящего почти как человек, но имеющего едва заметные изъяны в поведении или облике. Исследования показывают, что именно застывшая или неестественная нижняя часть лица вызывает наибольшее отторжение. Овладение правильной артикуляцией — ключевой шаг к тому, чтобы роботы-помощники воспринимались нами как дружелюбные спутники, а не пугающие подобия.

Во время общения почти на 50% внимание сосредоточено на движениях губ собеседника. До недавнего времени даже самые совершенные роботы-гуманоиды в этом напоминали скорее примитивных кукол, чьи челюсти двигались невпопад. Группа исследователей под руководством Хода Липсона в лаборатории Creative Machines применила принципиально новый подход.

Вместо того чтобы программировать жесткие правила для каждого звука, ученые позволили машине учиться подобно ребенку. Робот, оснащенный двадцатью шестью миниатюрными моторами под гибкой силиконовой кожей, сначала провел часы перед зеркалом. Он совершал тысячи случайных движений, сопоставляя команды двигателей с визуальным результатом, который видел в отражении.

Как отмечает один из ведущих авторов работы Юйхан Ху: «Когда способность к синхронизации губ сочетается с разговорным ИИ, таким как ChatGPT или Gemini, эффект добавляет совершенно новую глубину связи, которую робот устанавливает с человеком». Это подчеркивает значимость эмоционального контакта в современной робототехнике. Подробности исследования опубликованы в журнале Science Robotics.

От зеркала к Youtube

После того как машина осознала механику собственного лица, наступил этап имитационного обучения. Искусственный интеллект проанализировал тысячи часов видеороликов на YouTube, изучая, как человеческие губы меняют форму в зависимости от произносимых звуков. В результате робот научился переводить аудиосигнал напрямую в команды для моторов. Команда выложила на YouTube ролик, на котором робот говорит на нескольких языках, в том числе на русском (0:52).

В качестве финального теста андроид даже исполнил композицию из собственного музыкального альбома hello world_, созданного нейросетью. Хотя звуки «б» или «у» все еще даются механизму с трудом, система продолжает совершенствоваться в процессе живого общения.