Мона Лиза заговорила словами Шекспира: разработан ИИ, превращающий изображение и голосовой трек в видео

Исследователи искусственного интеллекта из Института интеллектуальных вычислений Alibaba Group продемонстрировали новое приложение ИИ. Модель получает на входе фотографию лица человека и саундтрек, в котором кто-то говорит или поет. По этим входным данным ИИ создает анимированную версию говорящего или поющего человека.
Мона Лиза заговорила словами Шекспира: разработан ИИ, превращающий изображение и голосовой трек в видео
Мона Лиза произносит монолог Розалинды из пьесы Шекспира «Как вам это понравится». Акт 3. Сцена 2. https://humanaigc.github.io/emote-portrait-alive/
Мона Лиза читает Шекспира, юный Леонардо Ди Каприо — рэп, Одри Хепберн — поет, а девушка из ролика, смонтированного ИИ-моделью Sora делится своими впечатлениями о работе нейросетей. Это производит сильное впечатление.

Исследователи искусственного интеллекта из Института интеллектуальных вычислений Alibaba Group продемонстрировали новое приложение ИИ. Модель получает на входе фотографию лица человека и саундтрек, в котором кто-то говорит или поет. По этим входным данным ИИ создает анимированную версию говорящего или поющего человека.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Существует много приложений ИИ, которые используют фотографию лица для создания анимации. В новом проекте команда Alibaba пошла дальше и добавила звук. Команда использовала диффузионное моделирование, основанное на обучении ИИ на больших наборах аудио- или видеофайлов: команда использовала около 250 часов таких данных для создания своего приложения, которое они назвали Emote Portrait Alive (EMO).

Как научить изображение говорить и двигаться

Обзор метода. Cистема состоит из двух главных этапов. На первом этапе, называемом кодированием кадров, используется сеть ReferenceNet для извлечения признаков из опорного изображения и кадров движения. На втором этапе, названном Diffusion Process, предварительно обученный аудиокодер обрабатывает аудиовставки. Маска области лица интегрируется с многокадровым шумом, чтобы управлять генерацией изображения лица. После этого используется Backbone сеть для облегчения операции шумоподавления. В рамках Backbone сети применяются две формы механизмов внимания (attention): Reference-Attention и Audio-Attention. Эти механизмы необходимы для сохранения идентичности персонажа и модуляции его движений, соответственно. Кроме того, темпоральные модули используются для манипулирования временным измерением и регулировки скорости движения.
Обзор метода. Cистема состоит из двух главных этапов. На первом этапе, называемом кодированием кадров, используется сеть ReferenceNet для извлечения признаков из опорного изображения и кадров движения. На втором этапе, названном Diffusion Process, предварительно обученный аудиокодер обрабатывает аудиовставки. Маска области лица интегрируется с многокадровым шумом, чтобы управлять генерацией изображения лица. После этого используется Backbone сеть для облегчения операции шумоподавления. В рамках Backbone сети применяются две формы механизмов внимания (attention): Reference-Attention и Audio-Attention. Эти механизмы необходимы для сохранения идентичности персонажа и модуляции его движений, соответственно. Кроме того, темпоральные модули используются для манипулирования временным измерением и регулировки скорости движения.
https://humanaigc.github.io/emote-portrait-alive/
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Используя преобразование аудиосигнала в видеокадры, исследователи создали приложение, которое фиксирует тонкую мимику человеческого лица, особенности речи и другие характеристики, которые идентифицируют анимированное изображение как человеческое лицо. Видео точно воссоздают вероятные формы рта, используемые для формирования слов и предложений, и выражения лица, обычно связанные с ними.

Команда опубликовала несколько видеороликов, демонстрирующих поразительно точную работы. Ученые отмечают, что продолжительность готового видео определяется длиной исходной звуковой дорожки.

В команда признает, что использование такого приложения необходимо будет ограничить или контролировать, чтобы предотвратить неэтичное применение этой технологии.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Мона Лиза читает Шекспира

Нажми и смотри

На видео: Mona Lisa. Vocal Source: Shakespeare's Monologue II As You Like It: Rosalind «Yes, one; and in this manner.» https://humanaigc.github.io/emote-portrait-alive/ (Мона Лиза. Источник: монолог Розалинды из комедии Шекспира «Как вам это понравится»: «Да, одного, и вот каким образом».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Приведем английский текст и русский литературный перевод этой классической пьесы.

ROSALIND. Yes, one, and in this manner. He was to imagine me his love, his mistress, and I set him every day to woo me; at which time would I, being but a moonish youth, grieve, be effeminate, changeable, longing and liking, proud, fantastical, apish, shallow...

РОЗАЛИНДА. Одного исцелил. Дело было так. Я заставил его вообразить, что я — его возлюбленная. Он должен был, по моему приказу, ежедневно обхаживать меня. А я, подобно молодой луне, непрерывно менялся. Женщина в моем исполнении была то капризной и жеманной, то желанной и любящей; она представала то гордой и неприступной, то веселой и легкомысленной; порою она заливалась слезами... (Перевод Юрия Лифшица).