Новый инструмент ИИ способен имитировать голос человека, прослушав всего 3 секунды его записи

Корпорация Microsoft представила инструмент искусственного интеллекта для преобразования текста в речь. Самое удивительное – он может имитировать голос человека после прослушивания всего трёхсекундного отрезка его записи.
Новый инструмент ИИ способен имитировать голос человека, прослушав всего 3 секунды его записи
Unsplash

По словам Microsoft, в настоящее время ни одна другая модель ИИ не может звучать так же естественно

Как сообщает Gizmodo, новый инструмент под названием VALL-E основан на нейросети EnCodec. Изначально EnCodec разрабатывался как способ улучшить качество телефонной связи в районах с плохим покрытием.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

VALL-E обучался на аудиобиблиотеке LibriLight, в которую входит около 60 тысяч часов англоязычной речи от 7000 говорящих.

Имитация голоса человека

Согласно заявлению компании, VALL-E сохраняет тон говорящего до конца сообщения, а также имитирует акустику помещения, из которого он впервые услышал голос. Для этого системе требуется всего 3 секунды записи разговора.

По словам Microsoft, в настоящее время ни одна другая модель ИИ не может звучать так же естественно.

Не всё так гладко

Микрофон
Unsplash
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

На данный момент VALL-E способен симулировать только англоязычную речь. Однако компания продолжает работу над ИИ, «чтобы улучшить производительность модели с точки зрения просодии, стиля речи и сходства говорящих».

Ни журналисты, ни обычные пользователи также пока не могут узнать, насколько хорошо работает инструмент. Microsoft решила не выпускать ИИ для широкой публики – вероятно, чтобы им не воспользовались злоумышленники.