Переводчик Google научился имитировать голос пользователя

Google интенсивно работает над голосовыми помощниками и сервисами перевода речи «на лету» — это взаимосвязанные продукты, перспективы которых неоспоримы. В своем блоге, посвященном разработкам искусственного интеллекта, компания поделилась новейшей технологией: перевод речи в речь с сохранением голоса говорящего.

В 2018 появились первые демонстрации работы нового проекта Duplex. Это расширение ассистента Google могло совершать звонки самостоятельно и голосом бронировать столик в ресторане, номер в гостинице или заказывать билеты. Компания смогла добиться такого звучания компьютерного голоса, что у собеседников не возникало дискомфорта и общение происходило естественно. В некоторых случаях люди не сразу понимали, что говорят с программой.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В среду, 15 мая в блоге Google AI появилась статья с описанием новой программы Translatotron и демонстрацией ее работы (несколько десятков звукозаписей для сравнения размещены по ссылке). С помощью нейросетевых алгоритмов искусственного интеллекта система произносит переведенную речь на целевом языке тем же голосом, каким был совершен ввод исходного звукового фрагмента. Иными словами, пользователь просто говорит, а голосовой ассистент переводит его речь на нужный язык с сохранением интонации, тембра и высоты голоса.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Это новый шаг в речевых переводчиках, но неизвестно, в каком виде эта технология будет внедряться в продукты Google. Существующие алгоритмы перевода речи в речь состоят из трех этапов: распознавание речи, перевод текста и его озвучивание. Translatotron работает по совершенно иному принципу — «последовательность-в-последовательность», в котором программа действует также, как наш мозг, переводя речь на лету.

Сервис Google Translate практически полностью вытеснил всех конкурентов с рынка мобильных и онлайн-переводчиков, однако компания не останавливается и добавляет в него новые возможности. Сейчас как приложение для смартфонов, так и веб-сервис умеют не только переводить любые объемы текста, но и распознавать слова на изображениях, а также в звуковых файлах. Последняя функция особенно удобна, если пользователь не знаком с письменностью другого языка и вынужден пытаться понять иностранца «на слух».