20.05.2023, 17:10

Дипфейки вокруг нас: как ученые нашли способ распознать поддельный голос

При помощи нейросетей подделать можно не только лицо, но и голос. К счастью, ученые смогли разработать метод, при помощи которого эту замену можно распознать.

Никита Шевцев

Теги:

Технологии

Искусственный интеллект

Нейросети

Дипфейки вокруг нас: как ученые нашли способ распознать поддельный голос

Gallo images

Распознать аудиофейк сложнее, чем видео. Но ученые нашли способ сделать это

Дипфейки, как аудио, так и видео, стали возможны только с развитием сложных технологий машинного обучения в последние годы. Они принесли с собой новый уровень неопределенности в отношении цифровых медиа. Чтобы обнаружить эти подделки, многие исследователи обратились к анализу визуальных артефактов — мельчайших сбоев и несоответствий, обнаруженных в видео-дипфейках.

Как распознать поддельный голос

Дипфейки аудио потенциально представляют еще большую угрозу, потому что люди часто общаются устно без видео — например, с помощью телефонных звонков, радио и голосовых записей. Эти голосовые сообщения значительно расширяют возможности злоумышленников использовать подделки.

Для обнаружения дипфейков звука ученые из Университета Флориды разработали метод, который измеряет акустические и динамические различия между голосовыми сэмплами, созданными органически человеком, и теми, которые генерируются синтетически компьютерами.

Люди говорят, прогоняя воздух над различными структурами голосового тракта, включая голосовые связки, язык и губы. Перестраивая эти структуры, вы изменяете акустические свойства своего голосового тракта, благодаря чему можете создавать более 200 различных звуков или фонем. Однако анатомия человека существенно ограничивает акустическое поведение этих разных фонем, что приводит к относительно небольшому диапазону звуков для каждой.

Дипфейк, напротив, создается путем предварительного прослушивания компьютером аудиозаписей жертвы. В зависимости от используемых методов компьютеру может потребоваться прослушать всего от 10 до 20 секунд аудио. Этот звук используется для извлечения ключевой информации об уникальных аспектах голоса жертвы.

Злоумышленник выбирает фразу, которую будет произносить голос, а затем, используя модифицированный алгоритм преобразования текста в речь, генерирует аудиозапись того, как нужную фразу говорит жертва. Этот процесс создания одного образца подделанного аудио может быть выполнен за считанные секунды, что потенциально позволяет злоумышленникам достаточно гибко использовать поддельный голос в разговоре.

Ученые разработали программу, которая может сравнивать возможность воспроизведения звуков человеческой гортанью. Исследователи показали, что дипфейковые аудио нередко включают в себя звуки, которые человеческая гортань в принципе извлечь не может. Программа ученых способна их распознать и сделать вывод о том, является ли аудиозапись фейковой или нет.