ИИ-модель научилась определять видеофейки, на которых лица реальны, а фон подделан

Ученые из Калифорнийского университета в Риверсайде совместно с исследователями Google создали систему UNITE, способную обнаруживать поддельные видео с реальными лицами, но с измененным фоном.
Владимир Губайловский
Владимир Губайловский
ИИ-модель научилась определять видеофейки, на которых лица реальны, а фон подделан
На фейковых фотографиях, созданных с помощью ИИ, Папа Франциск прогуливается в дизайнерском пальто, чего он никогда не делал. Но этот фейк — уже «прошлый век», его системы детектирования deepfake определяют достаточно легко. https://www.cbsnews.com/
Определить поддельный фон гораздо труднее, чем синтезированное лицо. Лицо имеет четкую структуру, и систему можно обучить отличать отклонения. Количество различных фонов фактически безгранично, и в результате с «переносом» реального человека на поддельный фон ИИ-системы, определяющие подделки, справляются пока слабо.

Традиционные детекторы поддельных видео сосредотачивались почти исключительно на лицах, что ограничивало их эффективность. «Дипфейки эволюционировали», — отмечает соавтор разработки Рохит Кунду. Современные генеративные модели позволяют создавать полностью синтетические видео — от лиц до фоновых элементов. Злоумышленники могут манипулировать сценой, искажая истину даже без изменения персонажей.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Существуют многочисленные способы подделать видео, не меняя ни лица, ни слов, которые говорит человек. Можно изменить локацию и показать реальное видео политика, выступающего в студии, на фоне разрушенного города или роскошной резиденции, создавая ложное впечатление о месте и контексте заявления.

К речи реального человека можно добавить фон с ликующими или протестующими людьми, кардинально меняя восприятие события. Особенно коварно то, что зрители обычно не подвергают сомнению фон: они концентрируются на говорящем. Если лицо и голос выглядят аутентично, мозг автоматически принимает весь контекст как достоверный.

Лицо на фоне

Схема работы: Существующие методы обнаружения дипфейков в основном нацелены на выявление видеороликов, где происходят манипуляции с лицами, и большинство из них не могут делать выводы, если на видео не обнаружено лицо. UNITE эффективно обнаруживает манипуляции с лицом/фоном и полностью синтетический контент.
Схема работы: Существующие методы обнаружения дипфейков в основном нацелены на выявление видеороликов, где происходят манипуляции с лицами, и большинство из них не могут делать выводы, если на видео не обнаружено лицо. UNITE эффективно обнаруживает манипуляции с лицом/фоном и полностью синтетический контент.
https://arxiv.org/abs/2412.12278
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Система UNITE (Universal Network for Identifying Tampered and synthEtic videos) анализирует не только лица, но полные видеокадры, включая фон и паттерны движения.UNITE использует трансформер-архитектуру глубокого обучения для анализа видеоклипов. Система выявляет тонкие пространственно-временные несоответствия, которые упускают существующие методы. Описание разработки размещено на сервере препринтов arxiv.

Инновационный метод обучения «attention-diversity loss» заставляет систему мониторить множественные визуальные области в каждом кадре, предотвращая фокусировку только на лицах. В результате UNITE способен помечать широкий спектр подделок: от простых замен лиц до сложных полностью синтетических видео.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Обзор архитектуры UNITE.
Обзор архитектуры UNITE.
https://arxiv.org/abs/2412.12278

Разработка UNITE происходила в эпоху массового распространения text-to-video и image-to-video генераторов. Эти ИИ-платформы делают создание убедительных видеофейков доступным практически любому пользователю, создавая серьезные риски для личностей и институтов.

Команда представила исследование на конференции CVPR 2025 в Нэшвилле. Сотрудничество с Google обеспечило доступ к обширным датасетам и вычислительным ресурсам, необходимым для обучения модели на широком спектре синтетического контента.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Хотя система все еще находится в разработке, UNITE может стать важным инструментом борьбы с видеодезинформацией. Потенциальные пользователи системы — это социальные платформы, фактчекеры и редакции, работающие над предотвращением вирусного распространения поддельных видео.

Рохит Кунду говорит: «Люди имеют право знать, реально ли то, что они видят. И по мере того, как ИИ становится лучше в подделке реальности, мы должны становиться лучше в защите истины».