Gemini AI научилась превращать фото в видео

«Нажми на Play!»: Gemini AI научилась превращать фото в видео

Google представила новую функцию Gemini AI, которая позволяет превращать фотографии в короткие видеоролики с синхронизированным звуковым сопровождением. Приготовьтесь, будет динамично! Объясняем, как она работает.

Компания Google запустила новую функцию Gemini AI, позволяющую преобразовывать фотографии в восьмисекундные видеоролики. Эта технология основана на модели видео Google Veo 3. Она способна добавлять к изображениям звуковое сопровождение — например, фоновые шумы, звуки окружающей среды и речь.

Функция уже доступна подписчикам Google AI Ultra и Pro в некоторых регионах. Позже она будет запущена на сайте и на мобильных устройствах.

Чтобы воспользоваться функцией, пользователи Gemini должны выбрать опцию «инструменты» в строке подсказок, затем «видео» и загрузить свою фотографию вместе с текстовым описанием желаемого движения.

Можно также включить аудиоописания для диалогов, звуковых эффектов и окружающего шума, которые, по словам Google, будут идеально синхронизированы с визуальными эффектами. Готовые видео предоставляются в формате MP4 с разрешением 720p и соотношением сторон 16:9.

Google совершила прорыв в мире искусственного интеллекта, официально представив Gemini AI в декабре 2023 года. Эта мультимодальная нейросеть, способная одновременно обрабатывать текст, изображения, аудио и видео, стала флагманским ИИ-продуктом компании, бросив вызов ChatGPT.

Gemini была анонсирована в трех версиях: Nano (для мобильных устройств), Pro (универсальная) и Ultra (самая мощная, для сложных задач). Особый ажиотаж вызвала демонстрация возможностей модели — например, Gemini могла анализировать научные схемы, сочинять музыку по описанию и даже вести осмысленные диалоги о загруженных изображениях.

Хотя полный потенциал Gemini Ultra раскрылся позже, в 2024 году, именно декабрьский запуск обозначил новый этап в гонке ИИ-технологий, где Google заявила о своих амбициях стать лидером рынка.

«Вы можете проявить творческий подход, оживляя повседневные предметы, рисунки и картины или добавляя движение к сценам природы»

Google

Все сгенерированные видео содержат видимую водяную метку, которая указывает на то, что они созданы с помощью ИИ. Также в роликах будет невидимая цифровая водяная метка SynthID.

Подобная функция уже доступна в Flow, инструменте для создания фильмов с помощью генеративного ИИ, запущенного Google в марте. Теперь пользователи Gemini могут анимировать свои фотографии, не открывая другое приложение. Google сообщает, что Flow теперь также будет запущен в 75 странах.