21.05.25

Google представила Veo 3 — нейросеть, которая генерирует видео сразу со звуком

Николай Абатуров

создал новость по описанию

Страница автора

20 мая Google выпустила ИИ-модель Veo 3 для генерации видео по текстовому описанию.

Ее представили на конференции Google I/O вместе с ИИ-редактором Flow. Главное отличие от аналогов вроде Runway или Sora — ролики генерируются сразу с подходящим аудио. Расскажу подробнее.

Модель Veo 3 доступна в приложении Flow. Это редактор, который объединяет Veo 3 с текстовой нейросетью Google Gemini и моделью для создания изображений Imagen 4. Flow похож на Sora от OpenAI.

Бесплатный курс Учебника Т⁠—⁠Ж «Как упростить жизнь с помощью нейросетей»

Ролик генерируется по текстовому запросу. Все промпты сохраняются в редакторе, с ними можно свободно экспериментировать. Например, в запросе можно задать описание сцены и стиль съемки, а затем развить сюжет, добавить или убрать персонажей или объекты.

Аудио генерируется одновременно с видео. Veo 3 самостоятельно создает подходящие под ролик фоновые шумы и звуки окружения, а также диалоги. При желании можно указать в описании сцены, какая музыка должна играть или с какими интонациями будут общаться персонажи.

Деморолик со сгенерированным диалогом

Допрос утки

Виолончелистка

Можно управлять «камерой». Для этого нужно указать в текстовом запросе движение «оператора». Например, задать плавный переход плана с общего на портретный или же изменить угол «камеры» во время диалога.

У Veo 3 есть защита от дипфейков. Google утверждает, что все видео, созданные Veo 3, помечаются невидимым водяным знаком SynthID.

Veo 3 доступна только платно. Для использования ИИ-модели потребуется новая подписка Google AI Ultra за 250 $⁣ (20 078 ₽) в месяц.