
Google представила Veo 3 — нейросеть, которая генерирует видео сразу со звуком

20 мая Google выпустила ИИ-модель Veo 3 для генерации видео по текстовому описанию.
Ее представили на конференции Google I/O вместе с ИИ-редактором Flow. Главное отличие от аналогов вроде Runway или Sora — ролики генерируются сразу с подходящим аудио. Расскажу подробнее.
Модель Veo 3 доступна в приложении Flow. Это редактор, который объединяет Veo 3 с текстовой нейросетью Google Gemini и моделью для создания изображений Imagen 4. Flow похож на Sora от OpenAI.
Ролик генерируется по текстовому запросу. Все промпты сохраняются в редакторе, с ними можно свободно экспериментировать. Например, в запросе можно задать описание сцены и стиль съемки, а затем развить сюжет, добавить или убрать персонажей или объекты.
Аудио генерируется одновременно с видео. Veo 3 самостоятельно создает подходящие под ролик фоновые шумы и звуки окружения, а также диалоги. При желании можно указать в описании сцены, какая музыка должна играть или с какими интонациями будут общаться персонажи.
Можно управлять «камерой». Для этого нужно указать в текстовом запросе движение «оператора». Например, задать плавный переход плана с общего на портретный или же изменить угол «камеры» во время диалога.
У Veo 3 есть защита от дипфейков. Google утверждает, что все видео, созданные Veo 3, помечаются невидимым водяным знаком SynthID.
Veo 3 доступна только платно. Для использования ИИ-модели потребуется новая подписка Google AI Ultra за 250 $ (20 078 ₽) в месяц.
Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult