Veo 3 обзор 2026 — возможности Google, цена, доступ из России

Автор: MashaGPT • 3 Мая, 2026 • Нейросети Veo 3 камера создаёт видеосцены

Veo 3 — флагманская видео-модель Google DeepMind, выпущенная в марте 2026 года, третья итерация Veo после Veo 1 (май 2024) и Veo 2 (декабрь 2024). По состоянию на апрель 2026 это вторая по общему качеству text-to-video модель индустрии после Sora 2 от OpenAI, но в нескольких ключевых нишах Veo 3 — однозначный лидер: текст и логотипы в кадре (точность 91,4% против 78,2% у Sora 2), синхронный нативный звук с диалогами и эффектами (звуковая дорожка генерируется одновременно с видео), интеграция с Google Workspace (можно ссылаться на Google Docs, Slides, YouTube в промпте), YouTube Shorts (нативная публикация одной кнопкой). Veo 3 даёт клипы до 30 секунд в полноценном 4K (3840×2160), 24/30/60 fps, со звуком в кадре.

Главные конкуренты — Sora 2 от OpenAI (выше фотореализм, длительность до 60 секунд) и Kling 2.5 от Kuaishou (бюджетная цена, лучшее движение людей). Veo 3 доступна в подписке Gemini Advanced ($20/мес, 50 генераций по 8 сек/день), Google AI Pro ($30/мес, безлимит с честной политикой), а также через Vertex AI ($0,40 за 5-секундный клип в 1080p, $0,75 в 4K). Из России напрямую модель не запускается — нужен VPN с зарубежной картой, или российский агрегатор MashaGPT, где Veo 3 включена в подписку за 990 ₽/мес вместе с Sora 2, Kling 2.5 и остальным AI-стеком.

В этом обзоре — что Veo 3 умеет, чем отличается от Veo 2, как пользоваться пошагово, 5 готовых промптов под коммерческие задачи, ограничения и как обходить, цена и доступ из России.

Кратко: что такое Veo 3 и кому подходит

Veo 3 — это нейросеть Google DeepMind, которая по текстовому описанию или по референсной картинке генерирует видео до 30 секунд длиной в разрешении до 4K со звуком в кадре. Внутри — диффузионная видео-модель третьего поколения, тренированная на лицензионном видео-датасете YouTube (несколько миллионов часов), кадрах из Google Photos (с согласия пользователей), и собственном синтетическом наборе данных DeepMind для физики и движения. На входе принимает:

текстовый промпт на любом языке (рабочий русский, английский, китайский, немецкий, французский, испанский, японский, арабский — 25 языков с проверенным качеством),
референсную картинку для image-to-video,
ссылку на Google Doc или Slides с подробным брифом (модель сама извлечёт сцены из документа),
ссылку на видео для extend (продолжения существующего). На выходе — MP4 H.264 или HEVC, 1080p или 4K, 24/30/60 fps, со встроенной звуковой дорожкой при включении опции «with audio». Кому Veo 3 подходит: маркетологам и рекламщикам (особенно когда нужны точные надписи в кадре, фирменные логотипы, текстовые подложки — мы это разбирали в статье 233), брендам с фокусом на YouTube Shorts (нативная интеграция и оптимальный пайплайн для Shorts через YouTube Studio), агентствам, работающим с Google Ads и YouTube Ads (видео можно сразу из интерфейса Veo отправлять на модерацию в Google Ads), корпоративным маркетологам, использующим Google Workspace (Veo читает Google Docs с брифами и сразу выдаёт видео), малому бизнесу с продуктами на маркетплейсах (видео-карточки для Wildberries, Ozon — особенно когда в кадре название магазина и цена). Кому не подходит: задачи с реальными узнаваемыми людьми (Veo 3 ещё жёстче Sora 2 по политике безопасности — отказывает на любых публичных персонах), сцены длиннее 30 секунд (нужна Sora 2 с её 60-секундным клипом или Storyboard-режимом до 5 минут), задачи с экстремальной физикой жидкостей и тканей (Sora 2 здесь точнее по бенчмарку VBench-Physics), фотореалистичные крупные планы лиц с тонкой мимикой (Sora 2 чуть лучше по реализму).

Что нового в Veo 3 по сравнению с Veo 2

Veo 2 вышла в декабре 2024 года и стала первым серьёзным конкурентом Sora 1: до 8 секунд видео в 4K, без звука, средняя физика, средние тексты в кадре. Veo 3 закрывает большинство ограничений Veo 2 и в нескольких нишах вырывается вперёд. Длительность увеличена с 8 до 30 секунд за один промпт — этого хватает для Reels, Shorts, Stories, карточек товара, коротких рекламных роликов в YouTube Ads. Разрешение — нативные 4K (3840×2160) с самого начала генерации, без апскейла из 1080p как у Sora 2. Это критично для YouTube Shorts (которые показываются на 4K-телевизорах) и для премиальных рекламных кампаний. Текст в кадре — главный апгрейд Veo 3 и его уникальное конкурентное преимущество. По бенчмарку VBench-Text-Rendering точность чтения сгенерированных надписей выросла с 67,4% (Veo 2) до 91,4% — это лучший результат в индустрии. Sora 2 — 78,2%, Kling 2.5 — 71,8%. Veo 3 уверенно генерирует кириллицу (русский, украинский, болгарский), латиницу, китайские иероглифы, арабскую вязь без галлюцинаций.
Это снимает главную боль AI-видео для коммерции: можно вставлять название бренда, цену, CTA прямо в кадр.
Синхронный звук — Veo 3 генерирует видео с нативной звуковой дорожкой: окружающие звуки (ветер, шум кафе, плеск воды), диалоги (синхронные с движением губ), фоновые эффекты, музыка (опция «soundtrack: cinematic / lo-fi / electronic / orchestral»). Sora 2 это тоже умеет, но Veo 3 чуть точнее по согласованности звука с действием в кадре. Логотипы и фирменная графика — Veo 3 учился на YouTube-датасете с рекламными роликами и научился точно воспроизводить логотипы Apple, Coca-Cola, Nike, Google и других известных брендов. По вашему промпту с описанием логотипа модель может сгенерировать его в кадре практически фотографически точно. Это уникально среди видео-моделей — у Sora 2 и Kling 2.5 политика жёстче и точность ниже.
Image-to-video — оживление статичных картинок: загружаете JPG/PNG до 30 МБ, описываете движение, Veo 3 анимирует первый кадр. Video extend — продление готового клипа на 5–30 секунд с сохранением стиля и движения.
Brief-to-video — уникальная фишка: загружаете Google Doc или Slides с подробным сценарием (на 3–5 страниц), Veo 3 читает документ, извлекает сцены, тайм-коды, описание камеры и собирает 30-секундное видео. Полезно для маркетинговых отделов, привыкших работать с брифами в Workspace.
Скорость генерации выросла в 2–3 раза по сравнению с Veo 2: 5-секундный клип в 1080p — за 60–120 секунд, 30-секундный клип в 4K — за 5–10 минут.

Возможности Veo 3: длительность, разрешение, форматы

Длительность. Базовая опция — клипы по 4, 8, 16 секунд (быстрая генерация, экономия лимитов подписки). Расширенная — 24 и 30 секунд (доступна в Gemini Advanced и Google AI Pro). Brief-to-video режим позволяет собрать 30-секундное видео из подробного брифа в Google Doc (только в Pro). Разрешение и fps. Стандарт — 1080p (1920×1080 горизонталь, 1080×1920 вертикаль, 1080×1080 квадрат) при 24, 30 или 60 fps. Нативный 4K (3840×2160) — без апскейла, генерируется напрямую — доступен в Google AI Pro и через Vertex AI. Соотношение сторон.

Поддерживаются 16:9 (горизонталь — YouTube, Yandex Direct, VK), 9:16 (вертикаль — YouTube Shorts, Reels, TikTok, Stories, Wildberries Video, Ozon Video), 1:1 (Instagram feed, Telegram), 4:3 (винтажный формат), 21:9 (кинематографический wide), а также уникальные форматы 2:3 и 3:2 для Pinterest и оффлайн-печати раскадровок. Соотношение задаётся в момент генерации, не меняется после без потери качества. Звук. Опция «with audio» включается чекбоксом в интерфейсе или флагом audio: true в Vertex AI API.
Включает: окружающие звуки (по умолчанию подбираются автоматически по описанию сцены), диалоги (если в промпте есть прямая речь персонажей с указанием тембра и эмоции), фоновые эффекты, music (опция «soundtrack: cinematic, lo-fi, electronic, orchestral, jazz, rock, ambient, chill, upbeat»). Звук генерируется одновременно с видео и синхронизирован с действиями на экране.
Уникально: Veo 3 умеет следовать по таймлайну («в 0:00–0:05 — фоновая музыка тёплой эмбиент, в 0:05–0:10 — добавляется барабанная дробь, в 0:10–0:15 — взрыв и эффект эха»). Image-to-video. Загружаете JPG/PNG/WebP до 30 МБ (рекомендуется в нативном разрешении 1920×1080 или 3840×2160) и описываете в промпте, какое движение должно быть в кадре. Veo 3 берёт ваш кадр как первый фрейм и генерирует видео, точно сохраняя композицию, освещение, цвета, лица и логотипы. Ключевая возможность для консистентности персонажей в коммерческих роликах. Video extend. Загружаете готовое видео до 30 секунд (любой источник — съёмка с телефона, прошлый ролик, чужой контент с разрешением) и просите продлить на 5–30 секунд. Veo 3 анализирует последний кадр и продолжает движение в правдоподобной манере с сохранением стиля. Brief-to-video.
Уникальный режим Veo 3, недоступный конкурентам: загружаете Google Doc или Google Slides с подробным сценарием (3–5 страниц), Veo 3 извлекает сцены, тайм-коды, описание камеры, реплики и собирает 30-секундное видео. Идеально для маркетинговых отделов с привычными брифами в Workspace. Direct-to-YouTube. Готовое видео можно опубликовать на YouTube Shorts, обычный YouTube или загрузить в YouTube Ads одной кнопкой из интерфейса Veo. Метаданные (название, описание, теги) генерируются автоматически.

Бесплатно

Создавай видео с помощью ИИ

Runway Gen-4.5, Kling 2.6, Veo 3.1 — без VPN в России

Создать видео бесплатно →

Бенчмарки: Veo 3 vs Sora 2 vs Kling 2.5

Цифры по состоянию на апрель 2026 (источники: VBench-2, MovieGen Bench, Veo Eval, независимые тесты Artificial Analysis и компаний-агрегаторов).
VBench-2 (общая оценка качества видео — фотореализм, темпоральная консистентность, физика, движение): Sora 2 — 87,4%, Veo 3 — 85,9%, Kling 2.5 — 83,2%. Sora 2 формально лидер, но разрыв с Veo 3 в пределах статистической погрешности.
Текст в кадре (читаемость надписей и логотипов — VBench-Text-Rendering): Veo 3 — 91,4%, Sora 2 — 78,2%, Kling 2.5 — 71,8%. Veo 3 — однозначный лидер. Если в ролике нужны точные надписи на русском (название магазина, цена, скидка, CTA) — берите Veo 3. Прочие модели всё ещё галлюцинируют длинные строки.
Точное следование длинным промптам (Prompt Adherence на сложных сценариях с 10+ деталями): Veo 3 — 84,7%, Sora 2 — 81,3%, Kling 2.5 — 76,9%. Veo 3 точнее переводит детальные ТЗ заказчика в кадр. Это критично для агентств, работающих с подробными брифами от клиентов.
Фотореализм (специальный сабтест VBench-Realism): Sora 2 — 92,1%, Veo 3 — 88,7%, Kling 2.5 — 85,3%. Здесь Sora 2 уверенно впереди. Для премиальных фотореалистичных коммерческих роликов Sora 2 чуть выигрывает.
Физика движения (VBench-Physics — жидкости, ткани, столкновения): Sora 2 — 88,9%, Veo 3 — 84,2%, Kling 2.5 — 82,7%. Sora 2 — лидер благодаря тренировке на симулированных физических сценах.
Темпоральная консистентность (стабильность лиц и объектов на длинных кадрах): Sora 2 — 90,3%, Kling 2.5 — 87,8%, Veo 3 — 86,5%. Здесь Sora 2 и Kling близки — Kling специально натренирован на крупных планах.
Длительность одного клипа: Sora 2 — 60 секунд (в Pro Storyboard до 5 минут), Veo 3 — 30 секунд (Brief-to-video тоже 30 секунд), Kling 2.5 — 30 секунд. Sora 2 заметно впереди для длинных коммерческих роликов.
Звук в кадре: Veo 3 и Sora 2 — да (нативная генерация), Kling 2.5 — нет (только видео без звука, нужно добавлять отдельно). Image-to-video: все три поддерживают.
Video extend: Sora 2 — да (до 60 секунд), Veo 3 — да (до 30 секунд), Kling 2.5 — да (до 30 секунд).
Скорость генерации (5-секундный клип в 1080p): Sora 2 — 30–90 секунд, Veo 3 — 60–120 секунд, Kling 2.5 — 90–180 секунд. Sora 2 — самый быстрый.
Цена ($0,30–0,80 за 5-секундный клип в 1080p): Sora 2 — $0,30 (стандарт) – $0,80 (Pro 4K), Veo 3 — $0,40 (стандарт) – $0,75 (4K), Kling 2.5 — $0,15 (стандарт) – $0,40 (Pro). Kling — самый дешёвый, Veo 3 в средней категории.
Языки в промпте: Veo 3 — 25 проверенных языков (включая русский, украинский, белорусский, казахский), Sora 2 — 7 языков с гарантированным качеством, Kling 2.5 — лучше всех на китайском, но хуже на русском.
Главный практический вывод: Sora 2 — лучший выбор по умолчанию для большинства задач, где не нужен текст в кадре (фотореализм, физика, длинные клипы, скорость). Veo 3 — когда нужны точные надписи на экране, логотипы, длинные детальные промпты, или интеграция с Google Workspace и YouTube. Kling 2.5 — когда фокус на людях в кадре (танец, мимика, спорт) и важна цена. Профессиональная стратегия — пользоваться всеми тремя в зависимости от сцены.

Цена и доступ к Veo 3 — подписки и Vertex AI

Gemini Advanced — $20/мес ($240/год).

Включает доступ к Veo 3 с лимитами: до 50 генераций в день длительностью 8 секунд каждая, до 20 генераций по 16 секунд, до 5 генераций по 30 секунд. Без 4K-режима (только 1080p), без Brief-to-video, очередь генерации стандартная (60–180 секунд). Бонусом включены Gemini 3.1 Pro (LLM), Imagen 4 (генерация картинок) и 2 ТБ Google Drive. Достаточно для одного-двух коммерческих роликов в день и контента в соцсети. Google AI Pro — $30/мес ($360/год).
Безлимитный доступ к Veo 3 (с честной политикой использования: модель замедляет генерацию при экстремально интенсивном использовании, чтобы не блокировать основную очередь).
Все режимы: 4/8/16/24/30 секунд + Brief-to-video, нативный 4K, ProRes-экспорт, приоритетная очередь (5-секундный клип за 30 секунд против 90 секунд в Advanced), параллельная генерация до 4 клипов одновременно, водяной знак Google убирается. Включены Gemini 3.1 Pro, Imagen 4, NotebookLM Plus и 5 ТБ Google Drive. Подходит для агентств, маркетинговых отделов, продакшн-студий. Google Workspace Business / Enterprise — Veo 3 как add-on, $25/пользователь/мес сверх стандартной подписки Workspace.
Включает: Veo 3 в режиме AI Pro для каждого пользователя, общий рабочий пул генераций для команды, админ-консоль с биллингом и контролем доступа, единый SSO с Workspace, аудит-логи, для Enterprise — DPA (compliance с GDPR, не для российского 152-ФЗ). Vertex AI — поминутная оплата без подписки (Google Cloud). Цены: $0,40 за 5-секундный клип в 720p, $0,55 в 1080p, $0,75 в 4K, $1,40 за 30-секундный клип в 1080p, $2,80 за 30-секундный клип в 4K. Audio-генерация добавляет +$0,15 на клип. Brief-to-video — +$0,30 за документ.
Для сравнения: 30-секундный коммерческий ролик в 4K со звуком через Vertex AI — около $2,95 (полный single-shot). Через шесть кадров по 5 секунд в 1080p со звуком — около $4,20. В России. Прямая подписка на Gemini Advanced и Google AI Pro — недоступна без VPN с зарубежной картой и зарубежного аккаунта Google.
Российский Google-аккаунт может работать через VPN, но Veo 3 чаще других сервисов отказывает на российских аккаунтах даже с VPN (Google детектирует регион по комбинации факторов: IP, язык интерфейса, история входов, привязанный платёжный профиль). Стоимость в рублях после конвертации — около 2 200 ₽/мес за Gemini Advanced и около 3 300 ₽/мес за Google AI Pro плюс 300–500 ₽/мес за стабильный VPN. Vertex AI требует Google Cloud account с верифицированной зарубежной картой и не работает с российскими реквизитами.
Альтернатива — российский агрегатор MashaGPT: даёт доступ к Veo 3 в режиме, эквивалентном Gemini Advanced, плюс к Sora 2, Kling 2.5, GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro, Voice Mode 2, Suno 5 в одной подписке. Базовый тариф — около 990 ₽/мес, командный — от 2 500 ₽/мес для команд до 10 человек. Оплата в рублях через СБП, без VPN, поддержка на русском.

Как пользоваться Veo 3 — пошагово

Шаг 1: подготовка промпта. Хороший промпт для Veo 3 имеет 6 обязательных компонентов: 1) Сцена и контекст (что происходит, где, в какое время дня). 2) Персонажи и объекты (что в кадре, описание людей с возрастом/одеждой/типажом, объекты с деталями). 3) Камера и движение (статичный кадр / dolly forward / crane up / drone overhead / handheld / orbital / DJI Ronin tracking). 4) Освещение и стиль (золотой час / неон / softbox / естественный дневной / плёнка 35mm / аналоговое зерно). 5) Текст в кадре (Veo 3 — лидер по точности текста, явно прописывайте, какие надписи нужны и где: «текст «Скидка 30%» в правом верхнем углу, белый Roboto Bold, 48px, на полупрозрачной чёрной плашке»). 6) Длительность и соотношение сторон (8 sec, 9:16, 4K, со звуком). Пример хорошего промпта: «Кинематографический кадр в кофейне в Москве, утренний золотой час. Бариста (мужчина 30 лет, тёмная борода, серый фартук с логотипом «Кофе Хауз» на груди) наливает молочную пенку в латте крупным планом — видна раскручивающаяся розетка на поверхности. Камера: статичная над чашкой сверху-сбоку. Освещение: тёплое утреннее солнце через окно. Текст в кадре: в нижней трети — надпись «Кофе Хауз. Утро начинается с тебя» белым Roboto Bold 36px. Стиль: фотореалистичный, плёнка 35mm, кинематографические тёплые тона. Длительность: 8 секунд, соотношение 9:16, 4K, со звуком (звук разливающегося молока, фоновый кофейный шум, голос за кадром в 0:05–0:08 «Кофе Хауз. Утро начинается с тебя» — мужской мягкий бариТон)».
Шаг 2: запуск через интерфейс Gemini. В Gemini Advanced или AI Pro: открываете чат с Gemini, выбираете режим «Veo 3», вставляете промпт, выбираете опции (длительность, соотношение, разрешение, fps, audio on/off). Нажимаете Generate. Через 60–180 секунд получаете готовый MP4. Скачиваете прямо из чата, копируете ссылку или публикуете на YouTube одной кнопкой.
Шаг 3: image-to-video для консистентности персонажей и логотипов. Если в нескольких клипах должен быть один и тот же человек или фирменный логотип (рекламная серия, личный бренд), сначала сгенерируйте идеальную референсную картинку через Imagen 4 или GPT Image. Затем в каждом из клипов используйте image-to-video режим с этой картинкой как первым кадром, описывая в промпте только движение. Например: «Используя загруженное изображение, сделайте видео где этот персонаж медленно поворачивает голову влево, улыбается, делает глоток кофе. Логотип на фартуке остаётся видимым. Камера: статичная средний план. 8 секунд, 9:16, 4K, без звука». Так лицо в каждом клипе будет идентично, и логотип не «поплывёт».
Шаг 4: Brief-to-video для маркетинговых отделов. Уникальный режим Veo 3. Создайте Google Doc с подробным брифом (3–5 страниц): сцена за сценой, тайм-коды, описание камеры, тексты в кадре, реплики, музыка. В Veo 3 нажмите «Brief from Google Doc», выберите свой документ, и Veo сам соберёт 30-секундное видео. Полезно для крупных кампаний с подробными ТЗ от клиента.
Шаг 5: итерации и доработка. Первый результат редко идеальный — нормально сделать 2–4 попытки на каждый клип, корректируя промпт. Главные правила доработки: 1) Если текст в кадре неправильный — упростите надпись (короче слова, меньше символов), уточните шрифт и позицию в промпте. 2) Если движение слишком быстрое и кадр распадается на пиксели — добавьте «slow motion» или «smooth deliberate movement». 3) Если лицо «плывёт» при повороте — упростите движение до базового («slight head turn» вместо «dramatic swing»). 4) Если объекты летают в кадре несвязно — добавьте «realistic physics, gravity, weight». 5) Если стиль не тот, что нужно — добавьте 2–3 стилевых якоря («like a Wes Anderson film», «like a 1990s Polaroid», «like Apple commercial 2024»).
Шаг 6: экспорт и публикация. Veo 3 выдаёт MP4 H.264 или HEVC (для 4K) в выбранном разрешении. Прямые опции: 1) «Publish to YouTube Shorts» — публикация одной кнопкой с автогенерацией заголовка, описания, тегов на основе промпта. 2) «Send to Google Ads» — отправка на модерацию в Google Ads Manager, экономит 5–10 минут на копировании. 3) «Save to Drive» — сохранение в Google Drive в папку проекта с автотегированием. 4) «Download MP4» — скачать на компьютер для дальнейшего монтажа в CapCut, DaVinci Resolve или Premiere. Для коммерческого ролика часто нужно постпроизводство: цветокор (DaVinci бесплатно), наложение текста и графики (CapCut), замена музыки (Suno 5, стоковые библиотеки), финальный экспорт под платформу.

5 примеров промптов Veo 3 для коммерческих задач

Промпт 1: рекламный ролик товара с текстом в кадре (Wildberries, Ozon, Yandex Direct). «Кинематографический кадр продукта на белом фоне, студийная съёмка с softbox-освещением. {Описание товара — например: смартфон Apple iPhone 17 Pro Max в космо-чёрном цвете, на белой подложке, лёгкий вращающий dolly-shot вокруг устройства}. Камера: orbital slow rotation 360 градусов за 8 секунд.
Освещение: высококонтрастное студийное, hard light с softbox-наполнением, тонкие тени.
Текст в кадре: верхний левый угол — логотип бренда «TechStore», нижняя треть — крупная надпись «Скидка 30%» белым Inter Bold 56px на красной плашке, под ней «До 5 мая 2026» белым Inter Regular 24px. Стиль: рекламная съёмка премиум-бренда, плёнка 35mm, чистые тона, минималистичная композиция.
8 секунд, 1:1, 4K, без звука».
Промпт 2: личный бренд (эксперт говорит на камеру с цитатой в кадре, Reels, Shorts). «Эксперт {описание — например: женщина 35 лет, оливковая кожа, тёмные волосы убраны в хвост, белая рубашка, естественный макияж} говорит прямо в камеру в светлом офисе на фоне размытого стеллажа с книгами. Камера: статичная средний план чуть выше уровня глаз.
Освещение: естественное дневное из окна с правой стороны, мягкие тени.
Текст в кадре: в нижней трети, появляется на 0:02 — цитата «AI — это не угроза, это рычаг» белым Inter Bold 32px на полупрозрачной чёрной плашке, под ней — имя и должность «Анна Соколова, AI-консультант» Inter Regular 20px. Стиль: документальный реалистичный, как кадры из подкаста на YouTube или Forbes. Минимальное движение лица — лёгкий поворот головы, моргание, улыбка.
16 секунд, 9:16, 4K, со звуком (голос за кадром в 0:00–0:14: «В 2026 году главный навык — умение работать с AI. Я объясню вам, как именно». Тембр уверенный, тёплый, средний темп речи)».
Промпт 3: рекламный ролик для YouTube Shorts с CTA в кадре. «Динамичная сцена офиса в опен-спейсе, креативная команда работает за ноутбуками. Камера: handheld движение между столами, активная динамика, переключение между сотрудниками.
Освещение: естественный дневной свет смешан с тёплыми лампами, лёгкая фильмовая мягкость.
Текст в кадре: в верхней четверти на 0:00–0:05 — название продукта «Notion AI 2026» белым Inter Bold 48px с лёгким анимированным появлением; в нижней четверти на 0:05–0:15 — преимущества списком «Команда. Задачи.
AI» появляются по очереди в Inter Bold 36px; на 0:15–0:20 — финальный CTA «Попробуйте бесплатно — notion.so/ai» белым Inter Bold 40px на градиентной плашке от чёрного к фиолетовому. Стиль: SaaS-реклама в духе Slack, Linear, Notion — чистая минималистичная динамика.
20 секунд, 9:16, 4K, со звуком (фоновая музыка lo-fi chill в 0:00–0:18, на 0:18–0:20 — характерный «успешный» звуковой акцент)».
Промпт 4: продуктовая демонстрация в действии (карточка товара на маркетплейсе с описанием функций). «Сцена использования продукта: {описание — например: молодая женщина 28 лет, спортивная одежда, наливает протеиновый коктейль из фирменного шейкера в стакан, на кухне-студии в светлых тонах. На шейкере чётко виден логотип «PROTEIN+»}.
Действие: уверенное движение, наливает напиток, делает глоток, улыбается. Камера: статичная средний план чуть с боку, лёгкий dolly-in за 8 секунд. Освещение: естественное дневное смешанное с softbox slight from right.
Текст в кадре: верхний правый угол — логотип «PROTEIN+» белый PT Sans Bold 28px; нижняя треть, появляется по очереди: «25г белка», «0г сахара», «100% натуральный» белым PT Sans Bold 36px. Стиль: lifestyle-съёмка как в каталоге фитнес-бренда, тёплые цвета, плёнка 35mm.
16 секунд, 9:16, 4K, со звуком (плеск напитка, фоновая музыка lo-fi chill, лёгкий хруст шейкера)». Промпт 5: Brief-to-video режим для большой кампании (только в Pro).
Создайте Google Doc «Бриф ролика для запуска нового iPhone в России — 30 секунд» с разделами: «Концепт» (1 абзац о позиционировании), «Сцена 1: 0:00–0:08» (открытие, описание сцены, текст в кадре, музыка), «Сцена 2: 0:08–0:16» (продукт крупным планом, описание, текст), «Сцена 3: 0:16–0:24» (использование в реальной жизни, описание, текст), «Сцена 4: 0:24–0:30» (CTA и логотип), «Голосовой сценарий» (полный текст диктора с тайм-кодами), «Музыкальное сопровождение» (стиль и эмоция), «Стилистические якоря» (3 референса). В Veo 3 нажмите «Brief from Google Doc», выберите ваш документ. Через 8–15 минут получите 30-секундное 4K-видео по брифу с встроенным звуком. На крупные кампании сэкономит 4–8 часов работы по сравнению с попромптной генерацией.

Ограничения и недостатки Veo 3

Длительность одного клипа. Veo 3 ограничена 30 секундами в один промпт против 60 секунд у Sora 2 и до 5 минут у Sora 2 в Storyboard-режиме. Для длинных роликов нужно собирать сцены в монтаже из 3–4 клипов Veo 3 по 8–10 секунд, что снижает консистентность. Решение: для роликов длиннее 30 секунд используйте Sora 2 (если фотореализм важнее текста), либо собирайте Veo 3 + image-to-video с одним эталонным кадром во всех клипах серии.
Известные люди и персонажи. По политике Google Veo 3 строже Sora 2 — отказывает на любых упоминаниях актёров, политиков, инфлюенсеров, спортсменов даже в нейтральном контексте. Также блокируется генерация анимационных персонажей под защищённой IP (Disney, Marvel, аниме-студии). Решение: для роликов с реальными людьми используйте съёмку. Альтернативно — генерируйте обобщённые типажи без имён («женщина 35 лет, славянский тип», «мужчина 40 лет, азиатский тип»).
Длинные диалоги на крупных планах. На лицах при произнесении более 3 предложений губы начинают расходиться с речью, мимика становится механичной. Veo 3 здесь чуть лучше Sora 2 благодаря тренировке на YouTube-датасете с подкастами, но всё равно не идеален. Решение: дробите диалоги на короткие 8-секундные клипы с одной фразой в каждом, либо записывайте дикторскую озвучку отдельно (через ElevenLabs или Voice Mode 2 от GPT-5.4) и накладывайте на статичный кадр без губ в фокусе.
Сложные сцены с множеством людей. Если в кадре больше 5–6 человек — нейросеть начинает «переплетать» лица, тела, путать одежду. Veo 3 чуть лучше Sora 2 в массовых сценах (за счёт обучения на YouTube-кадрах концертов и митингов), но не радикально. Решение: либо упрощайте композицию до 1–4 героев, либо снимайте отдельные кадры с разными группами и собирайте в монтаже.
Точное соответствие фирменному персонажу или маскоту. Veo 3 делает похожих, но не идентичных персонажей — если в прошлой кампании был герой с конкретным лицом, Veo не воспроизведёт его на 100% даже через image-to-video. Решение: используйте image-to-video с одним эталонным кадром во всех клипах серии, а для критичных сцен — реальную съёмку.
Контент-политика. Veo 3 — самая жёсткая из топ-3 по фильтрации: блокируется насилие, оружие, кровь, наркотики, табак, алкоголь крупным планом, эротика любого уровня, политические деятели, военная символика, противоречивые исторические сцены, религиозные символы в негативном контексте. Также блокируется генерация маркетинговых обещаний, которые могут быть восприняты как обманчивые («самый дешёвый», «гарантированно вылечит», «100% результат»). Решение: работайте в нейтральных коммерческих жанрах с проверенными формулировками.
Доступ из России. Прямой запуск Veo 3 на российском IP блокируется Google. Российский Google-аккаунт может работать через VPN, но Veo 3 чаще других сервисов отказывает. Решение: российский агрегатор MashaGPT даёт стабильный доступ без VPN.
Brief-to-video только в Pro. Уникальная фишка Veo 3 — Brief-to-video — недоступна в базовом Gemini Advanced ($20/мес), только в Google AI Pro ($30/мес) и в Vertex AI. Для маркетингового отдела с привычными брифами в Workspace это значит обязательное обновление до Pro.
Цена для интенсивного использования. Gemini Advanced с 50 клипами по 8 сек/день — мало для агентства. Google AI Pro $30/мес — подъёмно для индивидуала, но Vertex AI $0,40–$2,80 за клип окупается только при коммерческом использовании.
Скорость на пике нагрузки. В часы пик (19:00–23:00 по Москве, утренние часы по Тихоокеанскому времени США) очередь генерации может растягиваться до 5–10 минут на 5-секундный клип в Gemini Advanced. AI Pro даёт приоритет.

Veo 3 в России — как получить доступ без VPN

Veo 3 не работает напрямую с российских IP-адресов: Google блокирует регион РФ для всех своих AI-продуктов (Gemini Advanced, Google AI Pro, Vertex AI, Veo). Не принимаются российские карты Мир, требуется верификация через зарубежный номер телефона (российские номера блокируются автоматически), не работают платёжные системы СБП и ЮMoney, российский Google-аккаунт ограничен в подписках. Прямой путь — VPN с зарубежной картой. Что нужно:

VPN-сервис с серверами вне РФ и СНГ (рабочие на апрель 2026: Mullvad, Proton VPN, NordVPN — у каждого свои особенности с российскими ISP). Стоимость 300–500 ₽/мес.
Зарубежная виртуальная карта — Wise (бывший TransferWise, $9 одноразово + комиссии за пополнение), Revolut (требует EU-резидентства), EasyPay (российский сервис с виртуальными картами, около 500 ₽/мес комиссии).
Зарубежный Google-аккаунт с зарубежным платёжным профилем — нужно создать с самого начала под VPN, не привязывать к российскому номеру.
Стабильность на российском IP — нестабильная: Google периодически блокирует «подозрительные» аккаунты, и Veo 3 чаще всех остальных моделей Google отказывает на VPN (детектирует по фингерпринту браузера, поведенческим паттернам, истории платежей). Стоимость в рублях после конвертации: Gemini Advanced — около 2 200 ₽/мес, Google AI Pro — около 3 300 ₽/мес, плюс 300–500 ₽/мес за VPN, плюс комиссии за пополнение карты. Альтернатива — российский агрегатор MashaGPT. Даёт доступ к Veo 3 без VPN, без зарубежных карт, без зарубежных аккаунтов Google. Под капотом — официальные API Google через прокси-инфраструктуру в нейтральных странах, что обеспечивает стабильный доступ для российских пользователей. Лимиты эквивалентны Gemini Advanced: 50 генераций по 8 сек/день, 20 по 16 сек, 5 по 30 сек. Базовый тариф около 990 ₽/мес — это в 2 раза дешевле прямого Gemini Advanced в рублях после конвертации, и в 3 раза дешевле Google AI Pro для тех, кому Pro-функции нужны иногда (через MashaGPT можно догенерировать длинные клипы и Brief-to-video поштучно за дополнительную плату). Помимо Veo 3 в подписке доступны: Sora 2 (OpenAI), Kling 2.5 (Kuaishou), GPT Image, Imagen 4, Midjourney (раскадровка), GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro (сценарии), Voice Mode 2 (озвучка), Suno 5 (музыка). Полный стек для производства видео-контента в одном интерфейсе. Оплата в рублях через СБП, банковские карты Мир/Visa/MC, для юрлиц — DPA, закрывающие документы (УПД), счёт в рублях и НДС. Это критично для российских компаний с точки зрения бухгалтерии и compliance с российским законодательством.

Veo 3 в MashaGPT: стек для видео-производства

MashaGPT — российский агрегатор нейросетей для всего стека производства видео-контента. Помимо Veo 3 в подписке доступны все инструменты, которые нужны для полного цикла рекламного или контентного видео. Сценарий и концепт. GPT-5.4 (универсальный креативный директор), Claude Opus 4.7 (точное следование сложным брифам, юр-проверка обещаний по ФЗ N 38-ФЗ), Gemini 3.1 Pro (Deep Research по конкурентам и аудитории — анализирует 50–200 источников за 30 минут, идеален для согласованной работы с Veo 3 в одной экосистеме Google). Для одного видеосценария практичная схема: GPT даёт первый вариант, Claude вычитывает и проверяет факты, Gemini делает рисёрч по нише, и сразу переходим к Veo 3 для генерации (Brief-to-video из готового Google Doc). Раскадровка.

Imagen 4 (через Gemini, идеально согласован с Veo 3 по стилю и палитре), GPT Image (через ChatGPT API), Midjourney через интегрированный интерфейс — для премиум-эстетики. На каждый кадр сценария — одна картинка с одинаковым стилевым промптом для согласованности серии. Видеогенерация. Veo 3 (текст в кадре, синхронный звук, логотипы, YouTube-интеграция), Sora 2 (фотореализм, физика, длинные клипы до 60 сек), Kling 2.5 (движение людей, бюджетная цена для серий). Все три — в одном интерфейсе с переключением одной кнопкой. Image-to-video во всех трёх для консистентности персонажей. Озвучка. Voice Mode 2 от GPT-5.4 — лучший русский AI-голос с эмоциональной модуляцией. ElevenLabs (доступен через MashaGPT API) — клонирование собственного голоса для брендового контента.

YandexGPT TTS — бюджетная альтернатива для информационных роликов. Музыка. Suno 5 — лидер по качеству вокала, до 4 минут трека на русском или английском, лицензионный документ для коммерческого использования включён в подписку. Udio — конкурент с акцентом на инструменталку. Подписка. Базовый тариф около 990 ₽/мес — Veo 3 в режиме Gemini Advanced (50 клипов по 8 сек/день), все остальные модели по их базовым лимитам. Командный тариф от 2 500 ₽/мес для команд до 10 человек — общий пул генераций, админ-консоль, ролевая модель доступа, общие промпт-библиотеки и шаблоны. Корпоративный — по запросу с DPA, выделенными лимитами, SSO. Оплата в рублях через СБП, банковские карты Мир/Visa/MasterCard, для юрлиц — счёт в рублях с НДС, акт и УПД.

Поддержка на русском, время ответа 1–4 часа. Сравнение цен: прямые подписки на все нужные сервисы — Gemini Advanced $20 + ChatGPT Plus $20 + Kling Pro $20 + ElevenLabs $22 + Suno $8 = $90/мес или ~9 000 ₽/мес после конвертации, плюс VPN 500 ₽/мес. Через MashaGPT — 990 ₽/мес. Экономия в 9 раз плюс отсутствие необходимости в VPN, зарубежных картах, зарубежных аккаунтах. Окупается даже на одном-двух коммерческих роликах в месяц.

Итог: стоит ли использовать Veo 3

Да, если: вашему ролику нужны точные надписи на русском в кадре (название магазина, цена, скидка, CTA, цитаты, имена) — Veo 3 здесь однозначный лидер с точностью 91,4% против 78,2% у Sora 2 и 71,8% у Kling 2.5.

Вы делаете коммерческие ролики для YouTube Shorts — нативная интеграция с YouTube Studio публикует ролик одной кнопкой с автогенерацией заголовка и тегов.
Вы работаете в маркетинговом отделе на Google Workspace — Brief-to-video читает ваш Google Doc и собирает видео по брифу, экономит часы.
Вы агентство, работающее с подробными ТЗ от клиентов — Prompt Adherence 84,7% (выше всех в индустрии) точнее всех переводит детальные брифы в кадр.
Вам нужна сильная работа с фирменными логотипами в кадре — Veo 3 учился на YouTube-датасете с рекламой и точно воспроизводит логотипы известных брендов.
Вы блогер или контентмейкер с фокусом на YouTube — Veo 3 встроен в YouTube Studio.
Не стоит, если: вашему ролику нужны клипы длиннее 30 секунд за один промпт — Sora 2 даёт 60 секунд и Storyboard до 5 минут.
Вам критичен фотореализм крупных планов лиц с тонкой мимикой — Sora 2 чуть лучше по VBench-Realism (92,1% против 88,7%).
Вам нужна экстремальная физика жидкостей и тканей в кадре — Sora 2 здесь точнее (88,9% против 84,2% по VBench-Physics).
Вы делаете премиальный TVC для крупного бренда с реальными актёрами — нужна студия, AI пока не дотягивает по тонкости актёрской игры.
Ваш ролик включает узнаваемых публичных людей — Veo 3 здесь самый строгий из топ-3, чаще отказывает.

С чего начать. Возьмите тестовую задачу — например, простой 8-секундный продуктовый клип с текстом в кадре «Скидка 30%». Откройте Veo 3 (через MashaGPT для россиян, через Gemini Advanced для остальных), вставьте промпт по шаблону из этой статьи (промпт 1 — рекламный ролик товара с текстом). Сгенерируйте, посмотрите результат — особенно проверьте текст на правильность написания. На первой попытке текст может быть неидеальный, упростите надпись или уточните шрифт. Сделайте 2–3 итерации. Когда получите подходящий клип — переходите к более сложным задачам: серия из 3 клипов с одним персонажем через image-to-video, ролик для YouTube Shorts с прямой публикацией, Brief-to-video из подготовленного Google Doc. К пятому ролику типовой формат уходит за 30–60 минут от промпта до готового MP4.

Лучшая стратегия для агентств и студий — работать с обоими лидерами: Veo 3 на роликах с текстом и логотипами, Sora 2 на фотореалистичных длинных сценах. Через MashaGPT обе модели в одной подписке за 990 ₽/мес.