Нейросеть Wan: передовая AI-модель для генерации видео

Автор: MashaGPT • 22 Декабря, 2025 • Нейросети Нейросеть WAN AI генерирует видео

Модель ИИ Wan - одно из самых громких имен в мире генеративного видео на сегодня. Нейросеть от китайского гиганта Alibaba прошла путь от экспериментальной технологии до инструмента, которым пользуются миллионы людей.

Истоки и философия WAN AI

Изначально компания Alibaba, как и все, взять хоть лидеров OpenAI (нейросеть Sora) или Google (ИИ-генератор видео Veo), шла по проторенной дорожке, то есть генерация видео из текста (Text-to-Video, T2V) или из картинки (Image-to-Video, I2V). Но философия Wan с самого старта была другой. Вместо закрытых систем, как у конкурентов, разработчики сделали ставку на открытый код и доступность. Их цель - передать этот мощный инструмент в руки не только крупным студиям, но и отдельным видеографам, дизайнерам, видеоблогерам, маркетологам и обычным пользователям.

Ранние релизы вроде Wan 2.1 сразу дали понять, на что способна технология. Модель работала в двух форматах (T2V и I2V), предлагала две версии по сложности (на 5 и 14 миллиардов параметров) и выдавала короткие ролики в 720p при 16 кадрах в секунду. Преимуществом стали плавные переходы и общая простота, что подходило для контента в соцсетях. Для работы хватало видеокарты с 8 ГБ памяти, что уже приближало технологию к пользователям.

Эволюционный скачок: Wan 2.2 и архитектура "двух мозгов"

Следующий крупный этап - релиз Wan 2.2. Эту версию можно назвать уверенной эволюцией с серьезным техническим прорывом под капотом. Ключевым нововведением стала архитектура MoE (Mixture of Experts), ставшая известной благодаря большим языковым моделям вроде GPT-4.

Если просто, то вместо одной модели, которая делает все, в Wan 2.2 работают два "эксперта":

High noise model (модель "высокого" шума). Отвечает за общую композицию, структуру и движение на ранних, "зашумленных" этапах генерации.
Low noise model (модель "низкого" шума). Подключается на финальных шагах, чтобы "дорисовать" и очистить детали, повышая визуальное качество.

Это разделение труда позволило заметно улучшить детализацию и качество статичного кадра. Кроме того, частота кадров выросла до кинематографических 24 кадров в секунду. Модель стала лучше понимать "язык кино" - запросы на свет, ракурсы (крупный план, общий план), цветовую палитру. Все это стало возможно после обучения на значительно расширенном массиве данных.

В Wan 2.2 появились новые фишки для любителей локальных интерфейсов, вроде ComfyUI. Правда, за них пришлось расплатиться усложнением процесса: теперь нужно настраивать два отдельных модуля генерации. Хотя возможность запустить облегченную версию даже на мощной домашней видеокарте RTX 4090 осталась - принцип доступности не тронули.

Расширенный ChatGPT

GPT-5-mini

Бесплатно

GPT Ultra

₽ 1990/месяц

Мультимодальный Wan 2.5

Если Wan 2.2 была эволюцией изображения, то модель 2.5, выпущенный осенью 2025 года, стал революцией в подходе к генерации видео как цельного аудиовизуального продукта. Его "фишка" - нативная генерация синхронизированного аудио.

Теперь модель не просто создавала немое видео, а могла:

генерировать полноценный звукоряд - речь с эмоциями и даже шепотом, фоновую музыку, окружающие шумы и звуковые эффекты;
синхронизировать аудио и видео - движения губ персонажей автоматически подстраивались под сгенерированную или загруженную пользователем речь, работает для множества языков, включая русский, хотя качество озвучки оставляет пока желать лучшего;
принимать аудио как входные данные - можно загрузить свой трек, и видео будет сгенерировано с учетом его ритма и тайминга.

WAN AI - мультимодальная генерация видео

Помимо аудио, в Wan 2.5 усилился кинематографический контроль. Появился удобный интерфейс для управления движением камеры (панорамирование, зум, трекинг) через пресеты или текстовые команды. Модель стала точнее следовать сложным промптам, лучше отображать текст и графику в кадре.

Доступ к этой модели реализован через сайт с гибридной моделью монетизации. Пользователям доступны ежедневные бесплатные кредиты для генерации в очереди. Есть платные подписки для приоритетной обработки и роликов без водяных знаков: Pro за $5/мес с 300 кредитами, чего хватает на 1200 изображений или 60 видео, и Premium за $20/мес с 1200 кредитами. Это окончательно снизило порог входа - для создания видео не требуется вообще никакого специального железа, только браузер.

Текущий флагман Wan 2.6 и повествование

Самой свежей на момент обзора версией является Wan 2.6, которая сместила фокус с генерации отдельного клипа на создание короткого связного повествования.

Ее особенности:

Многокадровое повествование. Модель генерирует до 15 секунд видео, последовательно меняя планы (например, от общего к крупному), сохраняя при этом узнаваемость персонажа и стиль между кадрами. Это прорыв в решении главной проблемы ИИ-видео, когда внешность героя менялась из кадра в кадр.
Видео-референс. Пользователь загружает короткое видео-образец, и ИИ разбирает его на составляющие: стиль, цвет, движение камеры, ритм, настроение, тайминг. Потом на основе этого референса создает новую сцену в той же эстетике. По сути, инструмент дает уровень контроля, близкий к режиссерскому.
Функция "Starring". Модель может запомнить лицо и голос пользователя, чтобы впоследствии "вставлять" его в генерируемые ролики. Нужно будет назвать цифры с экрана, глядя в камеру, и поворачивать голову вправо-влево.

Нейросеть доступна как на официальном сайте (с кредитной системой), так и через сторонние агрегаторы. Она подходит для создания раскадровок, концепт-видео, коротких сюжетов для соцсетей, прототипов рекламы.

Что в итоге

Китайская нейросеть Wan - это динамично развивающееся семейство опенсорсных моделей. ИИ прошел путь от базового генератора коротких клипов (2.1) к сложной архитектуре с улучшенной детализацией (2.2), затем к мультимодальной системе с синхронизированным звуком (2.5) и, наконец, к инструменту для создания консистентных мини-нарративов (2.6).

Что и когда подойдет:

модель 2.2 - остается выбором для тех, кто ценит открытость, хочет кастомизировать процесс и работает локально, фокусируясь на высоком визуальном качестве;
модель 2.5 - "рабочая лошадка" для маркетологов, блогеров и создателей образовательного контента, которым нужны готовые видео со звуком;
модель 2.6 - флагманское решение для тех, кому нужно не просто видео, а короткая история с сохранением героя и управляемой динамикой кадра.

На каждом этапе разработчики сохраняли фокус на открытости и доступности технологии, комбинируя бесплатные возможности с платными опциями для профессионального использования. Такой подход позволил Wan стать альтернативой дорогостоящим коммерческим сервисам.