videoEffect.duration

videoEffect.resolution

videoEffect.ratio

videoEffect.autoSound
videoEffect.autoSpeech
videoEffect.noWatermark
videoEffect.private

Откройте Wan 2.2: Революция в создании видео с помощью ИИ

Wan 2.2: Превращайте слова в кинематографические шедевры — освободите свою креативность с инновациями в ИИ для видео

Что такое Wan 2.2?

Wan 2.2, выпущенная 28 июля 2025 года, представляет собой значительный шаг вперед по сравнению с Wan 2.1. Это первая открытая модель с архитектурой Mixture-of-Experts (MoE) для генерации видео. Ее система из двух экспертов — с высокой степенью шума для начальной структуры и с низким уровнем шума для уточнения деталей — использует 27 миллиардов параметров, но активирует лишь 14 миллиардов на каждом шаге, что позволяет улучшить эффективность без увеличения вычислительных затрат. Датасет для обучения был значительно расширен: изображения увеличены на 65,6%, а видео на 83,2%, что улучшает движение, семантическое восприятие и визуальные характеристики. Ключевые усовершенствования включают кинематографическое качество визуализаций, основанное на тщательно отобранных данных с метками для освещения, композиции, контраста и цвета; улучшенную обработку сложных движений; и оптимизированную модель 5B для гибридной генерации TI2V с Wan2.2-VAE, сжимающую видео с коэффициентом 16×16×4 для видео 720p@24fps на потребительских GPU, таких как RTX 4090. Wan 2.2 достигает меньших потерь при валидации, лучшей сходимости и превосходит такие бенчмарки, как Wan-Bench 2.0, предоставляя лучший контроль, более реалистичные результаты и большую доступность по сравнению с предыдущей версией.

Что нового в Wan 2.2

  • Архитектура MoE (Mixture-of-Experts):

    Wan 2.2 представляет собой открытую модель с архитектурой MoE для генерации видео. Эксперты с высокой степенью шума формируют начальную структуру, а эксперты с низким уровнем шума уточняют детали, используя 27 миллиардов параметров, при этом только 14 миллиардов активируются на каждом шаге для повышения эффективности и качества по сравнению с традиционным подходом диффузии в Wan 2.1.

  • Расширенные и отобранные данные для обучения:

    Содержит на 65,6% больше изображений и на 83,2% больше видео, чем в Wan 2.1, с дополнением меток для освещения, композиции, контраста и цвета, обеспечивая визуализации кинематографического качества и точность выполнения запросов.

  • Новый гибридный вариант модели (TI2V-5B):

    Компактная 5B модель с высокой степенью сжатия Wan2.2-VAE, поддерживающая гибридное преобразование текста в видео и изображений в видео с разрешением 720p при 24fps, генерируя 5-секундные видео за менее чем 9 минутRe-edit translated copy на таких GPU, как RTX 4090, для улучшенной доступности.

  • Преимущества по бенчмаркам и интеграции:

    Возглавляет Wan-Bench 2.0, превосходя как открытые, так и проприетарные модели; бесшовно интегрируется с ComfyUI, Diffusers и Hugging Face, поддерживает модели с малым объемом видеопамяти и расширенные запросы для удобства использования.

Ключевые особенности

Архитектура MoE для динамичного подхода экспертов

Wan 2.2 использует архитектуру Mixture-of-Experts (MoE) с экспертами с высокой и низкой степенью шума, всего 27 миллиардов параметров, но на каждом шаге активируется только 14 миллиардов для повышения эффективности. Это позволяет эффективнее обрабатывать сложные движения и семантику, превосходя традиционные модели по плавности и деталям изображения.

Кинематографическая эстетика и точность выполнения запросов

Обработанная с детальными метками для освещения, композиции, контраста и цвета, Wan 2.2 создает визуализации уровня кино. Она прекрасно выполняет запросы, создавая естественные анимации с минимальными ошибками, идеально подходящие для точного креативного контроля.

Улучшенная поддержка движений и разрешения

Wan 2.2 обучалась на 65,6% больше изображений и 83,2% больше видео по сравнению с Wan 2.1. Модель минимизирует мерцание кадров и поддерживает видео в формате 720p@24fps продолжительностью до 5 секунд. Вариант TI2V-5B обеспечивает быструю генерацию даже на бюджетном оборудовании.

Мультимодальная универсальность

Бесшовно интегрирует текст, изображения и видео, обеспечивая плавные переходы между ними и стабильность стиля. Такие функции, как системы частиц, световые эффекты и оптимизация LoRA, делают модель идеальной для множества приложений.

Сравнение Wan 2.2 с Wan 2.1 и другими моделями для генерации видео

ОсобенностьWan 2.2Wan 2.1Kling AI (1.5/2.0)OpenAI SoraLuma AI Dream Machine
АрхитектураСмешанная модель экспертов (MoE) с экспертами высокой и низкой степени шума; первая open-source MoE для генерации видеоСтандартная модель диффузии; без MoEСобственный трансформер; акцент на временную согласованностьСобственная модель диффузии с улучшенным трансформером, акцентирующая внимание на симуляции мираДиффузия с акцентом на сюрреалистичные и динамичные визуальные эффекты
Параметры27B всего (14B активно на каждом шаге); гибридный вариант 5Bприблизительно 11B (оценочно; менее эффективное масштабирование)Не раскрыто (собственная разработка; предполагаемый размер 10B+)Не раскрыто (собственная разработка; предполагаемый размер около 10B+)Не раскрыто (собственная разработка; средний диапазон)
Максимальное разрешение/FPS720p@24fps (в некоторых предварительных просмотрах — родное 1080p); видео до 5 секунд480p/720p@ низкий FPS; короткие клипы с большим количеством артефактов1080p@30fps; до 2 минут видео1080p@ переменный FPS; видео до 1 минуты (на основе демонстраций)720p@ переменный FPS; клипы до 10 секунд
Производительность по бенчмаркамТопы Wan-Bench 2.0; лучшая сходимость и потери по сравнению с 2.1Надежно, но уступает 2.2; хорош в категории open-sourceСильные результаты в тестах пользователей против Sora/Luma; превосходит по временным меткам и другим параметрамЛидер в творческих тестах (демонстрации показывают превосходство в согласованности)Высокие результаты в качественных тестах; отсутствуют публичные бенчмарки

Как использовать Wan 2.2

  • Установите зависимости:

    Клонируйте репозиторий с GitHub (git clone https://github.com/Wan-Video/Wan2.2.git) и выполните команду pip install -r requirements.txt (требуется PyTorch >= 2.4.0).

  • Скачайте модели:

    Используйте Hugging Face CLI для T2V-A14B, I2V-A14B или TI2V-5B (например, huggingface-cli download Wan-AI/Wan2.2-T2V-A14B).

  • Как генерировать видео:

    Для T2V: python generate.py --task t2v-A14B --size 1280x720 --ckpt_dir ./Wan2.2-T2V-A14B --prompt "Ваш запрос". Оптимизируйте с --offload_model True для повышения эффективности памяти. Используйте ComfyUI для удобного интерфейса.

  • Дополнительные советы:

    Улучшайте результаты с помощью расширений запросов через Dashscope API или локальные модели; поддержка multi-GPU ускоряет обработку.

Часто задаваемые вопросы

  • Какие разрешения поддерживает Wan 2.2?

    Wan 2.2 поддерживает разрешения 480p и 720p при 24fps, при этом модель TI2V-5B оптимизирована для 1280x704 или 704x1280.

  • Можно ли использовать Wan 2.2 бесплатно?

    Да, он является open-source под лицензией MIT и доступен на Hugging Face, а также может быть интегрирован в различные инструменты.

  • Какие требования к оборудованию для Wan 2.2?

    Модель 5B работает на RTX 4090 менее чем за 9 минут для видео 720p, что делает его доступным для обычных пользователей.

  • Можно ли настроить Wan 2.2 с помощью LoRA?

    Хотя это не детализировано в релизе, его архитектура поддерживает обучение стиля, и уже появляются интеграции с сообществом.

  • Где можно протестировать демонстрации Wan 2.2?

    Попробуйте демо на Hugging Face или используйте ComfyUI для интерактивных тестов и экспериментов.

  • Какие типы генерации видео поддерживает Wan 2.2?

    Wan 2.2 поддерживает режимы текст-видео (T2V), изображение-видео (I2V) и гибридный текст-изображение-видео (TI2V), предоставляя гибкость для разнообразных креативных проектов.

  • Как Wan 2.2 улучшает точность выполнения запросов?

    Используемые данные для обучения и архитектура MoE обеспечивают высокую точность в выполнении запросов, создавая видео с точными деталями и минимальными ошибками.

  • Поддерживает ли Wan 2.2 работу с несколькими GPU?

    Да, Wan 2.2 поддерживает многозадачные конфигурации GPU, что значительно ускоряет процесс генерации видео для крупных проектов.