videoEffect.duration
videoEffect.resolution
videoEffect.ratio
Откройте Wan 2.2: Революция в создании видео с помощью ИИ
Wan 2.2: Превращайте слова в кинематографические шедевры — освободите свою креативность с инновациями в ИИ для видео
Что такое Wan 2.2?
Wan 2.2, выпущенная 28 июля 2025 года, представляет собой значительный шаг вперед по сравнению с Wan 2.1. Это первая открытая модель с архитектурой Mixture-of-Experts (MoE) для генерации видео. Ее система из двух экспертов — с высокой степенью шума для начальной структуры и с низким уровнем шума для уточнения деталей — использует 27 миллиардов параметров, но активирует лишь 14 миллиардов на каждом шаге, что позволяет улучшить эффективность без увеличения вычислительных затрат. Датасет для обучения был значительно расширен: изображения увеличены на 65,6%, а видео на 83,2%, что улучшает движение, семантическое восприятие и визуальные характеристики. Ключевые усовершенствования включают кинематографическое качество визуализаций, основанное на тщательно отобранных данных с метками для освещения, композиции, контраста и цвета; улучшенную обработку сложных движений; и оптимизированную модель 5B для гибридной генерации TI2V с Wan2.2-VAE, сжимающую видео с коэффициентом 16×16×4 для видео 720p@24fps на потребительских GPU, таких как RTX 4090. Wan 2.2 достигает меньших потерь при валидации, лучшей сходимости и превосходит такие бенчмарки, как Wan-Bench 2.0, предоставляя лучший контроль, более реалистичные результаты и большую доступность по сравнению с предыдущей версией.
Что нового в Wan 2.2
Архитектура MoE (Mixture-of-Experts):
Wan 2.2 представляет собой открытую модель с архитектурой MoE для генерации видео. Эксперты с высокой степенью шума формируют начальную структуру, а эксперты с низким уровнем шума уточняют детали, используя 27 миллиардов параметров, при этом только 14 миллиардов активируются на каждом шаге для повышения эффективности и качества по сравнению с традиционным подходом диффузии в Wan 2.1.
Расширенные и отобранные данные для обучения:
Содержит на 65,6% больше изображений и на 83,2% больше видео, чем в Wan 2.1, с дополнением меток для освещения, композиции, контраста и цвета, обеспечивая визуализации кинематографического качества и точность выполнения запросов.
Новый гибридный вариант модели (TI2V-5B):
Компактная 5B модель с высокой степенью сжатия Wan2.2-VAE, поддерживающая гибридное преобразование текста в видео и изображений в видео с разрешением 720p при 24fps, генерируя 5-секундные видео за менее чем 9 минутRe-edit translated copy на таких GPU, как RTX 4090, для улучшенной доступности.
Преимущества по бенчмаркам и интеграции:
Возглавляет Wan-Bench 2.0, превосходя как открытые, так и проприетарные модели; бесшовно интегрируется с ComfyUI, Diffusers и Hugging Face, поддерживает модели с малым объемом видеопамяти и расширенные запросы для удобства использования.
Ключевые особенности
Архитектура MoE для динамичного подхода экспертов
Wan 2.2 использует архитектуру Mixture-of-Experts (MoE) с экспертами с высокой и низкой степенью шума, всего 27 миллиардов параметров, но на каждом шаге активируется только 14 миллиардов для повышения эффективности. Это позволяет эффективнее обрабатывать сложные движения и семантику, превосходя традиционные модели по плавности и деталям изображения.
Кинематографическая эстетика и точность выполнения запросов
Обработанная с детальными метками для освещения, композиции, контраста и цвета, Wan 2.2 создает визуализации уровня кино. Она прекрасно выполняет запросы, создавая естественные анимации с минимальными ошибками, идеально подходящие для точного креативного контроля.
Улучшенная поддержка движений и разрешения
Wan 2.2 обучалась на 65,6% больше изображений и 83,2% больше видео по сравнению с Wan 2.1. Модель минимизирует мерцание кадров и поддерживает видео в формате 720p@24fps продолжительностью до 5 секунд. Вариант TI2V-5B обеспечивает быструю генерацию даже на бюджетном оборудовании.
Мультимодальная универсальность
Бесшовно интегрирует текст, изображения и видео, обеспечивая плавные переходы между ними и стабильность стиля. Такие функции, как системы частиц, световые эффекты и оптимизация LoRA, делают модель идеальной для множества приложений.
Сравнение Wan 2.2 с Wan 2.1 и другими моделями для генерации видео
Особенность | Wan 2.2 | Wan 2.1 | Kling AI (1.5/2.0) | OpenAI Sora | Luma AI Dream Machine |
---|---|---|---|---|---|
Архитектура | Смешанная модель экспертов (MoE) с экспертами высокой и низкой степени шума; первая open-source MoE для генерации видео | Стандартная модель диффузии; без MoE | Собственный трансформер; акцент на временную согласованность | Собственная модель диффузии с улучшенным трансформером, акцентирующая внимание на симуляции мира | Диффузия с акцентом на сюрреалистичные и динамичные визуальные эффекты |
Параметры | 27B всего (14B активно на каждом шаге); гибридный вариант 5B | приблизительно 11B (оценочно; менее эффективное масштабирование) | Не раскрыто (собственная разработка; предполагаемый размер 10B+) | Не раскрыто (собственная разработка; предполагаемый размер около 10B+) | Не раскрыто (собственная разработка; средний диапазон) |
Максимальное разрешение/FPS | 720p@24fps (в некоторых предварительных просмотрах — родное 1080p); видео до 5 секунд | 480p/720p@ низкий FPS; короткие клипы с большим количеством артефактов | 1080p@30fps; до 2 минут видео | 1080p@ переменный FPS; видео до 1 минуты (на основе демонстраций) | 720p@ переменный FPS; клипы до 10 секунд |
Производительность по бенчмаркам | Топы Wan-Bench 2.0; лучшая сходимость и потери по сравнению с 2.1 | Надежно, но уступает 2.2; хорош в категории open-source | Сильные результаты в тестах пользователей против Sora/Luma; превосходит по временным меткам и другим параметрам | Лидер в творческих тестах (демонстрации показывают превосходство в согласованности) | Высокие результаты в качественных тестах; отсутствуют публичные бенчмарки |
Как использовать Wan 2.2
Установите зависимости:
Клонируйте репозиторий с GitHub (git clone https://github.com/Wan-Video/Wan2.2.git) и выполните команду pip install -r requirements.txt (требуется PyTorch >= 2.4.0).
Скачайте модели:
Используйте Hugging Face CLI для T2V-A14B, I2V-A14B или TI2V-5B (например, huggingface-cli download Wan-AI/Wan2.2-T2V-A14B).
Как генерировать видео:
Для T2V: python generate.py --task t2v-A14B --size 1280x720 --ckpt_dir ./Wan2.2-T2V-A14B --prompt "Ваш запрос". Оптимизируйте с --offload_model True для повышения эффективности памяти. Используйте ComfyUI для удобного интерфейса.
Дополнительные советы:
Улучшайте результаты с помощью расширений запросов через Dashscope API или локальные модели; поддержка multi-GPU ускоряет обработку.
Часто задаваемые вопросы
Какие разрешения поддерживает Wan 2.2?
Wan 2.2 поддерживает разрешения 480p и 720p при 24fps, при этом модель TI2V-5B оптимизирована для 1280x704 или 704x1280.
Можно ли использовать Wan 2.2 бесплатно?
Да, он является open-source под лицензией MIT и доступен на Hugging Face, а также может быть интегрирован в различные инструменты.
Какие требования к оборудованию для Wan 2.2?
Модель 5B работает на RTX 4090 менее чем за 9 минут для видео 720p, что делает его доступным для обычных пользователей.
Можно ли настроить Wan 2.2 с помощью LoRA?
Хотя это не детализировано в релизе, его архитектура поддерживает обучение стиля, и уже появляются интеграции с сообществом.
Где можно протестировать демонстрации Wan 2.2?
Попробуйте демо на Hugging Face или используйте ComfyUI для интерактивных тестов и экспериментов.
Какие типы генерации видео поддерживает Wan 2.2?
Wan 2.2 поддерживает режимы текст-видео (T2V), изображение-видео (I2V) и гибридный текст-изображение-видео (TI2V), предоставляя гибкость для разнообразных креативных проектов.
Как Wan 2.2 улучшает точность выполнения запросов?
Используемые данные для обучения и архитектура MoE обеспечивают высокую точность в выполнении запросов, создавая видео с точными деталями и минимальными ошибками.
Поддерживает ли Wan 2.2 работу с несколькими GPU?
Да, Wan 2.2 поддерживает многозадачные конфигурации GPU, что значительно ускоряет процесс генерации видео для крупных проектов.