videoEffect.duration
videoEffect.resolution
videoEffect.ratio
发现通义万相 2.2:革新AI视频创作
通义万相 2.2:将文字转化为电影杰作——用AI视频创新点燃你的创意
什么是 Wan 2.2?
2025年7月28日发布的通义万相Wan 2.2,相较于Wan 2.1取得了重大突破,首次推出开源的混合专家(MoE,专家混合)架构,用于视频扩散模型。其双专家系统——高噪专家用于生成初步结构,低噪专家用于优化细节——拥有27B参数,每一步仅激活14B参数,提升效率同时避免额外的计算开销。训练数据集大幅扩展,图像增加了65.6%,视频增加了83.2%,显著提高了运动、语义和视觉质量。主要进展包括:媲美电影的视觉效果,依托精细标注的数据集,涵盖了光照、构图、对比度和色彩;对复杂运动的处理能力提升;以及简化的5B混合TI2V模型,结合Wan2.2-VAE,提供16×16×4压缩,适用于RTX 4090等消费级GPU生成720p@24fps的视频。通义万相Wan 2.2在验证损失、收敛速度上优于前代,并在Wan-Bench 2.0等基准测试中表现领先,提供比前代更强的控制性、真实感和可访问性。
Wan 2.2的新功能
混合专家(MoE,专家混合)架构:
通义万相Wan 2.2首创了开源的MoE视频扩散模型,采用高噪专家生成初步布局,低噪专家优化细节,使用27B参数,每一步仅激活14B参数,实现比Wan 2.1传统扩散方法更高的效率和质量。
扩展和优化训练数据:
相比Wan 2.1,增加了65.6%的图像和83.2%的视频,数据集包含详细的光照、构图、对比度和色彩标注,生成媲美电影的视觉效果和精准的提示响应。
新型混合模型(TI2V-5B)
一款紧凑型的5B模型,搭载高压缩率的Wan2.2-VAE,支持720p@24fps的文生视频和图生视频,在RTX 4090等GPU上,生成5秒钟视频仅需不到9分钟,极大提升可访问性。
基准测试优势与集成
在Wan-Bench 2.0基准测试中领先,超越开源和专有模型;与ComfyUI、Diffusers和Hugging Face完美集成,支持低显存选项和扩展提示功能,更加易于使用。
主要特点
专家混合(MoE,Mixture-of-Experts)架构
通义万相Wan 2.2采用混合专家(MoE)架构,结合高噪专家和低噪专家,共计27B参数,但每步仅激活14B参数,提升效率同时确保对复杂动作和语义的优异处理,流畅度与细节表现超越传统模型。
电影级美学与精准提示响应
通过精细标注的光照、构图、对比度和色彩,通义万相Wan 2.2生成媲美电影的视觉效果,具备卓越的提示响应能力,生成自然动画,最小化偏差,特别适合精确的创意控制。
增强的运动和分辨率支持
相比Wan 2.1,Wan 2.2在训练数据中增加了65.6%的图像和83.2%的视频,最小化了画面闪烁,支持720p@24fps的视频,最长可达5秒。TI2V-5B版本在入门级硬件上实现快速生成。
多模态多样性
轻松集成文本、图像和视频,支持图像转视频的过渡和风格一致性。粒子系统、光效和LoRA优化等特性使其在多种应用场景中表现出色。
通义万相 Wan 2.2 vs Wan 2.1 vs 其他视频模型
功能 | 通义万相 Wan 2.2 | 通义万相 Wan 2.1 | Kling AI (1.5/2.0) | OpenAI Sora | Luma AI Dream Machine |
---|---|---|---|---|---|
架构 | 专家混合(MoE,Mixture-of-Experts)架构,包含高噪声与低噪声专家;首个开源视频扩散MoE模型 | 标准扩散模型;无MoE | 专有的变换器架构;专注于时间一致性 | 专有扩散模型,采用先进的变换器模型;重点模拟世界效果 | 基于扩散,专注于超现实与动态效果 |
参数 | 总参数量为27B(每步激活14B);包含5B混合变体 | ~11B(估算值;扩展效率较差) | 未公开(专有技术;可能为10B+) | 未公开(专有技术;据说为10B+) | 未公开(专有技术;中等性能) |
最大分辨率和帧率 | 720p@24fps(部分预览为真实1080p分辨率);最长可生成5秒的视频 | 480p/720p@较低帧率;视频较短,且可能会出现更多伪影 | 1080p@30fps;最长可生成2分钟的视频 | 1080p@可变帧率;最长可生成1分钟视频(基于演示) | 720p@可变帧率;最长可生成10秒的片段 |
基准性能 | 超越Wan-Bench 2.0,收敛性和损失函数上优于2.1 | 稳定,但被2.2超越,且在开源类别中表现突出 | 在用户测试中超越Sora/Luma;在时间一致性方面表现优异 | 在创意基准测试中领先(演示显示其连贯性优势) | 高质量的演示;没有公开基准数据 |
如何使用通义万相 Wan 2.2
安装依赖:
克隆GitHub仓库(git clone https://github.com/Wan-Video/Wan2.2.git),然后运行 pip install -r requirements.txt(需要PyTorch >= 2.4.0)。
下载模型:
通过Hugging Face CLI 下载 T2V-A14B、I2V-A14B 或 TI2V-5B 模型(例如,huggingface-cli download Wan-AI/Wan2.2-T2V-A14B)。
生成视频:
For T2V: python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --prompt "Your detailed prompt". Optimize with --offload_model True for memory efficiency. Use ComfyUI for a user-friendly interface.
高级技巧:
通过Dashscope API或本地模型扩展提示语,提升生成效果;多GPU支持加速处理。
常见问题
Wan 2.2 支持哪些视频分辨率?
Wan 2.2 支持 480p 和 720p(24fps),其中 TI2V-5B 模型优化适配 1280x704 或 704x1280 分辨率。
Wan 2.2 可以免费使用吗?
是的,Wan 2.2 基于 MIT 开源协议,已发布在 Hugging Face,可集成至多种工具中使用。
Wan 2.2 对硬件的要求高吗?
使用 RTX 4090 显卡,5B 模型在生成 720p 视频时耗时不到 9 分钟,即便是普通用户,也能轻松上手。
Wan 2.2 支持 LoRA 微调(低秩适应)吗?
虽然官方文档未明确说明,但其架构支持风格训练,社区已开始集成 LoRA 相关功能。
哪里可以体验 Wan 2.2 的试用版?
你可以在 Hugging Face Spaces 中在线体验,或通过 ComfyUI 进行互动式测试和创作。
Wan 2.2 支持哪些视频生成模式?
Wan 2.2 支持文生视频(T2V)、图生视频(I2V)和文图混合生视频(TI2V)模式,满足各种创作需求。
Wan 2.2 如何提升提示词还原度?
通过精心训练的数据和 MoE 架构,Wan 2.2 能精准还原文本与图像提示,生成细节丰富、错误率低的视频。
Wan 2.2 支持多显卡加速吗?
支持。Wan 2.2 可在多显卡环境下运行,大大提高大型项目的生成速度。