videoEffect.duration

videoEffect.resolution

videoEffect.ratio

videoEffect.autoSound
videoEffect.autoSpeech
videoEffect.noWatermark
videoEffect.private

发现通义万相 2.2:革新AI视频创作

通义万相 2.2:将文字转化为电影杰作——用AI视频创新点燃你的创意

什么是 Wan 2.2?

2025年7月28日发布的通义万相Wan 2.2,相较于Wan 2.1取得了重大突破,首次推出开源的混合专家(MoE,专家混合)架构,用于视频扩散模型。其双专家系统——高噪专家用于生成初步结构,低噪专家用于优化细节——拥有27B参数,每一步仅激活14B参数,提升效率同时避免额外的计算开销。训练数据集大幅扩展,图像增加了65.6%,视频增加了83.2%,显著提高了运动、语义和视觉质量。主要进展包括:媲美电影的视觉效果,依托精细标注的数据集,涵盖了光照、构图、对比度和色彩;对复杂运动的处理能力提升;以及简化的5B混合TI2V模型,结合Wan2.2-VAE,提供16×16×4压缩,适用于RTX 4090等消费级GPU生成720p@24fps的视频。通义万相Wan 2.2在验证损失、收敛速度上优于前代,并在Wan-Bench 2.0等基准测试中表现领先,提供比前代更强的控制性、真实感和可访问性。

Wan 2.2的新功能

  • 混合专家(MoE,专家混合)架构:

    通义万相Wan 2.2首创了开源的MoE视频扩散模型,采用高噪专家生成初步布局,低噪专家优化细节,使用27B参数,每一步仅激活14B参数,实现比Wan 2.1传统扩散方法更高的效率和质量。

  • 扩展和优化训练数据:

    相比Wan 2.1,增加了65.6%的图像和83.2%的视频,数据集包含详细的光照、构图、对比度和色彩标注,生成媲美电影的视觉效果和精准的提示响应。

  • 新型混合模型(TI2V-5B)

    一款紧凑型的5B模型,搭载高压缩率的Wan2.2-VAE,支持720p@24fps的文生视频和图生视频,在RTX 4090等GPU上,生成5秒钟视频仅需不到9分钟,极大提升可访问性。

  • 基准测试优势与集成

    在Wan-Bench 2.0基准测试中领先,超越开源和专有模型;与ComfyUI、Diffusers和Hugging Face完美集成,支持低显存选项和扩展提示功能,更加易于使用。

主要特点

专家混合(MoE,Mixture-of-Experts)架构

通义万相Wan 2.2采用混合专家(MoE)架构,结合高噪专家和低噪专家,共计27B参数,但每步仅激活14B参数,提升效率同时确保对复杂动作和语义的优异处理,流畅度与细节表现超越传统模型。

电影级美学与精准提示响应

通过精细标注的光照、构图、对比度和色彩,通义万相Wan 2.2生成媲美电影的视觉效果,具备卓越的提示响应能力,生成自然动画,最小化偏差,特别适合精确的创意控制。

增强的运动和分辨率支持

相比Wan 2.1,Wan 2.2在训练数据中增加了65.6%的图像和83.2%的视频,最小化了画面闪烁,支持720p@24fps的视频,最长可达5秒。TI2V-5B版本在入门级硬件上实现快速生成。

多模态多样性

轻松集成文本、图像和视频,支持图像转视频的过渡和风格一致性。粒子系统、光效和LoRA优化等特性使其在多种应用场景中表现出色。

通义万相 Wan 2.2 vs Wan 2.1 vs 其他视频模型

功能通义万相 Wan 2.2通义万相 Wan 2.1Kling AI (1.5/2.0)OpenAI SoraLuma AI Dream Machine
架构专家混合(MoE,Mixture-of-Experts)架构,包含高噪声与低噪声专家;首个开源视频扩散MoE模型标准扩散模型;无MoE专有的变换器架构;专注于时间一致性专有扩散模型,采用先进的变换器模型;重点模拟世界效果基于扩散,专注于超现实与动态效果
参数总参数量为27B(每步激活14B);包含5B混合变体~11B(估算值;扩展效率较差)未公开(专有技术;可能为10B+)未公开(专有技术;据说为10B+)未公开(专有技术;中等性能)
最大分辨率和帧率720p@24fps(部分预览为真实1080p分辨率);最长可生成5秒的视频480p/720p@较低帧率;视频较短,且可能会出现更多伪影1080p@30fps;最长可生成2分钟的视频1080p@可变帧率;最长可生成1分钟视频(基于演示)720p@可变帧率;最长可生成10秒的片段
基准性能超越Wan-Bench 2.0,收敛性和损失函数上优于2.1稳定,但被2.2超越,且在开源类别中表现突出在用户测试中超越Sora/Luma;在时间一致性方面表现优异在创意基准测试中领先(演示显示其连贯性优势)高质量的演示;没有公开基准数据

如何使用通义万相 Wan 2.2

  • 安装依赖:

    克隆GitHub仓库(git clone https://github.com/Wan-Video/Wan2.2.git),然后运行 pip install -r requirements.txt(需要PyTorch >= 2.4.0)。

  • 下载模型:

    通过Hugging Face CLI 下载 T2V-A14B、I2V-A14B 或 TI2V-5B 模型(例如,huggingface-cli download Wan-AI/Wan2.2-T2V-A14B)。

  • 生成视频:

    For T2V: python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --prompt "Your detailed prompt". Optimize with --offload_model True for memory efficiency. Use ComfyUI for a user-friendly interface.

  • 高级技巧:

    通过Dashscope API或本地模型扩展提示语,提升生成效果;多GPU支持加速处理。

常见问题

  • Wan 2.2 支持哪些视频分辨率?

    Wan 2.2 支持 480p 和 720p(24fps),其中 TI2V-5B 模型优化适配 1280x704 或 704x1280 分辨率。

  • Wan 2.2 可以免费使用吗?

    是的,Wan 2.2 基于 MIT 开源协议,已发布在 Hugging Face,可集成至多种工具中使用。

  • Wan 2.2 对硬件的要求高吗?

    使用 RTX 4090 显卡,5B 模型在生成 720p 视频时耗时不到 9 分钟,即便是普通用户,也能轻松上手。

  • Wan 2.2 支持 LoRA 微调(低秩适应)吗?

    虽然官方文档未明确说明,但其架构支持风格训练,社区已开始集成 LoRA 相关功能。

  • 哪里可以体验 Wan 2.2 的试用版?

    你可以在 Hugging Face Spaces 中在线体验,或通过 ComfyUI 进行互动式测试和创作。

  • Wan 2.2 支持哪些视频生成模式?

    Wan 2.2 支持文生视频(T2V)、图生视频(I2V)和文图混合生视频(TI2V)模式,满足各种创作需求。

  • Wan 2.2 如何提升提示词还原度?

    通过精心训练的数据和 MoE 架构,Wan 2.2 能精准还原文本与图像提示,生成细节丰富、错误率低的视频。

  • Wan 2.2 支持多显卡加速吗?

    支持。Wan 2.2 可在多显卡环境下运行,大大提高大型项目的生成速度。