videoEffect.duration

videoEffect.resolution

videoEffect.ratio

videoEffect.autoSound
videoEffect.autoSpeech
videoEffect.noWatermark
videoEffect.private

Wan 2.2 entdecken: Revolutioniert die Erstellung von KI-Videos

Wan 2.2: Verwandeln Sie Texte in cineastische Meisterwerke – Entfesseln Sie Ihre Kreativität mit KI-Video-Innovation

Was genau ist Wan 2.2?

Wan 2.2, veröffentlicht am 28. Juli 2025, stellt einen bedeutenden Fortschritt im Vergleich zu Wan 2.1 dar. Es führt die erste Open-Source-Mixture-of-Experts (MoE)-Architektur für Video-Diffusionsmodelle ein. Das duale Expertensystem – hochbelastet für die anfängliche Struktur und geringbelastet für verfeinerte Details – verfügt über 27 Milliarden Parameter und aktiviert nur 14 Milliarden pro Schritt, was die Effizienz verbessert und gleichzeitig die Rechenkosten senkt. Das Trainingsdatenset wurde erheblich erweitert, mit 65,6% mehr Bildern und 83,2% mehr Videos, und verbessert damit die Bewegung, Semantik und visuelle Qualität. Zu den wichtigsten Fortschritten gehören Filmqualität-Videos, die von kuratierten Daten mit detaillierten Beschreibungen für Beleuchtung, Komposition, Kontrast und Farbe unterstützt werden, eine bessere Handhabung komplexer Bewegungsabläufe sowie ein optimiertes 5B-Hybrid-TI2V-Modell mit Wan2.2-VAE, das 16×16×4-Kompression für 720p@24fps-Videos auf Verbrauchergrafikkarten wie der RTX 4090 ermöglicht. Wan 2.2 erreicht eine niedrigere Validierungsfehlerquote, bessere Konvergenz und setzt Benchmarks wie Wan-Bench 2.0 an, mit mehr Kontrolle, Realismus und Zugänglichkeit als sein Vorgänger.

Neuheiten in Wan 2.2

  • Mixture-of-Experts (MoE) Architektur:

    Wan 2.2 führt eine Open-Source-MoE-Architektur für Video-Diffusion ein. Mit hochbelasteten Experten für die anfängliche Struktur und geringbelasteten Experten zur Verfeinerung der Details bietet es dank 27 Milliarden Parametern und lediglich 14 Milliarden pro Schritt eine überlegene Effizienz und Qualität im Vergleich zum traditionellen Diffusionsansatz von Wan 2.1.

  • Erweiterte und kuratierte Trainingsdaten:

    Beinhaltet 65,6 % mehr Bilder und 83,2 % mehr Videos als Wan 2.1, angereichert mit Labels für Beleuchtung, Komposition, Kontrast und Farbe, die kinoreife Visuals und präzise Prompt-Umsetzung liefern.

  • Neue Hybrid-Modellversion (TI2V-5B):

    Ein kompaktes 5B-Modell mit hoher Kompression Wan2.2-VAE, das Hybrid-Text-zu-Video und Bild-zu-Video bei 720p@24fps unterstützt und 5-Sekunden-Videos in weniger als 9Übersetzung bearbeiten Minuten auf GPUs wie der RTX 4090 ermöglicht, um eine größere Zugänglichkeit zu schaffen.

  • Benchmark-Dominanz und Integrationen:

    Führt Wan-Bench 2.0 an, übertrifft Open-Source- und proprietäre Modelle; integriert sich nahtlos mit ComfyUI, Diffusers und Hugging Face und unterstützt Optionen für niedrigen VRAM sowie Prompt-Erweiterungen für eine einfache Nutzung.

Hauptmerkmale

MoE-Architektur für flexible Expertise

Wan 2.2 nutzt ein Mixture-of-Experts (MoE)-Design mit hochbelasteten und geringbelasteten Experten, insgesamt 27 Milliarden Parameter, aktiviert jedoch nur 14 Milliarden pro Schritt, um eine hohe Effizienz zu erzielen. Dies ermöglicht eine überlegene Handhabung komplexer Bewegungen und Semantik und bietet mehr Flexibilität als traditionelle Modelle in Flüssigkeit und Detailtreue.

Cineastische Ästhetik und präzise Prompt-Umsetzung

Mit detaillierten Labels für Beleuchtung, Komposition, Kontrast und Farbe kuratiert, erzeugt Wan 2.2 Visuals in Filmqualität. Es glänzt mit präziser Prompt-Umsetzung und erzeugt natürliche Animationen mit wenigen Halluzinationen – ideal für präzise kreative Kontrolle.

Erweiterte Unterstützung für Bewegung und Auflösung

Mit +65,6 % mehr Bildern und +83,2 % mehr Videos in den Trainingsdaten im Vergleich zu Wan 2.1 minimiert Wan 2.2 Bildflimmern und ermöglicht 720p@24fps-Videos von bis zu 5 Sekunden. Die TI2V-5B-Variante ermöglicht schnelle Generierung auf kostengünstiger Hardware.

Multimodale Vielseitigkeit

Integriert nahtlos Text, Bilder und Video, unterstützt Übergänge zwischen Bildern und Videos sowie die Konsistenz des Stils. Funktionen wie Partikelsysteme, Beleuchtungseffekte und LoRA-Trainingsoptimierungen machen es ideal für eine Vielzahl von Anwendungen.

Wan 2.2 vs. Wan 2.1 vs. Andere Video-Modelle

MerkmalVersion Wan 2.2Wan 2.1Kling AI (1.5/2.0)OpenAI SoraLuma AI Dream Machine
Die ArchitekturMixture-of-Experts (MoE) mit Experten für hohes und niedriges Rauschen; erstes Open-Source-MoE für Video-DiffusionStandard-Diffusionsmodell ohne MoEProprietärer transformerbasierter Ansatz; mit Fokus auf zeitliche KonsistenzProprietäre Diffusion mit fortschrittlichem Transformer; mit Fokus auf die Simulation von WeltenDiffusionsbasiert mit einem Fokus auf surreale, dynamische Effekte
ParameterInsgesamt 27B (14B aktiv pro Schritt); 5B Hybrid-Variante~11B (geschätzt; weniger effizientes Scaling)Nicht offengelegt (proprietäre Technologie; vermutlich 10B+)Nicht offengelegt (proprietär; geschätzte 10B+)Nicht offengelegt (proprietär; Mittelklasse)
Maximale Auflösung/FPS720p@24fps, in einigen Vorschauen natives 1080p; bis zu 5 Sekunden Videos480p/720p@ niedrigeren FPS; kürzere Clips mit mehr Artefakten1080p@30fps; bis zu 2 Minuten lange Videos1080p@ variable FPS; bis zu 1 Minute (basierend auf Demos)720p@ variable FPS; bis zu 10 Sekunden Clips
Benchmark-LeistungÜbertrifft Wan-Bench 2.0; bessere Konvergenz und Verlust als 2.1Solide, aber von 2.2 übertroffen; stark im Open-Source-BereichStark in Benutzertests im Vergleich zu Sora/Luma; hervorragend bei temporalen MetrikenFührend in kreativen Benchmarks (Demos belegen die Überlegenheit in der Kohärenz)Ausgezeichnete Demos; keine öffentlichen Benchmarks

So nutzt du Wan 2.2

  • Abhängigkeiten installieren:

    Klone das GitHub-Repo (git clone https://github.com/Wan-Video/Wan2.2.git) und führe pip install -r requirements.txt aus (PyTorch >= 2.4.0 erforderlich).

  • Modelle herunterladen:

    Nutze das Hugging Face CLI für T2V-A14B, I2V-A14B oder TI2V-5B (z.B. huggingface-cli download Wan-AI/Wan2.2-T2V-A14B).

  • Videos generieren:

    Für T2V: python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --prompt "Dein detaillierter Prompt". Optimiere mit --offload_model True für optimierte Speichernutzung. Verwende ComfyUI für eine benutzerfreundliche Oberfläche.

  • Erweiterte Tipps:

    Verbessere die Ergebnisse mit erweiterten Prompts über die Dashscope API oder lokale Modelle; Multi-GPU-Unterstützung beschleunigt die Verarbeitung.

Fragen

  • Welche Auflösungen unterstützt Wan 2.2?

    Wan 2.2 unterstützt 480p und 720p bei 24fps, wobei das TI2V-5B-Modell für 1280x704 oder 704x1280 optimiert ist.

  • Ist Wan 2.2 kostenlos?

    Ja, es ist Open-Source unter der MIT-Lizenz und auf Hugging Face verfügbar, sowie in verschiedene Tools integrierbar.

  • Wie erfüllt Wan 2.2 die Hardwareanforderungen?

    Das 5B-Modell läuft auf einer RTX 4090 in unter 9 Minuten für 720p-Videos, was es auch für private Nutzer zugänglich macht.

  • Kann ich Wan 2.2 mit LoRA feinabstimmen?

    Obwohl nicht explizit im Release beschrieben, unterstützt die Architektur von Wan 2.2 das Training von Stilen, mit wachsenden Community-Integrationen.

  • Wo kann ich Wan 2.2-Demos testen?

    Testen Sie Demos auf Hugging Face Spaces oder nutzen Sie ComfyUI für interaktives Testen und Experimentieren.

  • Welche Videoarten unterstützt Wan 2.2?

    Wan 2.2 unterstützt Text-zu-Video (T2V), Bild-zu-Video (I2V) und hybride Text-Bild-zu-Video (TI2V) Modi und bietet so viel Flexibilität für kreative Projekte.

  • Wie verbessert Wan 2.2 die Genauigkeit bei der Eingabe?

    Dank sorgfältig ausgewählter Trainingsdaten und der MoE-Architektur sorgt Wan 2.2 für eine hohe Genauigkeit bei Text- und Bildaufforderungen. So entstehen Videos mit präzisen Details und wenigen Fehlern.

  • Bietet Wan 2.2 Unterstützung für mehrere GPUs?

    Ja, Wan 2.2 unterstützt Multi-GPU-Konfigurationen, wodurch die Videoerstellung für größere Projekte wesentlich schneller wird.