Quelles résolutions Wan 2.2 prend-il en charge ?

Wan 2.2 prend en charge 480p et 720p à 24fps, avec le modèle TI2V-5B optimisé pour 1280x704 ou 704x1280.

Wan 2.2 est-il gratuit ?

Oui, il est open-source sous la licence MIT, disponible sur Hugging Face et intégrable dans divers outils.

Comment Wan 2.2 gère-t-il les exigences matérielles ?

Le modèle 5B fonctionne sur RTX 4090 en moins de 9 minutes pour des vidéos 720p, ce qui le rend accessible aux utilisateurs amateurs.

Puis-je affiner Wan 2.2 avec LoRA ?

Bien que non détaillée explicitement dans la version, son architecture prend en charge l'apprentissage de style, avec des intégrations communautaires en développement.

Où puis-je tester les démos de Wan 2.2 ?

Explorez les démos sur Hugging Face spaces ou utilisez ComfyUI pour des tests interactifs et des expérimentations.

Quels types de génération vidéo Wan 2.2 prend-il en charge ?

Wan 2.2 prend en charge les modes texte-vers-vidéo (T2V), image-vers-vidéo (I2V) et hybride texte-image-vers-vidéo (TI2V), offrant une grande flexibilité pour divers projets créatifs.

Comment Wan 2.2 améliore-t-il l'adhérence aux invites ?

Ses données d'entraînement soigneusement sélectionnées et son architecture MoE garantissent une haute fidélité aux invites textuelles et visuelles, produisant des vidéos avec des détails précis et des erreurs minimales.

La prise en charge du multi-GPU est-elle disponible pour Wan 2.2 ?

Oui, Wan 2.2 prend en charge les configurations multi-GPU, ce qui peut accélérer considérablement la génération vidéo pour les projets plus volumineux.

videoEffect.duration

videoEffect.resolution

videoEffect.ratio

videoEffect.autoSound

videoEffect.autoSpeech

videoEffect.noWatermark

videoEffect.private

Wan 2.2 : la nouvelle ère de la création vidéo par IA

Wan 2.2 : donnez vie à vos mots avec des vidéos dignes du cinéma – Libérez votre créativité grâce à l’innovation IA

Qu'est-ce que Wan 2.2 ?

Wan 2.2, lancé le 28 juillet 2025, représente un bond en avant majeur par rapport à Wan 2.1, introduisant la première architecture open-source Mixture-of-Experts (MoE) pour les modèles de diffusion vidéo. Son système à double expert—un pour la structure initiale à haute variance et un autre pour les détails affinés à faible variance—dispose de 27 milliards de paramètres, n'activant que 14 milliards à chaque étape, assurant ainsi une efficacité accrue sans coûts computationnels supplémentaires. L'ensemble de données d'entraînement a été considérablement enrichi, avec 65,6 % d'images supplémentaires et 83,2 % de vidéos en plus, améliorant les mouvements, la sémantique et la qualité des visuels. Parmi les avancées clés, on trouve des visuels de qualité cinématographique issus de données sélectionnées avec des étiquettes détaillées pour l'éclairage, la composition, le contraste et la couleur ; une gestion améliorée des mouvements complexes ; et un modèle hybride TI2V 5B rationalisé avec Wan2.2-VAE, offrant une compression 16×16×4 pour des vidéos 720p à 24fps, idéale pour des GPU grand public comme le RTX 4090. Wan 2.2 présente une perte de validation réduite, une meilleure convergence et surpasse les benchmarks tels que Wan-Bench 2.0, offrant un contrôle amélioré, un réalisme supérieur et une accessibilité accrue par rapport à son prédécesseur.

Les nouveautés de Wan 2.2

Architecture Mixture-of-Experts (MoE) :
Wan 2.2 introduit une nouvelle architecture MoE open-source pour la diffusion vidéo, où des experts à haute variance définissent les premières structures et des experts à faible variance affinent les détails, utilisant 27 milliards de paramètres, mais n'activant que 14 milliards à chaque étape, assurant ainsi une efficacité et une qualité supérieures par rapport à l'approche traditionnelle de diffusion de Wan 2.1.
Données d'entraînement enrichies et sélectionnées :
Inclut 65,6 % d’images en plus et 83,2 % de vidéos supplémentaires par rapport à Wan 2.1, enrichies par des étiquettes précises sur l’éclairage, la composition, le contraste et la couleur, produisant des visuels de qualité cinématographique et un respect précis des prompts.
Nouvelle variante hybride du modèle (TI2V-5B) :
Un modèle compact de 5B avec une compression avancée Wan2.2-VAE, prenant en charge la génération texte-vers-vidéo et image-vers-vidéo en 720p à 24 fps. Il génère des vidéos de 5 secondes en moins de 9 minutes surRe-editing translated copy des GPU comme le RTX 4090, facilitant ainsi l’accès à ces capacités.
Domination des benchmarks et intégrations :
Leader dans le benchmark Wan-Bench 2.0, surpassant les modèles open-source et propriétaires ; s’intègre parfaitement à ComfyUI, Diffusers et Hugging Face, compatible avec les options à faible VRAM et les extensions de prompts pour une utilisation plus facile.

Fonctions principales

Architecture MoE pour une expertise évolutive

Wan 2.2 utilise une architecture Mixture-of-Experts (MoE) avec des experts bruyants et moins bruyants, totalisant 27 milliards de paramètres, mais n’en activant que 14 milliards à chaque étape pour améliorer l’efficacité. Cela permet une gestion optimisée des mouvements complexes et des concepts sémantiques, surpassant les modèles traditionnels en termes de fluidité et de détails.

Esthétique cinématographique et respect précis des prompts

Grâce à des étiquettes détaillées sur l’éclairage, la composition, le contraste et la couleur, Wan 2.2 génère des visuels dignes du cinéma. Il excelle dans le respect des prompts, produisant des animations naturelles avec un minimum d’hallucinations, idéales pour un contrôle créatif précis.

Meilleure gestion du mouvement et de la résolution

Avec 65,6 % d’images en plus et 83,2 % de vidéos supplémentaires dans ses données d’apprentissage par rapport à Wan 2.1, Wan 2.2 réduit le scintillement entre les frames et prend en charge des vidéos jusqu’à 5 secondes en 720p à 24 fps. La variante TI2V-5B permet une génération rapide sur du matériel accessible.

Souplesse multimodale

Combine naturellement texte, images et vidéos, avec prise en charge des transitions image-vers-vidéo et d’une cohérence de style. Des fonctionnalités comme les systèmes de particules, les effets lumineux et les optimisations LoRA* en font une solution idéale pour des cas d’usage variés.

Wan 2.2 vs Wan 2.1 vs autres modèles vidéo

Fonctionnalité	Wan 2.2	Wan 2.1	Kling AI (1.5/2.0)	OpenAI Sora	Luma AI Dream Machine
Architecture	Architecture Mixture-of-Experts (MoE) combinant des experts à bruit élevé et faible ; premier MoE open source pour la diffusion vidéo	Modèle de diffusion classique ; sans MoE	Transformer propriétaire ; se concentre sur la cohérence temporelle	Diffusion propriétaire avec transformer avancé ; axée sur la simulation du monde réel	Reposant sur la diffusion, avec des effets visuels dynamiques et surréalistes
Paramètres	27B au total (14B actifs par étape) ; variante hybride 5B	~11B (estimation ; mise à l’échelle moins performante)	Non communiqué (propriétaire ; probablement plus de 10B)	Non divulgué (propriétaire ; rumeur : 10B+)	Non divulgué (propriétaire ; gamme intermédiaire)
Résolution et fréquence d’images maximales	720p à 24 fps (1080p natif dans certains aperçus) ; vidéos jusqu’à 5 secondes	480p/720p à fréquence d’images réduite ; clips courts avec plus d’artefacts	1080p à 30 fps ; vidéos jusqu’à 2 minutes	1080p à fréquence d’images variable ; vidéos jusqu’à 1 minute (selon les démos)	720p à fréquence d’images variable ; clips jusqu’à 10 secondes
Résultats de benchmark	En tête du Wan-Bench 2.0 ; meilleure convergence et perte que la 2.1	Solide, mais surpassé par la version 2.2 ; bon candidat dans la catégorie open source	Excellente performance utilisateur face à Sora/Luma ; très bon sur la cohérence temporelle	Leader en créativité (les démos montrent une excellente cohérence)	Très bons résultats sur les démonstrations qualitatives ; aucun benchmark public disponible

Guide d'utilisation de Wan 2.2

Installation des dépendances :
Clonez le dépôt GitHub (git clone https://github.com/Wan-Video/Wan2.2.git), puis exécutez la commande pip install -r requirements.txt (PyTorch >= 2.4.0 requis).
Téléchargement des modèles :
Utilisez la ligne de commande Hugging Face (CLI) pour télécharger les modèles T2V-A14B, I2V-A14B ou TI2V-5B (ex. : huggingface-cli download Wan-AI/Wan2.2-T2V-A14B).
Générer des vidéos :
Pour T2V : python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --prompt "Votre prompt détaillé". Ajoutez --offload_model True pour optimiser la gestion de la mémoire. Utilisez ComfyUI pour une interface plus conviviale.
Conseils avancés :
Améliorez les résultats avec des extensions de prompt via l’API Dashscope ou des modèles locaux ; le support multi-GPU accélère le traitement.

FAQ

Quelles résolutions Wan 2.2 prend-il en charge ?
Wan 2.2 prend en charge 480p et 720p à 24fps, avec le modèle TI2V-5B optimisé pour 1280x704 ou 704x1280.
Wan 2.2 est-il gratuit ?
Oui, il est open-source sous la licence MIT, disponible sur Hugging Face et intégrable dans divers outils.
Comment Wan 2.2 gère-t-il les exigences matérielles ?
Le modèle 5B fonctionne sur RTX 4090 en moins de 9 minutes pour des vidéos 720p, ce qui le rend accessible aux utilisateurs amateurs.
Puis-je affiner Wan 2.2 avec LoRA ?
Bien que non détaillée explicitement dans la version, son architecture prend en charge l'apprentissage de style, avec des intégrations communautaires en développement.
Où puis-je tester les démos de Wan 2.2 ?
Explorez les démos sur Hugging Face spaces ou utilisez ComfyUI pour des tests interactifs et des expérimentations.
Quels types de génération vidéo Wan 2.2 prend-il en charge ?
Wan 2.2 prend en charge les modes texte-vers-vidéo (T2V), image-vers-vidéo (I2V) et hybride texte-image-vers-vidéo (TI2V), offrant une grande flexibilité pour divers projets créatifs.
Comment Wan 2.2 améliore-t-il l'adhérence aux invites ?
Ses données d'entraînement soigneusement sélectionnées et son architecture MoE garantissent une haute fidélité aux invites textuelles et visuelles, produisant des vidéos avec des détails précis et des erreurs minimales.
La prise en charge du multi-GPU est-elle disponible pour Wan 2.2 ?
Oui, Wan 2.2 prend en charge les configurations multi-GPU, ce qui peut accélérer considérablement la génération vidéo pour les projets plus volumineux.