videoEffect.duration
videoEffect.resolution
videoEffect.ratio
Descubre Wan 2.2: Revolucionando la Creación de Videos con IA
Wan 2.2: Convierte Palabras en Obras Cinemáticas – Desata tu Creatividad con la Innovación en Video IA
¿Qué es Wan 2.2?
Wan 2.2, lanzado el 28 de julio de 2025, marca un gran avance respecto a Wan 2.1, introduciendo la primera arquitectura abierta de Mixture-of-Experts (MoE) para modelos de generación de video por difusión. Su sistema de doble experto—alto ruido para la estructura inicial y bajo ruido para detalles refinados—cuenta con 27 mil millones de parámetros, activando solo 14 mil millones por paso para mejorar la eficiencia sin aumentar el costo computacional. El dataset de entrenamiento se ha ampliado significativamente, con un 65,6% más de imágenes y un 83,2% más de videos, mejorando el movimiento, la semántica y la calidad visual. Los avances clave incluyen imágenes de calidad cinematográfica impulsadas por datos curados con etiquetas detalladas para iluminación, composición, contraste y color; un mejor manejo de movimientos complejos; y un modelo híbrido TI2V 5B optimizado con Wan2.2-VAE, que ofrece una compresión de 16×16×4 para videos en 720p@24fps en GPUs de uso general como la RTX 4090. Wan 2.2 logra una menor pérdida de validación, mejor convergencia y encabeza comparativas de rendimiento como Wan-Bench 2.0, ofreciendo mayor control, realismo y accesibilidad en comparación con su predecesor.
Novedades en Wan 2.2
Arquitectura Mixture-of-Experts (MoE):
Wan 2.2 es pionero en la arquitectura de código abierto MoE para la generación de video por difusión, con expertos de alto ruido definiendo la estructura inicial y expertos de bajo ruido refinando los detalles, utilizando 27 mil millones de parámetros, pero solo 14 mil millones por paso para una mayor eficiencia y calidad en comparación con el enfoque tradicional de difusión de Wan 2.1.
Datos de Entrenamiento Ampliados y Curados:
Incluye un 65,6% más de imágenes y un 83,2% más de videos que Wan 2.1, enriquecidos con etiquetas detalladas para iluminación, composición, contraste y color, proporcionando visuales cinematográficos y un ajuste preciso a los prompts.
Nueva Variante de Modelo Híbrido (TI2V-5B):
Un modelo compacto de 5B, con Wan2.2-VAE altamente comprimido, compatible con texto a video e imagen a video en 720p@24fps, generando videos de 5 segundos en menos de 9 minutos en GPUs como la RTX 4090, lo que mejora laReedición de traducción accesibilidad.
Dominio en Benchmarks e Integraciones:
Encabeza Wan-Bench 2.0, superando a modelos de código abierto y propietarios; se integra perfectamente con ComfyUI, Diffusers y Hugging Face, ofreciendo opciones de bajo VRAM y extensiones de prompt que mejoran la facilidad de uso.
Características Clave
Arquitectura MoE para una Experiencia de Experto Dinámico
Wan 2.2 utiliza un diseño Mixture-of-Experts (MoE) con expertos de alto ruido y bajo ruido, con un total de 27 mil millones de parámetros, pero activando solo 14 mil millones por paso para mayor eficiencia. Esto permite un manejo superior de movimientos complejos y comprensión semántica, superando a los modelos tradicionales en fluidez y detalle.
Estética Cinemática y Precisión en los Prompts
Curado con etiquetas detalladas para iluminación, composición, contraste y color, Wan 2.2 produce visuales de calidad cinematográfica. Sobresale en la precisión al seguir los prompts, generando animaciones naturales con mínimas alucinaciones, ideal para un control creativo preciso.
Mejora en Soporte de Movimiento y Resolución
Con un 65,6% más de imágenes y un 83,2% más de videos en los datos de entrenamiento del modelo en comparación con Wan 2.1, Wan 2.2 reduce el parpadeo de cuadros y soporta videos en 720p@24fps de hasta 5 segundos. La variante TI2V-5B facilita una generación rápida en hardware económico.
Versatilidad Multimodal
Integra de forma fluida texto, imágenes y video, permitiendo transiciones de imagen a video y manteniendo la consistencia de estilo. Características como sistemas de partículas, efectos de iluminación y optimizaciones en redes neuronales LoRA lo hacen ideal para aplicaciones diversas.
Wan 2.2 vs Wan 2.1 vs Otros Modelos de Video
Característica | Wan 2.2 | Wan 2.1 | Kling AI (1.5/2.0) | OpenAI Sora | Luma AI Dream Machine |
---|---|---|---|---|---|
Arquitectura | Mixture-of-Experts (MoE) con expertos de alto/bajo ruido; primer MoE de código abierto para difusión de video | Modelo estándar de difusión; sin MoE (Mixture of Experts) | Difusión propietaria basada en transformador; enfoque en coherencia temporal | Difusión propietaria con transformador avanzado; énfasis en la simulación realista del mundo | Centrado en difusión con énfasis en efectos surrealistas y dinámicos |
Parámetros | 27B en total (14B activos por paso); una variante híbrida de 5B | ~11B (estimado; escalado menos eficiente) | No revelado (propietario; se estima 10B+) | No revelado (propietario; se rumorea 10B+) | No revelado (propietario; gama media aproximada) |
Resolución/FPS máximo soportado | 720p@24fps (1080p en algunas vistas previas); hasta 5s de video | 480p/720p@FPS bajo; clips más cortos con más artefactos | 1080p@30fps; hasta 2 minutos de video | 1080p@FPS variable; hasta 1 minuto (según las demostraciones) | 720p@FPS variable; hasta 10s de clips |
Rendimiento en Benchmark | Encabeza Wan-Bench 2.0; mejor convergencia y menor pérdida que 2.1 | Sólido pero superado por 2.2; bueno en la categoría de código abierto | Destacado en pruebas de usuarios frente a Sora/Luma; sobresale en métricas temporales | Líder en benchmarks creativos (las demostraciones muestran superioridad en coherencia) | Alto en demostraciones cualitativas; sin benchmarks públicos |
Cómo Usar Wan 2.2
Instalar dependencias:
Clona el repositorio de GitHub (git clone https://github.com/Wan-Video/Wan2.2.git) y ejecuta pip install -r requirements.txt (PyTorch >= 2.4.0 requerido).
Descargar Modelos:
Usa la interfaz de línea de comandos (CLI) de Hugging Face para T2V-A14B, I2V-A14B o TI2V-5B (por ejemplo, huggingface-cli download Wan-AI/Wan2.2-T2V-A14B).
Generar Videos:
Para T2V: python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --prompt "Tu descripción detallada". Optimiza el rendimiento con --offload_model True para mayor eficiencia de memoria. Usa ComfyUI para una interfaz fácil de usar.
Consejos Avanzados:
Mejora los resultados con extensiones de indicaciones mediante Dashscope API o modelos locales. El soporte multi-GPU acelera el procesamiento.
Preguntas Frecuentes
¿Qué resoluciones admite Wan 2.2?
Wan 2.2 admite 480p y 720p a 24fps, con el modelo TI2V-5B optimizado para 1280x704 o 704x1280.
¿Es Wan 2.2 gratuito?
Sí, es de código abierto bajo la licencia MIT, disponible en Hugging Face e integrable en diversas herramientas.
¿Cómo maneja Wan 2.2 los requisitos de hardware?
El modelo 5B funciona en RTX 4090 en menos de 9 minutos para videos en 720p, lo que lo hace accesible a usuarios fuera del ámbito empresarial.
¿Puedo personalizar Wan 2.2 con LoRA?
Aunque no se detalla explícitamente en la versión, su arquitectura admite entrenamiento de estilo, con integraciones de la comunidad emergiendo.
¿Dónde puedo probar demos de Wan 2.2?
Descubre demos en Hugging Face o prueba ComfyUI para realizar pruebas interactivas y experimentación.
¿Qué tipos de generación de videos admite Wan 2.2?
Wan 2.2 admite los modos de texto a video (T2V), imagen a video (I2V) y texto-imagen a video (TI2V), ofreciendo flexibilidad para proyectos creativos diversos.
¿Cómo mejora Wan 2.2 el cumplimiento de los prompts?
Sus datos de entrenamiento curados y su arquitectura MoE garantizan una alta fidelidad a los prompts de texto e imagen, creando videos con detalles precisos y pocos errores.
¿Wan 2.2 es compatible con múltiples GPUs?
Sí, Wan 2.2 admite configuraciones de múltiples GPUs, lo que puede acelerar significativamente la generación de videos para proyectos más grandes.