Wan 2.6 incorpora generación de vídeo con personajes de referencia y audio sincronizado

16/12/2025

Wan 2.6 es un modelo multimodal que genera vídeos e imágenes a partir de descripciones textuales. La nueva versión permite utilizar personajes de vídeos de referencia y crear narrativas multipantalla con sincronización audiovisual.

Wan 2.6 incorpora generación de vídeo con personajes de referencia y audio sincronizado

El modelo Wan 2.6 introduce capacidades de generación de contenido multimodal que combinan vídeo, imagen y texto. Entre las funcionalidades destacadas se encuentra Starring, que permite incorporar personajes de vídeos de referencia en nuevas escenas manteniendo la consistencia visual y de voz. El sistema analiza hasta 150 fotogramas de referencia para preservar la apariencia y el timbre de voz de los personajes, y admite hasta tres referencias simultáneas para crear interacciones entre múltiples entidades.

La función de narrativa multipantalla convierte indicaciones simples en secuencias de vídeo estructuradas, manteniendo la coherencia de personajes, escenarios y atmósfera a lo largo de las diferentes tomas. Esta capacidad permite desarrollar historias más complejas que las generaciones de plano único.

En cuanto a la generación de vídeo, Wan 2.6 produce clips de 15 segundos en resolución 1080p con sincronización nativa entre audio y vídeo. El sistema genera diálogos con múltiples hablantes, sincronización labial natural y calidad de audio comparable a estudios profesionales. La versión actual mejora el seguimiento de instrucciones, la física del movimiento y el control estético respecto a versiones anteriores.

Para la síntesis de imágenes, el modelo ofrece control sobre parámetros de lente e iluminación, con capacidad de referenciar múltiples imágenes para mantener consistencia estética. La función de generación de texto e imagen permite crear narrativas visuales estructuradas que intercalan ambos formatos, utilizando capacidades de razonamiento y conocimiento del mundo real.

El modelo está diseñado para aplicaciones que requieren coherencia visual y narrativa en la generación de contenido multimedia, desde la creación de escenas con personajes específicos hasta la producción de secuencias con estructura narrativa completa.

Puntos clave

  • Wan 2.6 permite incorporar personajes de vídeos de referencia en nuevas escenas manteniendo apariencia y voz
  • El sistema analiza hasta 150 fotogramas de referencia para preservar la consistencia visual
  • Admite hasta tres referencias simultáneas para crear interacciones entre múltiples personajes
  • Genera vídeos de 15 segundos en resolución 1080p con sincronización entre audio y vídeo
  • Incluye diálogos con múltiples hablantes y sincronización labial natural
  • La narrativa multipantalla convierte indicaciones simples en secuencias estructuradas
  • Ofrece control sobre parámetros de lente e iluminación en la síntesis de imágenes
  • Permite crear narrativas visuales que intercalan texto e imagen de forma coherente

Vídeos

IA relacionada

Wan

Generación multimodal de vídeo e imagen

Plataforma de IA para creación de contenido visual mediante modelos generativos. Ofrece generación de vídeo e imagen desde texto, audio y referencias visuales. Incluye herramientas de edición y ...

Últimas noticias

★★★★★
Valóranos en Google
Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso.