Wan 2.6 es un modelo multimodal que genera vídeos e imágenes a partir de descripciones textuales. La nueva versión permite utilizar personajes de vídeos de referencia y crear narrativas multipantalla con sincronización audiovisual.
El modelo Wan 2.6 introduce capacidades de generación de contenido multimodal que combinan vídeo, imagen y texto. Entre las funcionalidades destacadas se encuentra Starring, que permite incorporar personajes de vídeos de referencia en nuevas escenas manteniendo la consistencia visual y de voz. El sistema analiza hasta 150 fotogramas de referencia para preservar la apariencia y el timbre de voz de los personajes, y admite hasta tres referencias simultáneas para crear interacciones entre múltiples entidades.
La función de narrativa multipantalla convierte indicaciones simples en secuencias de vídeo estructuradas, manteniendo la coherencia de personajes, escenarios y atmósfera a lo largo de las diferentes tomas. Esta capacidad permite desarrollar historias más complejas que las generaciones de plano único.
En cuanto a la generación de vídeo, Wan 2.6 produce clips de 15 segundos en resolución 1080p con sincronización nativa entre audio y vídeo. El sistema genera diálogos con múltiples hablantes, sincronización labial natural y calidad de audio comparable a estudios profesionales. La versión actual mejora el seguimiento de instrucciones, la física del movimiento y el control estético respecto a versiones anteriores.
Para la síntesis de imágenes, el modelo ofrece control sobre parámetros de lente e iluminación, con capacidad de referenciar múltiples imágenes para mantener consistencia estética. La función de generación de texto e imagen permite crear narrativas visuales estructuradas que intercalan ambos formatos, utilizando capacidades de razonamiento y conocimiento del mundo real.
El modelo está diseñado para aplicaciones que requieren coherencia visual y narrativa en la generación de contenido multimedia, desde la creación de escenas con personajes específicos hasta la producción de secuencias con estructura narrativa completa.
Plataforma de IA para creación de contenido visual mediante modelos generativos. Ofrece generación de vídeo e imagen desde texto, audio y referencias visuales. Incluye herramientas de edición y ...
09/06/2026
Anthropic presenta Claude Fable 5 y Claude Mythos 5, dos versiones de su modelo de mayor capacidad hasta la fecha. Comparten la misma base, pero uno ...
25/05/2026
El papa León XIV publica la primera encíclica dedicada a la inteligencia artificial, en la que fija la dignidad humana como criterio para todo ...
19/05/2026
Rime presenta Coda, un modelo de texto a voz para agentes conversacionales en tiempo real que reproduce el ritmo, las pausas y la entonación propios ...
11/05/2026
Thinking Machines Lab ha publicado una vista previa de investigación de TML-Interaction-Small, un modelo de interacción diseñado para colaborar ...