Wan 2.6 est un modèle multimodal qui génère des vidéos et des images à partir de descriptions textuelles. La nouvelle version permet d'utiliser des personnages de vidéos de référence et de créer des récits multi-plans avec synchronisation audiovisuelle.
Le modèle Wan 2.6 introduit des capacités de génération de contenu multimodal qui combinent vidéo, image et texte. Parmi les fonctionnalités destacadas se trouve Starring, qui permet d'incorporer des personnages de vidéos de référence dans de nouvelles scènes en maintenant la cohérence visuelle et vocale. Le système analyse jusqu'à 150 images de référence pour préserver l'apparence et le timbre de voix des personnages, et prend en charge jusqu'à trois références simultanées pour créer des interactions entre plusieurs entités.
La fonction de récit multi-plans convertit des indications simples en séquences vidéo structurées, en maintenant la cohérence des personnages, des scénarios et de l'atmosphère tout au long des différentes prises. Cette capacité permet de développer des histoires plus complexes que les générations à plan unique.
Concernant la génération de vidéo, Wan 2.6 produit des clips de 15 secondes en résolution 1080p avec synchronisation native entre audio et vidéo. Le système génère des dialogues multi-locuteurs, une synchronisation labiale naturelle et une qualité audio comparable aux studios professionnels. La version actuelle améliore le suivi des instructions, la physique du mouvement et le contrôle esthétique par rapport aux versions précédentes.
Pour la synthèse d'images, le modèle offre un contrôle sur les paramètres d'objectif et d'éclairage, avec la capacité de référencer plusieurs images pour maintenir la cohérence esthétique. La fonction de génération texte-image permet de créer des récits visuels structurés qui entrelacent les deux formats, en utilisant des capacités de raisonnement et de connaissance du monde réel.
Le modèle est conçu pour des applications nécessitant une cohérence visuelle et narrative dans la génération de contenu multimédia, depuis la création de scènes avec des personnages spécifiques jusqu'à la production de séquences avec une structure narrative complète.
Plateforme d'IA pour la création de contenu visuel via des modèles génératifs. Propose la génération de vidéo et image à partir de texte, audio et références visuelles. Inclut des outils ...
11/05/2026
Thinking Machines Lab a publié un aperçu de recherche de TML-Interaction-Small, un modèle d'interaction conçu pour collaborer avec l'utilisateur ...
24/04/2026
DeepSeek lance en version préliminaire sa famille V4, deux modèles open source capables de traiter jusqu'à un million de tokens de contexte et de ...
23/04/2026
OpenAI lance GPT-5.5, un modèle conçu pour exécuter des tâches complexes de manière autonome : programmer, rechercher, analyser des données et ...
21/04/2026
OpenAI présente ChatGPT Images 2.0, un modèle de génération d'images offrant une meilleure précision, un support multilingue, des proportions ...