Wan 2.6 intègre la génération de vidéo avec des personnages de référence et audio synchronisé

16/12/2025

Wan 2.6 est un modèle multimodal qui génère des vidéos et des images à partir de descriptions textuelles. La nouvelle version permet d'utiliser des personnages de vidéos de référence et de créer des récits multi-plans avec synchronisation audiovisuelle.

Wan 2.6 intègre la génération de vidéo avec des personnages de référence et audio synchronisé

Le modèle Wan 2.6 introduit des capacités de génération de contenu multimodal qui combinent vidéo, image et texte. Parmi les fonctionnalités destacadas se trouve Starring, qui permet d'incorporer des personnages de vidéos de référence dans de nouvelles scènes en maintenant la cohérence visuelle et vocale. Le système analyse jusqu'à 150 images de référence pour préserver l'apparence et le timbre de voix des personnages, et prend en charge jusqu'à trois références simultanées pour créer des interactions entre plusieurs entités.

La fonction de récit multi-plans convertit des indications simples en séquences vidéo structurées, en maintenant la cohérence des personnages, des scénarios et de l'atmosphère tout au long des différentes prises. Cette capacité permet de développer des histoires plus complexes que les générations à plan unique.

Concernant la génération de vidéo, Wan 2.6 produit des clips de 15 secondes en résolution 1080p avec synchronisation native entre audio et vidéo. Le système génère des dialogues multi-locuteurs, une synchronisation labiale naturelle et une qualité audio comparable aux studios professionnels. La version actuelle améliore le suivi des instructions, la physique du mouvement et le contrôle esthétique par rapport aux versions précédentes.

Pour la synthèse d'images, le modèle offre un contrôle sur les paramètres d'objectif et d'éclairage, avec la capacité de référencer plusieurs images pour maintenir la cohérence esthétique. La fonction de génération texte-image permet de créer des récits visuels structurés qui entrelacent les deux formats, en utilisant des capacités de raisonnement et de connaissance du monde réel.

Le modèle est conçu pour des applications nécessitant une cohérence visuelle et narrative dans la génération de contenu multimédia, depuis la création de scènes avec des personnages spécifiques jusqu'à la production de séquences avec une structure narrative complète.

Points clés

  • Wan 2.6 permet d'incorporer des personnages de vidéos de référence dans de nouvelles scènes en maintenant apparence et voix
  • Le système analyse jusqu'à 150 images de référence pour préserver la cohérence visuelle
  • Prend en charge jusqu'à trois références simultanées pour créer des interactions entre plusieurs personnages
  • Génère des vidéos de 15 secondes en résolution 1080p avec synchronisation audio-vidéo
  • Inclut des dialogues multi-locuteurs et une synchronisation labiale naturelle
  • Le récit multi-plans convertit des indications simples en séquences structurées
  • Offre un contrôle sur les paramètres d'objectif et d'éclairage dans la synthèse d'images
  • Permet de créer des récits visuels qui entrelacent texte et image de manière cohérente

Vidéos

IA connexe

Wan

Génération multimodale de vidéo et image

Plateforme d'IA pour la création de contenu visuel via des modèles génératifs. Propose la génération de vidéo et image à partir de texte, audio et références visuelles. Inclut des outils ...

Dernières nouvelles

Trustpilot
Ce site utilise des cookies techniques, de personnalisation et d’analyse, propres et tiers, pour faciliter la navigation anonyme et analyser les statistiques d’utilisation du site. Nous considérons que si vous continuez à naviguer, vous acceptez leur utilisation.