Kuaishou Technology a présenté Kling AI 3.0, qui comprend quatre nouveaux modèles de génération vidéo et image avec des améliorations significatives en matière de cohérence visuelle, de durée étendue et de capacités audio natives dans plusieurs langues et accents.
La nouvelle série de modèles comprend quatre modèles : Video 3.0, Video 3.0 Omni, Image 3.0 et Image 3.0 Omni, représentant une avancée significative en matière de contrôle narratif et de cohérence visuelle.
Video 3.0 intègre la génération audio native en anglais, chinois, japonais, coréen, espagnol et divers accents et dialectes. Cela permet de créer des scènes de dialogue complexes entre plusieurs personnages, chacun parlant une langue différente. La durée maximale des vidéos s'étend jusqu'à 15 secondes, suffisante pour des séquences élaborées avec plusieurs rebondissements narratifs et transitions cinématographiques.
Parmi les améliorations remarquables figure la cohérence des éléments visuels. Les créateurs peuvent télécharger des vidéos de référence et plusieurs images pour garantir que les personnages, objets et scénarios maintiennent une cohérence entre les images. Le modèle comprend les instructions multi-scènes et multi-plans, ajustant dynamiquement les angles de caméra selon la direction créative.
Le système améliore également la préservation du texte dans les images, maintenant la signalisation, les sous-titres et les éléments de marque avec une grande précision. Cette capacité s'avère utile dans la publicité pour le commerce électronique, où les logos sur les vêtements restent nets tout au long de la vidéo.
Video 3.0 Omni élargit les capacités de référence en permettant à l'IA d'extraire les traits visuels et les caractéristiques vocales d'un personnage pour les reproduire dans de nouvelles scènes. Il intègre une fonction de storyboard multi-plans où les utilisateurs spécifient la durée, le cadrage, la perspective et les mouvements de caméra pour chaque plan.
Les modèles d'image Image 3.0 et Image 3.0 Omni prennent en charge la sortie 2K et 4K pour les cas d'usage professionnels, préservant les textures, l'éclairage et les qualités des matériaux avec une précision notable.
Depuis son lancement en juin 2024, Kling AI compte plus de 60 millions de créateurs dans le monde et a produit plus de 600 millions de vidéos. Les modèles sont disponibles en accès anticipé pour les abonnés Ultra et seront bientôt ouverts au grand public.
Outil d'intelligence artificielle qui génère des vidéos et des images à partir de texte et de références visuelles. Comprend l'audio multilingue, le contrôle de cohérence visuelle et des ...
11/05/2026
Thinking Machines Lab a publié un aperçu de recherche de TML-Interaction-Small, un modèle d'interaction conçu pour collaborer avec l'utilisateur ...
24/04/2026
DeepSeek lance en version préliminaire sa famille V4, deux modèles open source capables de traiter jusqu'à un million de tokens de contexte et de ...
23/04/2026
OpenAI lance GPT-5.5, un modèle conçu pour exécuter des tâches complexes de manière autonome : programmer, rechercher, analyser des données et ...
21/04/2026
OpenAI présente ChatGPT Images 2.0, un modèle de génération d'images offrant une meilleure précision, un support multilingue, des proportions ...