Kuaishou Technology ha presentat Kling AI 3.0, que inclou quatre nous models de generació de vídeo i imatge amb millores significatives en consistència visual, durada estesa i capacitats d'àudio natives en múltiples idiomes i accents.
La nova sèrie de models inclou quatre models: Video 3.0, Video 3.0 Omni, Image 3.0 i Image 3.0 Omni, que representen un avenç significatiu en control narratiu i coherència visual.
Video 3.0 incorpora generació d'àudio nativa en anglès, xinès, japonès, coreà, espanyol i diversos accents i dialectes. Això permet crear escenes de diàleg complexes entre múltiples personatges, cadascun parlant un idioma diferent. La durada màxima dels vídeos s'amplia fins a 15 segons, suficient per a seqüències elaborades amb múltiples girs narratius i transicions cinematogràfiques.
Entre les millores destacades hi ha la consistència d'elements visuals. Els creadors poden carregar vídeos de referència i múltiples imatges per garantir que personatges, objectes i escenaris mantinguin coherència entre fotogrames. El model comprèn instruccions de múltiples escenes i plans, ajustant dinàmicament angles de càmera segons la direcció creativa.
El sistema també millora la preservació de text a les imatges, mantenint senyalització, subtítols i elements de marca amb alta precisió. Aquesta capacitat resulta útil en publicitat per a comerç electrònic, on els logotips en roba romanen nítids durant tot el vídeo.
Video 3.0 Omni amplia les capacitats de referència permetent que la IA extregui trets visuals i característiques de veu d'un personatge per replicar-los en noves escenes. Incorpora una funció d'storyboard multipantalla on els usuaris especifiquen durada, enquadrament, perspectiva i moviments de càmera per a cada pla.
Els models d'imatge Image 3.0 i Image 3.0 Omni admeten sortida en 2K i 4K per a casos d'ús professionals, preservant textures, il·luminació i qualitats de materials amb notable precisió.
Des del seu llançament al juny de 2024, Kling AI compta amb més de 60 milions de creadors globalment i ha produït més de 600 milions de vídeos. Els models estan disponibles en accés anticipat per a subscriptors Ultra i aviat s'obriran al públic general.
Eina d'intel·ligència artificial que genera vídeos i imatges a partir de text i referències visuals. Inclou àudio multiidioma, control de consistència visual i capacitats d'storyboard per a ...
02/03/2026
Anthropic rebutja eliminar dues restriccions sobre l'ús de la seva IA per part de l'exèrcit, en un conflicte que va portar Trump a ordenar la seva ...
25/02/2026
Perplexity presenta Computer, un agent d'IA capaç de crear i executar fluxos de treball complets durant hores o mesos, coordinant de manera ...
23/02/2026
Anthropic ha identificat campanyes a gran escala de DeepSeek, Moonshot i MiniMax per extreure de manera fraudulenta les capacitats del seu model ...
21/02/2026
L'AI Impact Summit 2026 conclou amb un acord voluntari signat per 88 països que estableix les bases per a una cooperació internacional entorn del ...