Kuaishou Technology ha presentat Kling AI 3.0, que inclou quatre nous models de generació de vídeo i imatge amb millores significatives en consistència visual, durada estesa i capacitats d'àudio natives en múltiples idiomes i accents.
La nova sèrie de models inclou quatre models: Video 3.0, Video 3.0 Omni, Image 3.0 i Image 3.0 Omni, que representen un avenç significatiu en control narratiu i coherència visual.
Video 3.0 incorpora generació d'àudio nativa en anglès, xinès, japonès, coreà, espanyol i diversos accents i dialectes. Això permet crear escenes de diàleg complexes entre múltiples personatges, cadascun parlant un idioma diferent. La durada màxima dels vídeos s'amplia fins a 15 segons, suficient per a seqüències elaborades amb múltiples girs narratius i transicions cinematogràfiques.
Entre les millores destacades hi ha la consistència d'elements visuals. Els creadors poden carregar vídeos de referència i múltiples imatges per garantir que personatges, objectes i escenaris mantinguin coherència entre fotogrames. El model comprèn instruccions de múltiples escenes i plans, ajustant dinàmicament angles de càmera segons la direcció creativa.
El sistema també millora la preservació de text a les imatges, mantenint senyalització, subtítols i elements de marca amb alta precisió. Aquesta capacitat resulta útil en publicitat per a comerç electrònic, on els logotips en roba romanen nítids durant tot el vídeo.
Video 3.0 Omni amplia les capacitats de referència permetent que la IA extregui trets visuals i característiques de veu d'un personatge per replicar-los en noves escenes. Incorpora una funció d'storyboard multipantalla on els usuaris especifiquen durada, enquadrament, perspectiva i moviments de càmera per a cada pla.
Els models d'imatge Image 3.0 i Image 3.0 Omni admeten sortida en 2K i 4K per a casos d'ús professionals, preservant textures, il·luminació i qualitats de materials amb notable precisió.
Des del seu llançament al juny de 2024, Kling AI compta amb més de 60 milions de creadors globalment i ha produït més de 600 milions de vídeos. Els models estan disponibles en accés anticipat per a subscriptors Ultra i aviat s'obriran al públic general.
Eina d'intel·ligència artificial que genera vídeos i imatges a partir de text i referències visuals. Inclou àudio multiidioma, control de consistència visual i capacitats d'storyboard per a ...
09/06/2026
Anthropic presenta Claude Fable 5 i Claude Mythos 5, dues versions del seu model de major capacitat fins ara. Comparteixen la mateixa base, però un ...
25/05/2026
El papa Lleó XIV publica la primera encíclica dedicada a la intel·ligència artificial, en la qual fixa la dignitat humana com a criteri per a tot ...
19/05/2026
Rime presenta Coda, un model de text a veu per a agents conversacionals en temps real que reprodueix el ritme, les pauses i l'entonació propis d'una ...
11/05/2026
Thinking Machines Lab ha publicat una vista prèvia de recerca de TML-Interaction-Small, un model d'interacció dissenyat per col·laborar amb ...