Google ha fet un salt qualitatiu en la generació de contingut audiovisual amb intel·ligència artificial en presentar Veo 2 i Imagen 3, dos models que assoleixen resultats sense precedents en la creació de vídeos i imatges realistes.
Les noves versions dels models d'intel·ligència artificial de Google marquen un abans i un després en la generació de contingut digital. Veo 2 destaca per la seva capacitat per crear vídeos en 4K amb una comprensió millorada de la física del món real i el moviment humà, permetent a més un control precís d'aspectes cinematogràfics com el tipus de lent o els efectes visuals.
El model Imagen 3 també ha experimentat millores significatives, oferint ara imatges més brillants i millor compostes, amb la capacitat de reproduir diversos estils artístics amb major precisió, des del fotorealisme fins a l'anime. Google ha implementat a més una marca d'aigua invisible SynthID en totes les creacions per identificar-les com generades per IA.
Com a complement d'aquestes actualitzacions, la companyia ha presentat Whisk, una nova eina experimental que combina Imagen 3 amb les capacitats de comprensió visual de Gemini. Aquesta integració permet als usuaris barrejar i modificar imatges existents per crear nous dissenys personalitzats.
Els nous models estan disponibles a través de VideoFX i ImageFX a Google Labs, amb plans d'expandir el seu accés a YouTube Shorts i altres productes de Google durant el proper any. La companyia manté el seu compromís amb el desenvolupament responsable, implementant un desplegament gradual per garantir la qualitat i seguretat d'aquestes tecnologies.
Gemini és l'assistant d'intel·ligència artificial de Google desenvolupat per DeepMind. Treballa amb text, imatges, àudio, vídeo i codi. Genera contingut, respon preguntes i es connecta amb ...
Google AI desenvolupa plataformes avançades que milloren la vida de les persones. El seu ecosistema Gemini integra models, productes i APIs, impulsant la innovació responsable i permetent als ...
11/05/2026
Thinking Machines Lab ha publicat una vista prèvia de recerca de TML-Interaction-Small, un model d'interacció dissenyat per col·laborar amb ...
24/04/2026
DeepSeek llança en versió preliminar la seva família V4, dos models de codi obert capaços de processar fins a un milió de tokens de context i ...
23/04/2026
OpenAI llança GPT-5.5, un model dissenyat per executar tasques complexes de forma autònoma: programar, investigar, analitzar dades i operar ...
21/04/2026
OpenAI presenta ChatGPT Images 2.0, un model de generació d'imatges amb més precisió, suport multilingüe, proporcions flexibles i, per primera ...