Meta llança Llama 4 Scout i Llama 4 Maverick, els seus primers models d'IA multimodals amb arquitectura de barreja d'experts, oferint rendiment superior a GPT-4o i Gemini en diversos benchmarks mentre anticipa Llama 4 Behemoth, el seu model de 2 bilions de paràmetres.
Meta ha anunciat el llançament de Llama 4, una nova generació de models d'intel·ligència artificial que marca l'inici d'una nova era per a l'ecosistema Llama. Els dos primers models disponibles, Llama 4 Scout i Llama 4 Maverick, són els primers models multimodals de codi obert amb una arquitectura de barreja d'experts (MoE) i ofereixen capacitats sense precedents en comprensió de text i imatges.
Llama 4 Scout, amb 17 mil milions de paràmetres actius i 16 experts, es posiciona com el millor model multimodal de la seva classe, superant a Gemma 3, Gemini 2.0 Flash-Lite i Mistral 3.1 en una àmplia gamma de benchmarks. La seva característica més destacada és una finestra de context de 10 milions de tokens, la més àmplia de la indústria, el que permet processar i raonar sobre documents extensos, bases de codi completes o múltiples fonts d'informació.
Per la seva banda, Llama 4 Maverick, també amb 17 mil milions de paràmetres actius però amb 128 experts, supera a GPT-4o i Gemini 2.0 Flash en múltiples avaluacions de referència, assolint resultats comparables a DeepSeek v3 en raonament i programació, però amb menys de la meitat dels paràmetres actius. A la plataforma LMArena, la versió experimental de xat de Maverick ha assolit una puntuació ELO de 1417.
Meta també ha revelat informació sobre Llama 4 Behemoth, un model de 288 mil milions de paràmetres actius amb 16 experts i prop de dos bilions de paràmetres totals, que ha servit com a "professor" per als models més petits. Segons la companyia, Behemoth supera a GPT-4.5, Claude Sonnet 3.7 i Gemini 2.0 Pro en diversos benchmarks de ciència, tecnologia, enginyeria i matemàtiques, tot i que encara es troba en fase d'entrenament.
L'arquitectura MoE utilitzada en aquests models permet una major eficiència computacional, ja que cada token activa només una fracció del total de paràmetres. Per exemple, Llama 4 Maverick compta amb 400 mil milions de paràmetres totals, però només utilitza 17 mil milions durant la inferència, el que redueix significativament els costos i la latència del servei.
Una innovació clau en aquests models és la seva multimodalitat nativa, incorporant fusió primerenca per integrar tokens de text i imatge en una estructura unificada. Això ha permès el pre-entrenament conjunt amb grans quantitats de dades de text, imatge i vídeo sense etiquetar, millorant la comprensió visual i la capacitat de raonament entre diferents modalitats.
Els nous models ja estan disponibles per a la seva descàrrega a llama.com i Hugging Face, permetent a desenvolupadors i empreses incorporar aquestes capacitats avançades en les seves aplicacions. A més, Meta ha integrat Llama 4 a Meta AI, disponible a WhatsApp, Messenger, Instagram Direct i al lloc web Meta.AI.
Iniciativa de recerca d'IA de Meta que desenvolupa projectes en processament del llenguatge natural, IA generativa, visió i interacció humà-computadora. Creadors del model Llama de codi ...
15/01/2026
Replit ha llançat Mobile Apps on Replit, una funcionalitat que permet descriure una idea, crear l'aplicació i publicar-la completament a l'App ...
14/01/2026
Google ha presentat Personal Intelligence, una funció que permet a Gemini accedir a informació d'aplicacions com Gmail, Google Photos i YouTube per ...
07/01/2026
OpenAI ha presentat ChatGPT Health, una experiència dedicada que permet als usuaris connectar els seus historials mèdics i aplicacions de benestar ...
05/01/2026
Amazon presenta Alexa.com, una nova plataforma que porta el seu assistent d'intel·ligència artificial Alexa+ al navegador web i completa la seva ...