Meta presenta Llama 4: els seus models d’IA més avançats amb capacitats multimodals natives

05/04/2025

Meta llança Llama 4 Scout i Llama 4 Maverick, els seus primers models d'IA multimodals amb arquitectura de barreja d'experts, oferint rendiment superior a GPT-4o i Gemini en diversos benchmarks mentre anticipa Llama 4 Behemoth, el seu model de 2 bilions de paràmetres.

Meta presenta Llama 4: els seus models d’IA més avançats amb capacitats multimodals natives

Meta ha anunciat el llançament de Llama 4, una nova generació de models d'intel·ligència artificial que marca l'inici d'una nova era per a l'ecosistema Llama. Els dos primers models disponibles, Llama 4 Scout i Llama 4 Maverick, són els primers models multimodals de codi obert amb una arquitectura de barreja d'experts (MoE) i ofereixen capacitats sense precedents en comprensió de text i imatges.

Llama 4 Scout, amb 17 mil milions de paràmetres actius i 16 experts, es posiciona com el millor model multimodal de la seva classe, superant a Gemma 3, Gemini 2.0 Flash-Lite i Mistral 3.1 en una àmplia gamma de benchmarks. La seva característica més destacada és una finestra de context de 10 milions de tokens, la més àmplia de la indústria, el que permet processar i raonar sobre documents extensos, bases de codi completes o múltiples fonts d'informació.

Per la seva banda, Llama 4 Maverick, també amb 17 mil milions de paràmetres actius però amb 128 experts, supera a GPT-4o i Gemini 2.0 Flash en múltiples avaluacions de referència, assolint resultats comparables a DeepSeek v3 en raonament i programació, però amb menys de la meitat dels paràmetres actius. A la plataforma LMArena, la versió experimental de xat de Maverick ha assolit una puntuació ELO de 1417.

Meta també ha revelat informació sobre Llama 4 Behemoth, un model de 288 mil milions de paràmetres actius amb 16 experts i prop de dos bilions de paràmetres totals, que ha servit com a "professor" per als models més petits. Segons la companyia, Behemoth supera a GPT-4.5, Claude Sonnet 3.7 i Gemini 2.0 Pro en diversos benchmarks de ciència, tecnologia, enginyeria i matemàtiques, tot i que encara es troba en fase d'entrenament.

L'arquitectura MoE utilitzada en aquests models permet una major eficiència computacional, ja que cada token activa només una fracció del total de paràmetres. Per exemple, Llama 4 Maverick compta amb 400 mil milions de paràmetres totals, però només utilitza 17 mil milions durant la inferència, el que redueix significativament els costos i la latència del servei.

Una innovació clau en aquests models és la seva multimodalitat nativa, incorporant fusió primerenca per integrar tokens de text i imatge en una estructura unificada. Això ha permès el pre-entrenament conjunt amb grans quantitats de dades de text, imatge i vídeo sense etiquetar, millorant la comprensió visual i la capacitat de raonament entre diferents modalitats.

Els nous models ja estan disponibles per a la seva descàrrega a llama.com i Hugging Face, permetent a desenvolupadors i empreses incorporar aquestes capacitats avançades en les seves aplicacions. A més, Meta ha integrat Llama 4 a Meta AI, disponible a WhatsApp, Messenger, Instagram Direct i al lloc web Meta.AI.

IA relacionada

AI at Meta

Iniciativa de recerca d'IA de Meta

Iniciativa de recerca d'IA de Meta que desenvolupa projectes en processament del llenguatge natural, IA generativa, visió i interacció humà-computadora. Creadors del model Llama de codi ...

Últimes noticies

Trustpilot
Aquest lloc web utilitza cookies tècniques, de personalització i anàlisi, pròpies i de tercers, per facilitar la navegació anònima i analitzar estadístiques d’ús del web. Considerem que si continueu navegant, n’accepteu l’ús.