Meta presenta Llama 4: sus modelos de IA más avanzados con capacidades multimodales nativas

05/04/2025

Meta lanza Llama 4 Scout y Llama 4 Maverick, sus primeros modelos de IA multimodales con arquitectura de mezcla de expertos, ofreciendo rendimiento superior a GPT-4o y Gemini en varios benchmarks mientras anticipa Llama 4 Behemoth, su modelo de 2 billones de parámetros.

Meta presenta Llama 4: sus modelos de IA más avanzados con capacidades multimodales nativas

Meta ha anunciado el lanzamiento de Llama 4, una nueva generación de modelos de inteligencia artificial que marca el comienzo de una nueva era para el ecosistema Llama. Los dos primeros modelos disponibles, Llama 4 Scout y Llama 4 Maverick, son los primeros modelos multimodales de código abierto con una arquitectura de mezcla de expertos (MoE) y ofrecen capacidades sin precedentes en comprensión de texto e imágenes.

Llama 4 Scout, con 17 mil millones de parámetros activos y 16 expertos, se posiciona como el mejor modelo multimodal en su clase, superando a Gemma 3, Gemini 2.0 Flash-Lite y Mistral 3.1 en una amplia gama de benchmarks. Su característica más destacada es una ventana de contexto de 10 millones de tokens, la más amplia de la industria, lo que permite procesar y razonar sobre documentos extensos, bases de código completas o múltiples fuentes de información.

Por su parte, Llama 4 Maverick, también con 17 mil millones de parámetros activos pero con 128 expertos, supera a GPT-4o y Gemini 2.0 Flash en múltiples evaluaciones de referencia, alcanzando resultados comparables a DeepSeek v3 en razonamiento y programación, pero con menos de la mitad de parámetros activos. En la plataforma LMArena, la versión experimental de chat de Maverick ha alcanzado una puntuación ELO de 1417.

Meta también ha revelado información sobre Llama 4 Behemoth, un modelo de 288 mil millones de parámetros activos con 16 expertos y cerca de dos billones de parámetros totales, que ha servido como "profesor" para los modelos más pequeños. Según la compañía, Behemoth supera a GPT-4.5, Claude Sonnet 3.7 y Gemini 2.0 Pro en varios benchmarks de ciencia, tecnología, ingeniería y matemáticas, aunque todavía se encuentra en fase de entrenamiento.

La arquitectura MoE utilizada en estos modelos permite una mayor eficiencia computacional, ya que cada token activa solo una fracción del total de parámetros. Por ejemplo, Llama 4 Maverick cuenta con 400 mil millones de parámetros totales, pero solo utiliza 17 mil millones durante la inferencia, lo que reduce significativamente los costos y la latencia del servicio.

Una innovación clave en estos modelos es su multimodalidad nativa, incorporando fusión temprana para integrar tokens de texto e imagen en una estructura unificada. Esto ha permitido el pre-entrenamiento conjunto con grandes cantidades de datos de texto, imagen y video sin etiquetar, mejorando la comprensión visual y la capacidad de razonamiento entre diferentes modalidades.

Los nuevos modelos ya están disponibles para su descarga en llama.com y Hugging Face, permitiendo a desarrolladores y empresas incorporar estas capacidades avanzadas en sus aplicaciones. Además, Meta ha integrado Llama 4 en Meta AI, disponible en WhatsApp, Messenger, Instagram Direct y en el sitio web Meta.AI.

IA relacionada

AI at Meta

Iniciativa de investigación de IA de Meta

Iniciativa de investigación de Meta en IA que desarrolla proyectos en procesamiento de lenguaje natural, IA generativa, visión e interacción humano-computadora. Creadores del modelo Llama de ...

Últimas noticias

Trustpilot
Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso.