Meta lance Llama 4 Scout et Llama 4 Maverick, ses premiers modèles d'IA multimodaux avec une architecture de mélange d'experts, offrant des performances supérieures à GPT-4o et Gemini dans divers benchmarks tout en anticipant Llama 4 Behemoth, son modèle de 2 billions de paramètres.
Meta a annoncé le lancement de Llama 4, une nouvelle génération de modèles d'intelligence artificielle qui marque le début d'une nouvelle ère pour l'écosystème Llama. Les deux premiers modèles disponibles, Llama 4 Scout et Llama 4 Maverick, sont les premiers modèles multimodaux open source avec une architecture de mélange d'experts (MoE) et offrent des capacités sans précédent en matière de compréhension de texte et d'images.
Llama 4 Scout, avec 17 milliards de paramètres actifs et 16 experts, se positionne comme le meilleur modèle multimodal de sa catégorie, surpassant Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 dans une large gamme de benchmarks. Sa caractéristique la plus remarquable est une fenêtre de contexte de 10 millions de tokens, la plus large de l'industrie, ce qui lui permet de traiter et de raisonner sur des documents volumineux, des bases de code complètes ou de multiples sources d'information.
De son côté, Llama 4 Maverick, également avec 17 milliards de paramètres actifs mais avec 128 experts, surpasse GPT-4o et Gemini 2.0 Flash dans de multiples évaluations de référence, atteignant des résultats comparables à DeepSeek v3 en matière de raisonnement et de programmation, mais avec moins de la moitié des paramètres actifs. Sur la plateforme LMArena, la version expérimentale de chat de Maverick a atteint un score ELO de 1417.
Meta a également révélé des informations sur Llama 4 Behemoth, un modèle de 288 milliards de paramètres actifs avec 16 experts et près de deux billions de paramètres au total, qui a servi de "professeur" pour les modèles plus petits. Selon l'entreprise, Behemoth surpasse GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro dans divers benchmarks de science, technologie, ingénierie et mathématiques, bien qu'il soit encore en phase d'entraînement.
L'architecture MoE utilisée dans ces modèles permet une plus grande efficacité computationnelle, car chaque token n'active qu'une fraction du total des paramètres. Par exemple, Llama 4 Maverick compte 400 milliards de paramètres au total, mais n'en utilise que 17 milliards pendant l'inférence, ce qui réduit considérablement les coûts et la latence du service.
Une innovation clé dans ces modèles est leur multimodalité native, incorporant une fusion précoce pour intégrer les tokens de texte et d'image dans une structure unifiée. Cela a permis un pré-entraînement conjoint avec de grandes quantités de données non étiquetées de texte, d'image et de vidéo, améliorant la compréhension visuelle et la capacité de raisonnement entre différentes modalités.
Les nouveaux modèles sont déjà disponibles en téléchargement sur llama.com et Hugging Face, permettant aux développeurs et aux entreprises d'incorporer ces capacités avancées dans leurs applications. De plus, Meta a intégré Llama 4 dans Meta AI, disponible sur WhatsApp, Messenger, Instagram Direct et sur le site web Meta.AI.
Initiative de recherche IA de Meta développant des projets en traitement du langage naturel, IA générative, vision et interaction humain-machine. Créateurs du modèle Llama open ...
05/02/2026
Kuaishou Technology a présenté Kling AI 3.0, qui comprend quatre nouveaux modèles de génération vidéo et image avec des améliorations ...
05/02/2026
OpenAI a présenté Frontier, une plateforme conçue pour permettre aux entreprises de construire, déployer et gérer des agents d'intelligence ...
02/02/2026
SpaceX a acquis xAI pour créer un système intégré d'intelligence artificielle et de technologie spatiale. L'entreprise a annoncé des centres de ...
30/01/2026
Anthropic a annoncé la disponibilité de plugins dans Cowork, son outil d'automatisation de tâches qui permet aux utilisateurs sans profil ...