Xiaomi présente MiMo-7B, un modèle de langage open source qui, avec seulement 7 milliards de paramètres, surpasse des modèles plus grands dans des tâches complexes de raisonnement mathématique et de programmation.
L'équipe Xiaomi LLM-Core a développé MiMo-7B, un modèle conçu pour résoudre des problèmes complexes de raisonnement. Cette approche contraste avec la tendance actuelle vers des modèles toujours plus grands, démontrant qu'une architecture efficace avec des données bien sélectionnées peut obtenir de bons résultats avec moins de ressources.
La stratégie d'entraînement de MiMo-7B est divisée en deux phases. Le pré-entraînement a utilisé 25 billions de tokens centrés sur des contenus aux structures logiques et mathématiques, comme des textes techniques et des livres académiques. L'équipe a mis en œuvre un système de mélange de données en trois étapes pour augmenter la densité des modèles de raisonnement.
Dans la phase de post-entraînement, le modèle a été affiné avec des techniques d'apprentissage par renforcement utilisant 130 000 problèmes de mathématiques et de programmation. Un système de récompenses basé sur la difficulté des tests a été implémenté pour améliorer la qualité de l'entraînement.
Lors des évaluations, MiMo-7B a obtenu des résultats remarquables : en génération de code, il a surpassé OpenAI o1-mini avec 57,8 % sur LiveCodeBench v5 et 49,3 % sur la version v6. En raisonnement mathématique, il a atteint 55,4 % sur AIME 2025, dépassant de plus de 4 points les modèles commerciaux plus grands.
Le modèle démontre également une compétence dans la compréhension de contextes longs et les tâches générales de langage. Cette combinaison de spécialisation et de polyvalence suggère des applications potentielles dans l'éducation et le développement logiciel.
Xiaomi a publié les points de contrôle du modèle sur GitHub en open source, permettant aux chercheurs et développeurs d'expérimenter facilement avec cette technologie.
Ce développement signale une alternative dans la création de modèles d'IA, où l'efficacité dans la conception et l'entraînement peut compenser un nombre réduit de paramètres, permettant des avancées significatives sans dépendre exclusivement de modèles à grande échelle.
MiMo est un modèle d'intelligence artificielle open-source développé par Xiaomi qui se spécialise dans le raisonnement mathématique et la génération de code. Il intègre une architecture ...
21/04/2026
OpenAI présente ChatGPT Images 2.0, un modèle de génération d'images offrant une meilleure précision, un support multilingue, des proportions ...
17/04/2026
Anthropic a lancé Claude Design, un outil permettant de créer des designs visuels, des prototypes interactifs et des présentations par ...
17/04/2026
Anthropic publie Claude Opus 4.7, un modèle avec des gains notables en développement logiciel, une meilleure résolution d'image et de nouvelles ...
08/04/2026
Meta Superintelligence Labs lance Muse Spark, un modèle multimodal d'intelligence artificielle capable de traiter texte et images simultanément, ...