Les modèles d'intelligence artificielle nécessitent de grandes quantités de mémoire pour fonctionner rapidement. Google Research a présenté TurboQuant, un algorithme de compression qui réduit cette consommation jusqu'à six fois sans que le modèle perde en précision.
Les modèles d'intelligence artificielle, comme ceux qui alimentent les assistants virtuels ou les moteurs de recherche modernes, fonctionnent en traitant des quantités énormes d'informations. Pour le faire rapidement, ils stockent une partie de ces informations dans une sorte de mémoire de travail, semblable aux notes que l'on prend en étudiant pour ne pas avoir à relire tout un livre à chaque fois. Le problème est que cette mémoire occupe beaucoup d'espace et devient un goulot d'étranglement qui ralentit les systèmes et augmente les coûts d'exploitation.
L'équipe de Google Research a développé TurboQuant, une technique qui réduit considérablement l'espace occupé par cette mémoire de travail sans que le modèle commette davantage d'erreurs. Lors des tests, l'équipe a réussi à compresser ces informations jusqu'à six fois sans perte de précision, en réduisant les données de 32 bits à seulement 3, tandis que le système a fonctionné jusqu'à huit fois plus vite que la version non compressée sur du matériel spécialisé comme les GPU H100 de Nvidia.
Le fonctionnement repose sur la combinaison de deux techniques mathématiques. La première réorganise les données de façon plus compacte, comparable à décrire un emplacement avec un angle et une distance plutôt qu'avec des coordonnées X et Y : moins d'informations sont nécessaires pour dire la même chose. La seconde utilise seulement un bit supplémentaire pour corriger les petites erreurs introduites par la compression, agissant comme un correcteur automatique qui maintient la précision du résultat final.
L'un des avantages pratiques les plus notables est qu'il ne nécessite ni réentraînement des modèles ni ajustement depuis zéro. TurboQuant s'applique directement sur des modèles existants, ce qui facilite considérablement son adoption. Google indique que la technique améliore également les moteurs de recherche sémantique, qui permettent aux moteurs de comprendre le sens d'une requête plutôt que de rechercher des mots exacts.
Les travaux sont soutenus par des preuves théoriques situant les résultats près de la limite maximale d'efficacité possible d'un point de vue mathématique.
Google AI développe des plateformes avancées qui améliorent la vie des gens. Son écosystème Gemini intègre modèles, produits et APIs, stimulant l'innovation responsable et permettant aux ...
24/04/2026
DeepSeek lance en version préliminaire sa famille V4, deux modèles open source capables de traiter jusqu'à un million de tokens de contexte et de ...
23/04/2026
OpenAI lance GPT-5.5, un modèle conçu pour exécuter des tâches complexes de manière autonome : programmer, rechercher, analyser des données et ...
21/04/2026
OpenAI présente ChatGPT Images 2.0, un modèle de génération d'images offrant une meilleure précision, un support multilingue, des proportions ...
17/04/2026
Anthropic a lancé Claude Design, un outil permettant de créer des designs visuels, des prototypes interactifs et des présentations par ...