Google développe une technique pour que l’IA utilise jusqu’à six fois moins de mémoire

24/03/2026

Les modèles d'intelligence artificielle nécessitent de grandes quantités de mémoire pour fonctionner rapidement. Google Research a présenté TurboQuant, un algorithme de compression qui réduit cette consommation jusqu'à six fois sans que le modèle perde en précision.

Google développe une technique pour que l’IA utilise jusqu’à six fois moins de mémoire

Les modèles d'intelligence artificielle, comme ceux qui alimentent les assistants virtuels ou les moteurs de recherche modernes, fonctionnent en traitant des quantités énormes d'informations. Pour le faire rapidement, ils stockent une partie de ces informations dans une sorte de mémoire de travail, semblable aux notes que l'on prend en étudiant pour ne pas avoir à relire tout un livre à chaque fois. Le problème est que cette mémoire occupe beaucoup d'espace et devient un goulot d'étranglement qui ralentit les systèmes et augmente les coûts d'exploitation.

L'équipe de Google Research a développé TurboQuant, une technique qui réduit considérablement l'espace occupé par cette mémoire de travail sans que le modèle commette davantage d'erreurs. Lors des tests, l'équipe a réussi à compresser ces informations jusqu'à six fois sans perte de précision, en réduisant les données de 32 bits à seulement 3, tandis que le système a fonctionné jusqu'à huit fois plus vite que la version non compressée sur du matériel spécialisé comme les GPU H100 de Nvidia.

Le fonctionnement repose sur la combinaison de deux techniques mathématiques. La première réorganise les données de façon plus compacte, comparable à décrire un emplacement avec un angle et une distance plutôt qu'avec des coordonnées X et Y : moins d'informations sont nécessaires pour dire la même chose. La seconde utilise seulement un bit supplémentaire pour corriger les petites erreurs introduites par la compression, agissant comme un correcteur automatique qui maintient la précision du résultat final.

L'un des avantages pratiques les plus notables est qu'il ne nécessite ni réentraînement des modèles ni ajustement depuis zéro. TurboQuant s'applique directement sur des modèles existants, ce qui facilite considérablement son adoption. Google indique que la technique améliore également les moteurs de recherche sémantique, qui permettent aux moteurs de comprendre le sens d'une requête plutôt que de rechercher des mots exacts.

Les travaux sont soutenus par des preuves théoriques situant les résultats près de la limite maximale d'efficacité possible d'un point de vue mathématique.

Points clés

  • Google Research présente TurboQuant, un algorithme qui compresse jusqu'à six fois la mémoire de travail des modèles d'IA.
  • La technique ne réduit pas la précision des modèles et ne nécessite pas de réentraînement.
  • Lors des tests, le système a fonctionné jusqu'à huit fois plus vite sur du matériel spécialisé.
  • La compression est obtenue en réduisant les données à seulement 3 bits, contre 32 habituellement.
  • Elle améliore également la vitesse des moteurs de recherche sémantique à grande échelle.

IA connexe

Google AI

Innovation responsable en IA pour tous

Google AI développe des plateformes avancées qui améliorent la vie des gens. Son écosystème Gemini intègre modèles, produits et APIs, stimulant l'innovation responsable et permettant aux ...

Dernières nouvelles

Trustpilot
Ce site utilise des cookies techniques, de personnalisation et d’analyse, propres et tiers, pour faciliter la navigation anonyme et analyser les statistiques d’utilisation du site. Nous considérons que si vous continuez à naviguer, vous acceptez leur utilisation.