Google desarrolla una técnica para que la IA use hasta seis veces menos memoria

24/03/2026

Los modelos de inteligencia artificial requieren grandes cantidades de memoria para funcionar con rapidez. Google Research ha presentado TurboQuant, un algoritmo de compresión que reduce ese consumo hasta seis veces sin que el modelo pierda precisión.

Google desarrolla una técnica para que la IA use hasta seis veces menos memoria


Los modelos de inteligencia artificial como los que hay detrás de los asistentes virtuales o los buscadores modernos trabajan procesando cantidades enormes de información. Para hacerlo con rapidez, guardan parte de esa información en una especie de memoria de trabajo, similar a los apuntes que uno toma mientras estudia para no tener que releer todo el libro cada vez. El problema es que esa memoria ocupa mucho espacio y se convierte en un cuello de botella que ralentiza los sistemas y encarece su operación.

El equipo de Google Research ha desarrollado TurboQuant, una técnica que reduce drásticamente el espacio que ocupa esa memoria de trabajo sin que el modelo cometa más errores. En las pruebas realizadas, consiguieron comprimir esa información hasta seis veces sin pérdida de precisión, reduciendo los datos de 32 bits a solo 3, y el sistema llegó a funcionar ocho veces más rápido que la versión sin comprimir en hardware especializado como las GPUs H100 de Nvidia.

El funcionamiento se basa en combinar dos técnicas matemáticas. La primera reorganiza los datos de forma más compacta, de un modo comparable a describir una ubicación con un ángulo y una distancia en lugar de coordenadas X e Y: se necesita menos información para decir lo mismo. La segunda utiliza solo un bit adicional para corregir los pequeños errores que introduce la compresión, actuando como un corrector automático que mantiene la precisión del resultado final.

Una de las ventajas prácticas más destacables es que no requiere reentrenar los modelos ni ajustarlos desde cero. TurboQuant se aplica directamente sobre modelos ya existentes, lo que facilita enormemente su adopción. Google señala que la técnica también mejora los motores de búsqueda semántica, que son los que permiten a los buscadores entender el significado de una consulta en lugar de buscar palabras exactas.

TurboQuant será presentado en la conferencia ICLR 2026, y sus algoritmos asociados PolarQuant y QJL en AISTATS 2026. El trabajo está respaldado por demostraciones teóricas que sitúan los resultados cerca del límite máximo de eficiencia posible desde un punto de vista matemático.

Puntos clave

  • Google Research presenta TurboQuant, un algoritmo que comprime hasta seis veces la memoria de trabajo de los modelos de IA.
  • La técnica no reduce la precisión de los modelos ni requiere reentrenarlos.
  • En pruebas, el sistema funcionó hasta ocho veces más rápido en hardware especializado.
  • La compresión se logra reduciendo los datos a solo 3 bits, frente a los 32 bits habituales.
  • También mejora la velocidad de los motores de búsqueda semántica a gran escala.

IA relacionada

Google AI

Innovación responsable en IA para todos

Google AI desarrolla plataformas avanzadas que mejoran la vida de las personas. Su ecosistema Gemini integra modelos, productos y APIs, impulsando la innovación responsable y permitiendo a ...

Últimas noticias

Trustpilot
Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso.