✨︎ Resumen (TL;DR):
- Google Research presentó un algoritmo que comprime la memoria caché de los modelos de IA sin necesidad de reentrenamiento.
- TurboQuant disminuye el uso de memoria 6 veces y acelera el cálculo de atención hasta 8 veces en GPU Nvidia H100.
- El sistema se instala directamente bajo los modelos existentes, agilizando la inferencia en producción y la búsqueda semántica.
Google Research presentó TurboQuant, un algoritmo de compresión que disminuye al menos seis veces el consumo de memoria en la caché clave-valor (KV) de los modelos de lenguaje grande (LLM). Este desarrollo acelera hasta ocho veces el cálculo de atención de la inteligencia artificial sin requerir reentrenamiento ni ajustes finos en el modelo base.
El algoritmo fue creado por los investigadores Amir Zandieh, Majid Daliri, Majid Hadian y Vahab Mirrokni. Para lograr la compresión, el equipo utilizó un enfoque de dos etapas basado en la teoría de codificación de fuentes de Shannon.
La primera fase, llamada PolarQuant, rota los vectores de entrada al azar y reescribe las coordenadas como una longitud y un ángulo. Esto crea una representación compacta que elimina las constantes de precisión completa que normalmente saturan el almacenamiento.
La segunda fase aplica una transformación Quantized Johnson-Lindenstrauss (QJL) de 1 bit al error residual, corrigiendo el sesgo interno que afectaría los puntajes de atención.
“PolarQuant almacena la forma principal de la memoria, y QJL guarda una pequeña nota de corrección casi gratis”, describe un resumen técnico del método. Ambas etapas comprimen la caché KV a aproximadamente 3 bits por canal. El documento oficial de Google reporta una “neutralidad de calidad absoluta” a 3.5 bits y una degradación apenas marginal a 2.5 bits.
Rendimiento de TurboQuant en hardware de producción
Durante los experimentos realizados en hardware de alto rendimiento, el equipo de investigación comprobó la viabilidad comercial del proyecto:
- Ejecutado en GPU Nvidia H100, el algoritmo en formato de 4 bits logró un aumento de velocidad de 8x en comparación con el estándar sin comprimir de 32 bits.
- El método fue validado con modelos como Gemma y Mistral utilizando benchmarks de contexto largo como LongBench y ZeroSCROLLS.
- En tareas de búsqueda de vecinos más cercanos, la herramienta mejoró la recuperación de datos y redujo el tiempo de indexación “prácticamente a cero”.
Al ser independiente de los datos y no requerir ajustes específicos, TurboQuant funciona como una capa de instalación directa (drop-in layer) bajo los modelos actuales. Google confirmó que esta arquitectura resolverá directamente el cuello de botella que representa el tráfico de memoria de la caché KV en las cargas de trabajo de inferencia.
El documento técnico fue publicado en arXiv en abril de 2025 y será presentado oficialmente en la conferencia global ICLR 2026.
