✨︎ Resumen (TL;DR):
- Google lanzó una suite de algoritmos que reduce por seis el consumo de memoria en modelos de lenguaje.
- TurboQuant comprime los procesos a 3 bits y acelera el rendimiento 8x en GPUs Nvidia H100.
- El anuncio provocó la caída inmediata de acciones en fabricantes como SanDisk, Micron y Western Digital.
Google presentó el martes una nueva suite de algoritmos de compresión capaz de reducir el consumo de memoria de los grandes modelos de lenguaje por un factor de seis o más. Este desarrollo técnico impactó de inmediato a Wall Street, provocando una caída generalizada en las acciones de los principales fabricantes de chips de memoria y almacenamiento.
La suite incluye tres tecnologías: TurboQuant, PolarQuant y Quantized Johnson-Lindenstrauss (QJL). El desarrollo ataca directamente el caché clave-valor, una pieza de software que Google define como una “hoja de trucos digital” que almacena la información consultada con mayor frecuencia durante la inferencia de inteligencia artificial.
TurboQuant es un algoritmo de compresión que reduce el caché a tan solo 3 bits. En pruebas realizadas con los modelos abiertos Gemma y Mistral, el sistema alcanzó una aceleración de 8x en GPUs Nvidia H100 frente a las bases no cuantizadas, todo sin necesidad de entrenamiento adicional.

Matemáticas contra el hardware tradicional
El sistema opera en dos fases de ingeniería geométrica. Primero, PolarQuant convierte los vectores de datos estándar en coordenadas polares, cambiando las medidas por eje hacia un radio y un ángulo. Esta simple modificación matemática elimina el costo operativo que asfixia a los cuantizadores tradicionales.
Después interviene QJL. Esta etapa aplica una capa de corrección de errores de 1 bit mediante la Transformada de Johnson-Lindenstrauss, enviando cualquier residuo a un espacio de menor dimensión con un costo de memoria casi nulo.
De acuerdo con Google Research, este método “aborda de manera óptima el desafío del consumo excesivo de memoria en la cuantización de vectores”. La corporación adelantó que la tecnología no se limitará a los modelos de lenguaje, sino que potenciará grandes motores de búsqueda vectorial.
El mercado reaccionó el miércoles con ventas masivas. SanDisk registró la caída más fuerte, arrastrando los papeles de Micron, Western Digital y Seagate, esto a pesar de que el índice Nasdaq 100 operaba al alza. Los fabricantes de equipo original, Lam Research y Applied Materials, también cerraron en números rojos.
La reconfiguración del mercado AI
Morgan Stanley calificó la tecnología de Google como un “avance que está reconfigurando la curva de costos en el despliegue de la IA”, comparando su magnitud técnica con el impacto de DeepSeek. El banco de inversión ve esto como una señal alcista para las plataformas de modelos en la nube.
Sin embargo, la institución financiera proyectó que el efecto a largo plazo sobre el hardware físico será de “neutral a ligeramente positivo”. TurboQuant opera exclusivamente en la fase de inferencia, por lo que no destruye la demanda de memoria, y al abaratar el despliegue podría terminar detonando nuevos casos de uso comercial que requerirán más poder de cómputo.
Google Research presentará TurboQuant en la International Conference on Learning Representations en Río de Janeiro, del 23 al 27 de abril, mientras que PolarQuant verá la luz en AISTATS 2026. El equipo detrás de la investigación operó bajo el mando de Amir Zandieh y el vicepresidente Vahab Mirrokni, en colaboración con KAIST y la Universidad de Nueva York.
