Noticias de Gate News, el 25 de marzo, el Google Research Institute publicó el algoritmo de compresión cuantitativa TurboQuant, que puede comprimir la caché KV de modelos de lenguaje grande a 3 bits, reduciendo el uso de memoria al menos 6 veces, sin necesidad de entrenamiento o ajuste fino, y sin pérdida de precisión del modelo. En modo de 4 bits, la velocidad de cálculo de atención en la GPU Nvidia H100 se incrementa hasta 8 veces en comparación con la línea base de 32 bits sin cuantificación. El equipo de investigación validó TurboQuant en benchmarks de contexto largo como LongBench, Needle In A Haystack, ZeroSCROLLS, usando los modelos Gemma y Mistral, logrando el mejor rendimiento en todas las pruebas. El algoritmo consta de dos subalgoritmos: PolarQuant, que elimina el gasto de memoria de los métodos tradicionales de cuantificación mediante transformación en coordenadas polares, y QJL, que corrige errores residuales con solo 1 bit. La investigación fue liderada por Amir Zandieh del Google Research Institute y Vahab Mirrokni, vicepresidente y Google Fellow, en colaboración con KAIST en Corea y la Universidad de Nueva York, y será presentada en ICLR 2026. Google afirmó que una de las principales aplicaciones de esta tecnología es resolver el cuello de botella en la caché KV de modelos como Gemini.