Google publica el algoritmo TurboQuant: cuantización KV cache de 3 bits sin pérdida de precisión, velocidad de inferencia aumenta hasta 8 veces

Noticias de Gate News, el 25 de marzo, el Google Research Institute publicó el algoritmo de compresión cuantitativa TurboQuant, que puede comprimir la caché KV de modelos de lenguaje grande a 3 bits, reduciendo el uso de memoria al menos 6 veces, sin necesidad de entrenamiento o ajuste fino, y sin pérdida de precisión del modelo. En modo de 4 bits, la velocidad de cálculo de atención en la GPU Nvidia H100 se incrementa hasta 8 veces en comparación con la línea base de 32 bits sin cuantificación. El equipo de investigación validó TurboQuant en benchmarks de contexto largo como LongBench, Needle In A Haystack, ZeroSCROLLS, usando los modelos Gemma y Mistral, logrando el mejor rendimiento en todas las pruebas. El algoritmo consta de dos subalgoritmos: PolarQuant, que elimina el gasto de memoria de los métodos tradicionales de cuantificación mediante transformación en coordenadas polares, y QJL, que corrige errores residuales con solo 1 bit. La investigación fue liderada por Amir Zandieh del Google Research Institute y Vahab Mirrokni, vicepresidente y Google Fellow, en colaboración con KAIST en Corea y la Universidad de Nueva York, y será presentada en ICLR 2026. Google afirmó que una de las principales aplicaciones de esta tecnología es resolver el cuello de botella en la caché KV de modelos como Gemini.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios