Google lanza el algoritmo de compresión TurboQuant sin entrenamiento, que afirma reducir al menos 6 veces la demanda de memoria en IA; tras su anuncio, las acciones de memoria cayeron en picada, pero los analistas tienen opiniones diferentes.
(Contexto previo: Google planea completar la migración a criptografía cuántica para 2029, seis años antes del objetivo gubernamental, lo que obliga a la industria de la encriptación a ponerse al día)
(Información adicional: The Wall Street Journal: Trump planea nombrar a Zuckerberg, Huang Renxun y Ellison en PCAST para formar la “Escuadra Nacional de IA de EE. UU.”)
¿Una nueva algoritmo que hace colapsar las acciones de memoria? Google Research anunció oficialmente el 25 de este mes el algoritmo de compresión TurboQuant, que afirma poder cuantificar el caché KV de modelos de lenguaje grande (LLM) a solo 3 bits, sin pérdida de precisión del modelo, y reducir el uso de memoria al menos 6 veces.
Tras la noticia, Micron, gigante de la memoria, cayó un 6.1% durante la sesión, cerrando en 382.09 dólares, su nivel más bajo en tres semanas. Por otro lado, Sandisk bajó un 3.5%, Seagate un 2.59% y Western Digital un 1.63%, provocando una caída generalizada en el sector de memoria.
El mercado asiático también sufrió hoy, con Samsung Electronics abriendo con una caída del 3.6%, y SK Hynix bajando un 4.5%. La lógica de los inversores es clara: si los modelos de IA ya no necesitan tanta memoria, el poder de fijación de precios que ha sostenido la escasez de componentes podría tambalearse.
El caché Key-Value (KV) es el mecanismo central que permite a los LLM “recordar” datos ya procesados, almacenando información de atención previa para evitar cálculos repetidos en la generación de cada token. Sin embargo, a medida que la ventana de contexto crece, el caché KV se convierte en un cuello de botella de memoria.
TurboQuant aborda precisamente este problema. Google señala que los métodos tradicionales de cuantificación vectorial generan un gasto adicional de aproximadamente 1 a 2 bits por valor en memoria, y TurboQuant elimina completamente esta carga mediante un proceso en dos fases:
Primera fase, usando PolarQuant para rotar los vectores de datos y lograr una compresión de alta calidad.
Segunda fase, aplicando el algoritmo de Johnson-Lindenstrauss cuantizado para eliminar errores residuales.
En pruebas con la GPU H100 de NVIDIA, TurboQuant de 4 bits logra una mejora de 8 veces en el rendimiento al calcular los valores de atención en comparación con los claves de 32 bits sin cuantificar, y reduce el uso de memoria del caché KV en al menos 6 veces.
Lo más importante es que este algoritmo no requiere entrenamiento ni ajuste fino, tiene un costo adicional mínimo en ejecución, y es apto para desplegarse directamente en entornos de inferencia y sistemas de búsqueda vectorial a gran escala. La compañía afirma que el artículo relacionado será publicado oficialmente en la conferencia ICLR 2026 en abril.
Sin embargo, no todos comparten la narrativa del “fin de la memoria”.
Algunos analistas citan la paradoja de Jevons: cuando la tecnología reduce el costo de recursos, la demanda total puede aumentar porque estos recursos se vuelven más accesibles. Los defensores argumentan que si TurboQuant realmente reduce significativamente la barrera de entrada para la inferencia de IA, acelerará la adopción de modelos de IA y, en última instancia, impulsará una mayor demanda de memoria, en lugar de reducirla.
Un analista de Lynx Equity Strategies afirmó directamente: “El método detallado por Google en los próximos 3 a 5 años probablemente no reducirá la demanda de memoria y memoria flash, ya que la oferta sigue siendo extremadamente limitada.” Por ello, la firma mantiene un precio objetivo de 700 dólares para Micron.