Según el monitoreo de 1M AI News, la empresa de infraestructura de razonamiento de IA Fireworks AI lanzó una versión preliminar de Fireworks Training, ampliándose de una plataforma de razonamiento puro a una plataforma integral de entrenamiento y despliegue. Fireworks AI fue fundada por Qǐo Lín (Lin Qiao), ex ingeniero de Meta que participó en la construcción de PyTorch. Actualmente tiene una valoración de 4.000 millones de dólares y alcanza un volumen de tokens procesados al día de 150 billones.
La plataforma ofrece tres niveles:
La escala de entrenamiento con parámetros completos va desde un Qwen3 8B en un solo nodo hasta Kimi K2.5 (decenas de billones de parámetros) en 64 bloques de NVIDIA B200.
Los clientes de inferencia en producción de Fireworks AI, herramientas de programación de IA como Cursor, Vercel y Genspark, ya completaron entrenamientos de aprendizaje por refuerzo de vanguardia en esta plataforma. Vercel entrenó un modelo de autocorrección para su producto de generación de código v0; la tasa de generación de código sin errores alcanza el 93%. Su CTO Malte Ubl afirma que, en comparación, Sonnet 3.5 es solo del 62%, y que la latencia de extremo a extremo mejora 40 veces respecto al uso de modelos cerrados anteriores. Genspark realizó ajuste fino de aprendizaje por refuerzo del modelo de código abierto con decenas de billones de parámetros Kimi K2 para construir un agente de investigación profunda: el volumen de llamadas de herramientas aumenta 33% y el costo disminuye 50%. Cursor completó de forma distribuida el entrenamiento por aprendizaje por refuerzo de Composer 2 en 3 a 4 clústeres a nivel global (actualmente ocupa el puesto número uno en CursorBench), y el entrenamiento y la inferencia en producción comparten el mismo pool de GPUs.
La diferenciación central de la que presume Fireworks AI es la consistencia numérica entre el entrenamiento y la inferencia. Los modelos MoE (mezcla de expertos) son numéricamente más frágiles que los modelos densos; pequeños cambios en los estados ocultos pueden invertir el enrutamiento de los expertos y amplificarse en cascada. Fireworks publica para todos los modelos compatibles los valores de la divergencia KL entre el entrenamiento y la inferencia, y todos son inferiores a 0.01.