La plataforma Workers AI de Cloudflare ha integrado oficialmente Kimi K2.5 de Moonshot AI, soportando contextos de 256K, llamadas a múltiples herramientas y entrada visual. El agente de auditoría de seguridad interno de Cloudflare procesa más de 7 mil millones de tokens al día, y tras el cambio, el costo se redujo un 77% en comparación con modelos comerciales de nivel medio.
(Resumen previo: Cursor entrenó modelos con Kimi K2.5 sin divulgarlo, registros de captura de paquetes, eliminación de recomendaciones y cambios de última hora por parte del equipo oficial)
(Información adicional: Cloudflare, que protege contra crawlers, lanzó la API de rastreo de sitios completa con un clic, soportando RAG, actualizaciones incrementales y entrenamiento de modelos)
Índice del artículo
Alternar
La plataforma Workers AI de Cloudflare ha hecho un gran avance silencioso, según su blog oficial, estableciendo a Kimi K2.5 de Moonshot AI como el modelo predeterminado para el SDK de Agents. Los ingenieros de Cloudflare también lo usan para auditorías de seguridad reales, ahorrando mucho dinero.
Kimi K2.5 es uno de los pocos modelos en código abierto que cumple con las especificaciones de vanguardia, soportando ventanas de contexto de 256K, llamadas a múltiples herramientas, entrada visual y salida estructurada. Para tareas de agentes que requieren razonamiento con textos largos, estos números son bastante útiles.
Los ingenieros de Cloudflare usan Kimi K2.5 como el principal agente de programación en el entorno OpenCode, además de desplegar un agente de revisión de código público llamado “Bonk”, integrado en pipelines automatizados.
Lo más destacado es en escenarios de auditoría de seguridad internos. Este agente procesa más de 7 mil millones de tokens diarios. Si se usara un modelo comercial estándar para la misma carga, el costo anual sería aproximadamente 2.4 millones de dólares. Con Kimi K2.5, el costo se redujo en un 77%, ahorrando casi 1.85 millones de dólares.
Este número no es publicidad, sino una cifra revelada directamente por los ingenieros en el blog oficial.
Solo cambiar el modelo no basta; Cloudflare también lanzó tres mejoras a nivel de plataforma, enfocadas en reducir costos y mejorar la eficiencia en escenarios de diálogos prolongados:
Cloudflare no utilizó frameworks de inferencia preexistentes, sino que desarrolló su propio motor de inferencia, Infire, con un núcleo personalizado. Usa paralelismo de datos, paralelismo de tensores y paralelismo de expertos, junto con una arquitectura de procesamiento de prefijos separada.
Actualmente, Kimi K2.5 es el primer caso de inferencia de modelos grandes en Workers AI, demostrando la ambición de Cloudflare en infraestructura de IA, compatible con plataformas web y a un costo muy bajo.