Fireworks AI 推出训练平台，支持万亿参数全参数训练

Market Whisper

2026-04-07 05:22:17

Fireworks AI 发布 Fireworks Training 预览版，将公司定位从纯推理基础设施提供商扩展为“训练＋部署”一体化平台。这家由前 Meta 工程师、曾参与构建 PyTorch 的林乔（Lin Qiao）创立的 AI 基础设施公司，目前估值达 40 亿美元，日处理 token 量已达 15 万亿。

三层训练架构：从无代码操作到研究级自定义全面覆盖

Fireworks Training 的三层架构针对不同技术背景的使用者设计，使产品团队、ML 工程师与研究人员均可在同一平台完成训练到部署的完整流程：

三个服务层级的功能定位

Training Agent（无代码层）：面向无 ML 基础设施的产品团队，描述任务、上传数据即可完成端到端流程，目前支援 LoRA 微调

Managed Training（工程师层）：面向 ML 工程师，支援 SFT、DPO 及强化学习微调，包含全参数训练能力

Training API（研究层）：面向研究团队，可自定义损失函数与训练循环，支援 GRPO、DAPO 等强化学习算法

全参数训练规模跨度显著——从单节点 Qwen3 8B，到 64 块英伟达 B200 GPU 上的万亿参数模型 Kimi K2.5，涵盖当前主流开源模型的完整规模范围。

三大客户案例：生产环境的可量化效能数据

Fireworks AI 的现有推理客户中，已有三家头部 AI 应用完成了前沿强化学习训练并公开具体效能数据。

Vercel：为代码生成产品 v0 训练了自动修错模型，无错误代码生成率达 93%，在同等条件下 Claude Sonnet 3.5 仅为 62%；端到端延迟较此前使用的闭源模型改善达 40 倍。

Genspark：对万亿参数开源模型 Kimi K2 进行强化学习微调，以构建深度研究代理。工具调用量提升 33%，推理成本降低 50%。

Cursor：在全球 3 至 4 个集群上以分布式方式完成 Composer 2 的强化学习训练，目前在 CursorBench 排名第一，并实现训练与生产推理共享同一 GPU 资源池。

核心技术差异：训练与推理的数值一致性

Fireworks AI 强调的技术差异化核心在于训练与推理之间的“数值一致性”。对于 MoE（混合专家）模型，隐藏状态的微小数值偏差可能在专家路由决策中产生级联放大效应，导致训练环境中学习到的模型行为在推理时无法完整复现。

Fireworks 为所有支持的模型公布训练与推理之间的 KL 散度数值，所有模型均低于 0.01，提供可量化比较的一致性基准，使开发者能夠评估模型在从训练迁移至生产部署时的行为稳定性。

常见问题

Fireworks AI 是什么公司？

Fireworks AI 是一家 AI 推理基础设施公司，由前 Meta 工程师林乔（Lin Qiao）创立，曾参与构建 PyTorch。公司当前估值达 40 亿美元，日处理 token 量为 15 万亿，核心客户包括 Cursor、Vercel、Genspark 等主流 AI 应用。

Fireworks Training 的三层架构分别适合哪类用户？

Training Agent 面向无 ML 基础设施的产品团队（无代码操作）；Managed Training 面向 ML 工程师（支援 SFT、DPO 及强化学习全参数训练）；Training API 面向研究团队（可自定义损失函数与训练循环，支援 GRPO、DAPO 等算法）。

为什么 Fireworks AI 强调 KL 散度低于 0.01？

KL 散度衡量训练与推理环境之间的数值偏差，偏差越大代表模型在部署后行为越不稳定。对 MoE 模型尤为关键——微小偏差可能放大至路由决策差异。Fireworks AI 通过公布可量化指标，使开发者能够客观评估模型从训练到部署的一致性质量。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论