V4後の訓練世代:OPDが混合RLに取って代わり、十数の専門家モデルを蒸留して一つに

robot
概要作成中

据动察 Beating 监测,DeepSeek V4 后训练方法论发生重大变化:V3.2 的 mixed RL 阶段被 On-Policy Distillation(OPD,在线策略蒸馏)完全替代。

新流程分两步。第一步,针对数学、代码、Agent、指令跟随等领域,在 V3.2 流水线基础上分别训练领域专家模型,每个专家先做微调再用 GRPO 做强化学习。第二步,用多教师 OPD 将十余个专家的能力蒸馏进一个统一模型:学生在自身生成的轨迹上,对每个教师做 reverse KL 散度的全词表 logit 蒸馏,通过 logits 级别的对齐把多个专家权重合并到统一参数空间,避免传统 weight merging 和 mixed RL 常见的能力冲突。

报告还提出 Generative Reward Model(GRM,生成式奖励模型):对于难以用规则验证的任务,不再训练传统标量奖励模型,而是用 rubric 引导的 RL 数据训练 GRM,让 actor 网络同时承担生成和评判能力,用少量多样化人工标注即可泛化到复杂任务。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン