Beating監測は、DeepSeek V4がOn-Policy Distillation（OPD）を用いてV3.2のハイブリッドRLを置き換えることを示しています。プロセスは二段階に分かれています：第一段階はV3.2のパイプラインを基に、数学、コード、エージェント、指示追従などの分野のエキスパートモデルを訓練し、微調整後にGRPO RLを採用します；第二段階は複数教師のOPDを用いて、十数人のエキスパートを統一モデルに蒸留し、学生は自己生成軌跡上で各教師に対してreverse KL全語彙logit蒸留を行い、整合性を保ちつつ統一パラメータに統合します。これにより、重みの合併と混合RLの衝突を回避します。また、GRM（生成式報酬モデル）を提案し、ルーブリックに基づくRLデータで訓練し、アクターが生成と評価を同時に行えるようにし、少量多様なラベル付けで一般化を図ります。

BlockBeatNews

2026-04-24 04:20:37

概要作成中

据动察 Beating 监测，DeepSeek V4 后训练方法论发生重大变化：V3.2 的 mixed RL 阶段被 On-Policy Distillation（OPD，在线策略蒸馏）完全替代。

新流程分两步。第一步，针对数学、代码、Agent、指令跟随等领域，在 V3.2 流水线基础上分别训练领域专家模型，每个专家先做微调再用 GRPO 做强化学习。第二步，用多教师 OPD 将十余个专家的能力蒸馏进一个统一模型：学生在自身生成的轨迹上，对每个教师做 reverse KL 散度的全词表 logit 蒸馏，通过 logits 级别的对齐把多个专家权重合并到统一参数空间，避免传统 weight merging 和 mixed RL 常见的能力冲突。

报告还提出 Generative Reward Model（GRM，生成式奖励模型）：对于难以用规则验证的任务，不再训练传统标量奖励模型，而是用 rubric 引导的 RL 数据训练 GRM，让 actor 网络同时承担生成和评判能力，用少量多样化人工标注即可泛化到复杂任务。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
WCTCTradingKingPK
292.63K 人気度
#
比特币Breaks79K
11.69M 人気度
#
IsraelStrikesIranBTCPlunges
34.6K 人気度
#
CryptoMarketsRiseBroadly
95.37K 人気度
#
WHCADinnerShootingIncident
19K 人気度

ピン

サイトマップ

V4後の訓練世代：OPDが混合RLに取って代わり、十数の専門家モデルを蒸留して一つに

人気の話題

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

ピン