Beatingによる監視によると、DeepSeek V4の訓練後の手法は大きく変化しています:V3.2の混合RLフェーズは完全にOn-Policy蒸留 (OPD) に置き換えられました。新しいプロセスは二つのステップから構成されています。最初のステップでは、数学、コーディング、エージェントの行動、指示の従順さなどの分野で、V3.2パイプラインに基づいてドメインエキスパートモデルが訓練されます。各エキスパートは微調整を行った後、GRPOを用いた強化学習を経ます。第二のステップでは、複数のエキスパートの能力を一つのモデルに蒸留するために、多教師OPD蒸留が行われます:学生モデルは、各教師の生成した軌跡に基づいて、全語彙に対して逆KLダイバージェンスロジット蒸留を行い、ロジットを整列させて複数のエキスパートの重みを一つのパラメータ空間に統合し、従来の重みのマージや混合RLでよく見られる能力の衝突を回避します。このレポートでは、ルールで検証が難しいタスクのために、従来のスカラー報酬モデルの訓練の代わりに、ルーブリックに導かれたRLデータを用いて生成報酬モデル (GRM) を訓練します。これにより、アクターネットワークは同時に生成と評価を行い、少量の多様な人間の注釈で複雑なタスクへの一般化を可能にします。
V4における訓練後の進化:OPDが混合RLに取って代わり、複数のエキスパートモデルを一つに蒸留
Beatingによる監視によると、DeepSeek V4の訓練後の手法は大きく変化しています:V3.2の混合RLフェーズは完全にOn-Policy蒸留 (OPD) に置き換えられました。新しいプロセスは二つのステップから構成されています。最初のステップでは、数学、コーディング、エージェントの行動、指示の従順さなどの分野で、V3.2パイプラインに基づいてドメインエキスパートモデルが訓練されます。各エキスパートは微調整を行った後、GRPOを用いた強化学習を経ます。第二のステップでは、複数のエキスパートの能力を一つのモデルに蒸留するために、多教師OPD蒸留が行われます:学生モデルは、各教師の生成した軌跡に基づいて、全語彙に対して逆KLダイバージェンスロジット蒸留を行い、ロジットを整列させて複数のエキスパートの重みを一つのパラメータ空間に統合し、従来の重みのマージや混合RLでよく見られる能力の衝突を回避します。このレポートでは、ルールで検証が難しいタスクのために、従来のスカラー報酬モデルの訓練の代わりに、ルーブリックに導かれたRLデータを用いて生成報酬モデル (GRM) を訓練します。これにより、アクターネットワークは同時に生成と評価を行い、少量の多様な人間の注釈で複雑なタスクへの一般化を可能にします。