Évolution après formation dans V4 : OPD remplace RL mixte, en distillant plusieurs modèles d'experts en un seul

Selon la surveillance de Beating, la méthodologie post-formation de DeepSeek V4 a subi des changements importants : la phase de RL mixte de V3.2 a été complètement remplacée par la Distillation On-Policy (OPD). Le nouveau processus se compose de deux étapes. Dans la première étape, des modèles d’experts en domaine sont entraînés dans des domaines tels que les mathématiques, la programmation, le comportement des agents et le suivi des instructions, en se basant sur le pipeline V3.2. Chaque expert subit un ajustement fin suivi d’un apprentissage par renforcement utilisant GRPO. Dans la deuxième étape, une distillation OPD multi-enseignants compile les capacités de plus de dix experts en un modèle unifié : l’étudiant effectue une distillation de logit par divergence KL inverse sur tout le vocabulaire pour chaque enseignant en se basant sur ses propres trajectoires générées, en alignant les logits pour fusionner plusieurs poids d’experts dans un espace de paramètres unifié, évitant ainsi les conflits de capacités couramment observés dans la fusion de poids traditionnelle et le RL mixte. Le rapport introduit également le Modèle de Récompense Générative (GRM) : pour les tâches difficiles à valider avec des règles, au lieu d’entraîner un modèle de récompense scalaire traditionnel, des données RL guidées par des rubriques sont utilisées pour entraîner le GRM, permettant au réseau d’acteur de générer et d’évaluer simultanément, ce qui facilite la généralisation à des tâches complexes avec une petite quantité d’annotations humaines diversifiées.

DEEPSEEK-4,13%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler