Evolución post-entrenamiento en V4: OPD reemplaza RL mixto, destilando múltiples modelos de expertos en uno

Según la monitorización de Beating, la metodología post-entrenamiento de DeepSeek V4 ha sufrido cambios significativos: la fase de RL mixto de V3.2 ha sido completamente reemplazada por la Destilación en Política (OPD). El nuevo proceso consta de dos pasos. En el primer paso, los modelos expertos en áreas como matemáticas, codificación, comportamiento de agentes y seguimiento de instrucciones, se entrenan basándose en la canalización V3.2. Cada experto pasa por un ajuste fino seguido de aprendizaje por refuerzo usando GRPO. En el segundo paso, una destilación de múltiples profesores OPD combina las capacidades de más de diez expertos en un modelo unificado: el estudiante realiza una destilación de logits de divergencia KL inversa en todo el vocabulario para cada profesor, basada en sus propias trayectorias generadas, alineando los logits para fusionar múltiples pesos de expertos en un espacio de parámetros unificado, evitando así los conflictos de capacidades comúnmente vistos en la fusión de pesos tradicional y en RL mixto. El informe también presenta el Modelo de Recompensa Generativa (GRM): para tareas difíciles de validar con reglas, en lugar de entrenar un modelo de recompensa escalar tradicional, se utiliza datos de RL guiados por rúbricas para entrenar el GRM, permitiendo que la red actor genere y evalúe simultáneamente, lo que facilita la generalización a tareas complejas con una pequeña cantidad de anotaciones humanas diversas.

DEEPSEEK-3,19%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado