Обновление обучения после V4: OPD заменяет смешанное RL, более десяти экспертных моделей дистиллируются в одну

robot
Генерация тезисов в процессе

Согласно мониторингу Beating, методология последующей тренировки DeepSeek V4 претерпела значительные изменения: этап смешанного RL в V3.2 полностью заменен On-Policy Distillation (OPD, онлайн-стратегическая дистилляция).

Новый процесс состоит из двух шагов. Первый шаг — для областей математики, кода, агента, следования инструкциям и других, на основе конвейера V3.2 отдельно обучаются экспертные модели для каждой области, сначала с помощью дообучения, а затем с использованием усиленного обучения GRPO. Второй шаг — с помощью многомастерового OPD дистиллируются способности более десяти экспертов в единую модель: студент на траекториях собственного генерации выполняет полносвязную дистилляцию логитов каждого учителя через обратное KL-расхождение, что позволяет объединить веса нескольких экспертов в едином пространстве параметров через выравнивание логитов, избегая конфликтов способностей, характерных для традиционного объединения весов и смешанного RL.

В отчете также предложена Generative Reward Model (GRM, генеративная модель награды): для задач, трудно проверяемых с помощью правил, вместо обучения традиционной скалярной модели награды используют обучение GRM на данных RL, управляемых рубриками, позволяя сети актера одновременно выполнять функции генерации и оценки, что при небольшом количестве и разнообразии ручных меток обеспечивает обобщение на сложные задачи.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить