Beating监测显示，DeepSeek V4 用 On-Policy Distillation（OPD）取代 V3.2 的混合RL。流程分两步：第一步在V3.2流水线基础上训练数学、代码、Agent、指令跟随等领域的专家模型，微调后采用GRPO RL；第二步以多教师OPD，将十余位专家蒸馏成统一模型，学生在自生成轨迹上对各教师进行 reverse KL 全词表logit 蒸馏，实现对齐并合并到统一参数，避免权重合并与混合RL的冲突。并提出GRM（生成式奖励模型），用 rubric 指引的 RL 数据训练，让 actor 同时生成与评判，少量多样标注即可泛化。

BlockBeatNews

2026-04-24 04:20:37

Генерация тезисов в процессе

Согласно мониторингу Beating, методология последующей тренировки DeepSeek V4 претерпела значительные изменения: этап смешанного RL в V3.2 полностью заменен On-Policy Distillation (OPD, онлайн-стратегическая дистилляция).

Новый процесс состоит из двух шагов. Первый шаг — для областей математики, кода, агента, следования инструкциям и других, на основе конвейера V3.2 отдельно обучаются экспертные модели для каждой области, сначала с помощью дообучения, а затем с использованием усиленного обучения GRPO. Второй шаг — с помощью многомастерового OPD дистиллируются способности более десяти экспертов в единую модель: студент на траекториях собственного генерации выполняет полносвязную дистилляцию логитов каждого учителя через обратное KL-расхождение, что позволяет объединить веса нескольких экспертов в едином пространстве параметров через выравнивание логитов, избегая конфликтов способностей, характерных для традиционного объединения весов и смешанного RL.

В отчете также предложена Generative Reward Model (GRM, генеративная модель награды): для задач, трудно проверяемых с помощью правил, вместо обучения традиционной скалярной модели награды используют обучение GRM на данных RL, управляемых рубриками, позволяя сети актера одновременно выполнять функции генерации и оценки, что при небольшом количестве и разнообразии ручных меток обеспечивает обобщение на сложные задачи.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
292.63K Популярность
#
比特币Breaks79K
11.69M Популярность
#
IsraelStrikesIranBTCPlunges
34.6K Популярность
#
CryptoMarketsRiseBroadly
95.37K Популярность
#
WHCADinnerShootingIncident
19K Популярность

Закрепить

Карта сайта

Обновление обучения после V4: OPD заменяет смешанное RL, более десяти экспертных моделей дистиллируются в одну

Популярные темы

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Закрепить