Согласно мониторингу Beating, методология пост-обучения DeepSeek V4 претерпела значительные изменения: смешанная фаза RL версии V3.2 полностью заменена на On-Policy Distillation (OPD). Новый процесс состоит из двух этапов. На первом этапе модели экспертов в области математики, кодирования, поведения агентов и следования инструкциям обучаются на основе пайплайна V3.2. Каждый эксперт проходит донастройку, за которой следует обучение с подкреплением с использованием GRPO. На втором этапе многомастерский OPD дистиллирует возможности более десяти экспертов в единую модель: студент выполняет обратную KL-дивергенцию логитов по всему словарю для каждого учителя на основе его собственных сгенерированных траекторий, согласуя логиты для объединения нескольких весов экспертов в единое параметрическое пространство, тем самым избегая конфликтов возможностей, характерных для традиционного объединения весов и смешанного RL. В отчёте также представлен Генеративная модель вознаграждения (GRM): для задач, трудно поддающихся проверке правилами, вместо обучения традиционной скалярной модели вознаграждения используется RL-данные, управляемые рубриками, для обучения GRM, что позволяет сети-актеру одновременно генерировать и оценивать, обеспечивая обобщение на сложные задачи с небольшим количеством разнообразных человеческих аннотаций.

DEEPSEEK-3,19%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
289.32K Популярность
#
比特币Breaks79K
11.69M Популярность
#
IsraelStrikesIranBTCPlunges
34.51K Популярность
#
CryptoMarketsRiseBroadly
95.14K Популярность
#
WHCADinnerShootingIncident
18.36K Популярность

Закрепить

Карта сайта

Эволюция после обучения в V4: OPD заменяет смешанное RL, дистиллируя несколько моделей экспертов в одну

Популярные темы

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Закрепить