Эволюция после обучения в V4: OPD заменяет смешанное RL, дистиллируя несколько моделей экспертов в одну

Согласно мониторингу Beating, методология пост-обучения DeepSeek V4 претерпела значительные изменения: смешанная фаза RL версии V3.2 полностью заменена на On-Policy Distillation (OPD). Новый процесс состоит из двух этапов. На первом этапе модели экспертов в области математики, кодирования, поведения агентов и следования инструкциям обучаются на основе пайплайна V3.2. Каждый эксперт проходит донастройку, за которой следует обучение с подкреплением с использованием GRPO. На втором этапе многомастерский OPD дистиллирует возможности более десяти экспертов в единую модель: студент выполняет обратную KL-дивергенцию логитов по всему словарю для каждого учителя на основе его собственных сгенерированных траекторий, согласуя логиты для объединения нескольких весов экспертов в единое параметрическое пространство, тем самым избегая конфликтов возможностей, характерных для традиционного объединения весов и смешанного RL. В отчёте также представлен Генеративная модель вознаграждения (GRM): для задач, трудно поддающихся проверке правилами, вместо обучения традиционной скалярной модели вознаграждения используется RL-данные, управляемые рубриками, для обучения GRM, что позволяет сети-актеру одновременно генерировать и оценивать, обеспечивая обобщение на сложные задачи с небольшим количеством разнообразных человеческих аннотаций.

DEEPSEEK-3,19%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить