Післянавчальна еволюція у V4: OPD замінює змішане RL, дистилюючи кілька моделей експертів у одну

Згідно з моніторингом Beating, методологія після тренування DeepSeek V4 зазнала значних змін: фаза змішаного RL V3.2 була повністю замінена на On-Policy Distillation (OPD). Новий процес складається з двох кроків. На першому кроці моделі експертів у галузях таких як математика, програмування, поведінка агентів та виконання інструкцій тренуються на основі пайплайну V3.2. Кожен експерт проходить тонке налаштування, а потім навчання з підкріпленням за допомогою GRPO. На другому кроці багато-вчительська дистиляція OPD передає можливості понад десяти експертів у єдину модель: студент виконує зворотню KL-розбіжність логітів дистиляції по всьому словнику для кожного вчителя на основі своїх згенерованих траєкторій, узгоджуючи логіти для об’єднання кількох ваг експертів у єдине параметричне простір, уникаючи конфліктів можливостей, характерних для традиційного об’єднання ваг і змішаного RL. У звіті також представлено Генеративну модель винагород (GRM): для задач, важких для валідації за правилами, замість тренування традиційної скалярної моделі винагород використовується RL-дані, керовані рубриками, для тренування GRM, що дозволяє мережі актора одночасно генерувати та оцінювати, забезпечуючи узагальнення до складних задач з невеликою кількістю різноманітних людських аннотацій.

DEEPSEEK-3,19%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити