Згідно з моніторингом Beating, методологія після тренування DeepSeek V4 зазнала значних змін: фаза змішаного RL V3.2 була повністю замінена на On-Policy Distillation (OPD). Новий процес складається з двох кроків. На першому кроці моделі експертів у галузях таких як математика, програмування, поведінка агентів та виконання інструкцій тренуються на основі пайплайну V3.2. Кожен експерт проходить тонке налаштування, а потім навчання з підкріпленням за допомогою GRPO. На другому кроці багато-вчительська дистиляція OPD передає можливості понад десяти експертів у єдину модель: студент виконує зворотню KL-розбіжність логітів дистиляції по всьому словнику для кожного вчителя на основі своїх згенерованих траєкторій, узгоджуючи логіти для об’єднання кількох ваг експертів у єдине параметричне простір, уникаючи конфліктів можливостей, характерних для традиційного об’єднання ваг і змішаного RL. У звіті також представлено Генеративну модель винагород (GRM): для задач, важких для валідації за правилами, замість тренування традиційної скалярної моделі винагород використовується RL-дані, керовані рубриками, для тренування GRM, що дозволяє мережі актора одночасно генерувати та оцінювати, забезпечуючи узагальнення до складних задач з невеликою кількістю різноманітних людських аннотацій.

DEEPSEEK-3,19%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
292.55K Популярність
#
比特币Breaks79K
11.69M Популярність
#
IsraelStrikesIranBTCPlunges
34.6K Популярність
#
CryptoMarketsRiseBroadly
95.37K Популярність
#
WHCADinnerShootingIncident
19K Популярність

Закріпити

карта сайту

Післянавчальна еволюція у V4: OPD замінює змішане RL, дистилюючи кілька моделей експертів у одну

Популярні теми

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Закріпити