Evolusi Pasca-Pelatihan di V4: OPD Menggantikan RL Campuran, Mendistilasi Beberapa Model Ahli menjadi Satu

Menurut pemantauan oleh Beating, metodologi pasca-pelatihan DeepSeek V4 telah mengalami perubahan signifikan: fase RL campuran dari V3.2 telah sepenuhnya digantikan oleh Distilasi On-Policy (OPD). Proses baru terdiri dari dua langkah. Pada langkah pertama, model ahli domain dilatih di bidang seperti matematika, pengkodean, perilaku agen, dan mengikuti instruksi, berdasarkan pipeline V3.2. Setiap ahli menjalani penyempurnaan diikuti dengan pembelajaran penguatan menggunakan GRPO. Pada langkah kedua, distilasi OPD multi-guru menyatukan kemampuan lebih dari sepuluh ahli ke dalam satu model: siswa melakukan distilasi logit divergensi KL terbalik pada seluruh kosakata untuk setiap guru berdasarkan trajektori yang dihasilkan sendiri, menyelaraskan logit untuk menggabungkan bobot ahli multiple ke dalam ruang parameter yang terpadu, sehingga menghindari konflik kemampuan yang umum terlihat dalam penggabungan bobot tradisional dan RL campuran. Laporan ini juga memperkenalkan Model Reward Generatif (GRM): untuk tugas yang sulit divalidasi dengan aturan, alih-alih melatih model reward skalar tradisional, data RL yang dipandu oleh rubrik digunakan untuk melatih GRM, memungkinkan jaringan aktor untuk secara bersamaan menghasilkan dan mengevaluasi, sehingga memungkinkan generalisasi ke tugas kompleks dengan sedikit anotasi manusia yang beragam.

DEEPSEEK-3,19%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan