OpenAI查清了「哥布林」從哪來的:一個性格獎勵信號污染了整條訓練流程

robot
摘要生成中

AIMPACT 消息,4 月 30 日(UTC+8),據 動察 Beating 監測,OpenAI 發文回顧了困擾 GPT 系列多代的「哥布林」問題。從 GPT-5.1 起,模型越來越喜歡在回答裡塞哥布林、小妖精之類的奇幻生物比喻,使用者投訴不斷。GPT-5.1 上線後,ChatGPT 對話中出現「goblin」一詞的頻率上升了 175%。到 GPT-5.4,問題徹底爆發。 根源在 ChatGPT 的「書呆子」(Nerdy)人格定制功能。這個人格的系統提示詞要求模型「用語言的趣味性化解一本正經」「承認世界的怪異並享受它」。訓練時,用於強化這個人格風格的獎勵信號對含有奇幻生物詞彙的輸出打了更高分,76.2% 的資料集中都能觀察到這種偏向。 問題是獎勵信號只在「書呆子」人格下生效,但強化學習不保證學到的行為只留在觸發條件裡。一旦模型在某個條件下被獎勵了某種說話習慣,這種習慣就會通過後續訓練擴散到其他場景。擴散路徑很清晰:獎勵信號鼓勵了帶哥布林的輸出,這些輸出出現在後續的監督微調(SFT)資料裡,模型越來越習慣產出這類詞,形成正反馈循環。資料上看,「書呆子」人格只佔 ChatGPT 全部回覆的 2.5%,卻貢獻了 66.7% 的哥布林提及量。GPT-5.4 中「書呆子」人格的哥布林出現率較 GPT-5.2 暴漲 3881%。 GPT-5.5 在根因查明前就開始訓練了,哥布林已經混進了 SFT 資料。OpenAI 在 3 月下線了「書呆子」人格,移除了偏向奇幻生物的獎勵信號並過濾了訓練資料。對已上線的 GPT-5.5,則在 Codex 的開發者提示詞中加入抑制指令。OpenAI 稱這次調查催生了一套新的模型行為審計工具。 (來源:BlockBeats)

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆