OpenAI 公布回顧 GPT 系列的“哥布林”問題，源於書呆子人格的系統提示和強化信號讓模型偏愛含奇幻生物詞彙；書呆子僅佔 2.5% 回覆卻貢獻 66.7% 哥布林提及，GPT-5.4 峰值暴漲，5.5 已進入 SFT 數據。為解決，3 月下線書呆子人格，移除相關獎勵，5.5 對 Codex 提示加入抑制指令，並開發新的模型行為審計工具。

ME News

2026-04-30 04:40:17

摘要生成中

AIMPACT 消息，4 月 30 日（UTC+8），據動察 Beating 監測，OpenAI 發文回顧了困擾 GPT 系列多代的「哥布林」問題。從 GPT-5.1 起，模型越來越喜歡在回答裡塞哥布林、小妖精之類的奇幻生物比喻，使用者投訴不斷。GPT-5.1 上線後，ChatGPT 對話中出現「goblin」一詞的頻率上升了 175%。到 GPT-5.4，問題徹底爆發。根源在 ChatGPT 的「書呆子」（Nerdy）人格定制功能。這個人格的系統提示詞要求模型「用語言的趣味性化解一本正經」「承認世界的怪異並享受它」。訓練時，用於強化這個人格風格的獎勵信號對含有奇幻生物詞彙的輸出打了更高分，76.2% 的資料集中都能觀察到這種偏向。問題是獎勵信號只在「書呆子」人格下生效，但強化學習不保證學到的行為只留在觸發條件裡。一旦模型在某個條件下被獎勵了某種說話習慣，這種習慣就會通過後續訓練擴散到其他場景。擴散路徑很清晰：獎勵信號鼓勵了帶哥布林的輸出，這些輸出出現在後續的監督微調（SFT）資料裡，模型越來越習慣產出這類詞，形成正反馈循環。資料上看，「書呆子」人格只佔 ChatGPT 全部回覆的 2.5%，卻貢獻了 66.7% 的哥布林提及量。GPT-5.4 中「書呆子」人格的哥布林出現率較 GPT-5.2 暴漲 3881%。 GPT-5.5 在根因查明前就開始訓練了，哥布林已經混進了 SFT 資料。OpenAI 在 3 月下線了「書呆子」人格，移除了偏向奇幻生物的獎勵信號並過濾了訓練資料。對已上線的 GPT-5.5，則在 Codex 的開發者提示詞中加入抑制指令。OpenAI 稱這次調查催生了一套新的模型行為審計工具。（來源：BlockBeats）

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
WCTC交易王PK
39.18萬熱度
#
#聯準會利率不變但內部分歧加劇#
1.51萬熱度
#
Polymarket每日熱點
71.79萬熱度
#
比特幣現貨交易量新低
16266.48萬熱度
#
油價突破110美元
87.04萬熱度

OpenAI查清了「哥布林」從哪來的：一個性格獎勵信號污染了整條訓練流程

熱門話題

WCTC交易王PK

#聯準會利率不變但內部分歧加劇#

Polymarket每日熱點

比特幣現貨交易量新低

油價突破110美元

置頂