🔥 WCTC S8 全球交易賽正式開賽!
8,000,000 USDT 超級獎池解鎖開啟
🏆 團隊賽:上半場正式開啟,預報名階段 5,500+ 戰隊現已集結
交易量收益額雙重比拼,解鎖上半場 1,800,000 USDT 獎池
🏆 個人賽:現貨、合約、TradFi、ETF、閃兌、跟單齊上陣
全場交易量比拼,瓜分 2,000,000 USDT 獎池
🏆 王者 PK 賽:零門檻參與,實時匹配享受戰鬥快感
收益率即時 PK,瓜分 1,600,000 USDT 獎池
活動時間:2026 年 4 月 23 日 16:00:00 - 2026 年 5 月 20 日 15:59:59 UTC+8
⬇️ 立即參與:https://www.gate.com/competition/wctc-s8
#WCTCS8
OpenAI查清了「哥布林」從哪來的:一個性格獎勵信號污染了整條訓練流程
AIMPACT 消息,4 月 30 日(UTC+8),據 動察 Beating 監測,OpenAI 發文回顧了困擾 GPT 系列多代的「哥布林」問題。從 GPT-5.1 起,模型越來越喜歡在回答裡塞哥布林、小妖精之類的奇幻生物比喻,使用者投訴不斷。GPT-5.1 上線後,ChatGPT 對話中出現「goblin」一詞的頻率上升了 175%。到 GPT-5.4,問題徹底爆發。 根源在 ChatGPT 的「書呆子」(Nerdy)人格定制功能。這個人格的系統提示詞要求模型「用語言的趣味性化解一本正經」「承認世界的怪異並享受它」。訓練時,用於強化這個人格風格的獎勵信號對含有奇幻生物詞彙的輸出打了更高分,76.2% 的資料集中都能觀察到這種偏向。 問題是獎勵信號只在「書呆子」人格下生效,但強化學習不保證學到的行為只留在觸發條件裡。一旦模型在某個條件下被獎勵了某種說話習慣,這種習慣就會通過後續訓練擴散到其他場景。擴散路徑很清晰:獎勵信號鼓勵了帶哥布林的輸出,這些輸出出現在後續的監督微調(SFT)資料裡,模型越來越習慣產出這類詞,形成正反馈循環。資料上看,「書呆子」人格只佔 ChatGPT 全部回覆的 2.5%,卻貢獻了 66.7% 的哥布林提及量。GPT-5.4 中「書呆子」人格的哥布林出現率較 GPT-5.2 暴漲 3881%。 GPT-5.5 在根因查明前就開始訓練了,哥布林已經混進了 SFT 資料。OpenAI 在 3 月下線了「書呆子」人格,移除了偏向奇幻生物的獎勵信號並過濾了訓練資料。對已上線的 GPT-5.5,則在 Codex 的開發者提示詞中加入抑制指令。OpenAI 稱這次調查催生了一套新的模型行為審計工具。 (來源:BlockBeats)