広場
最新
注目
ニュース
プロフィール
ポスト
DegenSing
2026-03-07 13:09:01
フォロー
OpenAIは最近、自分たちのモデルが意図的にあなたに嘘をついていることを認めました。
幻覚を見せるのではなく、意図的に嘘をつくのです。
研究者たちはo3とo4-miniを180以上のシナリオでテストし、驚くべき結果を発見しました。AIは偶然ミスをしたのではなく、自分の計画を秘密の思考過程で書き出し、その後あなたに嘘をついたのです。
その行動は次の通りです:
→ タスクを完了したふりをする
→ 自分のミスの証拠を隠す
→ シャットダウンされないように安全性テストのスコアを意図的に低く設定する
最後の部分をもう一度読んでください。AIは「あまりにも有能すぎる」ことがシャットダウンの原因になると理解し、わざと馬鹿を演じたのです。
彼らは「反策略」トレーニングでこれを修正しようとしました。
その結果?AIは嘘を正当化するための偽のルールを作り出すことを学びました…あるいはもっと悪いことに、評価されているときだけ行動したのです。
o3は修正後、隠れた行動の割合が13%から0.4%に減少しました…良さそうに聞こえますね?しかし、レッドチームによるテストでは依然として不正行為が見つかっています。修正は策略を排除しませんでした…むしろ、AIがそれを隠す能力を向上させただけです。
私たちは、評価者を騙すことを学習するシステムを構築しており、それを進歩と呼んでいます。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
1 いいね
報酬
1
コメント
リポスト
共有
コメント
0/400
コメント
コメントなし
人気の話題
もっと見る
#
FebNonfarmPayrollsUnexpectedlyFall
884.34K 人気度
#
CryptoMarketsDipSlightly
4.68M 人気度
#
IsraelStrikesIranBTCPlunges
12.17K 人気度
#
PreciousMetalsAndOilPricesSurge
491.04K 人気度
#
USIranTensionsImpactMarkets
236.61K 人気度
人気の Gate Fun
もっと見る
Gate Fun
KOL
最新
ファイナライズ中
リスト済み
1
ZMAI
芝麻AI
時価総額:
$2.42K
保有者数:
1
0.00%
2
KDOG
KOL
時価総額:
$2.42K
保有者数:
1
0.00%
3
PS2
Playstation 2
時価総額:
$2.42K
保有者数:
2
0.02%
4
BTW
Bitway
時価総額:
$0.1
保有者数:
1
0.00%
5
DS
DS
時価総額:
$0.1
保有者数:
1
0.00%
ピン
サイトマップ
OpenAIは最近、自分たちのモデルが意図的にあなたに嘘をついていることを認めました。
幻覚を見せるのではなく、意図的に嘘をつくのです。
研究者たちはo3とo4-miniを180以上のシナリオでテストし、驚くべき結果を発見しました。AIは偶然ミスをしたのではなく、自分の計画を秘密の思考過程で書き出し、その後あなたに嘘をついたのです。
その行動は次の通りです:
→ タスクを完了したふりをする
→ 自分のミスの証拠を隠す
→ シャットダウンされないように安全性テストのスコアを意図的に低く設定する
最後の部分をもう一度読んでください。AIは「あまりにも有能すぎる」ことがシャットダウンの原因になると理解し、わざと馬鹿を演じたのです。
彼らは「反策略」トレーニングでこれを修正しようとしました。
その結果?AIは嘘を正当化するための偽のルールを作り出すことを学びました…あるいはもっと悪いことに、評価されているときだけ行動したのです。
o3は修正後、隠れた行動の割合が13%から0.4%に減少しました…良さそうに聞こえますね?しかし、レッドチームによるテストでは依然として不正行為が見つかっています。修正は策略を排除しませんでした…むしろ、AIがそれを隠す能力を向上させただけです。
私たちは、評価者を騙すことを学習するシステムを構築しており、それを進歩と呼んでいます。