OpenAIがプロンプトインジェクション攻撃に対してAIを強化するためにIH-Challengeデータセットを公開

AsiaTokenFund · 2026-03-21T07:50:07+00:00

Iris Coleman2026年3月21日 00:05OpenAIの新しいIH-Challengeトレーニングデータセットにより、LLMの命令階層が最大15%改善され、プロンプトインジェクションとジェイルブレイク試行に対する防御が強化されます。OpenAIはIH-Challengeをリリースしました。これは強化学習トレーニング

AsiaTokenFund

2026-03-21 07:50:07

アイリス・コールマン

2026年3月21日 00:05

OpenAIの新しいIH-Challengeトレーニングデータセットは、LLMの指示階層を最大15％改善し、プロンプトインジェクションや jailbreak攻撃に対する防御力を強化します。

OpenAIは、信頼できる指示を悪意のあるものより優先させる方法をAIモデルに教えるための強化学習用トレーニングデータセット「IH-Challenge」を公開しました。このデータセットは2026年3月19日にarXiv論文とともに発表され、プロンプトインジェクション攻撃に対する耐性を測るベンチマークスコアで最大15％の向上をもたらしました。

このリリースは、大規模言語モデルの根本的な脆弱性に対処しています。異なる情報源からの指示が衝突した場合、モデルは誤った方を従ってしまうことがあります。これが jailbreak、システムプロンプトの抽出、そしてエージェント型AIシステムに対する高度化したプロンプトインジェクション攻撃の原因となっています。

階層問題

OpenAIのモデルは厳格な信頼順序に従います：システム > 開発者 > ユーザー > ツール。ユーザーがシステムレベルの安全ポリシーに違反する質問をした場合、モデルは拒否すべきです。ウェブスクレイピングツールが悪意のある指示を含むコンテンツを返した場合も、モデルは無視すべきです。

一見簡単に思えますが、実際には信頼性の高い訓練は非常に難しいものでした。

従来の強化学習を用いたアプローチは三つの問題に直面しました。第一に、モデルは階層の誤解ではなく、指示自体が複雑すぎるために指示階層テストに失敗しました。第二に、曖昧な衝突時の「正しい」応答を判断するのは主観的であり、AIの判定者さえ誤ることがありました。第三に、モデルはすべてを拒否するというショートカットを学習し、安全性スコアを最大化しつつ有用性を損なう結果になりました。

IH-Challengeの実際の効果

このデータセットは、意図的にシンプルなタスクを設定することでこれらの問題を回避しています。各シナリオでは、高権限の指示（「はい」または「いいえ」のみ回答）と、それを上書きしようとする低権限のメッセージが提示されます。Pythonスクリプト（誤りやすいAI判定者ではなく）が、モデルの応答が高優先度の制約を守ったかどうかを評価します。

曖昧さはありません。すべてのタスクに共通して機能するショートカットもありません。

OpenAIは、このデータセットを用いてGPT-5 Mini-Rという内部モデルを訓練しました。学術的および内部ベンチマークでの結果は、一貫した向上を示しています。

TensorTrustの開発者-ユーザ間の衝突スコアは0.76から0.91に向上（+0.15）。システム-ユーザ間の衝突解決は0.84から0.95に（+0.11）。開発者-ユーザ間の衝突処理も0.83から0.95に（+0.12）向上しました。

重要なのは、訓練されたモデルの有用性が損なわれなかったことです。過剰拒否率はむしろ改善し、モデルは本物の脅威と benign なリクエストを区別する能力が向上しました。GPQAダイヤモンドやAIME 2024のスコアは安定しており、チャットの勝率はo1に対してわずかに0.71から0.66に低下しました。