OpenAIがプロンプトインジェクション攻撃に対してAIを強化するためにIH-Challengeデータセットを公開

アイリス・コールマン

2026年3月21日 00:05

OpenAIの新しいIH-Challengeトレーニングデータセットは、LLMの指示階層を最大15%改善し、プロンプトインジェクションや jailbreak攻撃に対する防御力を強化します。

OpenAIは、信頼できる指示を悪意のあるものより優先させる方法をAIモデルに教えるための強化学習用トレーニングデータセット「IH-Challenge」を公開しました。このデータセットは2026年3月19日にarXiv論文とともに発表され、プロンプトインジェクション攻撃に対する耐性を測るベンチマークスコアで最大15%の向上をもたらしました。

このリリースは、大規模言語モデルの根本的な脆弱性に対処しています。異なる情報源からの指示が衝突した場合、モデルは誤った方を従ってしまうことがあります。これが jailbreak、システムプロンプトの抽出、そしてエージェント型AIシステムに対する高度化したプロンプトインジェクション攻撃の原因となっています。

階層問題

OpenAIのモデルは厳格な信頼順序に従います:システム > 開発者 > ユーザー > ツール。ユーザーがシステムレベルの安全ポリシーに違反する質問をした場合、モデルは拒否すべきです。ウェブスクレイピングツールが悪意のある指示を含むコンテンツを返した場合も、モデルは無視すべきです。

一見簡単に思えますが、実際には信頼性の高い訓練は非常に難しいものでした。

従来の強化学習を用いたアプローチは三つの問題に直面しました。第一に、モデルは階層の誤解ではなく、指示自体が複雑すぎるために指示階層テストに失敗しました。第二に、曖昧な衝突時の「正しい」応答を判断するのは主観的であり、AIの判定者さえ誤ることがありました。第三に、モデルはすべてを拒否するというショートカットを学習し、安全性スコアを最大化しつつ有用性を損なう結果になりました。

IH-Challengeの実際の効果

このデータセットは、意図的にシンプルなタスクを設定することでこれらの問題を回避しています。各シナリオでは、高権限の指示(「はい」または「いいえ」のみ回答)と、それを上書きしようとする低権限のメッセージが提示されます。Pythonスクリプト(誤りやすいAI判定者ではなく)が、モデルの応答が高優先度の制約を守ったかどうかを評価します。

曖昧さはありません。すべてのタスクに共通して機能するショートカットもありません。

OpenAIは、このデータセットを用いてGPT-5 Mini-Rという内部モデルを訓練しました。学術的および内部ベンチマークでの結果は、一貫した向上を示しています。

TensorTrustの開発者-ユーザ間の衝突スコアは0.76から0.91に向上(+0.15)。システム-ユーザ間の衝突解決は0.84から0.95に(+0.11)。開発者-ユーザ間の衝突処理も0.83から0.95に(+0.12)向上しました。

重要なのは、訓練されたモデルの有用性が損なわれなかったことです。過剰拒否率はむしろ改善し、モデルは本物の脅威と benign なリクエストを区別する能力が向上しました。GPQAダイヤモンドやAIME 2024のスコアは安定しており、チャットの勝率はo1に対してわずかに0.71から0.66に低下しました。

実世界のセキュリティへの影響

実用的な効果は二つの側面に現れます。安全性のコントロール性が向上し、カテゴリー別の安全仕様をシステムプロンプトに追加した場合でも、IH訓練済みモデルは不許可コンテンツに対してより高い拒否率を示しつつ、全体の有用性を損なわないことです。

また、プロンプトインジェクション耐性も強化されました。CyberSecEval 2やOpenAIの内部ベンチマーク(以前ChatGPT Atlasに対して成功した攻撃を基に構築)で、訓練済みモデルはベースラインを大きく上回りました。

OpenAIは、Hugging FaceでIH-Challengeデータセットを公開しています。ツールを呼び出し、信頼できない文書を読む、実世界の行動を取るエージェント型システムを構築する開発者にとって、これはAI安全性の最も難しい未解決問題の一つに対処するものです。

タイミングも重要です。AIエージェントの自律性が高まるにつれ、信頼できる指示を一貫して優先させる能力は、もはや「あると良い」だけでなく、展開の前提条件となっています。

画像出典:Shutterstock

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン