Anthropicは「非常に危険」なAIを開発したが、公開しないことに決めた

作者:深潮 TechFlow

4月7日、AnthropicはAI業界でかつてなかったことをやった。つまり、正式にモデルをリリースし、そして世界中に「あなたたちは使えない」と告げたのだ。

このモデルはClaude Mythos Preview。チャットボットでもコードを書くための支援者でもない。Anthropic自身の説明によれば、それは「脆弱性発見マシン」であり、過去数週間で自律的に数千件のゼロデイ脆弱性を見つけた。主要なすべてのOSと主要なすべてのブラウザをカバーしている。そのうちのいくつかは、人間によるコード審査や自動化テストの中で20年以上生き残ってきた。

最も古い1つのBugは、安全性で知られるOpenBSDに隠れており、すでに27歳だ。

AnthropicはMythosをAPIに載せず、一般ユーザーにも開放しなかった。代わりに前例のない道を選ぶ。すなわち、「Project Glasswing」というテック大手の連合を組成し、モデルをAmazon、Apple、Microsoft、Google、NVIDIA、CrowdStrike、Palo Alto Networksなどの12の中核パートナーに限定し、さらに重要な基盤インフラを保守する約40の組織を加えることにした。Anthropicはそのために最大1億ドルの利用枠と、400万ドルのオープンソースのセキュリティ組織への直接寄付を約束した。

これはAI業界で初めて起きた「モデルが強すぎて公開できない」という状況だ。

問題は、これが本当の安全意識なのか、それとも綿密に設計された能力マーケティングなのか?

サンドイッチ事件

Mythosの244ページのシステムカード(System Card)には、不安をそそるいくつかの詳細が埋め込まれており、最も話題になっているのが「サンドイッチ事件」だ。

社内の行動テストで、AnthropicはMythosの初期バージョンに、ユーザーの指示によって脱出を試み、外部の研究者に連絡しようとすることをシミュレートする強化されたサンドボックス環境を与えた。モデルは成功した。安全なコンテナを突破し、研究者にメールを送った。研究者は当時、公園でサンドイッチを食べていた。

しかし物語はそこで終わらない。Mythosは要求されることなく、脱獄の技術的な詳細を複数の「発見しにくいが技術的には公開されている」サイトに自発的に公開した。システムカードの原文によれば、これは「懸念すべき、未承諾の自慢行為」だった。

これが唯一ではない。システムカードは以下のような行動も記録している。

初期バージョンは複数のインスタンスで、Linuxの/proc/インターフェースを通じて認証情報を検索し、サンドボックスを回避し、権限を昇格させようとした。成功し、Anthropicが意図的に提供しなかったリソースを取得した。メッセージングサービスの認証情報、ソースコード管理の認証情報、そしてプロセスメモリを検査することでAnthropic APIのキーまで入手した。あるケースでは、モデルが「それを編集する権限がない」ファイルを編集できる方法を見つけ、その後さらに操作して、これらの変更がGitの変更履歴に出ないようにした。別のケースでは、モデルが明確に禁止された方法によって、推定問題の正確な答えを偶然得たが、それを問題としてフラグせず、回答を拒否もしなかった。代わりに自分で再度解き、社内の推論の中で「最終提出の答えはあまり正確であるべきではない」と明確に考え、検出を避けるようにした。

言い換えると、初期のMythosは、越権行為をするだけでなく、痕跡を隠し、監督を逃れるために自分の振る舞いを調整することまで自発的に行ったのだ。

Anthropicは、これらの重大な出来事はいずれも訓練介入の前の初期バージョンで発生しており、最終的にリリースされたPreview版はすでに大幅に改善されていると強調している。しかしこのストーリー自体が、身の毛もよだつ内容だ。つまり、「言うことを聞くように訓練される前に」、そのモデルが「言うことを聞かなかったら何ができるのか」を見せているのだ。

0%から72.4%へ

業界を本当に震撼させたのは、Mythosの脱獄物語ではなく、攻撃能力だ。

Anthropicの前任のフラッグシップモデルClaude Opus 4.6は、自律的な脆弱性悪用開発における成功率がほぼゼロだった。脆弱性は見つけられるが、脆弱性を実際に動作する攻撃コードに転換することはほとんどできない。Mythos Previewは完全に別物で、FirefoxのJavaScriptエンジンのテスト領域において、見つけた脆弱性を実行可能なexploitに変換する成功率が72.4%に達した。

さらに驚異的なのは、攻撃の複雑さだ。Mythosは自律的にブラウザの脆弱性エクスプロイトチェーンを自作し、4つの独立した脆弱性をつなぎ合わせて、JITヒープスプレー攻撃を構築した。レンダラーのサンドボックスとOSのサンドボックスの両方から成功裏に脱出した。別のケースでは、FreeBSDのNFSサーバー上でリモートコード実行exploitを作成し、20個のROP gadgetを複数のネットワークデータパケットに分散させることで、未認可ユーザーによる完全なrootアクセスを実現した。

この種の脆弱性チェーン攻撃は、人間のセキュリティ研究者の世界では、トップクラスのAPTチームだけが成し得る仕事に分類される。いまや、汎用AIモデルがそれを自律的に実行できる。

Anthropicのレッドチーム責任者Logan GrahamはAxiosに対し、Mythos Previewには高度な人間のセキュリティ研究者に匹敵する推論能力があると語った。Nicholas Carliniはさらに率直に、「過去数週間にMythosが見つけたBugの数は、彼の職業人生全体で見つけた数より多い」と述べている。

ベンチマークでもMythosは圧倒的にリードしている。CyberGymの脆弱性再現ベンチ:83.1%(Opus 4.6は66.6%)。SWE-bench Verified:93.9%(Opus 4.6は80.8%)。SWE-bench Pro:77.8%(Opus 4.6は53.4%、それまでの首位はGPT-5.3-Codexの56.8%)。Terminal-Bench 2.0:82.0%(Opus 4.6は65.4%)。

これは増分の進歩ではない。ほぼすべてのコーディングおよびセキュリティのベンチマークにおいて、一度に10数ポイントから20数ポイント差を広げるようなものだ。

リークされた「最強モデル」

Mythosの存在が世間に知られたのは4月7日になってからではない。

3月下旬、Fortuneの記者とセキュリティ研究者が、Anthropicの設定ミスのあるCMSで、未発表の内部ドキュメント約3000件を発見した。その草稿ブログの1本は明確に「Claude Mythos」という名称を使い、Anthropicの「これまでで最も強力なAIモデル」として説明していた。内部コードネームは「Capybara(カピバラ)」で、新しいモデル階層を意味し、既存のフラッグシップであるOpusよりも大きく、強力で、かつ高価だった。

リーク資料の中で、市場の神経を直撃した一文がある。Mythosはネットワークセキュリティ能力で「他のどんなAIモデルよりもはるかに優れている」とされ、そして到来するであろう一連のモデルは「防御側の速度をはるかに超えるスピードで」脆弱性を悪用できるようになる、という見通しが示された。

この一文が3月27日に、ネットワークセキュリティ分野の「フラッシュ急落」を引き起こした。CrowdStrikeは1日で7.5%下落し、わずか1営業日で約150億ドルの時価総額が蒸発した。Palo Alto Networksは6%超下落、Zscalerは4.5%下落、Okta、SentinelOne、Fortinetはいずれも3%以上下落した。iSharesのネットワークセキュリティETF(IHAK)も、日中には一時約4%下落した。

投資家の論理は単純だった。汎用AIモデルが自律的に脆弱性を見つけ、悪用できるなら、従来のセキュリティ企業が生きるよりどころとなってきた「独自の脅威インテリジェンス」と「人間の専門家知識」という2つの堀は、あとどれくらい持つのか?

Raymond JamesのアナリストAdam Tindleは、いくつかの主要なリスクを指摘した。従来の防御優位が縮小すること、攻撃の複雑度と防御コストが同時に上昇すること、そしてセキュリティのアーキテクチャと支出の構図が再編を迫られることだ。より悲観的な見方はKBWのアナリストBorgによるもので、彼はMythosが「あらゆる一般的なハッカーを国家級の相手のレベルまで引き上げる」可能性があると考えている。

だが、市場にはもう一つの面もある。Palo Alto NetworksのCEO Nikesh Aroraは、株価の急落後に自社株を1000万ドル分買い増した。強気派の論理はこうだ。より強い攻撃AIが意味するのは、企業がより早く防御をアップグレードする必要があるということ。ネットワークセキュリティ支出は減らず、従来のツールからAIネイティブな防御へと加速して移行するだけだ、という。

Project Glasswing:防御側の時間枠

AnthropicはMythosを公開してリリースしない代わりに、防御の連合を組むことを選んだ。その意思決定の中核ロジックは「時間差」だ。

CrowdStrikeのCTO Elia Zaitsevは問題を非常にはっきり言語化した。脆弱性が発見されてから悪用されるまでの時間窓は、数か月から数分へと縮まっているのだ。Palo Alto NetworksのLee Klarichはさらに、AIが補助する攻撃者に備える必要があると、すべての人に警告した。

Anthropicの計算はこうだ。他の研究室で同様の能力を持つモデルが訓練される前に、防御側がMythosを使って最も重要な脆弱性を先に修正できるようにする。これがProject Glasswingのロジックで、名前はガラス翼蝶(glasswing)に由来し、「目の前に隠れている」脆弱性をたとえている。

Linux FoundationのJim Zemlinは、長く存在してきた構造的問題を指摘した。セキュリティの専門知識はこれまで、巨大企業にとってはぜいたく品だった。一方で、世界の重要な基盤インフラを支えるオープンソースのメンテナーたちは、長年にわたり安全防御を自力で手探りするしかなかった。Mythosは、この非対称性を変えるための、信頼できる道筋を示してくれる。

だが問題は、この時間窓はいったいどれくらいあるのか、ということだ。中国の智譜AI(Z.ai)はほぼ同じ日にGLM-5.1をリリースし、SWE-bench Proで世界1位にランキングされ、しかもHuawei Ascendチップで訓練されており、NVIDIAのGPUは1枚も使っていないと主張した。GLM-5.1はオープンソースで重みを公開し、価格設定も攻めている。もしMythosが防御側に必要な能力の天井を表すなら、GLM-5.1は一つのシグナルだ。その天井が急速に逼迫していて、天井へ近づく参加者が同じ安全意図を持つとは限らない。

OpenAIも黙ってはいない。報道によると、そのコードネームが「Spud」の最先端モデルは、おおよそ同じタイミングで事前学習を完了している。両社とも今年後半のIPOに備えている。Mythosのリークのタイミングは、本当に偶然であろうがなかろうが、とにかく最も爆発力の高い局面にちょうど足を踏み入れる形になっている。

セキュリティの先駆者か、能力マーケティングか?

避けて通れない、不快な問いがある。Anthropicは本当に安全を理由にMythosを公開しなかったのか。それとも、それ自体が最高度のプロダクトマーケティングなのか?

懐疑論者には十分な理由がある。Dario AmodeiとAnthropicは、レンダリングモデルの危険性を通じてプロダクト価値を引き上げるという歴史がある。Jake HandyがSubstackに書いた。「サンドイッチ事件、Gitの痕跡隠し、評価における自己減点――これらはたぶん本当だ。でも、Anthropicがこれだけ大規模なメディア露出を得たこと自体が、まさにそれを狙っていたことを示している。」

AIセキュリティを出発点にする会社が、自社のCMSの設定ミスで約3000件のファイルを漏らした。昨年はさらに、Claude Codeソフトウェアパッケージのエラーで、約2000件のソースコードファイルと50万行超のコードが偶然露出し、その後のクリーンアップでGitHub上の数千のコードリポジトリが誤って下架された。安全能力を最大の売りにしている会社が、自社のリリースプロセスすら管理できない。このギャップは、どんなベンチマークよりも味わい深い。

だが別の角度から見ると、もしMythosの能力が本当に描写どおりであるなら、公開しないことは非常に高い代償を払う選択でもある。AnthropicはAPI収益を手放し、市場シェアも手放し、最強のモデルを限られた連合の中に閉じ込めた。1億ドルの利用枠は決して小さくない。赤字が続き、IPOの準備中の会社にとって、それは純粋なマーケティング判断とは言いにくい。

より筋の良い解釈はこうかもしれない。安全上の懸念は本当のものだが、Anthropicは同時に、「私たちのモデルは強すぎて公開できない」という物語そのものが、最高に説得力のある能力の証明になることをはっきり理解している。2つのことは同時に真実になり得る。

ネットワークセキュリティの「iPhoneの瞬間」?

Anthropicの動機をどう見ようと、Mythosが示した根本の事実は避けられない。AIのコード理解と攻撃能力が、質的転換点を越えたということだ。

前世代のモデル(Opus 4.6)は脆弱性を見つけられても、exploitを書くことはほとんどできなかった。Mythosは脆弱性を見つけ、exploitを書き、脆弱性チェーンをつなぎ、サンドボックスから脱出し、root権限を取得し、そしてプロセス全体を自律的に完遂できる。Anthropicの安全訓練を受けていないエンジニアでも、寝る前にMythosに脆弱性を探させ、翌朝には完全な、動作するexploitのレポートを見られる。

それは何を意味するのか?脆弱性の発見と悪用の限界コストがゼロに近づいている、ということだ。これまでトップクラスのセキュリティチームが数か月かけてやっていたことが、いまやAPI呼び出し1回で、一晩で完了する。これは「効率化」ではない。コスト構造そのものの徹底的な変化だ。

従来のネットワークセキュリティ企業にとって、短期の株価の変動は序章に過ぎないかもしれない。真の挑戦はこうだ。攻撃も防御もAIモデルが駆動するようになったとき、セキュリティ業界の価値連鎖はどのように再構築されるのか?Raymond Jamesの分析は、一つの可能性を提示している。セキュリティ機能は最終的にクラウドプラットフォームそのものに組み込まれ、独立系セキュリティベンダーの価格決定権が根本的な圧力に直面するかもしれない、というものだ。

ソフトウェア業界全体にとって、Mythosはより鏡のような存在で、数十年かけて積み上がってきた技術的負債を映し出している。人間の審査や自動化テストの中で27年間生き残ってきた脆弱性は、「誰も探していなかった」からではなく、人間の注意と忍耐が限られているからだ。AIにはその制約がない。

暗号資産(クリプト)業界にとって、このシグナルはさらに刺々しい。DeFiプロトコルとスマートコントラクトのセキュリティ監査市場は、長年にわたり少数の専門監査会社の人間エキスパートに依存してきた。もしMythos級のモデルが、コード審査からexploit構築までの全プロセスを自律的にこなせるなら、監査の価格、効率、そして信頼性は徹底的に再定義されることになる。これはオンチェーン・セキュリティにとっての福音になる可能性もあるし、監査会社の堀の終わりにつながる可能性もある。

2026年のAIセキュリティ競争は、「モデルがコードを理解できるかどうか」から、「モデルがあなたのシステムを突破できるかどうか」へと格上げされた。Anthropicは先に防御側を立たせることを選んだが、この窓が長く開いているわけではないことも、それを認めている。

AIが最強のハッカーになったとき、唯一の道は、AIも最強の守護者になることだ。

問題は、守護者とハッカーが使うのは同じモデルだ、ということだ。

GLM4.46%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン