1M AI News 監視によると、スタンフォード、MIT、韓国のゲーム会社KRAFTONの研究者が、Meta-Harnessを発表した。これは、AIが自動的に実行を最適化するためのフレームワーク(harness、つまり、モデルを包み込み、Agentの行動を駆動する実行用の足場であり、プロンプト設計、ツール呼び出し、コンテキスト管理を含む)である。人手で手書きされた実行フレームワークとは異なり、Meta-Harnessは、コーディングAgentが過去の候補フレームワークのコード、実行ログ、スコアを読み取り、自動で反復しながら最適化する。
ターミナル操作ベンチマーク TerminalBench-2 では、Meta-Harnessは Claude Haiku 4.5 の合格率を 37.6% まで引き上げ、Goose(35.5%)と Claude Code(27.5%)を上回り、報告されているすべての Haiku 4.5 実行フレームワークの中で1位となった。Claude Opus 4.6 では合格率 76.4% で2位である。
前 通義千問の技術責任者である林俊旸が、論文の著者の投稿を転送し、次のようにコメントした:「『モデル+実行フレームワーク』は『モデルだけを見る』をすでに上回っている。Agentのパフォーマンスは、フレームワークの設計と品質によって大きく影響される。私は確かに、これが正しい方向だと考えている。」林俊旸は、3月27日に公開した長文(現在は削除済み)の中で、環境設計が副プロジェクトから、真の起業のプロダクトカテゴリへと変わっていくと予期していた。Meta-Harnessは実験データでこの判断を裏付けた。同じモデルでも、AIによって最適化された実行フレームワークに置き換えると、成績の差は最大で10パーセントポイントに達する。