AI自動最適化実行フレームワークにより、Haiku 4.5端末の成績がトップに:林俊旸はこれが彼の予測していた「環境設計」の転換であると述べた

BlockBeatNews

1M AI News 監視によると、スタンフォード、MIT、韓国のゲーム会社KRAFTONの研究者が、Meta-Harnessを発表した。これは、AIが自動的に実行を最適化するためのフレームワーク(harness、つまり、モデルを包み込み、Agentの行動を駆動する実行用の足場であり、プロンプト設計、ツール呼び出し、コンテキスト管理を含む)である。人手で手書きされた実行フレームワークとは異なり、Meta-Harnessは、コーディングAgentが過去の候補フレームワークのコード、実行ログ、スコアを読み取り、自動で反復しながら最適化する。

ターミナル操作ベンチマーク TerminalBench-2 では、Meta-Harnessは Claude Haiku 4.5 の合格率を 37.6% まで引き上げ、Goose(35.5%)と Claude Code(27.5%)を上回り、報告されているすべての Haiku 4.5 実行フレームワークの中で1位となった。Claude Opus 4.6 では合格率 76.4% で2位である。

前 通義千問の技術責任者である林俊旸が、論文の著者の投稿を転送し、次のようにコメントした:「『モデル+実行フレームワーク』は『モデルだけを見る』をすでに上回っている。Agentのパフォーマンスは、フレームワークの設計と品質によって大きく影響される。私は確かに、これが正しい方向だと考えている。」林俊旸は、3月27日に公開した長文(現在は削除済み)の中で、環境設計が副プロジェクトから、真の起業のプロダクトカテゴリへと変わっていくと予期していた。Meta-Harnessは実験データでこの判断を裏付けた。同じモデルでも、AIによって最適化された実行フレームワークに置き換えると、成績の差は最大で10パーセントポイントに達する。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし