По данным мониторинга 1M AI News, исследователи из Стэнфорда, MIT и южнокорейской игровой компании KRAFTON выпустили Meta-Harness — метод построения фреймворка для автоматической оптимизации выполнения ИИ (harness, то есть «обвязка» модели и исполняющий каркас, который приводит в действие агента, включая проектирование промптов, вызовы инструментов и управление контекстом). В отличие от вручную написанных фреймворков выполнения, Meta-Harness позволяет агенту, который пишет код, читать код, журналы выполнения и оценки прошлых кандидатов на фреймворк, а затем автоматически итеративно улучшать решение.
На бенчмарке терминальных операций TerminalBench-2 Meta-Harness повысила проходной показатель Claude Haiku 4.5 до 37.6%, обогнав Goose (35.5%) и Claude Code (27.5%), и заняв первое место среди всех опубликованных фреймворков выполнения для Haiku 4.5. Для Claude Opus 4.6 показатель прохода составил 76.4%, что вывело решение на второе место.
Технический руководитель Qwen/Тонгъи Цяньвэнь (Tongyi Qianwen) Линь Цзюньян переслал пост авторов статьи и прокомментировал: «„модель + фреймворк выполнения“ уже обогнала „только модель“; результаты агента существенно зависят от дизайна и качества фреймворка, и я действительно считаю, что это правильное направление». В своем длинном тексте, опубликованном Линь Цзюньяном 27 марта (сейчас удалён), он заранее прогнозировал, что дизайн среды превратится из побочного проекта в реальную предпринимательскую категорию. Meta-Harness подтверждает это экспериментальными данными: для одной и той же модели разница в результатах при использовании набора фреймворков выполнения, оптимизированных ИИ, может достигать 10 процентных пунктов.