AI-автоматическая оптимизация исполнительной системы делает Haiku 4.5 лидером по результатам тестирования: Линь Цзюньянь заявил, что именно это он предвидел как поворот в «дизайне окружения»

BlockBeatNews

По данным мониторинга 1M AI News, исследователи из Стэнфорда, MIT и южнокорейской игровой компании KRAFTON выпустили Meta-Harness — метод построения фреймворка для автоматической оптимизации выполнения ИИ (harness, то есть «обвязка» модели и исполняющий каркас, который приводит в действие агента, включая проектирование промптов, вызовы инструментов и управление контекстом). В отличие от вручную написанных фреймворков выполнения, Meta-Harness позволяет агенту, который пишет код, читать код, журналы выполнения и оценки прошлых кандидатов на фреймворк, а затем автоматически итеративно улучшать решение.

На бенчмарке терминальных операций TerminalBench-2 Meta-Harness повысила проходной показатель Claude Haiku 4.5 до 37.6%, обогнав Goose (35.5%) и Claude Code (27.5%), и заняв первое место среди всех опубликованных фреймворков выполнения для Haiku 4.5. Для Claude Opus 4.6 показатель прохода составил 76.4%, что вывело решение на второе место.

Технический руководитель Qwen/Тонгъи Цяньвэнь (Tongyi Qianwen) Линь Цзюньян переслал пост авторов статьи и прокомментировал: «„модель + фреймворк выполнения“ уже обогнала „только модель“; результаты агента существенно зависят от дизайна и качества фреймворка, и я действительно считаю, что это правильное направление». В своем длинном тексте, опубликованном Линь Цзюньяном 27 марта (сейчас удалён), он заранее прогнозировал, что дизайн среды превратится из побочного проекта в реальную предпринимательскую категорию. Meta-Harness подтверждает это экспериментальными данными: для одной и той же модели разница в результатах при использовании набора фреймворков выполнения, оптимизированных ИИ, может достигать 10 процентных пунктов.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев