El marco de optimización automática de IA hace que el rendimiento del terminal Haiku 4.5 ocupe el primer lugar: Lin Junyang afirma que esto es precisamente el giro en la «diseño del entorno» que él predijo

BlockBeatNews

Según el monitoreo de 1M AI News, investigadores de Stanford, MIT y la empresa de videojuegos surcoreana KRAFTON publicaron Meta-Harness, un método para una serie de marcos de ejecución que permite que la IA optimice automáticamente la ejecución (harness, es decir, andamiaje de ejecución que envuelve el modelo e impulsa a un agente para que realice acciones, e incluye el diseño de prompts, el uso de herramientas y la gestión de contexto). A diferencia de los marcos de ejecución escritos manualmente, Meta-Harness hace que un agente de codificación lea el código, los registros de ejecución y las calificaciones de marcos candidatos previos, y optimice mediante iteraciones automáticas.

En el benchmark de operaciones en terminal TerminalBench-2, Meta-Harness logró que la tasa de aprobación de Claude Haiku 4.5 llegara al 37.6%, superando a Goose (35.5%) y a Claude Code (27.5%), y quedando en primer lugar entre todos los marcos de ejecución de Haiku 4.5 reportados. En Claude Opus 4.6, la tasa de aprobación fue 76.4%, quedando en segundo lugar.

El responsable técnico de Qwen, Lin Junyang, compartió la publicación de los autores del artículo y comentó: «“modelo + marco de ejecución” ya superó a “solo mirar el modelo”. El desempeño del agente se ve afectado de manera significativa por el diseño y la calidad del marco; de hecho, creo que esta es una dirección correcta». En un artículo largo (que actualmente ya se ha eliminado) publicado por Lin Junyang el 27 de marzo, ya se anticipó a que el diseño del entorno pasaría de ser un proyecto secundario a convertirse en una categoría de producto de emprendimiento real. Meta-Harness respalda esta afirmación con datos experimentales: con el mismo modelo, al cambiar a un marco de ejecución optimizado por IA, la diferencia de resultados puede alcanzar 10 puntos porcentuales.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios