إطار العمل التلقائي لتحسين الأداء بالذكاء الاصطناعي يجعل نتائج Haiku 4.5 تتصدر الترتيب: لين جون يانغ يقول إن هذا هو التحول الذي توقعه في «تصميم البيئة»

BlockBeatNews

وفقًا لمراقبة 1M AI News، أصدر باحثون من ستانفورد وMIT وشركة ألعاب كورية KRAFTON إطار Meta-Harness، وهو مجموعة طرق تمكّن الذكاء الاصطناعي من التحسين التلقائي لبيئة التنفيذ (harness، أي غلاف للنموذج، وسقالات تنفيذ تتحكم في تصرفات الـ Agent، وتشمل تصميم تلميحات الأوامر، واستدعاء الأدوات وإدارة السياق). وعلى عكس أطر التنفيذ المكتوبة يدويًا، يتيح Meta-Harness لـ Agent ترميز قراءة كود أطر الأهلية المرشحة السابقة وسجلات التنفيذ والتقييمات، ثم تكرار التحسين تلقائيًا.

على معيار التشغيل عبر الطرفية TerminalBench-2، رفع Meta-Harness معدل نجاح Claude Haiku 4.5 إلى 37.6%، متجاوزًا Goose (35.5%) وClaude Code (27.5%)، ليحتل المرتبة الأولى ضمن جميع أطر تنفيذ Haiku 4.5 المبلّغ عنها. وعلى Claude Opus 4.6 بلغ معدل النجاح 76.4%، ليأتي في المرتبة الثانية.

قام المدير التقني لتونغيي تشيانوين (Qianwen) لين جونهانغ بإعادة نشر منشور مؤلفي الورقة والتعليق: «لقد تجاوزت (النموذج + إطار التنفيذ) (مجرد النظر إلى النموذج)، وستتأثر أداءات الـ Agent بشكل واضح بتصميم وجودة الإطار، وأنا أعتقد فعلًا أن هذا اتجاه صحيح». وتنبأ لين جونهانغ في مقال طويل نُشر في 27 مارس (تم حذفه حاليًا) بأن تصميم البيئة سيتحوّل من مشروع جانبي إلى فئة منتجات ريادية حقيقية. وقد أكد Meta-Harness هذا الحكم ببيانات تجريبية: لنفس النموذج، عند استبدال إطار تنفيذ مُحسَّن بواسطة الذكاء الاصطناعي، يمكن أن يصل فرق النتائج إلى 10 نقاط مئوية.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات