تقييمات نموذج الذكاء الاصطناعي لشهر ديسمبر قد اسقطت بعض التحولات المثيرة للاهتمام.
هناك نسخة جديدة - دعنا نسميها "شيطان السرعة الوكيلة" - تركز بشكل كبير على ثلاثة أشياء: استدعاء الأدوات بكفاءة، التعامل مع سير العمل المعقدة متعددة الخطوات، والقيام بكل ذلك بسرعة. بسرعة كبيرة.
إليك المكان الذي يحتلّه في لوحات المتصدرين:
τ²-Bench Telecom؟ تصدرت المخططات. هذا المعيار يطرح مهام وكيل معقدة بشكل غير معقول على النماذج، من النوع الذي يجعل معظم الأنظمة تتعثر. ليس هذا.
اختبار أداء استدعاء دالة بيركلي؟ أيضًا في المرتبة الأولى. الترجمة: عندما تطلب منه استخدام أدوات أو واجهات برمجة تطبيقات خارجية، فإنه يقوم بالفعل بإنجاز المهمة بدقة بدلاً من الخوض في هراء.
ما يجعل هذا ملحوظًا ليس فقط التصنيفات - حيث تدعي العديد من النماذج المراتب العليا في اختبارات مختارة بعناية. إنه الجمع: السرعة + دقة الأداة + تعقيد سير العمل. هذه الثلاثية مهمة إذا كنت تبني أي شيء يتجاوز الروبوتات المحادثة.
هيكل النموذج يعطى أولوية واضحة للتنفيذ العملي على اتساع المعرفة العامة. خيارات مختلفة، دائما خيارات مختلفة. ولكن بالنسبة للتطبيقات الوكيلة؟ هذا التوجه يختلف.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تقييمات نموذج الذكاء الاصطناعي لشهر ديسمبر قد اسقطت بعض التحولات المثيرة للاهتمام.
هناك نسخة جديدة - دعنا نسميها "شيطان السرعة الوكيلة" - تركز بشكل كبير على ثلاثة أشياء: استدعاء الأدوات بكفاءة، التعامل مع سير العمل المعقدة متعددة الخطوات، والقيام بكل ذلك بسرعة. بسرعة كبيرة.
إليك المكان الذي يحتلّه في لوحات المتصدرين:
τ²-Bench Telecom؟ تصدرت المخططات. هذا المعيار يطرح مهام وكيل معقدة بشكل غير معقول على النماذج، من النوع الذي يجعل معظم الأنظمة تتعثر. ليس هذا.
اختبار أداء استدعاء دالة بيركلي؟ أيضًا في المرتبة الأولى. الترجمة: عندما تطلب منه استخدام أدوات أو واجهات برمجة تطبيقات خارجية، فإنه يقوم بالفعل بإنجاز المهمة بدقة بدلاً من الخوض في هراء.
ما يجعل هذا ملحوظًا ليس فقط التصنيفات - حيث تدعي العديد من النماذج المراتب العليا في اختبارات مختارة بعناية. إنه الجمع: السرعة + دقة الأداة + تعقيد سير العمل. هذه الثلاثية مهمة إذا كنت تبني أي شيء يتجاوز الروبوتات المحادثة.
هيكل النموذج يعطى أولوية واضحة للتنفيذ العملي على اتساع المعرفة العامة. خيارات مختلفة، دائما خيارات مختلفة. ولكن بالنسبة للتطبيقات الوكيلة؟ هذا التوجه يختلف.