Inception Labs تطلق Mercury 2، نموذج استدلال يعتمد على الانتشار يحقق أكثر من 1,000 رمز في الثانية

ملخص سريع

أطلقت شركة إنسيبشن لابز نموذج ميركوري 2، وهو نموذج استنتاج يعتمد على الانتشار قادر على توليد أكثر من 1000 رمز في الثانية، أي ثلاثة أضعاف سرعة النماذج المماثلة.

Inception Labs Unveils Mercury 2: A Diffusion-Based LLM Delivering Over 1,000 Tokens Per Second For Low-Latency AI Applications

شركة إنسيبشن لابز، شركة ناشئة في مجال الذكاء الاصطناعي، أطلقت ميركوري 2، وهو نموذج لغة كبير يعتمد على الانتشار مصمم لتسريع مهام الاستنتاج بشكل كبير في تطبيقات الذكاء الاصطناعي الإنتاجية.

على عكس النماذج التقليدية التي تولد النص بشكل تسلسلي، يستخدم ميركوري 2 عملية تحسين موازية، حيث ينتج عدة رموز في وقت واحد ويتقارب خلال عدد قليل من الخطوات، مما يتيح سرعات تزيد على 1000 رمز في الثانية على وحدات معالجة الرسوميات NVIDIA Blackwell — أي حوالي ثلاثة أضعاف سرعة النماذج المنافسة في نفس فئة السعر.

تم تحسين النموذج للاستجابة في الوقت الحقيقي في سير عمل الذكاء الاصطناعي المعقد، حيث تتراكم التأخيرات عبر استدعاءات الاستنتاج المتعددة، وخطوط استرجاع البيانات، والحلقات الوكيلة. يحافظ ميركوري 2 على جودة استنتاج عالية مع تقليل التأخير، مما يسمح للمطورين وأنظمة الصوت والبحث وغيرها من التطبيقات التفاعلية بالعمل بأداء استنتاجي عالي دون التأخير المرتبط بالتوليد التسلسلي. يدعم ميزات مثل الاستنتاج القابل لضبطه، ونوافذ سياق تصل إلى 128 ألف رمز، وإخراج JSON متوافق مع المخططات، وتكامل الأدوات الأصلي، مما يوفر مرونة لمجموعة واسعة من عمليات النشر في الإنتاج.

ميركوري 2 يمكّن الذكاء الاصطناعي منخفض التأخير عبر عمليات البرمجة والصوت والبحث

يسلط التقرير الضوء على عدة حالات استخدام حيث يكون الاستنتاج منخفض التأخير ضروريًا. في عمليات البرمجة والتحرير، يوفر ميركوري 2 إكمال تلقائي سريع واقتراحات للتحرير التالي تتكامل بسلاسة مع عمليات تفكير المطورين. في سير العمل الوكيل، يسمح النموذج بعدد أكبر من خطوات الاستنتاج دون تجاوز ميزانيات التأخير، مما يحسن جودة وعمق اتخاذ القرارات الآلية. تستفيد تطبيقات الصوت والذكاء الاصطناعي التفاعلية من قدرته على توليد ردود ذات جودة استنتاجية ضمن إيقاعات الكلام الطبيعي، مما يعزز تجارب المستخدمين في سيناريوهات المحادثة في الوقت الحقيقي. بالإضافة إلى ذلك، يدعم ميركوري 2 خطوط بحث واسترجاع متعددة القفزات، مما يتيح التلخيص السريع، وإعادة التصنيف، والاستنتاج دون التأثير على أوقات الاستجابة.

لقد لاحظ المستخدمون الأوائل تحسينات كبيرة في الإنتاجية وتجربة المستخدم. وُصف ميركوري 2 بأنه أسرع على الأقل مرتين من GPT-5.2 مع الحفاظ على جودة تنافسية، مع تطبيقات تتراوح بين تنظيف النصوص في الوقت الحقيقي، وواجهات الإنسان والكمبيوتر التفاعلية، وتحسين الإعلانات الذاتية، والأفاتار الصوتية المدعومة بالذكاء الاصطناعي.

النموذج متوافق مع واجهة برمجة التطبيقات الخاصة بـ OpenAI، مما يسمح بالتكامل في البنى التحتية الحالية دون تعديلات واسعة، وتوفر إنسيبشن لابز دعمًا للتقييمات المؤسسية، والتحقق من الأداء، وإرشادات نشر مخصصة للأعباء العمل. يمثل ميركوري 2 خطوة للأمام في نماذج اللغة الكبيرة المعتمدة على الانتشار، معيدًا تعريف التوازن بين جودة الاستنتاج والتأخير في بيئات الذكاء الاصطناعي الإنتاجية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.48Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.47Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.48Kعدد الحائزين:1
    0.00%
  • تثبيت