كوين تطلق نموذج رؤية-لغة جديد لتعزيز الأداء في التشفير، والاستدلال، والذكاء الاصطناعي متعدد الوسائط

ملخص سريع

أطلق فريق Qwen نموذج Qwen3.5‑397B‑A17B المفتوح الوزن، والذي يحقق تقدمات كبيرة في الأداء متعدد الوسائط، والتعلم المعزز، وكفاءة التدريب كجزء من جهود أوسع نحو تطوير وكلاء ذكاء اصطناعي أكثر قدرة وعامة الاستخدام.

Qwen Rolls Out New Vision‑Language Model To Advance Coding, Reasoning, And Multimodal AI Performance

قدم فريق Qwen من Alibaba Cloud أول نموذج في سلسلته الجديدة Qwen3.5، كاشفًا عن النموذج المفتوح الوزن Qwen3.5‑397B‑A17B

يُعتبر النموذج نظامًا أصليًا للرؤية واللغة، ويقدم أداء قويًا في مجالات الاستدلال، والبرمجة، ومهام الوكيل، والفهم متعدد الوسائط، مما يعكس تقدمًا كبيرًا في جهود الشركة لتطوير الذكاء الاصطناعي على نطاق واسع.

تم بناء النموذج على بنية هجينة تجمع بين الانتباه الخطي عبر شبكات Delta المقفلة مع تصميم مزيج الخبراء المتناثر، مما يتيح كفاءة عالية أثناء الاستنتاج. على الرغم من أن النظام الكامل يحتوي على 397 مليار معلمة، إلا أن 17 مليار منها فقط تُنشط لكل تمريرة أمامية، مما يسمح له بالحفاظ على قدرات عالية مع تقليل تكلفة الحوسبة. كما أن الإصدار يوسع تغطية اللغات واللهجات من 119 إلى 201، مما يزيد من إمكانية الوصول للمستخدمين والمطورين حول العالم.

Qwen3.5 يمثل قفزة كبيرة في التعلم المعزز وكفاءة التدريب المسبق

تقدم سلسلة Qwen3.5 مكاسب كبيرة على سلسلة Qwen3، مدفوعة بشكل كبير بتوسيع نطاق التعلم المعزز عبر مجموعة واسعة من البيئات. بدلاً من التركيز على تحسين معايير ضيقة، ركز الفريق على زيادة صعوبة المهام وقابلية التعميم، مما أدى إلى تحسين أداء الوكيل عبر تقييمات مثل BFCL‑V4، VITA‑Bench، DeepPlanning، Tool‑Decathlon، و MCP‑Mark. سيتم تفصيل نتائج إضافية في تقرير تقني قادم.

تشمل تحسينات التدريب المسبق زيادة في القوة والكفاءة والتنوع. تم تدريب Qwen3.5 على حجم أكبر بكثير من البيانات النصية البصرية مع تعزيز المحتوى متعدد اللغات، والعلوم والتكنولوجيا، والاستدلال، مما يمكنه من مطابقة أداء نماذج سابقة تحتوي على تريليونات المعلمات. تتيح الترقيات المعمارية — بما في ذلك MoE ذات التفرعات العالية، والانتباه الهجين، وتحسينات الاستقرار، وتوقع متعدد الرموز — تحقيق مكاسب كبيرة في الإنتاجية، خاصة عند أطوال سياق ممتدة تصل إلى 32 ألف و256 ألف رمز. كما تعزز قدرات النموذج متعددة الوسائط من خلال الدمج المبكر بين النص والرؤية وتوسيع مجموعات البيانات التي تغطي الصور، ومواد العلوم والتكنولوجيا، والفيديو، بينما يحسن حجم المفردات الأكبر البالغ 250 ألف كفاءة التشفير وفك التشفير عبر معظم اللغات.

تم تصميم البنية التحتية وراء Qwen3.5 لتحقيق تدريب متعدد الوسائط بكفاءة عالية. تعتمد استراتيجية التوازي غير المتجانس على فصل مكونات الرؤية واللغة لتجنب الاختناقات، بينما تتيح التنشيط المتناثر تقريبًا كامل الإنتاجية حتى على أحمال العمل المختلطة من نصوص وصور وفيديو. يقلل خط أنابيب FP8 الأصلي من ذاكرة التنشيط بحوالي النصف ويزيد سرعة التدريب بأكثر من 10 في المئة، مع الحفاظ على الاستقرار عند مقاييس رموز ضخمة.

يدعم التعلم المعزز إطار عمل غير متزامن بالكامل قادر على التعامل مع نماذج بجميع الأحجام، مما يحسن استخدام الأجهزة، وتوازن الأحمال، واسترداد الأعطال. تساعد تقنيات مثل التدريب باستخدام FP8 من النهاية إلى النهاية، والديكود التخميني، وإعادة تشغيل موجه الاسترجاع، وقفل التكرار متعدد الأدوار على الحفاظ على الاتساق وتقليل قدم التدرجات. تم بناء النظام لدعم سير عمل الوكيل على نطاق واسع، مما يتيح تفاعلات متعددة الأدوار سلسة وتعميمًا واسعًا عبر البيئات.

يمكن للمستخدمين التفاعل مع Qwen3.5 من خلال Qwen Chat، الذي يوفر أوضاع أوتوماتيكية، وتفكير، وسريع حسب المهمة. كما يتوفر النموذج عبر ModelStudio من Alibaba Cloud، حيث يمكن تفعيل ميزات متقدمة مثل الاستدلال، والبحث عبر الويب، وتنفيذ الشفرات من خلال معلمات بسيطة. يتيح التكامل مع أدوات الترميز الخارجية للمطورين اعتماد Qwen3.5 في سير العمل الحالي بأقل قدر من الاحتكاك.

وفقًا لفريق Qwen، يؤسس Qwen3.5 قاعدة للوكلاء الرقميين العالميين من خلال بنيته الهجينة واستنتاجه متعدد الوسائط الأصلي. سيركز التطوير المستقبلي على التكامل على مستوى النظام، بما في ذلك الذاكرة المستمرة للتعلم عبر الجلسات، وواجهات مجسدة للتفاعل مع العالم الحقيقي، وآليات تحسين ذاتي التوجيه، والوعي الاقتصادي للعمل المستقل على المدى الطويل. الهدف هو الانتقال من المساعدين المخصصين لمهام معينة إلى وكلاء متماسكين ومستمرين قادرين على إدارة أهداف معقدة ومتعددة الأيام مع حكم موثوق ومتوافق مع البشر.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.48Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.48Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.48Kعدد الحائزين:1
    0.00%
  • تثبيت