ماذا تقول الورقة البحثية الجديدة التي حذفتها DeepSeek خلال الليل؟

昨晚 DeepSeek 多模态研究员陈小康在 X 上发了一条推,并公布了DeepSeek 关于多模态技术的新论文《Thinking with Visual Primitives》,表示「Excited to release」。

اليوم صباحًا، حُذفت التغريدة، وأُزيلت الورقة على GitHub أيضًا.

لكن APPSO قرأ النص الكامل قبل اختفائه. بعد القراءة، شعر أن حذف الورقة ربما ليس بسبب وجود مشكلة في المحتوى.

بل على العكس، ربما كشفت الكثير.

قبل يومين، قمنا باختبار وضع التعرف على الصور في DeepSeek، جعلناه يحسب الأصابع، فكر قليلاً، واشتكى «أنا فعلاً تعبت من العد»، ثم أخطأ. في ذلك الوقت، ظننا أنها مشكلة صغيرة خلال المرحلة التجريبية.

تخبرنا هذه الورقة أن مشكلة العد المربك للأصابع، تكمن وراءها عوائق تقنية لم يتم حلها من قبل GPT، Claude، Gemini بشكل جماعي.

والحل الذي قدمه DeepSeek، بسيط جدًا لدرجة أنه يكاد يكون مضحكًا: تركيب إصبع على الذكاء الاصطناعي.

كتب في التغريدة:

“الطرق التقليدية للتفكير تسكن في المجال اللغوي، لكن الاستدلال البصري يحتاج إلى أكثر من ذلك. باستخدام النقاط والمربعات كمرابط معرفية، يربط نموذجنا فجوة الإشارة—محاكياً التآزر بين “نقطة للتفكير”.”

“الطرق التقليدية للتفكير تقتصر على المجال اللغوي، لكن الاستدلال البصري يحتاج إلى مزيد. باستخدام النقاط والمربعات كمرابط معرفية، يربط نموذجنا فجوة الإشارة—محاكياً التآزر بين “نقطة للتفكير”.”

رؤية واضحة والإشارة بدقة، أمران مختلفان

جميع نماذج متعددة الوسائط الكبيرة التي تقوم بالاستدلال الصوري، في جوهرها تحول الصورة إلى نص، ثم تستخدم سلسلة التفكير في فضاء النصوص. GPT-5.4، Claude-Sonnet-4.6، Gemini-3-Flash، كلها تتبع هذا النهج.

على مدى العامين الماضيين، ركزت تحسينات OpenAI، Google، وAnthropic على مشكلة واحدة: كيف نجعل النموذج يرى بشكل أوضح. قص، تقسيم ديناميكي، تكبير الصورة ثم إدخالها. DeepSeek يُطلق على هذا اسم “فجوة الإدراك” (Perception Gap).

لكن الورقة تشير إلى عنق زجاجة آخر: فجوة الإشارة (Reference Gap). النموذج يرى بوضوح، لكنه أثناء الاستدلال لا يستطيع تحديد شيء معين في الصورة بدقة.

يمكنك فهم الأمر على النحو التالي: في صورة يوجد 25 شخصًا واقفين بشكل كثيف، وأنت تصف باستخدام اللغة “الشخص بجانب الشخص الذي يرتدي قميص أزرق في الصف الثالث على اليسار”، الوصف غامض في حد ذاته. مع العد، يفقد النموذج السياق، وينسى من كان يعده قبل قليل.

كيف يحل البشر هذه المشكلة؟ بأسلوب بدائي: يشير بأصبعه، يعد واحدًا واحدًا.

نموذج بــ 284 مليار معلمة، يركب إصبعًا

خطة DeepSeek: جعل النموذج يخرج إحداثيات الصورة مباشرة أثناء التفكير.

تخيل أن النموذج يرى صورة فيها العديد من الأشخاص، وسلسلة تفكيره لم تعد “أرى شخصًا يرتدي قميص أزرق على اليسار”، بل “أرى هذا الشخص” ثم يرفق إحداثية مربع يحيط به. كلما عد شخصًا، يحدد مربعًا، وعند الانتهاء من العد، يكون عدد المربعات هو المطلوب.

هناك نوعان من تنسيقات الإحداثيات: أحدهما المربع (Bounding Box)، يحيط بالشيء بمستطيل، مناسب لتحديد موقع الشيء؛ والآخر النقطة (Point)، يضع علامة في مكان معين على الصورة، مناسب لتتبع المسارات أو حل الألغاز. DeepSeek يُطلق على هذين النوعين اسم “الأساسيات البصرية” (Visual Primitives)، وهي أصغر وحدة فكرية.

التغيير الرئيسي هنا: سابقًا، كانت إحداثيات النموذج تُستخدم كإجابة نهائية (“الهدف هنا”)، الآن، الإحداثيات مدمجة في عملية التفكير نفسها. الإحداثيات ليست الإجابة على الورقة، بل علامة على مسودة العمل.

ضغط صورة بمقدار 7056 مرة، وما زال بالإمكان عد الأشخاص بوضوح

قاعدة النموذج هي DeepSeek-V4-Flash، وهو نموذج MoE بــ 284 مليار معلمة. MoE تعني: النموذج كبير جدًا في العقل، لكنه في كل مرة يجيب فيها، يستخدم جزءًا صغيرًا من الشبكة العصبية، ويُفعّل فقط 13 مليار معلمة أثناء الاستدلال. يشبه فريقًا من مئة شخص، يُرسل فقط 5 منهم للعمل في كل مهمة.

بالنسبة لترميز الصورة، تم تطبيق ثلاث مراحل من الضغط. على سبيل المثال: لديك صورة تريد إرسالها لصديق بسرعة بطيئة. الخطوة الأولى: تقطيع الصورة إلى مربعات صغيرة للاستخدام؛ الثانية: دمج 9 مربعات صغيرة في مربع واحد (ضغط 3×3)؛ الثالثة: تقليل المعلومات الزائدة أثناء النقل (ضغط KV Cache بمقدار 4 مرات).

الأرقام الفعلية: صورة بقياس 756×756 بكسل، تحتوي على 570 ألف بكسل، عند ضغطها، تتقلص إلى 81 وحدة معلومات. بنسبة ضغط 7,056 مرة.

أول رد فعل لي على هذا الرقم كان: هل يمكن رؤية التفاصيل بوضوح؟ لكن نتائج الورقة تظهر أن الأمر ممكن. ليس فقط يمكن رؤية التفاصيل، بل يمكن أيضًا عد الأشخاص بدقة، وعددهم 25.

مقارنة: صورة بنفس قياس 800×800، Gemini-3-Flash يستخدم حوالي 1100 رمز لتمثيل الصورة، وClaude-Sonnet-4.6 حوالي 870، وGPT-5.4 حوالي 740. في حين أن DeepSeek يستخدم فقط 90 وحدة معلومات في الحساب النهائي. الآخرون يستخدمون أكثر من ألف خلية لتذكر صورة واحدة، وDeepSeek يستخدم 90 خلية فقط، ثم يخصص القدرة الحاسوبية كلها لـ"الإشارة".

كيف تم جمع 40 مليون قطعة تدريب

DeepSeek جمع جميع مجموعات البيانات التي تحمل علامة “كشف الأهداف” من منصات مثل Huggingface، وبدأت بــ 97,984 مصدر بيانات بعد التصفية الأولية.

ثم أجرى مرحلتين من التصفية.

المرحلة الأولى: فحص جودة العلامات. باستخدام الذكاء الاصطناعي لمراجعة ثلاثة أنواع من المشاكل: العلامات التي هي أرقام غير ذات معنى (مثل “0”، “1” كاسم فئة)، العلامات التي تمثل كيانات خاصة (مثل “MyRoommate”)، العلامات المختصرة غير الواضحة (مثل “OK” و"NG" في فحص الصناعة، حيث يختلف “OK” لثمرة تفاح عن لوحة دائرة كهربائية). تم حذف 56%، وتبقى 43,141 مصدرًا.

المرحلة الثانية: فحص جودة الإطارات (الحدود). ثلاثة معايير: الإطارات المفقودة بشكل كبير (نصف الإطارات غير مرسومة)، الإطارات غير مستقيمة وتقص نصف الشيء، الإطارات التي تغطي الصورة بالكامل (مما يدل على أن البيانات الأصلية كانت تصنيف صور محولة إلى بيانات كشف بدون تحديد الموقع). تم حذف 27% أخرى، وتبقى 31,701 مصدر.

وفي النهاية، تم اختيار عينات من كل فئة، وإزالة التكرارات، لينتج أكثر من 40 مليون عينة عالية الجودة.

اختارت DeepSeek أن تبدأ ببيانات الإطارات، ثم تملأ بيانات النقاط لاحقًا. السبب بسيط: عند تدريب النموذج على رسم إطار، يكون الحل غالبًا فريدًا (يحيط بالشيء تمامًا)، أما عند تدريب النموذج على وضع نقطة، فالموقع على الشيء غير محدد بدقة، ولا يوجد إجابة صحيحة واحدة، والإشارة غير واضحة. بالإضافة إلى ذلك، الإطار يتضمن نقطتين (الزاوية العلوية اليسرى والسفلية اليمنى)، وتعلم رسم الإطار يجعل وضع النقاط عملية تقليل أبعاد.

كيف نعلم النموذج “الإشارة”؟

الاستراتيجية بعد التدريب هي “التدريب المنفصل ثم الدمج”.

أولاً، يُدرّب نموذج متخصص في رسم الإطارات على بيانات الإطارات، ونموذج آخر متخصص في وضع النقاط على البيانات الخاصة بالنقاط. التدريب المنفصل لأنه في البداية البيانات غير كافية، ودمج القدرتين قد يسبب تداخلًا.

ثم يُحسن كل من النموذجين باستخدام التعلم المعزز. كيف نحدد أن النموذج “رسم الإطار بشكل صحيح” أو “سلك الطريق الصحيح”؟ طوّر DeepSeek نظام تقييم متعدد الأبعاد: هل التنسيق صحيح (هل الإحداثيات صحيحة)، هل المنطق متماسك (هل عملية التفكير لا تتناقض)، هل النتيجة دقيقة (كم تختلف عن الإجابة النموذجية).

اختيار البيانات للتعلم المعزز مهم أيضًا: يُسمح للنموذج بمحاولة حل نفس السؤال عدة مرات، الأسئلة التي كلها صحيحة جدًا أو كلها خاطئة جدًا لا تفيد التدريب، يُحتفظ فقط بالأسئلة التي فيها توازن بين الصواب والخطأ.

الخطوة الأخيرة: دمج قدرات النموذجين في نموذج واحد. الطريقة: جعل النموذج الموحد يتعلم من مخرجات النموذجين، كطالب يتعلم من معلمين مختلفين في مواد مختلفة.

كيف يحسب بعد أن يعطيه الإصبع؟

يعد 25 شخصًا

يعطي النموذج صورة لمجموعة فريق كرة قدم، ويسأل: “كم عدد الأشخاص في الصورة؟”

عملية التفكير: أولاً، يحدد “هذه صورة جماعية، يجب أن أعد كل الأشخاص، بما في ذلك اللاعبين والمدربين”. ثم يخرج 25 إحداثية مربع، ويحيط بكل شخص بمربع. ثم يُجري عملية العد: الصف الأمامي 4 أشخاص + الصف الأوسط 9 أشخاص + الصف الخلفي 8 أشخاص + مدربين على اليسار 2 + مدربين على اليمين 2 = 25.

“كم عدد الدببة على الأرض؟”

هناك ثلاث دببة في الصورة. النموذج يحدد كل دب بمربع ويقيم موقعه: الأولى على جذع الشجرة تتسلق عموديًا، تُستبعد؛ الثانية على حافة الصخرة تتجول، تُحتسب؛ الثالثة بين الحطام والطين، تُحتسب. النتيجة: دبّان.

ليس أن يعد ثلاث دببات ثم يطرح واحدة، بل أن يحدد لكل دب: هل هو على الأرض أم لا، وكل تحديد مرتبط بإحداثية معينة. إنه يفحص واحدًا واحدًا، وليس يخمن.

الاستدلال في فضاء متعدد الخطوات

مشهد ثلاثي الأبعاد فيه العديد من الأشكال الهندسية الملونة. السؤال: “هل يوجد جسم مطاطي أرجواني يساوي حجم الجسم المعدني الرمادي؟”

أولاً، يحدد النموذج الجسم المعدني الرمادي، ويتأكد أنه جسم صغير. ثم يحدد كل الأجسام الصغيرة الأخرى في المشهد: أسطوانة معدنية بنية، مكعب معدني أزرق، مكعب مطاطي أزرق، أسطوانة مطاطية صفراء… يراجع الألوان والمواد والأحجام واحدًا تلو الآخر. النتيجة: لا يوجد مطاط أرجواني.

ستة مواقع، وستة قرارات. كل خطوة مرتبطة بإحداثية، ولا يحدث أن ينسى أين وصل.

نماذج أخرى من الورقة:

توجيه في متاهة: آخرون يرمون عملة، وDeepSeek يبحث فعلاً.

اختبرت الورقة أربع مهام، وأبعدها هو المتاهة.

المهمة مباشرة: صورة متاهة، وسؤال: هل هناك طريق من البداية إلى النهاية، وإذا كان هناك، ارسمه. هناك ثلاثة أشكال للمتاهة: مربعة، حلقية، خلية نحل.

طريقة النموذج في استكشاف المتاهة تشبه رسم قلم رصاص على الورق: يختار مسارًا متشعبًا حتى ينتهي، وإذا لم ينجح، يرجع ويجرب مسارًا آخر. الفرق أنه يضع نقطة إحداثية على الخريطة في كل خطوة، ويحتفظ بسجل.

عرضت الورقة عملية كاملة لمتاهة دائرية: يحدد النموذج البداية والنهاية، ثم يبدأ الاستكشاف. بعد 18 خطوة، دخل طريقًا مسدودًا مرتين، وخرج أخيرًا بمسار، وقدم إحداثيات جميع النقاط على طول الطريق.

DeepSeek صمم أيضًا متاهات فخ: تظهر أن هناك طريقًا، لكن جزءًا منه مسدود سرًا. هذا الاختبار يتطلب الصبر، ولا يكفي النظر فقط إلى بداية الطريق، بل يجب تجربة جميع الطرق الممكنة للتأكد من عدم وجود مخرج.

معدلات الدقة:

  • DeepSeek: 66.9%

  • GPT-5.4: 50.6%

  • Claude-Sonnet-4.6: 48.9%

  • Gemini-3-Flash: 49.4%

  • Qwen3-VL: 49.6%

المتاهة لها جوابان فقط: يوجد طريق أم لا. التخمين العشوائي يعطي 50%. GPT، Claude، Gemini، Qwen يتراوحون حول 50%، كأنهم يلعبون بالنرد. DeepSeek بنسبة 66.9% ليست عالية جدًا، لكنه يتبع خطوة بخطوة، وليس يخمن.

تتبع المسار: النسخة النهائية من التحدي

المهمة أكثر مباشرة: خطوط متشابكة، كل خط يمتد من علامة إلى أخرى. شكل سلك سماعة الأذن من جيبك، هو نفسه في الصورة. السؤال: إلى أي نهاية يتصل هذا الخط؟

يخرج النموذج إحداثيات على طول الخط، كأنه يمرر إصبعه على الورق. الأماكن المنحنية يحدد نقاطًا كثيفة، والمستقيمات يحددها بشكل أقل. عندما تتبع العين خطًا، تتباطأ عند المنحنيات، وتمر بسرعة على الخطوط المستقيمة.

أضافت الورقة اختبارًا أصعب: جميع الخطوط لها نفس اللون والسماكة. لا يمكن الاعتماد على اللون لتمييز الخطوط، بل يجب الاعتماد على استمرارية الشكل المنحني لتحديد التقاطعات التي يجب أن تتبعها.

  • DeepSeek: 56.7%

  • GPT-5.4: 46.5%

  • Claude-Sonnet-4.6: 30.6%

  • Gemini-3-Flash: 41.4%

مفاجئ أن Claude حصل على 30.6%. عادةً، يوجد أربعة أو خمسة خيارات لنهاية الخط، والتخمين العشوائي يعطي أكثر من 20%، فـ30.6% أفضل بقليل من التخمين العشوائي. ربما في مهام تتبع الفضاء الخالص، يكون الاعتماد على الاستنتاج اللغوي عائقًا.

كيف نعلم الذكاء الاصطناعي حل المتاهة بدون غش

تدريب المتاهة يواجه مشكلة واقعية: إذا كانت التقييمات تعتمد فقط على الإجابة النهائية، فالنموذج يتعلم بسرعة أن يجيب بشكل صحيح أو خاطئ، وبدلاً من البحث، يمكنه أن يخمن، لأن الإجابة الصحيحة أو الخاطئة لا تؤثر على النتيجة النهائية.

الحل في DeepSeek هو احتساب العملية أيضًا. كل خطوة استكشاف قانونية تُعطى عليها نقاط، وعبور الجدران يُخصم منه، وكلما استكشف مساحة أكبر، حصل على نقاط أكثر. حتى لو لم يصل إلى النهاية، طالما استكشف معظم المنطقة، يمكن أن يحصل على درجات جيدة. هكذا، لا يملك النموذج حافزًا للتكاسل.

المهام غير القابلة للحل تتطلب مستوى أعلى: لا يكفي أن يقول “لا يوجد مخرج”، بل يجب أن يثبت أنه زار كل الأماكن الممكنة. يُحسب أيضًا تغطية البحث.

مفاجأة، وقيود ثلاثة

البيانات بعد التدريب لا تحتوي على اللغة الصينية. لكن النموذج يمكنه استخدام اللغة الصينية في استدلال الأساسيات البصرية.

يعطيه صورة لآلة قهوة، ويسأل “كيف تصنع لاتيه”، يحدد مواضع عمود البخار، إبريق الحليب، حبوب القهوة، زر اللاتيه، ثم يعطي خطوات التشغيل. القدرة متعددة اللغات ورثها من النموذج الأساسي، ولم تتأثر بالتدريب على الأساسيات البصرية.

كما يمكنه دمج المعرفة البصرية مع المعرفة العالمية: يعرض صورة لجسر البوابة الذهبية ويسأل “هل هناك فريق NBA قريبًا من هنا؟” يحدد الجسر، ويستنتج أنه في سان فرانسيسكو، ثم يجيب أن فريق غولدن ستيت ووريرز قريب.

يفهم الفكاهة: قطعة من فاكهة مقطعة، تظهر عليها بقع طبيعية تشكل وجه قط حزين، والنموذج يحدد أين التشابه ويشرح لماذا هو مضحك.

يمكنه تقديم إرشادات للهروب من غرفة مغلقة: يحدد مفتاحًا مرتفعًا، كرسيًا على الأرض، بابًا مقفلاً، ويقترح “نقل الكرسي تحت المفتاح → الوقوف عليه للوصول للمفتاح → ثم فتح الباب”.

الورقة صرحت بصراحة عن الأمور التي لا يستطيع إنجازها حاليًا.

الدقة في الإدخال محدودة. مخرجات ViT تتراوح بين 81 إلى 384 وحدة بصرية، وعند التعامل مع مشاهد دقيقة جدًا (مثل عد الأصابع)، لا تكون الإحداثيات دقيقة كافية. هذا هو السبب المباشر في فشل العد في الاختبار السابق.

حاليًا، يتطلب تنشيط وضع الأساسيات البصرية كلمات مفتاحية محددة. النموذج لا يستطيع أن يقرر بنفسه “هل يجب أن أمد إصبعي في هذا السؤال”، بل يحتاج إلى تذكير.

القدرة على الاستنتاج الطوبولوجي محدودة. جيد في أنواع المتاهات التي تدرب عليها، لكنه قد يفشل مع نوع جديد من البنى الفضائية. قال في التغريدة المحذوفة:

“نحن لا زلنا في المراحل المبكرة؛ التعميم في مهام الاستدلال الطوبولوجي المعقد ليس مثاليًا بعد، لكننا ملتزمون بحله.”

في الاختبار السابق، أظهرت وضعية التعرف على الصور في DeepSeek قدرات (مثل استجواب هوية المرسل، استنتاج معنى شعار الحوت، التصحيح الذاتي، تنظيم “مناقشة صغيرة”)، وهي تتماشى مع طريقة التفكير التي تصفها الورقة. يبني نقاط مرجعية بصرية، ويقوم بالاستدلال حولها، ويعود ويصحح عند وجود تناقض.

أما العد المربك للأصابع، فهو عرض حي لفجوة الإشارة. في مشهد تداخل الأصابع، الاعتماد فقط على الوصف اللغوي لتمييز “الثالث من اليسار” عن “الثاني من اليمين”، هو نفس الأمر كعد مجموعة من الأشخاص المتكدسين بدون أن تمد إصبعك، وهو أمر محتم أن يسبب الارتباك.

تشير الورقة إلى أن الاتجاه المستقبلي في الاستدلال متعدد الوسائط هو: آلية التثبيت (Anchor Mechanism). DeepSeek يستخدم 90 وحدة معلومات، وهو يحقق نتائج تعادل من يستخدم آلاف الرموز، والقدرة الحاسوبية المُوفرة تُستخدم لجعل النموذج “يفكر ويشير في آن واحد”.

يمكن أن يتباطأ سباق الدقة في الدقة العالية، وتعليم النموذج أن يمد إصبعه، هو أفضل من تزويده بنظارات أغلى.

بعد أن رأى هذا الحوت، نما له إصبع. نسبة دقة 66.9% في المتاهة لا تزال بعيدة عن الكمال، لكنه يتبع بجدية، وليس يخمن كما يفعل الآخرون.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت