أطلقت Google TurboQuant، الذي يقلل من استخدام الذاكرة للنماذج بمعدل 6 مرات، ويسرع الاستدلال بمعدل 8 مرات، مما أدى إلى انخفاض أسهم الذاكرة ومناقشات حول تحول هيكل الطلب.
أطلقت Google خوارزمية TurboQuant، التي تقلل من استخدام الذاكرة للنماذج اللغوية الكبيرة بمعدل لا يقل عن 6 مرات، بينما تعزز سرعة العمليات الاستدلالية بمعدل يصل إلى 8 مرات دون التضحية بدقة النموذج. فسرت السوق هذه التقنية بسرعة على أنها “تدمير جانب الطلب”، والسبب في ذلك منطقي للغاية: إذا تم تقليص الحاجة إلى الذاكرة في مرحلة الاستدلال للنموذج الذكي عدة مرات، فهذا يعني أن منحنى الطلب لمراكز البيانات على DRAM و HBM وحتى تخزين NAND قد يشهد تعديلات هيكلية في المستقبل.
بعد صدور الأخبار، شهدت الأسهم المرتبطة بالذاكرة والتخزين انخفاضاً متزامناً، بما في ذلك SanDisk (SNDK) الذي انخفض بنسبة 3.5%، Micron Technology (MU) الذي انخفض بنسبة 3.4%، Western Digital (WDC) الذي انخفض بنسبة 1.63%؛ وفي سلسلة التوريد الآسيوية، انخفضت Samsung Electronics بنسبة 4.71%، وانخفضت SK Hynix بنسبة 6.23%. كما توجد وجهات نظر ترى أن TurboQuant من المرجح أن تغير “كفاءة استخدام الموارد”، بدلاً من مجرد تقليل الطلب.
وفقاً لشرح فريق البحث في Google، فإن TurboQuant هو مجموعة من خوارزميات التكميم (quantization) المصممة للنماذج اللغوية الكبيرة وأنظمة البحث عن المتجهات، وتتمثل جوهرها في ضغط كبير لذاكرة “key-value cache” وبنية بيانات المتجهات عالية الأبعاد التي تستهلك الموارد في نماذج الذكاء الاصطناعي. في الاختبارات، يمكن لهذه التقنية تقليل استخدام الذاكرة بمعدل لا يقل عن 6 مرات، بينما تعزز سرعة العمليات الاستدلالية بمعدل يصل إلى 8 مرات دون التضحية بدقة النموذج.
تستهدف هذه الاختراقات بشكل مباشر عنق الزجاجة الرئيسي للبنية التحتية لتقنية الذكاء الاصطناعي الحالية. يعتمد توسع الذكاء الاصطناعي في مستوى القوة الحاسوبية بشكل كبير على ذاكرة عالية التردد مثل HBM، لدعم أوزان النموذج و KV cache على نطاق واسع، وتجنب تجمد الذاكرة أثناء عملية الاستدلال. ومع ذلك، حقق TurboQuant ضغطاً من خلال دمج طرق مثل PolarQuant و Quantized Johnson-Lindenstrauss (QJL) مع “صفر تكلفة إضافية للذاكرة”، مما يعادل إتمام العمليات بنفس الموارد أو حتى بفعالية أكبر.
فسرت السوق بسرعة هذه التقنية على أنها “تدمير جانب الطلب”. بعد صدور الأخبار، شهدت الأسهم المرتبطة بالذاكرة والتخزين انخفاضاً متزامناً، بما في ذلك SanDisk (SNDK) الذي انخفض بنسبة 3.5%، Micron Technology (MU) الذي انخفض بنسبة 3.4%، Western Digital (WDC) الذي انخفض بنسبة 1.63%؛ وفي سلسلة التوريد الآسيوية، انخفضت Samsung Electronics بنسبة 4.71%، وانخفضت SK Hynix بنسبة 6.23%.
المنطق وراء ذلك واضح تماماً: إذا تم تقليص الحاجة إلى الذاكرة في مرحلة الاستدلال للنموذج الذكي عدة مرات، فهذا يعني أن منحنى الطلب لمراكز البيانات على DRAM و HBM وحتى تخزين NAND قد يشهد تعديلات هيكلية في المستقبل. خاصة في ظل تحول صناعة الذكاء الاصطناعي تدريجياً من “التوجيه على التدريب” إلى “التوجيه على الاستدلال”، ستتضخم التأثيرات الهامشية لتقنيات تحسين الكفاءة.
ومع ذلك، توجد أيضاً وجهات نظر ترى أن TurboQuant من المرجح أن تغير “كفاءة استخدام الموارد”، بدلاً من مجرد تقليل الطلب. مع انخفاض التكاليف وتقليل التأخير، قد تتوسع سيناريوهات تطبيق الذكاء الاصطناعي، مما يؤدي إلى استمرار نمو الطلب على القوة الحاسوبية الإجمالية، وتشكيل هيكل “انخفاض الطلب الوحدوي، وزيادة الطلب الإجمالي”. لقد تم بيع طاقة الإنتاج لدى شركات الذاكرة الكبرى هذا العام بالكامل، وقد يتعين على السوق التفكير في: ما مدى سقف نمو الذكاء الاصطناعي؟