TurboQuant من جوجل: ضغط ذاكرة الذكاء الاصطناعي 6 أضعاف دون فقدان الدقة

مع توسّع استخدام النماذج اللغوية الكبيرة (LLMs) في الإنتاج، برزت مشكلة صامتة تستنزف الموارد: ذاكرة التخزين المؤقت للمفاتيح والقيم (KV Cache). هذه الذاكرة تنمو خطياً مع طول السياق، وقد أصبحت في كثير من الحالات تستهلك ذاكرة أكثر من أوزان النموذج نفسه.

اليوم، كشفت Google Research عن TurboQuant — خوارزمية ضغط جديدة تُقدَّم في مؤتمر ICLR 2026، تعد بتحويل اقتصاديات تشغيل الذكاء الاصطناعي. النتائج مذهلة: تقليص ذاكرة KV Cache بمقدار 6 أضعاف على الأقل، وتسريع يصل إلى 8 أضعاف في حساب نتائج الانتباه (Attention)، كل ذلك دون أي خسارة قابلة للقياس في الدقة.

المشكلة: عنق الزجاجة الخفي في النماذج اللغوية

عندما يعالج نموذج لغوي كبير نصاً طويلاً، يحتفظ بمتجهات صغيرة لكل رمز (token) سابق في ما يُعرف بـ KV Cache. هذا يسمح للنموذج بـ"تذكّر" السياق السابق دون إعادة حسابه.

المشكلة أن هذه الذاكرة تنمو مع كل رمز جديد. في سياقات طويلة تتجاوز 100 ألف رمز — وهو أمر شائع مع وكلاء الذكاء الاصطناعي والمحادثات المطوّلة — يمكن أن تتجاوز ذاكرة KV Cache حجم أوزان النموذج نفسه.

الحل التقليدي هو الكمنة (Quantization): تخزين كل رقم بعدد أقل من البتات. لكن معظم تقنيات الكمنة الحالية تضيف بيانات إدارية مخفية (ثوابت التطبيع لكل كتلة)، مما يقلّص التوفير الفعلي في الذاكرة إلى أقل مما يبدو.

كيف يعمل TurboQuant: نهج من مرحلتين

ما يميز TurboQuant هو أنه يهاجم هذا الحمل الإداري المخفي مباشرة، من خلال مرحلتين متكاملتين:

المرحلة الأولى: PolarQuant — ضغط الإشارة الأساسية

تبدأ الخوارزمية بتدوير عشوائي لمتجهات البيانات، ثم تحوّل الإحداثيات الديكارتية إلى إحداثيات قطبية (نصف قطر وزاوية). هذا التحويل يجعل البيانات أسهل بكثير للضغط لأن التوزيع الزاوي يكون متوقعاً ومتمركزاً.

النتيجة الأهم: تتخلص PolarQuant من خطوة التطبيع المكلفة التي تفرض حملاً إضافياً على الذاكرة في تقنيات الكمنة التقليدية. بدلاً من تخزين ثوابت إضافية لكل كتلة من البيانات، تستغل الخصائص الهندسية الطبيعية للمتجهات.

المرحلة الثانية: QJL — تصحيح الخطأ المتبقي

بعد أن تلتقط PolarQuant معظم الإشارة، يتولى خوارزمية Johnson-Lindenstrauss المُكمّنة (QJL) معالجة الخطأ المتبقي باستخدام بت واحد فقط — ترميز قائم على الإشارة الموجبة والسالبة.

يجمع QJL بين استعلام عالي الدقة وبيانات مضغوطة لاستعادة نتائج الانتباه بدقة عالية. بمعنى مبسط: PolarQuant تحفظ الشكل الأساسي للذاكرة، و QJL تحفظ ملاحظة تصحيحية صغيرة شبه مجانية.

النتائج: أرقام تتحدث عن نفسها

اختبرت Google خوارزمية TurboQuant على نماذج Gemma وMistral وLlama-3.1-8B-Instruct عبر مجموعة شاملة من المعايير:

المعيار	ما يقيسه
LongBench	الأداء على مهام السياق الطويل
Needle In A Haystack	استرجاع المعلومات من سياقات ضخمة
ZeroSCROLLS	الفهم والتلخيص
RULER	المنطق والاستدلال
L-Eval	التقييم الشامل للسياق الطويل

النتائج الرئيسية:

ضغط KV Cache إلى 3 بتات لكل قيمة دون فقدان الدقة
تقليص ذاكرة KV Cache بمقدار 6 أضعاف على الأقل
تسريع يصل إلى 8 أضعاف في حساب Attention Logits على معالجات NVIDIA H100 بدقة 4 بتات
أداء متفوق في recall على مجموعة بيانات GloVe مقارنة بـ Product Quantization و RabbiQ

والأهم: كل هذا دون الحاجة لإعادة تدريب النموذج أو ضبطه.

لماذا يهم هذا للمؤسسات في منطقة الشرق الأوسط وشمال أفريقيا

تخفيض تكاليف التشغيل

إذا كنت تشغّل نماذج لغوية كبيرة في الإنتاج، فإن تقليص ذاكرة KV Cache بمقدار 6 أضعاف يعني مباشرة: عدد أقل من معالجات الرسومات المطلوبة، فواتير سحابية أقل، وإمكانية خدمة عدد أكبر من المستخدمين بنفس البنية التحتية.

تمكين السياقات الطويلة

الوكلاء الذكية والمحادثات المطوّلة والتحليل العميق للمستندات — كلها تتطلب سياقات طويلة. TurboQuant يجعل هذه السيناريوهات عملية اقتصادياً لأول مرة لكثير من المؤسسات.

النشر على أجهزة أصغر

مع تقليص متطلبات الذاكرة بشكل جذري، يصبح تشغيل نماذج أكبر على أجهزة طرفية (Edge) أمراً واقعياً — وهو أمر حيوي للمؤسسات التي تحتاج معالجة البيانات محلياً لأسباب تنظيمية أو تتعلق بالخصوصية.

لا حاجة لإعادة التدريب

كون TurboQuant لا يتطلب إعادة تدريب أو ضبط دقيق يعني أنه يمكن تطبيقه كطبقة تحسين فوق أي نموذج موجود. هذا يقلّل بشكل كبير من حاجز التبني للمؤسسات التي استثمرت بالفعل في نماذج محددة.

السياق الأوسع: سباق ضغط الذكاء الاصطناعي

TurboQuant ليست الجهد الوحيد في هذا المجال. شهد عام 2026 تسارعاً في تقنيات ضغط النماذج:

BitNet من مايكروسوفت أثبت أن النماذج المدرّبة أصلاً بدقة 1.58 بت يمكن أن تعمل بكفاءة، حيث نموذج بملياري معامل يحتاج 400 ميغابايت فقط
SmoothQuant و SpinQuant تعالجان مشكلة القيم المتطرفة في التنشيط التي تعيق الكمنة التقليدية
GPTQ و AWQ أصبحتا معيار الصناعة للكمنة بعد التدريب بدقة 4 بتات

لكن ما يميز TurboQuant هو الجمع بين ثلاثة عوامل نادراً ما تتوفر معاً: ضغط عالٍ جداً (3 بتات)، عدم الحاجة لإعادة التدريب، وعدم فقدان الدقة. معظم التقنيات الأخرى تقدم تنازلات في واحد أو أكثر من هذه العوامل.

ماذا يعني هذا عملياً

لنضع الأرقام في سياق عملي:

قبل TurboQuant: نموذج بسياق 128 ألف رمز قد يحتاج 48 جيجابايت من ذاكرة GPU لـ KV Cache وحده
بعد TurboQuant: نفس النموذج يحتاج حوالي 8 جيجابايت فقط — أي يمكن تشغيله على معالج رسومات واحد بدلاً من عدة معالجات

هذا ليس تحسيناً تدريجياً — إنه تحول في اقتصاديات تشغيل النماذج اللغوية الكبيرة.

الخلاصة

TurboQuant من Google Research يمثل خطوة مهمة نحو جعل الذكاء الاصطناعي التوليدي أكثر كفاءة وأقل تكلفة. في عالم حيث تكلفة الاستدلال أصبحت التحدي الأكبر أمام نشر الذكاء الاصطناعي على نطاق واسع، فإن خوارزمية تقلّص ذاكرة KV Cache بمقدار 6 أضعاف وتسرّع الأداء 8 أضعاف — دون المساس بالدقة — يمكن أن تغيّر قواعد اللعبة.

الورقة البحثية ستُقدَّم في مؤتمر ICLR 2026، ومن المتوقع أن نرى تبنياً سريعاً في أطر الاستدلال الرئيسية مثل vLLM و TensorRT-LLM في الأشهر القادمة.

بالنسبة للمؤسسات في المنطقة التي تخطط لنشر نماذج لغوية كبيرة أو توسيع استخدامها الحالي، فإن TurboQuant يستحق المتابعة عن كثب — فهو قد يكون الفارق بين مشروع ذكاء اصطناعي مجدٍ اقتصادياً وآخر يستنزف الميزانية.