الكتابات/blog/2026/06
Blog10 يونيو 2026·6 دقيقة

جوجل Gemma 4 QAT: شغّل الذكاء الاصطناعي محلياً في 2026

تقلّص تقنية QAT من جوجل حجم ذاكرة VRAM بنسبة 72%، مما يتيح تشغيل نموذج بـ26 مليار معامل على حاسوب بذاكرة 16 جيجابايت. دليل شامل للنشر باستخدام Ollama وllama.cpp وvLLM.

في السادس من يونيو 2026، أطلق Google DeepMind نقاط التفتيش المُدرَّبة على الضبط الكمي (QAT) لعائلة نماذج Gemma 4 كاملةً. النتيجة: نموذج متعدد الوسائط بـ26 مليار معامل يعمل في 15 جيجابايت من ذاكرة الوصول العشوائي فحسب، ونموذج بـ2 مليار معامل يُشغَّل على Raspberry Pi 5. الذكاء الاصطناعي المحلي وصل إلى مستوى جديد كلياً.

ما هو QAT ولماذا يتفوق على الضبط الكمي التقليدي؟

الضبط الكمي بعد التدريب (PTQ) يضغط النموذج بتقريب الأوزان إلى تنسيقات ذات دقة أقل بعد انتهاء التدريب. هذا الأسلوب سريع التطبيق، لكنه يُدخل أخطاء تتراكم عبر الطبقات وتُدهور الدقة بنسبة 5–15% على اختبارات الاستدلال.

التدريب المُدرَك للضبط الكمي (QAT) يتبع النهج المعاكس: يُحاكي الضبطَ الكمي أثناء التدريب، مما يُجبر النموذج على تعلم أوزان تتحمل دقة INT4 من البداية. بذلك لا يرى النموذج قيماً عائمة تُقرَّب لاحقاً بطريقة قسرية — بل تدرّب أصلاً في ظل تلك القيود.

النتيجة العملية لـGemma 4: يُسجّل الإصدار 26B-A4B نسبة 82.6% على MMLU Pro، و88.3% على AIME 2026، و77.1% على LiveCodeBench — وهي أرقام مطابقة تقريباً لإصدار FP16 الكامل الدقة — مع استهلاك 15 جيجابايت من VRAM فقط.

قارن ذلك بتحويل INT4 التقليدي للنموذج ذاته: 70.2% دقة مقابل 85.6% مع نسخ Unsloth الديناميكية المبنية على نقاط QAT من جوجل. هذا الفارق الكبير هو ثمن تجاهل QAT.

أحجام النماذج ومتطلبات العتاد

أصدرت جوجل نقاط تفتيش QAT لأربعة أحجام من النماذج:

النموذجVRAM (4-bit QAT)السياقيعمل على
E2B~1 جيجابايت (موبايل)128Kالهواتف، Raspberry Pi 5
E4B~5 جيجابايت128Kحواسيب بـ8 جيجابايت
26B-A4B~15 جيجابايت256Kأجهزة بـ16 جيجابايت
31B~18 جيجابايت256Kكروت بـ24 جيجابايت

يصل حجم نموذج E2B في تنسيق الضبط الكمي للموبايل إلى أقل من 1 جيجابايت — صغير بما يكفي للتضمين في تطبيق أندرويد دون الحاجة إلى بث البيانات من خادم.

خيار النشر الأول: Ollama (الأسرع للبدء)

يُدير Ollama تنزيل النموذج وتحويل صيغته وواجهة برمجية محلية في أمر واحد:

# تثبيت Ollama
brew install ollama          # macOS
curl -fsSL https://ollama.com/install.sh | sh   # Linux
 
# تنزيل نموذج QAT
ollama pull gemma4:e4b-it-qat
ollama pull gemma4:26b-it-qat
 
# تشغيل تفاعلي
ollama run gemma4:26b-it-qat "لخّص فوائد QAT في جملتين."
 
# التحقق من تشغيل واجهة REST
curl http://localhost:11434/api/tags

يُقدّم Ollama نقطة نهاية متوافقة مع OpenAI على localhost:11434/v1، لذا تعمل الشيفرات الحالية المستخدِمة لـOpenAI SDK بمجرد تغيير رابط القاعدة.

خيار النشر الثاني: llama.cpp (أقصى قدر من التحكم)

للتحكم الدقيق في معاملات التوليد وتنسيق الضبط الكمي، استخدم llama.cpp مع نسخ GGUF الديناميكية من Unsloth:

# محادثة تفاعلية
./llama.cpp/llama-cli \
  -hf unsloth/gemma-4-26B-A4B-it-qat-GGUF:UD-Q4_K_XL \
  --temp 1.0 --top-p 0.95 --top-k 64
 
# خادم محلي مع دعم الرؤية
./llama.cpp/llama-server \
  --model gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf \
  --mmproj mmproj-BF16.gguf \
  --temp 1.0 --top-p 0.95 --top-k 64 \
  --port 8001 \
  --chat-template-kwargs '{"enable_thinking":true}'

استخدم دائماً نسخة UD-Q4_K_XL من Unsloth بدلاً من ملفات Q4_0 الخام — فالتنسيق الديناميكي يحافظ على الدقة في الطبقات التي تُقرَّب بشكل مفرط في INT4 القياسي.

خيار النشر الثالث: vLLM (خوادم الإنتاج)

للفرق التي تشغّل Gemma 4 كنقطة نهاية API داخلية:

vllm serve google/gemma-4-31B-it-qat-w4a16-ct \
  --max-model-len 32768 \
  --port 8000

حدّد --max-model-len وفق الاستخدام الفعلي. نافذة السياق الكاملة البالغة 256K تحتجز ذاكرة KV كبيرة تُقلّص التزامن — على كرت بـ24 جيجابايت، 32K نقطة بداية مناسبة للبيئات متعددة المستخدمين.

خيار النشر الرابع: LiteRT-LM (أندرويد والأطراف)

لنشر النموذج على الأجهزة المحمولة وأجهزة الحافة، يتولى وقت تشغيل LiteRT-LM من جوجل معالجة النوى منخفضة الدقة بشفافية تامة:

  1. صدّر نموذج E2B إلى تنسيق الضبط الكمي للموبايل عبر مكتبة ai-edge-torch.
  2. احتوِ ملف .task في مجلد assets الخاص بتطبيق أندرويد.
  3. يكتشف وقت التشغيل تلقائياً توفر NPU (كواتشكوم أو ميديا تيك أو تينسور من جوجل) ويُوجّه الاستدلال وفقاً لذلك.

يعمل نموذج E2B بسرعة مضاعفة تقريباً مقارنة بإصدار FP16 على وحدات معالجة الشبكات العصبية في الهواتف، مع استهلاك 40–50% أقل من الذاكرة.

Apple Silicon (MLX)

على أجهزة Mac المزودة بشرائح سلسلة M، استخدم الواجهة الخلفية MLX للاستدلال المُحسَّن في ذاكرة الوحدة الموحدة:

pip install mlx-lm
mlx_lm.generate \
  --model mlx-community/gemma-4-26B-A4B-it-qat-4bit \
  --prompt "اشرح الضبط الكمي للنوى في فقرة واحدة."

تعني بنية الذاكرة الموحدة أن GPU وCPU يتشاركان نفس الذاكرة الفيزيائية — يمكن لـMacBook Pro M3 بـ16 جيجابايت تشغيل النموذج 26B بسلاسة دون الحاجة إلى مبادلة الذاكرة.

نصائح أساسية للمطورين

إعدادات التوليد مهمة. دُرِّبت نقاط QAT بإعدادات temperature 1.0 وtop_p 0.95 وtop_k 64. تغيير هذه الإعدادات — لا سيما نحو فك التشفير الجشع — قد يؤثر على جودة المخرجات بشكل غير متوقع.

تجنّب ملفات Q4_0 الخام. يفقد تحويل INT4 التقليدي ما يصل إلى 15 نقطة دقة في مهام الاستدلال. تنسيق UD-Q4_K_XL من Unsloth يطبّق أحجاماً ديناميكية لمجموعات الضبط الكمي على الطبقات المتطرفة، مستعيداً تلك الفجوة.

ميزانية السياق تراكمية. أحجام VRAM المذكورة تغطي الأوزان فقط. كل 1K رمز إضافي من السياق يضيف ذاكرة KV فوق ذلك — خطّط لذلك على الأجهزة ذات الـ16 جيجابايت عند تشغيل النموذج 26B.

تنسيق vLLM يختلف عن llama.cpp. لـvLLM/SGLang استخدم نقاط تفتيش w4a16-ct من منظمة جوجل على Hugging Face. لـllama.cpp/Ollama استخدم نسخ GGUF من Unsloth. التنسيقان غير قابلَين للتبادل.

لماذا يهم الذكاء الاصطناعي المحلي في 2026؟

اقتصاديات الاستدلال في تحول. بالتراكم، تصبح تكاليف API عبئاً حقيقياً: منتج يُجري 10 ملايين طلب API يومياً بسعر 0.003 دولار لكل ألف رمز ينفق نحو 30,000 دولار شهرياً على الاستدلال وحده. تشغيل Gemma 4 26B محلياً يُلغي هذا البند كلياً.

للمطورين في منطقة الشرق الأوسط وشمال أفريقيا الذين يبنون منتجات تتعامل مع بيانات حساسة — سجلات مالية أو ملخصات طبية أو وثائق قانونية — يُحلّ الاستدلال المحلي إشكالية نقل البيانات عبر الحدود أيضاً. بياناتك لا تغادر بنيتك التحتية قط.

الخلاصة

Gemma 4 QAT من جوجل هو أبرز ترقية للاستدلال المحلي في 2026. نموذج متعدد الوسائط بـ26 مليار معامل يعمل الآن على نفس حاسوب المطور بـ16 جيجابايت الذي كان يكافح مع نماذج 7B قبل عامين، دون التفريط في الدقة. سواء اخترت Ollama للتكرار السريع، أو llama.cpp للتحكم الإنتاجي، أو vLLM لواجهات API الفريق، أو LiteRT-LM للهواتف — الطريق إلى الذكاء الاصطناعي بدون تكلفة لكل رمز أصبح واضحاً.

نقاط تفتيش QAT متاحة على Hugging Face ضمن منظمة Google DeepMind. نسخ GGUF الديناميكية من Unsloth هي نقطة البداية الموصى بها لنشرات llama.cpp.