PrismML Bonsai: نماذج 1-بت تُشغِّل 8 مليار معامل على هاتفك

طوال ثلاث سنوات، تحسَّنت صناعة الذكاء الاصطناعي حول متغير واحد: المزيد من المعاملات. GPT-5 وClaude Opus 4.7 وGemini Ultra وGrok 4.3 — كل إصدار رائد يرفع السقف أعلى وبصمة الذاكرة أثقل. نموذج "من فئة 8 مليار معامل" كان منتجاً سحابياً، لا منتجاً يعمل على الجهاز.

شركة PrismML — مختبر انطلق من Caltech وخرج من وضع التخفي في 31 مارس 2026 — حركت هذا السقف جانباً. عائلة نماذجها Bonsai 1-بت تُدخل نموذجاً لغوياً كثيفاً بحجم 8 مليار معامل في 1.15 جيجابايت فقط من الذاكرة، وتشغله بسرعة 40 رمزاً في الثانية على iPhone 17 Pro. العائلة بأكملها — 8B و4B و1.7B — مفتوحة المصدر بترخيص Apache 2.0.

هذا ليس تكميماً سطحياً لنموذج سحابي. إنها بنية 1-بت أصيلة، تُعيد رسم حدود الجدوى بين الذكاء الاصطناعي السحابي والذكاء الاصطناعي المحلي.

ماذا تعني "1-بت حقيقية"؟

معظم تقنيات الضغط التي تعرفها — INT4 وAWQ وGPTQ، وحتى NVFP4 الجديد من NVIDIA — تضغط نموذجاً مدرباً بدقة كاملة بعد انتهاء التدريب. محرك الاستدلال يفك ترميز الأوزان المضغوطة إلى دقة أعلى أثناء التشغيل، مقابل تضحية صغيرة بالدقة لتوفير الذاكرة.

Bonsai أكثر جرأة. كل جزء من الشبكة — طبقات التضمين، إسقاطات الانتباه، طبقات MLP، ورأس النموذج اللغوي — يخزن كل وزن كبت إشارة واحد. الصفر يُمَثَّل بسالب المقياس، والواحد بموجب المقياس، مع مقياس FP16 مشترك لكل مجموعة من 128 وزناً. النتيجة: 1.125 بت فعلي لكل وزن في صيغة GGUF، و1.25 بت في صيغة MLX من Apple.

النموذج 8B ينكمش من نحو 16 جيجابايت بدقة FP16 إلى 1.15 جيجابايت. النموذج 4B يحتل 0.57-0.63 جيجابايت. والنموذج 1.7B ينزل إلى حوالي 0.24 جيجابايت — صغير بما يكفي ليسكن داخل حزمة تطبيق محمول.

قصة الأداء المعياري دقيقة

شعار PrismML التسويقي هو "كثافة الذكاء" — درجة المعيار مقسومة على حجم النموذج بالجيجابايت. وفق هذا المقياس، يسجل Bonsai 8B نحو 1.062 لكل جيجابايت مقابل 0.098 لـ Qwen3 8B. الصياغة مفيدة من حيث الاتجاه لأن الذاكرة — لا عدد المعاملات — هي المورد الحَرِج على الهاتف أو الحاسوب المحمول أو لوحة Raspberry Pi.

الأرقام الخام تروي قصة أكثر صدقاً. في سلة المعايير المنشورة، يبلغ متوسط Bonsai 8B 1-بت 70.5، وهو:

أعلى من Llama 3.1 8B (67.1)
قريب من Olmo3 7B (70.9) وMistral3 8B (71.0)
أقل من RNJ 8B (73.1) وأقل بفارق أكبر من Qwen3 8B (79.3)

النسخة التالية Ternary Bonsai 8B تُضيّق الفجوة. بأوزان ثلاثية (سالب واحد، صفر، موجب واحد) تحتل 1.75 جيجابايت وتسجل متوسطاً قدره 75.5 — متفوقة على كل نموذج في فئتها باستثناء Qwen3 8B كامل الدقة، الذي يحتاج إلى 16 جيجابايت للوصول إلى نفس المستوى.

الترجمة: عائلة 1-بت في الفئة المتوسطة-العليا لنماذج 8B، لكنك تدفع نحو جزء من أربعة عشر من الذاكرة، وتستهلك طاقة أقل بأربعة إلى ستة أضعاف لكل رمز على رقائق Apple. بالنسبة للكثير من مساعدي الإنتاج، هذه مقايضة تستحق.

لماذا يهم هذا لذكاء الأعمال؟

الخبر المثير ليس "معيار أفضل"، بل "ظرف نشر جديد". نموذج من فئة 8B يعمل على ذاكرة الهاتف يفتح حالات استخدام كانت مستحيلة أو غير اقتصادية:

استدلال خاص على بيانات خاضعة للتنظيم (الصحة، المالية، الحكومة) دون إرسال بايت واحد إلى مزود سحابي
وكلاء ميدانيون دون اتصال للوجستيات والتفتيش الصناعي والعمل عن بُعد في مناطق ضعيفة التغطية
مساعدون يعملون بتقطع على تطبيقات التوصيل وأساطيل النقل والأدوات الزراعية
مساعدو برامج مدمجون داخل برامج سطح المكتب وأدوات CAD ونقاط البيع
نشر سيادي حيث تُصعِّب قواعد إقامة البيانات الاستدلال السحابي قانونياً

بالنسبة للفرق في أسواق الشرق الأوسط وشمال أفريقيا، العنصران الأخيران حاسمان. تشغيل نموذج بحجم 1.15 جيجابايت على عتاد قياسي داخل مركز بيانات محلي أو على حاسوب موظف يتجاوز مخاوف نقل البيانات عبر الحدود التي لا تزال تعرقل كثيراً من مشاريع الذكاء الاصطناعي.

كيف يقارَن بـ NVIDIA NVFP4 وGoogle TurboQuant

غالباً ما يُجمع بين Bonsai وNVFP4 من NVIDIA وTurboQuant من Google تحت مسمى كسول هو "ضغط الذكاء الاصطناعي". لكنها تعالج مشاكل مختلفة.

NVIDIA NVFP4 هو تنسيق عائم 4-بت في معمارية Blackwell. يخزن قيمة 4-بت مع مقياس FP8 لكل كتلة من 16 قيمة، ومقياس FP32 من المستوى الثاني لكل تنسور — بحوالي 4.5 بت لكل قيمة. تُفيد NVIDIA بأن فقدان الدقة قريب من الصفر عند الانتقال من FP8 إلى NVFP4 لنماذج مثل DeepSeek-R1-0528. الهدف هو الحفاظ على جودة الحافة داخل نشر GPU في مراكز البيانات، لا تقليص النماذج على الهواتف.

Google TurboQuant ليس ضاغط أوزان إطلاقاً. إنه مُكمِّم متجهات عبر الإنترنت لذاكرات المفاتيح والقيم ولبحث المتجهات عالية الأبعاد. تُبلغ Google عن جودة محايدة عند 3.5 بت لكل قناة وتسريع يصل إلى ثمانية أضعاف في حساب لوغاريتمات الانتباه على H100. يقلص حالة السياق أثناء الاستدلال، لا الأوزان الثابتة.

التقنيات الثلاث مُكمِّلة لا متنافسة. قد تشغِّل معمارية مؤسسية مستقبلية أوزان 1-بت على الطرف، وNVFP4 على طبقة الاستدلال السحابية، وTurboQuant لضغط ذاكرة KV عبر الطبقتين لتمديد السياق. لا أحد منها يجعل الآخر متقادماً.

صورة التسويق

Bonsai تقنية حقيقية، لكنها بنية تحتية قبل مرحلة التوسع. الإشارات الإيجابية ملموسة:

أوزان عامة على Hugging Face بترخيص Apache 2.0
دعم صيغتي GGUF وMLX، مع مستودع عرض عام ودفتر Colab
توزيع iPhone من اليوم الأول عبر Locally AI
دعم موثوق — المؤسس Babak Hassibi من Caltech، مستشارون مثل Ion Stoica، دعم من Khosla وCerberus وCaltech وحوسبة Google، وحوالي 16.25 مليون دولار أفصحت عنها WSJ

الإشارات المعاكسة مهمة أيضاً. نوى استدلال 1-بت المطلوبة ليست بعد ضمن llama.cpp أو MLX الرسميين — أنت تشغل اليوم فروع PrismML الخاصة. لا توجد واجهة API مستضافة ولا لوحة تحكم مؤسسية ولا عميل إنتاج مُعلن. تُظهر بطاقات نماذج Hugging Face صفر مزودي استدلال.

بالنسبة لفريق إنتاج، يعني ذلك أن Bonsai جاهزة لـ التجارب التجريبية والنشر الداخلي، لا لرهان تكامل حاسم. ستكشف الأشهر الستة إلى الاثني عشر المقبلة ما إذا كانت PrismML ستدمج نواها مع الأدوات الرسمية، وتوقع صفقات OEM، وتحول إصداراً مطورياً مبهراً إلى بنية تحتية تبني عليها الشركات بثقة.

ماذا تفعل حيال ذلك؟

إذا كنت تطور برمجيات في منطقة الشرق الأوسط وشمال أفريقيا، ثلاث تجارب تستحق التشغيل في الربع الثاني من 2026:

طور مساعداً خاصاً على Bonsai 4B أو Ternary Bonsai 8B لسير عمل داخلي — تلخيص دعم العملاء، تصنيف الوثائق، أو فحوص الامتثال — وقارن التكلفة والتأخر مع استدعاء LLM السحابي الحالي.
اختبر ظرف العمل دون اتصال. هل يستطيع تطبيقك المحمول تشغيل نموذج Bonsai 1.7B للصياغة على الجهاز أو الترجمة أو تحويل الصوت إلى نص؟ إذا كانت الإجابة نعم، فأنت تلغي جولات ذهاب وعودة لواجهات API وتفتح واجهات منتج كانت تتطلب اتصالاً.
قِس على بياناتك. المعايير العامة إشارة، لا حقيقة. شغل Bonsai على مجموعة تقييم داخلية موسومة لتعرف بدقة أين هي حافة الدقة لحالة استخدامك.

الدرس الأوسع هو أن هدف التحسين في 2026 قد تحول من عدد المعاملات الخام إلى القدرة لكل بايت ولكل واط ولكل دولار. نماذج السحابة الرائدة ستحتفظ بالتاج في الاستدلال الصعب والوسائط المتعددة. كل ما عداها متاح للمنافسة — والفرق الأولى التي تعيد بناء أنابيب ذكائها الاصطناعي حول هذا الانقسام ستشحن أسرع وتنفق أقل وتحتفظ بمزيد من بياناتها على أرضها.

PrismML لم تقتل مراكز البيانات. إنما أعادت رسم خريطة المكان الذي يمكن للذكاء الاصطناعي أن يعيش فيه فيزيائياً.