exo: عنقدة أجهزة ماك لتشغيل النماذج المتقدمة محليًا

طوال عامين كانت الإجابة عن سؤال «كيف أشغّل نموذجًا متقدمًا بشكل خاص» سطرًا واحدًا: لا تستطيع، ليس دون مجموعة من معالجات NVIDIA الرسومية وميزانية بخمسة أرقام. في 2026 تغيّرت هذه الإجابة. مشروع مفتوح المصدر اسمه exo يتيح لك تجميع ذاكرة عدة أجهزة ماك بمعالج آبل في عنقود واحد، وتشغيل نماذج لا يستطيع أي جهاز منفرد حملها — نموذج بحجم 671 مليار معامل يعمل على ثمانية أجهزة Mac mini موضوعة على رفّ.

بالنسبة للشركات في منطقة الشرق الأوسط وشمال إفريقيا التي توازن بين سيادة البيانات وتكلفة وخصوصية واجهات السحابة، هذا خيار جديد بحقّ. لنفكّك كيف يعمل وما إذا كان يستحق مكانًا في بنيتكم.

الفكرة الجوهرية: تجميع الذاكرة الموحّدة

القيد الأساسي لأي نموذج لغوي كبير هو الذاكرة. نموذج بحجم 70 مليار معامل بدقة 8 بت يحتاج نحو 70 جيجابايت فقط لحمل أوزانه؛ ونموذج بحجم 671 مليار يحتاج مئات الجيجابايت. لا يأتي أي جهاز استهلاكي بهذا القدر.

يتميّز معالج آبل بخاصية غير معتادة تجعله مهمًّا هنا: الذاكرة الموحّدة. يتشارك المعالج المركزي ووحدة الرسوميات والمحرك العصبي الذاكرة السريعة ذاتها، فجهاز ماك بذاكرة موحّدة سعتها 64 جيجابايت يستطيع تخصيص معظمها لأوزان النموذج. ويقوم exo بالخطوة التالية — يربط الذاكرة الموحّدة لعدة أجهزة ماك معًا ليحمل المجمّع الكلّي نموذجًا أكبر بكثير من أي جهاز منفرد.

ثمانية أجهزة Mac mini بمعالج M4 Pro، كلٌّ منها بذاكرة 64 جيجابايت، تمنحك 512 جيجابايت من الذاكرة القابلة للعنونة. وهذا يكفي لتحميل DeepSeek V3 بحجم 671 مليار معامل وخدمته بسرعة نحو 5.37 رمز في الثانية — بل أسرع من نموذج بحجم 70 مليار على العتاد ذاته، لأن DeepSeek V3 نموذج «خليط خبراء» لا يُفعّل إلا جزءًا من أوزانه لكل رمز.

كيف يقسّم exo النموذج

يستخدم exo استراتيجيتين متكاملتين لتوزيع النموذج على الأجهزة.

التوازي الأنبوبي يقطّع النموذج إلى مجموعات متتالية من الطبقات — تُسمّى شرائح — ويسند كل شريحة إلى جهاز مختلف. يمرّ الرمز عبر طبقات الجهاز الأول، ثم يُمرَّر متّجه التنشيط الصغير الخاص به (أقلّ من 4 كيلوبايت عادةً) إلى الجهاز الثاني، وهكذا. ولأن ما يعبر الشبكة تنشيطات صغيرة فقط، نادرًا ما يكون عرض النطاق عنق الزجاجة للطلبات المفردة.

التوازي التنسوري يقسّم الطبقات المفردة عبر الأجهزة لتحسبها بالتوازي، ثم يدمج النتائج. هذا أكثر استهلاكًا للشبكة، لكنه — مع وصلة سريعة بما يكفي — يجعل كل طلب أسرع فعليًا بدل أن يزيد الإنتاجية فحسب.

والجزء الذكي أن exo يختار الاستراتيجية تلقائيًا. تمسح كل عقدة الشبكة في الزمن الحقيقي — تقيس نوع الوصلة والكُمون وعرض النطاق والذاكرة المتاحة — وتبني خريطة طوبولوجية. ثم يوزّع الشرائح بما يلائم موارد كل جهاز، فيحمل جهاز Mac Studio الأسرع طبقاتٍ أكثر من جهاز mini أقدم.

بلا إعداد، بحكم التصميم

لا تعيّن عقدة رئيسية ولا تحرّر عناوين IP. تكتشف أجهزة exo بعضها بعضًا ندًّا لندّ (انتقل المشروع إلى بروتوكول Zenoh لهذا)، مكوّنةً عنقودًا مسطّحًا متكافئًا. تثبّت exo على كل جهاز، تصلها، فيجمّع العنقود نفسه بنفسه.

والأهم أن exo يتحدّث الواجهات التي تستخدمها أدواتك بالفعل. فهو متوافق مع واجهة OpenAI Chat Completions، وواجهة Claude Messages، وواجهة OpenAI Responses، وواجهة Ollama. أي أن تطبيقًا موجّهًا إلى OpenAI يمكن إعادة توجيهه إلى عنقودك المحلي بتغيير عنوان أساسي واحد — دون إعادة كتابة.

# بعد تثبيت exo على كل جهاز ماك، يكشف العنقود نقطة نهاية متوافقة مع OpenAI
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v3",
    "messages": [{"role": "user", "content": "لخّص بيانات مبيعات الربع الثاني."}]
  }'

في العمق، يعمل exo على MLX، إطار آبل للتعلّم الآلي المضبوط لوحدة Metal الرسومية والذاكرة الموحّدة، وهو ما يجعل معالج آبل منافسًا في الاستدلال أصلًا.

اختراق 2026: تقنية RDMA عبر Thunderbolt 5

حتى وقت قريب كانت الحلقة الأضعف في عنقود ماك هي الشبكة بين الأجهزة. أضاف بروتوكول TCP القياسي عبر Thunderbolt نحو 300 ميكروثانية من الكُمون لكل وثبة — مقبول للتوازي الأنبوبي، لكنه كافٍ لمحو مكاسب التوازي التنسوري. بإضافة عقد أكثر كانت سرعة الطلب المفرد تنخفض غالبًا.

يغيّر إصدار exo 1.0 لعام 2026 المعادلة بدعم فوري لتقنية RDMA (الوصول المباشر إلى الذاكرة البعيدة) عبر Thunderbolt 5، المتاحة على macOS 26.2. تتيح RDMA لجهاز قراءة ذاكرة آخر كأنها محلية تقريبًا، فتُقلّص الكُمون بين الأجهزة من نحو 300 ميكروثانية إلى ما لا يتجاوز 3 إلى 9 ميكروثانية — انخفاض بنحو 99 بالمئة.

والأثر العملي أن التوازي التنسوري أخيرًا يتوسّع بالاتجاه الصحيح:

أسرع بمقدار 1.8× على جهازين
أسرع بمقدار 3.2× على أربعة أجهزة

صار إضافة العتاد يضيف سرعة بدل أن يطرحها. فعلى عنقود من أربعة أجهزة Mac Studio عالية الأداء، يتوسّع Qwen3 بحجم 235 مليار معامل من نحو 19 رمزًا في الثانية على عقدة واحدة إلى نحو 32 رمزًا عبر أربع — سرعة تفاعلية لنموذج كان سيتطلّب عادةً معالجًا رسوميًا في مركز بيانات.

لتفعيل RDMA تحتاج معالج M4 Pro أو M4 Max (تستخدم رقائق M4 الأساسية Thunderbolt 4 بلا RDMA)، وكوابل Thunderbolt 5 عالية الجودة، وأمر rdma_ctl enable لمرة واحدة من وضع الاسترداد على كل عقدة. بعدها يكتشف exo وصلات RDMA ويفضّلها تلقائيًا.

لماذا قد تهتمّ شركة في المنطقة

ثلاثة أسباب تجعل هذا أكثر من فضول هوايات:

سيادة البيانات. سجلّات العملاء والبيانات المالية والاستراتيجية غير المنشورة لا تغادر مكتبك أبدًا. بالنسبة للقطاعات المنظَّمة وللمؤسسات الحذرة من إرسال البيانات للخارج، يزيل الاستدلال المحلي فئة كاملة من المخاطر.
تكلفة حدّية صفرية. يحاسب الاستدلال السحابي لكل رمز، وفريق نشط قد يرفع ذلك إلى آلاف الدولارات شهريًا. للعنقود تكلفة عتاد أوّلية وفاتورة كهرباء — ومعالج آبل موفّر للطاقة بشكل لافت — لكن بلا رسوم لكل طلب. الأحمال الثقيلة المستقرّة تُطفئ كلفة العتاد سريعًا.
أعد استخدام ما تملك. لا يتطلّب exo مجموعة متطابقة. جهاز Mac mini قديم متقاعد عن مكتب يصير عقدة استدلال إلى جانب جهاز Mac Studio جديد. ويمنحه المجدول الواعي بالطوبولوجيا ما يقدر عليه من العمل فحسب.

التحفّظات الصريحة

هذا قويّ لكنه ليس سحرًا. أمور تستحقّ الموازنة قبل شراء الكوابل:

Thunderbolt لا يتوسّع بلا حدود. لا توجد مبدّلات Thunderbolt أصيلة، فالشبكة الكاملة بـ RDMA عملية حتى نحو 4 إلى 8 عقد. العناقيد الأكبر تعود إلى إيثرنت بسرعة 10 جيجابت لبعض الوصلات، وهو أبطأ.
مبنيّ للاستدلال لا للتدريب. يخدم exo النماذج جيدًا؛ لكنه ليس أداة ضبط النماذج الكبيرة من الصفر.
البرمجية ما تزال تنضج. توقّع هنّات استقرار عرضية، وخصّص وقتًا لقناة Discord وملفّ GitHub. هذه أدوات في طليعة التقنية، لا جهاز جاهز للتشغيل.
الكوابل والتبريد تصبح حقيقية مع التوسّع. ثمانية أجهزة ماك وشبكة كوابل Thunderbolt تحتاج طاقة وتهوية وخطة.

نقطة انطلاق معقولة

الخطوة الأولى الصحيحة صغيرة: جهازا Mac mini بمعالج M4 Pro متصلان عبر Thunderbolt، وexo مثبّت من تطبيق macOS أو المصدر، وRDMA مُفعّلة إن دعم عتادك ذلك. هذا الثنائي سيشغّل بأريحية نماذج «خليط خبراء» قديرة بسرعة تفاعلية، ويثبت سير العمل على مطالباتك الحقيقية قبل أن تلتزم ببناء أكبر.

الحكاية الأكبر هي التحوّل الذي يمثّله exo. ينتقل الاستدلال إلى الحافة — إلى أجهزة تتحكّم بها، في مبناك، بمفاتيحك. وبالنسبة لفرق أمضت عامين تشاهد بياناتها الخاصة تتدفّق إلى مركز بيانات يملكه غيرها، هذا تغيّر ذو معنى. لم يعد العنقود على الرفّ عرضًا تجريبيًا. في 2026 صار خيار نشر.

هل تريد مساعدة في تقرير ما إذا كان الاستدلال المحلي يناسب حِملك، أو في تصميم العتاد والبرمجيات حوله؟ تبني نقطة بنية الذكاء الاصطناعي للشركات في تونس والسعودية وعموم منطقة الشرق الأوسط وشمال إفريقيا — تواصل معنا.

المصادر: exo على GitHub · exolabs.net · قياسات أداء 12 يومًا من EXO