Exo Labs: تشغيل نماذج الذكاء الاصطناعي المتقدمة محلياً عبر أجهزة متعددة

اقتصر تشغيل نماذج الذكاء الاصطناعي ذات المليارات من المعاملات محلياً في السابق على الخوادم الباهظة الثمن. يغيّر Exo Labs هذه المعادلة بتحويل أجهزة Mac المزودة بشرائح Apple Silicon إلى مجموعة استنتاج موزعة قادرة على تشغيل نماذج كـ Qwen3-235B وDeepSeek v3.1 671B وKimi K2 Thinking — دون أي اعتماد على السحابة، ودون مغادرة البيانات للشبكة الداخلية.

لماذا الذكاء الاصطناعي المحلي في 2026؟

ثلاثة عوامل تدفع المطورين نحو الاستنتاج المحلي:

التحكم في التكاليف: أحجام العمل الكبيرة تصطدم بحدود معدلات واجهات برمجة التطبيقات السحابية وتولّد فواتير متغيرة بحسب عدد الرموز. الاستنتاج المحلي يحوّل استثماراً مادياً واحداً إلى طاقة استنتاج غير محدودة.

الخصوصية والامتثال: الصناعات الحساسة كالقانون والرعاية الصحية والمالية تحتاج إلى خطوط معالجة لا تمر بخوادم خارجية. في منطقة الشرق الأوسط وشمال أفريقيا، يُلزم قانون INPDP في تونس ونظام PDPL في السعودية بضمان إقامة البيانات محلياً.

تكافؤ القدرات: تُنافس نماذج مفتوحة الأوزان كـ Qwen3-235B وDeepSeek v3.1 اليوم النماذج السحابية الرائدة في كثير من المعايير. الفجوة النوعية التي كانت تُبرر الاعتماد على السحابة تقلصت بشكل ملحوظ.

ما هو Exo Labs؟

Exo إطار عمل مفتوح المصدر يحوّل مجموعة من أجهزة Mac المزودة بـ Apple Silicon إلى مجموعة ذكاء اصطناعي محلية موحدة. يتولى الإطار:

اكتشاف الأجهزة تلقائياً: تتعرف الأجهزة على بعضها على الشبكة المحلية دون إعداد يدوي
تقسيم النموذج بوعي بالتوبولوجيا: يوزع طبقات النموذج عبر الأجهزة استناداً إلى الذاكرة المتاحة باستخدام التوازي التنسوري
RDMA عبر Thunderbolt 5: تقليص زمن الاستجابة بين الأجهزة بنسبة 99% على macOS 26.2+
واجهات برمجة متوافقة: تدعم OpenAI Chat Completions وClaude Messages API وOllama — أدواتك الحالية تعمل دون تعديل

كيف يعمل تقسيم النموذج؟

عند تحميل Qwen3-235B الذي يتطلب نحو 120 غيغابايت من الذاكرة، يوزع Exo طبقات النموذج على الأجهزة المتصلة. يتولى كل جهاز معالجة مجموعة من طبقات المحول وتمرير التنشيطات للجهاز التالي.

أداء التوسع:

مجموعة جهازين: حتى 1.8x تسريع مقارنة بجهاز واحد
مجموعة أربعة أجهزة: حتى 3.2x تسريع

التثبيت

المتطلبات: Xcode Command Line Tools، Homebrew، uv، Node.js، Rust nightly

الخيار الأول: تطبيق macOS (الأبسط)

brew install --cask exo

الخيار الثاني: من المصدر

# تثبيت uv
curl -LsSf https://astral.sh/uv/install.sh | sh
 
# استنساخ المستودع وبناء لوحة التحكم
git clone https://github.com/exo-explore/exo
cd exo/dashboard && npm install && npm run build && cd ..
 
# تشغيل عقدة المجموعة
uv run exo

شغّل uv run exo على كل جهاز تريد ضمه إلى المجموعة. ستتعرف الأجهزة على بعضها تلقائياً.

تشغيل أول نموذج

استعلم عن المجموعة باستخدام تنسيق OpenAI القياسي:

curl http://localhost:52415/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mlx-community/Llama-3.2-1B-Instruct-4bit",
    "messages": [
      {"role": "user", "content": "اشرح تقسيم النموذج بلغة بسيطة."}
    ]
  }'

أو استخدم تنسيق Claude Messages API:

curl http://localhost:52415/v1/messages \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mlx-community/Qwen3-235B-A22B-4bit",
    "messages": [
      {"role": "user", "content": "ما هو الاستنتاج الموزع؟"}
    ],
    "max_tokens": 1024
  }'

النماذج المدعومة

يحمّل Exo أي نموذج متوافق مع MLX من HuggingFace Hub. أبرز النماذج المتاحة:

النموذج	المعاملات	متطلبات المجموعة
Llama 3.2 Instruct (4-bit)	1B – 70B	جهاز واحد
Qwen3-235B-A22B (4-bit)	235B	مجموعة جهازين+
DeepSeek v3.1 (4-bit)	671B	مجموعة 4 أجهزة+
Kimi K2 Thinking	~1T	4 أجهزة عالية الذاكرة+

NVIDIA DGX Spark: البديل المؤسسي

للفرق التي تعمل على أجهزة NVIDIA، يوفر DGX Spark تجربة استنتاج محلية مقارنة. مكدس NemoClaw يُثبَّت بأمر واحد:

curl -fsSL https://www.nvidia.com/nemoclaw.sh | bash

يُؤتمت هذا الأمر إعداد البيئة وتنزيل النموذج ويوفر 2.6x تسريعاً في الاستنتاج عبر تحسينات NVFP4. المجموعات متعددة العقد تدعم 256 إلى 512 غيغابايت من الذاكرة الموحدة عبر 2 إلى 4 وحدات متصلة بشبكة ConnectX-7 بسرعة 200 Gbps RoCE.

حالات الاستخدام في منطقة الشرق الأوسط وشمال أفريقيا

خطوط البيانات المنظمة: معالجة الفواتير والعقود وسجلات العملاء عبر نموذج محلي دون كشف البيانات لواجهات برمجة تطبيقات خارجية. يلبي متطلبات إقامة البيانات بموجب INPDP في تونس وPDPL في السعودية بحكم التصميم.

الذكاء الاصطناعي بلا اتصال بالإنترنت: تشغيل الاستنتاج في بيئات ذات اتصال محدود — قاعات المصانع، المواقع النائية، الشبكات المعزولة.

ضبط التكاليف على نطاق واسع: استبدال فواتير الرموز السحابية المتكررة باستثمار مادي لمرة واحدة في Mac Studio أو Mac Pro.

التطوير والاختبار: تشغيل نفس النموذج الذي تستخدمه في الإنتاج، محلياً، لتكرار أسرع دون تكاليف نقل البيانات.

القيود المعروفة

تسريع GPU يتطلب Apple Silicon وmacOS: دعم Linux موجود لكنه يعمل على المعالج المركزي فقط
Thunderbolt 5 وmacOS 26.2+ للـ RDMA: الأجهزة الأقدم تعمل لكن بزمن استجابة أعلى بين الأجهزة
النماذج الكبيرة تتطلب مجموعات غنية بالذاكرة: DeepSeek 671B يحتاج أربع وحدات Mac Studio Ultra أو ما يعادلها
صيغة MLX فقط: يجب أن تكون النماذج بصيغة متوافقة مع MLX

الخلاصة

يُتيح Exo Labs تشغيل الذكاء الاصطناعي بمستوى الحافة على أجهزة يمتلكها كثير من المطورين بالفعل. مع تضييق النماذج مفتوحة الأوزان للفجوة مع عروض السحابة الاحتكارية معياراً بعد معيار، تزداد الحجة لصالح البنية التحتية للذكاء الاصطناعي المحلي قوةً — لا سيما في الأسواق الحساسة للخصوصية والمدفوعة بالامتثال كمنطقة الشرق الأوسط وشمال أفريقيا.

للبدء: brew install --cask exo، شغّله على جهازي Mac، وأشر بـ SDK الخاص بك نحو http://localhost:52415. على الأرجح لديك بالفعل من الأجهزة ما يكفي لتشغيل شيء مفيد.