كلاودفلير ووركرز AI: تشغيل نماذج اللغة الكبيرة على الحافة في 2026

مشكلة زمن الاستجابة التي لا يتحدث عنها أحد

عندما يُرسل تطبيق ويب من تونس أو الرياض طلبًا إلى خوادم OpenAI في الولايات المتحدة، يُضاف ما بين 80 و150 ميلي ثانية من زمن انتقال الشبكة قبل أن يبدأ النموذج في توليد كلمة واحدة. في ميزة محادثة مدعومة بالذكاء الاصطناعي، هذا الفارق هو الفرق بين "يبدو فوريًا" و"يبدو معطلًا".

يُقدم Cloudflare Workers AI بنية مختلفة تمامًا: تشغيل نماذج اللغة مفتوحة الأوزان على الحافة، عبر أكثر من 300 مركز بيانات حول العالم، بما في ذلك مواقع قريبة من منطقة الشرق الأوسط وشمال أفريقيا، بحيث يحدث استنتاج الذكاء الاصطناعي بالقرب من مستخدميك وليس عبر المحيط.

ما هو Cloudflare Workers AI؟

Workers AI هو منصة استنتاج ذكاء اصطناعي بلا خوادم مبنية فوق Workers runtime من Cloudflare. بدلًا من إرسال طلب HTTP إلى واجهة برمجة تطبيقات ذكاء اصطناعي بعيدة، يُشغّل Worker الخاص بك النموذج مباشرةً داخل شبكة Cloudflare في أقرب موقع حافة للمستخدم.

تطورت المنصة كثيرًا منذ إطلاقها عام 2023. في 2026، تدعم كتالوجًا منتقى من النماذج مفتوحة الأوزان يشمل:

Llama 3.3 70B — نموذج Meta الرائد مفتوح المصدر، منافس في معظم المهام العامة
Qwen 2.5 72B — نموذج Alibaba مع دعم متعدد اللغات القوي، بما في ذلك العربية
Gemma 2 27B — نموذج Google الفعّال للمحادثة والتلخيص
Mistral 7B — سريع وخفيف للتصنيف والاستخراج البسيط
CodeLlama 34B — متخصص في توليد ومراجعة الكود
Whisper Large v3 — نسخ صوتي على الحافة
SDXL Lightning — توليد صور في أقل من ثانيتين

يعمل كل نموذج على عُقد حافة مجهزة بوحدات GPU من Cloudflare، مع فوترة بالرمز المميز وليس بمستوى مفتاح API.

ميزة زمن الاستجابة لتطبيقات منطقة الشرق الأوسط وشمال أفريقيا

لتطبيقات تخدم مستخدمين عبر الشرق الأوسط وشمال أفريقيا، تكون الحجة الجغرافية لصالح الذكاء الاصطناعي الطرفي واضحة.

طلب من OpenAI من القاهرة:

رحلة الشبكة ذهابًا وإيابًا إلى الساحل الشرقي الأمريكي: ~120 ميلي ثانية
تأخير قائمة الانتظار والمعالجة: 10–50 ميلي ثانية
وقت أول رمز: 300–500 ميلي ثانية إجمالًا

الطلب نفسه عبر Workers AI، موجّهًا إلى أقرب نقطة تواجد:

رحلة الشبكة: 20–40 ميلي ثانية
أول رمز في الاستنتاج الطرفي: 100–200 ميلي ثانية إجمالًا

هذا تحسين بمقدار 2–3 أضعاف في الاستجابة المُدركة. في واجهات الدردشة المتدفقة، يرى المستخدمون الأحرف تظهر فورًا تقريبًا بدلًا من انتظار مؤشر تحميل.

البناء مع Workers AI: الأساسيات

للبدء، تحتاج إلى حساب Cloudflare وأداة Wrangler CLI. إليك Worker بسيطًا يُقدم استجابات ذكاء اصطناعي متدفقة:

import { Ai } from "@cloudflare/ai";
 
export interface Env {
  AI: Ai;
}
 
export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const body = await request.json() as { prompt: string };
 
    const response = await env.AI.run(
      "@cf/meta/llama-3.3-70b-instruct-fp8-fast",
      {
        messages: [
          { role: "system", content: "أنت مساعد مفيد." },
          { role: "user", content: body.prompt }
        ],
        stream: true
      }
    );
 
    return new Response(response as ReadableStream, {
      headers: {
        "Content-Type": "text/event-stream",
        "Access-Control-Allow-Origin": "*"
      }
    });
  }
};

يربط ملف wrangler.toml خدمة الذكاء الاصطناعي بـ Worker الخاص بك:

name = "my-ai-worker"
compatibility_date = "2026-01-01"
 
[ai]
binding = "AI"

نفّذ wrangler deploy ويصبح لديك نقطة نهاية ذكاء اصطناعي موزعة عالميًا دون أي بنية تحتية لإدارتها.

بوابة Cloudflare AI: المراقبة والتخزين المؤقت

من أكثر الميزات المُقدَّرة في منظومة Cloudflare AI هي بوابة AI Gateway. تعمل كوكيل شفاف أمام أي مزود ذكاء اصطناعي، وليس Workers AI فقط، وتُوفر:

تسجيل الطلبات: كل موجّه واستجابة مُسجَّلان مع زمن الاستجابة وعدد الرموز وتقديرات التكلفة. ضروري لتصحيح الأخطاء ونسب الفواتير.

التخزين المؤقت الدلالي: الاستجابات للمطالبات المتشابهة دلاليًا تُخزَّن وتُقدَّم فورًا. سؤال مثل "ما هي ساعات عملكم؟" من مستخدمين مختلفين يُشغّل النموذج مرة واحدة فقط.

تحديد معدل الطلبات: حماية تطبيقك والتحكم في التكاليف لكل IP أو مستخدم أو مفتاح API.

بدائل النماذج: حدد سلاسل احتياطية—جرّب Llama 3.3 70B أولًا، والتراجع إلى Mistral 7B عند الفشل.

لوحات تكاليف: تتبع الإنفاق في الوقت الفعلي عبر جميع المزودين من واجهة واحدة.

الأسعار: حيث يتنافس Workers AI

تسعير Cloudflare للرمز المميز واضح:

النموذج	المدخلات لكل مليون رمز	المخرجات لكل مليون رمز
Llama 3.3 70B (fp8)	0.27$	0.27$
Mistral 7B	0.10$	0.10$
Qwen 2.5 72B	0.22$	0.44$

تتضمن الطبقة المجانية 10,000 وحدة عصبية يوميًا، كافية للتطوير والاستخدام الإنتاجي منخفض الحجم.

حالات الاستخدام التي يتألق فيها الذكاء الاصطناعي الطرفي

أدوات الدردشة للعملاء: الاستجابات المتدفقة بأقل من 200 ميلي ثانية لأول رمز تبدو فورية. لا يرى المستخدمون مؤشر تحميل.

اعتدال المحتوى على الحافة: فحص المحتوى الذي ينشئه المستخدمون قبل وصوله إلى قاعدة البيانات باستخدام نموذج 7B سريع يعمل في أقل من 50 ميلي ثانية.

البحث المخصص: تضمين الاستعلامات والوثائق على الحافة باستخدام نماذج التضمين النصي في Workers AI.

تلخيص المستندات عند الرفع: عند رفع المستخدم لملف PDF، تُشغَّل دالة Worker تلخّص المحتوى على الحافة قبل تخزينه.

معالجة المحتوى العربي: تجعل قدرة Qwen 2.5 القوية على اللغة العربية منه مناسبًا لتطبيقات منطقة الشرق الأوسط وشمال أفريقيا التي تحتاج إلى معالجة نصوص عربية دقيقة دون توجيه البيانات إلى خوادم بعيدة.

القيود التي يجب فهمها قبل الالتزام

كتالوج نماذج منتقى: لا يمكنك نشر نماذج عشوائية. Cloudflare تتحكم في ما هو متاح. إذا كنت بحاجة إلى نموذج مضبوط بدقة خاص بمجالك، فأنت بحاجة إلى منصة مختلفة.

حدود نافذة السياق: تعمل معظم نماذج الحافة بنوافذ سياق من 4K إلى 8K رمزًا، وليس النوافذ من 128K إلى مليون رمز المتاحة في واجهات برمجة التطبيقات السحابية.

حوسبة عديمة الحالة: الـ Workers مؤقتة وعديمة الحالة. سير العمل الوكيلي طويل الأمد مع الحالة المستمرة يحتاج إلى تخزين خارجي.

توافر وحدات GPU: في أوقات حركة المرور العالية، قد تُصطف الطلبات في قائمة انتظار.

متى تختار Workers AI مقابل واجهات برمجة التطبيقات السحابية؟

اختر Workers AI عندما:

زمن الاستجابة بالغ الأهمية لتجربة المستخدم
تعالج أحجامًا كبيرة من الطلبات القصيرة المستقلة
مستخدموك موزعون جغرافيًا
تريد تجنب توجيه البيانات عبر خوادم مقيمة في الولايات المتحدة لأسباب الامتثال
التكلفة على نطاق واسع هي اهتمامك الرئيسي

اختر واجهات برمجة التطبيقات السحابية عندما:

تحتاج إلى أعلى جودة ممكنة للنموذج (GPT-4.5، Claude 4 Opus)
حالة استخدامك تتطلب نوافذ سياق بأكثر من 100K رمز
تشغّل سير عمل وكيلي معقد متعدد الخطوات

كثير من التطبيقات الإنتاجية تستخدم الاثنين: Workers AI للميزات الفورية الموجهة للمستخدم، وواجهات برمجة التطبيقات السحابية للمعالجة الدفعية في الخلفية.

البدء في 5 دقائق

ثبّت Wrangler: npm install -g wrangler
المصادقة: wrangler login
أنشئ مشروعًا: wrangler init my-ai-app
أضف ربط الذكاء الاصطناعي إلى wrangler.toml
اكتب Worker الخاص بك وانشره: wrangler deploy

الصورة الأشمل

يمثل Cloudflare Workers AI نضج أطروحة الحوسبة الطرفية: ليس فقط الأصول الثابتة ومنطق التوجيه على الحافة، بل ذكاء حقيقي موزع عالميًا. مع استمرار تحسن البنية التحتية للإنترنت في منطقة الشرق الأوسط وشمال أفريقيا وتوسع Cloudflare في حضورها الإقليمي، تتضاعف ميزة زمن الاستجابة.

لفرق التطوير التي تبني منتجات مدعومة بالذكاء الاصطناعي لأسواق الشرق الأوسط وشمال أفريقيا، يستحق Workers AI تقييمًا جديًا — ليس كبديل للذكاء الاصطناعي السحابي، بل كالأداة المناسبة لأعباء العمل الحساسة لزمن الاستجابة والمراعية للتكاليف التي تُعرّف معظم الميزات الموجهة للعملاء.

تعقيد البنية التحتية صفر. نموذج النشر مألوف لأي مطور JavaScript. وتحسين الأداء لمستخدمين في القاهرة أو الدار البيضاء أو الرياض حقيقي وقابل للقياس من اليوم الأول.