الكتابات/blog/2026/06
Blog7 يونيو 2026·6 دقيقة

حين تتعطل الذكاء الاصطناعي: استراتيجيات النموذج البديل للعام 2026

أثبتت انقطاعات Claude في يونيو 2026 أن الذكاء الاصطناعي أصبح بنية تحتية أساسية. تعلم كيف تبني أنظمة صامدة متعددة النماذج باستخدام LiteLLM وOpenRouter وأنماط قاطع الدائرة.

في الثاني من يونيو 2026، شهدت منصة Claude من Anthropic انقطاعاً واسع النطاق. ارتفعت معدلات الأخطاء عبر نموذج Opus 4.6 وواجهة API وأداة Claude Code. وبعد ثلاثة أيام، في الخامس من يونيو، ضرب انقطاع آخر — طال claude.ai وواجهة البرمجة وClaude Code وCowork. استجاب فريق هندسة Notion فوراً بتعطيل جميع نماذج Anthropic من قائمة الاختيار وإعادة توجيه كل الطلبات إلى مزودين بديلين. شعر المستخدمون بتغيير في النموذج. لم يشعروا بانقطاع.

الفارق بين الفرق التي أُربكت وتلك التي أعادت التوجيه بسلاسة يعود إلى قرار معماري واحد اتُّخذ قبل أشهر: هل تعاملوا مع الذكاء الاصطناعي كبنية تحتية أم لا.

الذكاء الاصطناعي بنيةٌ تحتية الآن

في عام 2024، كان انقطاع الذكاء الاصطناعي يعني توقف روبوت المحادثة مؤقتاً. في عام 2026، يعني توقف خط التطوير وخدمة العملاء ومعالجة المستندات وتدفقات التأهيل في آنٍ واحد.

وثّقت Thoughtworks حالات التعطل المتسلسلة خلال حادثة يونيو: توقفت مساعدات الترميز الآلية، وتراجع البحث الدلالي إلى البحث بالكلمات المفتاحية، وصمتت أنابيب البيانات المدعومة بنماذج اللغة الكبيرة دون إشعار. الفرق الأشد تضرراً كانت تلك التي استبدلت الكفاءة البشرية بكفاءة الذكاء الاصطناعي بدلاً من تعزيزها.

الدرس ليس "استخدم الذكاء الاصطناعي أقل". الدرس هو بناء الذكاء الاصطناعي بنفس الطريقة التي تبني بها أي بنية تحتية حرجة: بالتكرار والتدهور السلس والتحويل التلقائي.

فخ مزود الخدمة الواحد

تبدأ معظم تكاملات الذكاء الاصطناعي بنفس الطريقة: اختر مزوداً، احصل على مفتاح API، ابدأ الشحن. يعمل هذا حتى لا يعمل. وأنماط الفشل متوقعة:

  • انقطاع المزود — شهدت Claude وGPT-4o وGemini جميعها توقفاً ملحوظاً في 2026
  • تحديد المعدل — تدفعك ذروات الحركة إلى أخطاء 429 دون سابق إنذار
  • إيقاف النموذج — يسحب المزودون النماذج بإشعار مدته 90 يوماً
  • فشل إقليمي — بعض الانقطاعات جغرافية النطاق لكنها تؤثر على مستخدميك
  • ارتفاع التكاليف — يغير المزود التسعير فتنهار هوامشك بين عشية وضحاها

ترميز نقطة نهاية واحدة التزام. الحل هو توجيه طلباتك عبر طبقة تتعامل مع مزودي النماذج كموارد حوسبة قابلة للاستبدال.

بناء سلسلة الاحتياط

سلسلة احتياط جاهزة للإنتاج تحتوي على ثلاثة مستويات على الأقل:

  1. النموذج الأساسي — مزودك المفضل للجودة والتكلفة (مثل Claude Opus 4.7)
  2. احتياط نفس المزود — نموذج أرخص أو أخف من نفس البائع (مثل Claude Haiku 4.5)
  3. احتياط عبر مزود آخر — بائع مختلف تماماً (مثل GPT-4o أو Gemini 2.5 Flash)
  4. خيار الملاذ الأخير — نموذج مستضاف ذاتياً أو محلي بلا اعتماد خارجي

تُفعَّل السلسلة عند رموز الخطأ 429 و500 و502 و503 و529. يحصل كل مستوى على ميزانية إعادة محاولة قابلة للتهيئة قبل التصعيد.

تنفيذ الاحتياط مع LiteLLM

LiteLLM هو بوابة المصدر المفتوح الأكثر اعتماداً لتوجيه متعدد النماذج. إليك مثالاً بسيطاً بلغة Python باستخدام Router:

from litellm import Router
 
router = Router(
    model_list=[
        {
            "model_name": "claude-primary",
            "litellm_params": {
                "model": "anthropic/claude-opus-4-7",
                "api_key": "YOUR_ANTHROPIC_KEY",
            },
            "order": 1,
        },
        {
            "model_name": "claude-haiku-fallback",
            "litellm_params": {
                "model": "anthropic/claude-haiku-4-5",
                "api_key": "YOUR_ANTHROPIC_KEY",
            },
            "order": 2,
        },
        {
            "model_name": "openai-fallback",
            "litellm_params": {
                "model": "openai/gpt-4o",
                "api_key": "YOUR_OPENAI_KEY",
            },
            "order": 3,
        },
    ],
    fallbacks=[
        {"claude-primary": ["claude-haiku-fallback", "openai-fallback"]}
    ],
    num_retries=3,
    retry_after=60,
)
 
response = await router.acompletion(
    model="claude-primary",
    messages=[{"role": "user", "content": "لخّص هذا المستند."}],
)

يتحكم حقل order في الأولوية. عند فشل نشر بالأولوية 1، يجرب الموجه تلقائياً الأولوية 2 ثم 3. مصفوفة fallbacks تمنحك تحكماً صريحاً في التصعيد عبر المجموعات.

OpenRouter كبديل مُدار

إذا كنت تفضل عدم إدارة بنية تحتية بوابة خاصة بك، يوفر OpenRouter توجيه احتياطي مُدار عبر نقطة نهاية API واحدة:

const response = await fetch("https://openrouter.ai/api/v1/chat/completions", {
  method: "POST",
  headers: {
    "Authorization": `Bearer ${process.env.OPENROUTER_API_KEY}`,
    "Content-Type": "application/json",
  },
  body: JSON.stringify({
    model: "anthropic/claude-opus-4-7",
    models: [
      "anthropic/claude-opus-4-7",
      "anthropic/claude-haiku-4-5",
      "openai/gpt-4o",
    ],
    route: "fallback",
    messages: [{ role: "user", content: "لخّص هذا المستند." }],
  }),
});

يتولى OpenRouter منطق الاحتياط من جانب الخادم. إذا كان Claude يواجه مشكلات، يوجه الطلب تلقائياً إلى النموذج التالي في مصفوفة models.

قواطع الدائرة لواجهات AI

إعادة المحاولة وحدها لا تكفي. بدون قاطع دائرة، ستظل تقصف مزوداً متدهوراً مما يبطئ تعافيه ويزيد زمن انتظارك. التوافق المجتمعي لإعداد قاطع الدائرة:

  • حد الفشل — 5 فشل متتالية تفتح الدائرة
  • فترة التبريد — 60 ثانية قبل اختبار التعافي بطلب مسبار واحد
  • الحالة نصف المفتوحة — مسبار ناجح واحد يغلق الدائرة؛ فشل واحد يبقيها مفتوحة

مثال TypeScript مع مكتبة cockatiel:

import { CircuitBreakerPolicy, ExponentialBackoff } from "cockatiel";
 
const claudeCircuit = CircuitBreakerPolicy.circuitBreaker({
  halfOpenAfter: 60_000,
  breaker: {
    threshold: 0.5,
    duration: 30_000,
    minimumRps: 5,
  },
});
 
const response = await Policy.wrap(claudeCircuit, retryPolicy).execute(() =>
  callClaude(prompt)
);

اعتبارات تجربة المستخدم عند التبديل

التبديل بين النماذج يكون غير مرئي للمستخدمين فقط إذا خططت له. عند تفعيل الاحتياط، شيئان يجب أن يكونا صحيحين:

اتساق الناتج. Claude Opus يعيد تحليلاً منظماً من 2,000 كلمة ثم GPT-4o يعيد 400 كلمة نثر حر سيُربك المستخدمين. وحّد موجهاتك بتعليمات تنسيق صريحة يتبعها أي نموذج قادر.

رسائل التدهور السلس. للميزات المرتبطة صراحةً بنموذج محدد، أظهر إشارة لطيفة: "التحليل المتقدم يعمل حالياً على مزود بديل. قد تختلف النتائج قليلاً." المستخدمون يتحملون تذبذباً طفيفاً في الجودة أكثر بكثير من التوقف الكامل.

المراقبة: معرفة المشكلة قبل مستخدميك

الجزء الأخير هو المراقبة الدلالية. ثلاثة مقاييس لتتبعها لكل استدعاء نموذج:

  • إنتاجية الرموز — رموز في الثانية، لكل مزود
  • معدل الخطأ حسب الكود — افصل أخطاء 429 (تحديد المعدل) عن 5xx (انقطاع) عن 529 (حمل زائد)
  • زمن الانتظار P95 — ليس المتوسط، بل الـ 95 بالمئة للكشف عن تدهور الذيل

أدوات مثل Langfuse وHelicone وPortkey توفر لوحات جاهزة لهذه المقاييس. ضبط حدود التنبيه عند معدل خطأ 15% يُطلق التحويل التلقائي قبل أن يلاحظ المستخدمون أي شيء.

توصيات لفرق منطقة الشرق الأوسط وشمال أفريقيا

لفرق الهندسة في منطقة الشرق الأوسط وشمال أفريقيا، تحمل صمود متعدد النماذج بُعداً إضافياً: زمن الانتظار الإقليمي. تغطية عدة مزودي AI غير متساوية عبر شمال أفريقيا والخليج. تشغيل معايير الأداء عبر المزودين — Claude وGemini وGPT-4o وMistral — من منطقة خادمك الفعلية يحدد أسرع نموذج أساسي وأفضل احتياط لمستخدميك المحليين، وليس المتوسطات العالمية فقط.

كانت انقطاعات يونيو 2026 اختباراً إجهاد فشلت فيه الصناعة جماعياً. الفرق التي نجحت بنت تكاملات AI بنفس طريقة بناء قواعد البيانات: مع التكرار والتحويل التلقائي والافتراض بأن أي عقدة منفردة ستتعطل في نهاية المطاف.

نموذجك الأساسي ليس بنيتك التحتية. طبقة التوجيه هي البنية التحتية.