عصر المليون رمز: كيف تعيد النماذج طويلة السياق كتابة معمارية RAG

على مدى السنوات الثلاث الماضية، كان التوليد المعزز بالاسترجاع (RAG) هو النمط الافتراضي لبناء تطبيقات ذكاء اصطناعي تفكر فوق بيانات الشركات. تُقطّع المستندات إلى شرائح بحجم 500 رمز، تُحوّلها إلى متجهات، تُخزّنها في قاعدة بيانات متجهية، تسترجع أفضل النتائج المطابقة لكل استفسار، ثم تحشرها في نافذة سياق بحجم 32 ألف أو 128 ألف رمز. كل تطبيق ذكاء اصطناعي إنتاجي، من أدوات البحث القانوني إلى روبوتات دعم العملاء، انطلق على نسخة من هذا الخط.

في عام 2026، لم يعد هذا الخط متوافقاً مع العتاد. يأتي كلود أوبوس 4.7 بنافذة سياق بمليون رمز. جيميناي 2.5 برو يملك السقف ذاته. نسخ GPT-5 تقترب منه. السؤال الذي تطرحه كل فرق الهندسة الآن هو: إذا كان بإمكانك وضع قاعدة شفرة كاملة أو مجموعة عقود أو قاعدة معرفة داخل موجه واحد، فلماذا تحتفظ بمنصة الاسترجاع أصلاً؟

الإجابة الصادقة هي أن RAG المقطّع ليس ميتاً، لكن حضوره يتقلص بسرعة، والمعايير المعمارية تتغير بطرق مهمة لكل من يطلق ذكاءً اصطناعياً إنتاجياً في 2026.

ما الذي يتغير فعلاً عند المليون رمز

سياق بمليون رمز يعادل تقريباً 750 ألف كلمة، أو حوالي 2,500 صفحة من النص التقني الكثيف. للتوضيح، شفرة نواة لينكس كاملة تدخل فيه. قاعدة شفرة SaaS متوسطة تدخل مرتين. سجل تذاكر الدعم لعميل مؤسسي عبر آخر سنتين يدخل مع متسع.

ثلاثة أمور تتغير عندما يصبح تمرير هذا القدر من السياق الخام رخيصاً.

التقطيع يصبح ضريبة لا ميزة. السبب الكامل لتقطيع المستندات كان عجز النموذج عن قراءتها كاملة. مع مليون رمز، معظم أهداف الاسترجاع تدخل كما هي. خطوة الاسترجاع توجد الآن فقط لاختيار المستندات التي ستُضمّن، لا لطريقة تقطيعها.

البحث الدلالي يحمل وزناً أقل. عندما يمكنك تحمل تضمين أفضل 50 مستنداً بدلاً من أفضل 5، تصبح جودة التضمين أقل أهمية. حتى الاسترجاع الضوضائي يعمل لأن النموذج يرتب الملاءمة داخل الموجه.

التخزين المؤقت للموجهات يصبح العنق الزجاجي الجديد. موجه بمليون رمز مكلف في المعالجة من الصفر. أنثروبيك وجوجل وأوبن إيه آي يوفرون جميعاً آليات تحكم في التخزين المؤقت تتيح لك توزيع تلك التكلفة عبر استفسارات كثيرة. نموذج التكلفة لأحمال العمل الجادة طويلة السياق أصبح "معدل إصابة التخزين المؤقت" بدلاً من "الرموز لكل طلب".

النمط الجديد: سياق مخزّن، استفسارات رخيصة

النمط الإنتاجي الناشئ لتطبيقات المليون رمز لا يشبه دورة RAG القديمة في شيء. يبدو أقرب إلى التالي:

عند بدء التطبيق، حمّل قاعدة المعرفة الكاملة داخل الموجه. لتطبيق دعم العملاء، قد يكون هذا وثائق المنتج كاملة، وتذاكر آخر 90 يوماً المحلولة، ودليل صوت العلامة التجارية.
اوسم تلك البادئة بأنها قابلة للتخزين المؤقت باستخدام رأس cache-control الخاص بالمزود.
كل استفسار مستخدم يُلحق بالبادئة المخزّنة ويدفع فقط ثمن الفارق، عادةً بضع مئات من الرموز من نص السؤال.

على كلود أوبوس 4.7، بادئة مخزّنة بمليون رمز تكلف حوالي 90 في المئة أقل لكل طلب من موجه بارد بنفس الحجم. الطلب الأول مكلف. كل طلب لاحق يصيب التخزين المؤقت خلال فترة TTL البالغة خمس دقائق يصبح شبه مجاني على جانب البادئة.

بالنسبة لفريق دعم يتعامل مع 10,000 استفسار يومياً، يتحول الحساب من "لا نستطيع تضمين الوثائق الكاملة" إلى "لا نستطيع ألا نضمنها". التخزين المؤقت يدفع ثمن نفسه خلال أول دقائق من حركة المرور.

أين لا تزال RAG المقطّعة تتفوق

هذا لا يقتل قواعد البيانات المتجهية. ثلاثة أحمال عمل لا تزال تحتاج إليها.

قواعد معرفة أكبر من مليون رمز. إن كانت مجموعتك ضخمة حقاً، كأرشيفات قانونية عالمية أو مكتبات بحثية متعددة العقود أو بحيرة بيانات مؤسسية كاملة، فلا تزال بحاجة إلى الاسترجاع لاختيار أي مليون رمز تسلّمها للنموذج. النمط يصبح "استرجاع خشن لاختيار فصل، ثم تفكير طويل السياق داخل الفصل" بدلاً من "استرجاع دقيق لمقاطع بـ500 رمز".

عزل بين العملاء. تطبيقات SaaS التي تخدم عملاء متعددين لا يمكنها تحميل بيانات كل عميل في كل موجه. الاسترجاع يُبوّب أي محتوى عميل يدخل السياق، حتى عندما تتسع مجموعة بياناته الكاملة داخل مليون رمز.

تطبيقات الزمن المنخفض. موجه بارد بمليون رمز يستغرق عدة ثوانٍ في المعالجة، حتى مع إحماء التخزين المؤقت. تجارب المستخدم الحساسة للزمن، كالإكمال التلقائي والاقتراحات المضمّنة ووكلاء الصوت، لا تزال تستفيد من استرجاع ضيق وموجهات صغيرة تُعالج في أقل من 300 ميلي ثانية.

نماذج تكلفة تصمد فعلاً

نموذج التكلفة الجديد يحوي ثلاثة متغيرات: معدل إصابة التخزين المؤقت، مدة TTL، وحجم الاستفسارات.

معدل إصابة التخزين المؤقت هو نسبة الطلبات التي تعيد استخدام بادئة مخزّنة. لتطبيق بعميل واحد ذي قاعدة معرفة ثابتة وحركة مرور مستقرة، يمكن أن يتجاوز 95 في المئة. لتطبيق متقطع بفترات خمول طويلة، تعني مدة الخمس دقائق أنك تُفوّت التخزين كثيراً وتدفع الثمن الكامل.

القاعدة العملية: إذا كان لتطبيقك أكثر من بضعة طلبات في الدقيقة داخل عميل واحد، فإن السياق الطويل المخزّن يتفوق على RAG التقليدية في التكلفة والجودة. إذا كانت حركة المرور متقطعة أو يسود تبديل العملاء، يبقى الاسترجاع المقطّع الخيار الأفضل.

الفرق التي نعمل معها في نقطة تُشغّل الحسابات في جداول تبدو كالتالي. الطلبات لكل عميل لكل ساعة. الرموز لكل بادئة مخزّنة. مدة TTL. الإجابة غالباً ما تكون بشكل مفاجئ "فقط خزّن الوثائق الكاملة". ليس دائماً، لكن أكثر مما توقع أحد قبل عام.

ما يعنيه هذا لفرق الشرق الأوسط وشمال إفريقيا

للشركات الناشئة والشركات الصغيرة والمتوسطة في تونس والسعودية والمغرب والخليج، التبعات العملية ملموسة.

الارتباط بمزود واحد يهم أقل من استراتيجية التخزين المؤقت. سواء شغّلت على كلود أو جيميناي أو GPT، الثلاثة الآن يوفرون تخزيناً مؤقتاً للموجهات. ميزة التكلفة التي كنت تحصل عليها من التقطيع الذكي تحصل عليها الآن من التخزين المؤقت الذكي. أدوات مثل LiteLLM وVercel AI Gateway تُجرّد الفروق بين المزودين، فيصبح منطق التخزين المؤقت لديك قابلاً للنقل.

معالجة المحتوى العربي والفرنسي تصبح أرخص. أحد الآثار غير المقدّرة حق قدرها لسياق المليون رمز مع التخزين المؤقت هو أن المجموعات متعددة اللغات، كأرشيفات مكتب محاماة تخلط العربية والفرنسية والإنجليزية، يمكن تحميلها كبادئة مخزّنة واحدة. لا حاجة بعد اليوم لنماذج تضمين لكل لغة أو فهارس متجهية لكل لغة. موجه واحد، تخزين واحد، ثلاث لغات.

فرق أصغر قادرة على إطلاق ما كان يتطلب فريق بيانات. منصة RAG القديمة كانت تحتاج إلى خطوط تضمين وقواعد بيانات متجهية وضبط استرجاع ومنطق إعادة ترتيب. المنصة الجديدة طويلة السياق تحتاج إلى رأس cache-control وموجه يتسع لمليون رمز. مهندس واجهة خلفية واحد يستطيع أن يطلق خلال أسبوع ما كان يستغرق ربع سنة.

دليل الانتقال

للفرق التي تُشغّل حالياً RAG مقطّعة في الإنتاج، الانتقال ليس إعادة كتابة. إنه تحول تدريجي.

ابدأ بتحديد حمل عمل واحد يتسع سياقه الكامل داخل مليون رمز وتكون معدلات إصابة التخزين المؤقت فيه عالية. روبوتات الدعم الداخلية ومساعدو المواصفات ومساعدو البرمجة فوق قاعدة شفرة واحدة كلها مرشحون جيدون. شغّل كلا الخطين بالتوازي. قارن جودة الإجابات وزمن الاستجابة والتكلفة لكل استفسار عبر أسبوع تمثيلي.

لمعظم الفرق، النسخة طويلة السياق ستفوز في الجودة وتتعادل في التكلفة. حيث تخسر في التكلفة، يعني ذلك عادةً أن نمط حركة المرور لديك متقطع بما يكفي ليظل الاسترجاع الخيار الصحيح. في كلتا الحالتين، القياس يوضح القرار المعماري.

احتفظ بقاعدة البيانات المتجهية لأحمال العمل التي تحتاجها. استبعدها لأحمال العمل التي لا تحتاجها. لا تعامل الأمر كتحول أيديولوجي. عامله كمقارنة تكلفة وجودة، حمل عمل تلو الآخر.

إلى أين يتجه ذلك

الخطوة التالية الواضحة هي سياقات أطول. ألمحت أنثروبيك إلى نوافذ بعدة ملايين من الرموز. جوجل تُجري أبحاثاً عند عشرة ملايين رمز. عند هذا الحجم، تنهار المزيد من أحمال العمل إلى منطقة "مرر السياق الكامل فحسب"، وتتقلص منصة الاسترجاع أكثر.

الخطوة الأقل وضوحاً هي إدارة أذكى للتخزين المؤقت. المزودون يطلقون تخزيناً مؤقتاً ثابتاً يعيش أطول من مدة الخمس دقائق، وتسعيراً متدرجاً للتخزين الدافئ مقابل البارد، ومقابض تخزين لكل جلسة تتيح تثبيت سياق عبر محادثة مستخدم كاملة. كل واحدة من هذه تجعل أنماط السياق الطويل أرخص وأوسع نطاقاً.

بحلول أواخر 2026، نتوقع أن تُطلق معظم تطبيقات الذكاء الاصطناعي الجديدة بمعماريات "السياق الطويل أولاً"، مع حجز RAG للمجموعات الضخمة حقاً التي لا تزال لا تتسع داخل موجه واحد. الفرق التي تتأقلم أسرع ستُطلق أنظمة أبسط بإجابات أفضل وتكاليف أقل.

في نقطة، نعيد بالفعل بناء خطوط الذكاء الاصطناعي للعملاء حول أنماط السياق الطويل المخزّن، ونستبعد قواعد البيانات المتجهية حيث لم تعد تستحق مكانها، ونقيس الفرق في زمن الاستجابة والتكلفة الإنتاجية. إذا أردت تقييم ما يعنيه هذا التحول المعماري لمنتجك، فريق نقطة يصمم أنظمة ذكاء اصطناعي إنتاجية للشركات الناشئة والمؤسسات عبر تونس والسعودية ومنطقة الشرق الأوسط وشمال إفريقيا.