ما بعد المحولات: الانتباه دون التربيعي وسياق 12 مليون

طوال ما يقارب العقد، حمل كل نموذج لغوي متقدم الضريبة الخفية نفسها. فبنية المحولات التي تشغّل GPT وClaude وGemini تقارن كل رمز بكل رمز آخر. ضاعِف المدخلات فيتضاعف العمل أربع مرات تقريباً. هذه التكلفة التربيعية هي السبب وراء اقتطاع المستندات الطويلة، وارتفاع كلفة الاستفادة الفعلية من نوافذ السياق بسعة «مليون رمز»، بل هي السبب وراء وجود التوليد المعزّز بالاسترجاع من الأساس.

في مايو 2026، خرجت شركة ناشئة في ميامي تُدعى Subquadratic من طور التخفّي بتمويل قدره 29 مليون دولار وادعاء يهبط كالصاعقة: نموذج بمستوى الصفّ الأول، يُدعى SubQ، لا يدفع الضريبة التربيعية. نافذة سياق بسعة 12 مليون رمز. وتكلفة أقل بنحو 50 مرة من النماذج الرائدة. لو ثبتت صحته، لكان أهم انعطافة معمارية منذ ظهور المحوّل نفسه عام 2017.

سواء صمد SubQ أمام التدقيق المستقل أم لا، فإن الاتجاه الذي يشير إليه مهم لكل من يبني منتجات ذكاء اصطناعي. يشرح هذا الدليل المشكلة التربيعية بلغة بسيطة، وما الذي تغيّره البنى دون التربيعية فعلياً، وكيف تفكّر في هذا التحول دون أن تراهن بخارطة طريقك على معيار شركة ناشئة واحدة.

الجدار التربيعي بكل بساطة

الانتباه هو الآلية التي تتيح للنموذج تحديد الكلمات السابقة المهمة عند التنبؤ بالكلمة التالية. في المحوّل القياسي، يُحسب الانتباه بين كل زوج من الرموز. ولتسلسل بطول N، يعني ذلك نحو N ضرب N من العمليات.

تصبح الأرقام قاسية بسرعة. فالانتقال من 1000 إلى 10000 رمز يعني زيادة في الطول بمقدار 10 أضعاف، لكنه زيادة في حساب الانتباه بمقدار 100 ضعف. وإذا اتجهت نحو مليون رمز، تصبح كلفة الذاكرة والتأخير هي النفقة المهيمنة على تشغيل النموذج. لهذا تأتي معظم ادعاءات «السياق الطويل» بحاشية دقيقة: النافذة موجودة، لكن ملأها بطيء ومكلف، وكثيراً ما تتدهور الدقة في منتصف المدخلات الطويلة جداً.

كل حل بديل تستخدمه حالياً هو استجابة لهذا الجدار. تقطيع المستندات، والاسترجاع المعتمد على التضمين، وسلاسل التلخيص، والنوافذ المنزلقة: كلها طرق ذكية لتجنّب إطعام النموذج كمّاً مفرطاً دفعة واحدة.

ماذا يعني «دون التربيعي» فعلاً

تغيّر البنية دون التربيعية الطريقة التي ينمو بها الحساب مع الطول. فبدلاً من التوسّع بمقدار N ضرب N، يتوسّع العمل بصورة أقرب إلى N، أو N ضرب لوغاريتم N. الوعد العملي بسيط: عشرة أضعاف من السياق ينبغي أن تكلّف ما يقارب عشرة أضعاف، لا مئة ضعف.

ليست هناك وصفة واحدة. يشمل المشهد البحثي عام 2026 عدة عائلات:

نماذج فضاء الحالة مثل Mamba، التي تضغط التاريخ في حالة جارية ثابتة الحجم بكلفة خطية. سريعة وخفيفة على الذاكرة، لكنها تاريخياً أضعف في استخراج معلومة دقيقة من موضع عشوائي.
متغيرات الانتباه الخطي مثل RWKV وGated Linear Attention وDelta Networks، التي تعيد صياغة الانتباه بحيث لا يبني المصفوفة الزوجية الكاملة أبداً.
النماذج الهجينة التي تمزج بضع طبقات انتباه دقيق مع كثير من الطبقات التكرارية الرخيصة، موازِنةً بين الاستدعاء الدقيق والكفاءة.
أساليب الاختيار المتفرّق، وهو المعسكر الذي ينتمي إليه SubQ.

تستخدم آلية SubQ، التي يسمّيها الانتباه المتفرّق دون التربيعي، اختياراً معتمداً على المحتوى. فبدلاً من مقارنة رمز الاستعلام بكل المواضع، يختار النموذج أولاً المواضع المهمة فعلاً، ثم يحسب الانتباه الدقيق على تلك القائمة المختصرة فقط. تفيد الشركة بأن حساب الانتباه ينخفض بنحو 1000 ضعف مقارنة بالمحوّل القياسي عند 12 مليون رمز، وأنه أسرع بنحو 52 ضعفاً من FlashAttention عند مليون رمز.

والخيار التصميمي اللافت أن هذا ليس ضغطاً صرفاً. فبالإبقاء على الانتباه الدقيق فوق المواضع المختارة، يحاول النهج الحفاظ على الاسترجاع الدقيق الذي تتعثّر فيه نماذج فضاء الحالة، مع تخطّي الغالبية العظمى من المقارنات غير ذات الصلة.

لماذا يتفوّق السياق الطويل على الاسترجاع في بعض المهام

إذا استطاع نموذج أن يحتفظ بـ12 مليون رمز برخص، يصبح كثير من البنية الحالية اختيارياً. تأمّل ما يغطّيه هذا المدى: قاعدة شيفرة كاملة، أو سنوات من سجل دعم عميل، أو حزمة عقود كاملة، أو ربعاً كاملاً من الوثائق الداخلية، كلها داخل الموجّه دفعة واحدة.

الميزة على التوليد المعزّز بالاسترجاع هي أن لا شيء يُقطّع مسبقاً ولا شيء يضيع عند الحدود. فالاسترجاع لا يُظهِر إلا ما يصادف أن يرتّبه بحث التشابه عالياً. أما النموذج الذي يستدلّ على المتن كاملاً فيستطيع ربط بند في الصفحة 3 بحاشية في الصفحة 900 دون أن يضطر أحد إلى توقّع تلك الصلة. ولمهام مثل التدقيق المتقاطع للمستندات القانونية، أو مراجعة السجلات الضخمة، أو الاستدلال عبر قاعدة شيفرة متشعّبة، يمثّل ذلك فرقاً حقيقياً في القدرة، لا مجرد توفير في الكلفة.

هذا لا يقتل الاسترجاع. فلقواعد المعرفة المقاسة بمليارات الرموز، تظل بحاجة إلى طبقة استرجاع لتضييق النطاق. لكن خطّ الفصل يتحرك. فأحمال العمل التي احتاجت بالأمس إلى قاعدة بيانات متجهة وسلسلة تقطيع قد تتّسع غداً ضمن نافذة سياق واحدة.

قائمة المتشكّك

انقسم مجتمع الذكاء الاصطناعي خلال ساعات من إعلان SubQ، والتشكيك صحّي. فللادعاءات المعمارية تاريخ طويل في الظهور مبهرةً في منشور الإطلاق وعاديةً تحت الاختبار المستقل. قبل أن تعيد التخطيط لأي شيء، وازِن هذه النقاط:

المعايير المستقلة. رقم دقة بنسبة 92 بالمئة لا يعني الكثير حتى يعيد أحد من خارج الشركة إنتاجه على اختبارات عامة خالية من التلوّث. اسأل تحديداً عن الاسترجاع في العمق، لا عن المعدلات وحدها.
الاستدعاء عند الأطراف. كثير من البنى الكفؤة ممتازة عند 100 ألف رمز وتنهار بهدوء عند 10 ملايين. اطلب نتائج «إبرة في كومة قش» عبر النافذة المعلنة بكاملها.
الجودة لا السرعة فقط. الكلفة الأقل سهلة إذا انخفضت الجودة. السؤال الحقيقي هو هل تضاهي النماذج دون التربيعية استدلال المحوّل، لا هل هي أسرع.
نضج المنظومة. للمحولات سنوات من الأدوات ووصفات الضبط الدقيق وبنية الخدمة. أما البنية الجديدة فتبدأ هذه الرحلة من الصفر.

الموقف الصادق هو أن الانتباه دون التربيعي من أكثر اتجاهات البحث وعداً منذ سنوات، وأن إطلاق منتج واحد لا يحسم الأمر. تعامل مع SubQ كإشارة إلى وجهة الميدان، لا كأداة جاهزة تنتقل إليها هذا الربع.

ماذا يعني هذا لأعمالك

لست بحاجة إلى تبنّي بنية تجريبية لتستفيد من هذا التحول. الخطوات العملية تدور حول البقاء مرناً:

جرّد طبقة النموذج. إذا كان تطبيقك يتحدث إلى النموذج عبر بوابة أو واجهة رقيقة بدل استدعاءات مثبّتة في الشيفرة، يصبح استبدال نموذج سياق طويل أرخص لاحقاً تغييراً في الإعداد لا إعادة كتابة.
أعِد النظر في مشكلات تخلّيت عنها لأسباب الكلفة. رُفّت بعض الاستخدامات لأن تغذية ما يكفي من السياق كانت باهظة. احتفظ بقائمة. وكلما رخص السياق، صارت تلك القائمة مخزوناً من ميزات صارت ممكنة من جديد.
لا تُفرِط في هندسة الاسترجاع قبل الأوان. إذا كان متنك يتّسع أصلاً بأريحية في نوافذ السياق الطويل الحالية، فقد تكون سلسلة تقطيع وإعادة ترتيب معقّدة حلاً لمشكلة لا تملكها بعد.
راقب الكلفة لكل رمز مفيد، لا حجم النافذة المعلن. نافذة 12 مليون رمز لا قيمة لها إلا إذا كان استخدامها ميسوراً ودقيقاً. قِس ثمن السياق الذي تستهلكه فعلاً.

الخلاصة

شكّلت التكلفة التربيعية للمحوّل بهدوء كل قرار في منتجات الذكاء الاصطناعي لسنوات، من سبب تقطيعنا للمستندات إلى كلفة الموجّه الطويل. وتهدف البنى دون التربيعية، سواء SubQ تحديداً أو أحد منافسيه، إلى إزالة هذا القيد، ونافذة 12 مليون رمز تغيّر ما يستحق المحاولة.

الموقف الصائب هو صبر مستنير. ابنِ أنظمة تستطيع تبنّي نموذج أفضل حين يثبت جدارته، واحتفظ بمخزون من الأفكار النهِمة للسياق جاهزاً، واحكم على الموجة الجديدة بالأدلة المستقلة لا بأرقام يوم الإطلاق. ظلّ الجدار التربيعي يحدّد سقف الذكاء الاصطناعي العملي تسع سنوات. وها هو يُختبر أخيراً، وذلك جدير بالمتابعة عن كثب.

في نقطة، نساعد الشركات على هندسة أنظمة ذكاء اصطناعي تبقى قابلة للتكيّف مع تطوّر النماذج الأساسية. إذا أردت البناء على أساس يصمد أمام الانعطافة المعمارية التالية، لنتحدّث.