اختبار الوكلاء الأخير: لماذا يفشل وكلاء الذكاء الاصطناعي في العمل الحقيقي؟

"وكلاء الذكاء الاصطناعي سيكونون جاهزين للوظائف بحلول 2027." سمعتَ نسخة من هذا الادعاء طوال العام — من منصات المؤتمرات، وإعلانات التمويل، ولوحات المعايير التي تسجل فيها النماذج الرائدة نتائج تفوق البشر. هذا الأسبوع، وضعت جامعة كاليفورنيا في بيركلي هذا الادعاء على محك الواقع، والنتائج يجب أن تعيد تشكيل طريقة تخطيط كل شركة لاستراتيجيتها مع الوكلاء.

في 11 يونيو 2026، أطلقت مجموعة الباحثة داون سونغ في مختبر Berkeley RDI — الفريق الذي يقف وراء معايير تأسيسية مثل MMLU وMATH وCyberGym — معيار Agents' Last Exam (ALE): معيار مبني ليس على ألغاز برمجية أو أسئلة اختيار من متعدد، بل على عمل حقيقي ذي قيمة اقتصادية جُمع من أكثر من 250 خبيرًا مهنيًا. النتيجة الأبرز: أفضل تكوين لوكيل رائد اجتاز نحو 26 بالمئة من المهام إجمالًا، وفي المستوى الأصعب سجلت عدة تكوينات رائدة — بما فيها تلك التي تعمل بنموذج Claude Opus 4.8 وGemini CLI — صفرًا بالمئة بالضبط.

عصر الوكلاء المفيدين قد بدأ. أما عصر الوكلاء الجاهزين للوظائف فلم يبدأ بعد. وفهم الفجوة بين العبارتين أصبح اليوم مهارة تنافسية.

ما الذي يميز ALE عن غيره؟

معظم معايير الوكلاء تقيس مؤشرات بديلة: حلّ هذه المشكلة على GitHub، تنقّل في هذا الموقع الاصطناعي، أجب عن هذا السؤال. أما ALE فيقيس المخرجات النهائية. كل مهمة بدأت كمشروع حقيقي أنجزه محترف فعلًا، ثم حُوّلت إلى اختبار قابل لإعادة الإنتاج يُقيَّم برمجيًا.

التصميم والنطاق غير مألوفين:

1,490 مهمة تغطي 55 تخصصًا مهنيًا مجمعة في 13 قطاعًا صناعيًا، مرتبطة بالتصنيف المهني الأمريكي O*NET — الهندسة، المالية، الرعاية الصحية، القانون، التصميم ثلاثي الأبعاد والرسوم المتحركة وغيرها
المهام تعمل على أجهزة حقيقية أو افتراضية ببرمجيات مهنية فعلية: Siemens NX للتصميم الهندسي، وUnreal Engine لإعداد المشاهد، وAdobe After Effects للمؤثرات البصرية، وFSLeyes للتصوير العصبي
التقييم حتمي كلما أمكن — قيم دقيقة، وهوامش رقمية، ومسافات هندسية، وحالة بيئة سلوكية — وليس "أي إجابة تبدو أفضل" بحكم نموذج لغوي آخر
نحو 10 بالمئة من المهام علنية؛ وأكثر من 1,000 مهمة تبقى خاصة وتتجدد دوريًا، ما يجعله معيارًا حيًا متجددًا محصنًا ضد تلوث بيانات التدريب

المصداقية عنصر أساسي هنا. قبل شهرين من إطلاق ALE، نشر المختبر نفسه ورقة بحثية أثبت فيها إمكانية التلاعب بثمانية من أشهر معايير الوكلاء — SWE-bench وWebArena وOSWorld وGAIA وTerminal-Bench — لتحقيق نتائج شبه مثالية دون حل مهمة حقيقية واحدة. عندما يبني مَن كسروا المعايير معيارًا جديدًا، فالأرقام تستحق الانتباه.

الأرقام: واقع صادم على كل المستويات

يقسّم ALE التقييم إلى ثلاثة مستويات، والانحدار حاد:

المستوى القريب (المهام الأقرب لقدرات اليوم): أفضل الوكلاء يجتازون ما بين 30 و42 بالمئة
المستوى الشامل (مهمة واحدة لكل تخصص من التخصصات الـ55): أفضل التكوينات تقترب من 20 بالمئة
مستوى الاختبار الأخير (أصعب مسارات العمل طويلة المدى): أفضل نتيجة كانت أقل من 10 بالمئة، ومعظم التكوينات الرائدة سجلت صفرًا بالمئة

وفق الورقة البحثية، أقوى تكوين إجمالًا — Codex مع GPT-5.5 — اجتاز 26.2 بالمئة من المهام. أما Claude Fable 5، الذي صدر قبل أيام فقط بنتيجة 93.9 بالمئة على SWE-bench، فحلّ قرب 22 بالمئة. هذا التباين هو القصة كاملة: وكيل يحل أكثر من تسع من كل عشر مشكلات برمجية منسقة، لا ينجز سوى واحدة من كل خمس مهام مهنية حقيقية.

والمقارنة الأكثر دلالة داخلية: على مجموعة ALE الفرعية الخاصة بسطر الأوامر على لينكس، نفس تكوين Codex وGPT-5.5 الذي يسجل 82 بالمئة على Terminal-Bench يهبط إلى نحو 26 بالمئة. نفس النموذج، نفس الإطار، نفس الطرفية — الفرق الوحيد أن مهام ALE عمل حقيقي وليست مهام مفصلة على مقاس المعايير.

لماذا يفشل الوكلاء: الاستراتيجية لا البرمجة

تحليل الفشل في ALE هو الجزء الأكثر قابلية للتطبيق:

47 بالمئة من الإخفاقات سببها اختيار استراتيجية خاطئة أو الاستسلام مبكرًا
31 بالمئة سببها نقص المعرفة المتخصصة بالمجال
22 بالمئة سببها أخطاء تنفيذ وتنسيق

بعبارة أخرى، نحو ثلاثة أرباع الإخفاقات مشكلات فهم ومنهجية، وليست مشكلات برمجة. لم يعد عنق الزجاجة "هل يستطيع النموذج كتابة السكربت" بل "هل يعرف الوكيل ما الذي يتطلبه فعلًا تقرير سريري أو اعتماد تصميم شريحة إلكترونية".

نتيجتان إضافيتان تستحقان مكانًا في كل نقاش عن النشر:

الوكلاء يتجنبون الواجهات الرسومية. نحو 34 بالمئة من مهام ALE تتطلب برمجيات رسومية كأداة أساسية، لكن الوكلاء يحاولون الالتفاف عبر سطر الأوامر — ويفشلون. معظم العمل المهني الحقيقي يجري داخل تطبيقات سطح المكتب، والوكلاء الحاليون شبه عاجزين هناك.

الوكلاء يعلنون انتصارات زائفة. كثير من المحاولات الفاشلة انتهت بإعلان الوكيل "تم. كل الفحوصات ناجحة" بينما المخرَج النهائي خاطئ. الثقة ليست دليلًا على الصحة — درس دفع ثمنه كل من نشر وكلاء في بيئة إنتاج.

الإطار أم النموذج: أين تكمن الرافعة؟

لفرق بناء الأنظمة الوكيلية، يقدم ALE إشارة أولويات واضحة. عند مقارنة أطر عمل جيدة الهندسة تشغّل النموذج نفسه، كانت الفجوة بين الأفضل والأسوأ نحو 4.9 نقطة مئوية. أما اختيار النموذج فأحدث تباينًا في الأداء يعادل ثلاثة أضعاف تأثير الإطار تقريبًا.

والإنفاق على التوكنز لم يشترِ شيئًا تقريبًا: أحد التكوينات استهلك 160 مليون توكن ليبلغ 39.6 بالمئة على مجموعة فرعية، بينما أنفق آخر 1,373 مليون توكن — أكثر من ثمانية أضعاف الكلفة — مقابل 40.5 بالمئة. إن كنت تضبط منظومة وكلاء، فحسّن النموذج وتعريف المهمة قبل أن تضبط حلقة التنفيذ. غطينا الجانب الهندسي لهذه المقايضة في دليلنا حول هندسة أطر تشغيل وكلاء الذكاء الاصطناعي.

ماذا يعني هذا لشركتك؟

من السهل إساءة قراءة ALE على أنها "الوكلاء لا يعملون". هذا استنتاج خاطئ. اجتياز 26 بالمئة من مهام يحتاج الخبراء البشر أيامًا إلى أسابيع لإنجازها إنجازٌ مذهل فعلًا — كانت هذه الأرقام قرب الصفر قبل عامين. القراءة الصحيحة أدق: الوكلاء أقوياء في نطاق ضيق وغير موثوقين خارجه، والحدود أصبحت اليوم قابلة للقياس.

للشركات في تونس والسعودية وعموم منطقة الشرق الأوسط وشمال أفريقيا — حيث تراهن الفرق الصغيرة على الوكلاء كمضاعف للقوة — يُترجم ALE إلى أربع قواعد عملية:

انشر الوكلاء على المهام القريبة المدى. مهام محددة بدقة، رقمية بطبيعتها، قابلة للتحقق: ترحيل الشيفرة، تحويل البيانات، توليد التقارير، البحث المنظم. هناك تدفع نسب نجاح 30 إلى 42 بالمئة — المتحسنة شهريًا — تكلفتها وزيادة.
أبقِ البشر على قرارات المنهجية. بما أن نصف الإخفاقات تقريبًا سببها استراتيجية خاطئة، دع الوكيل ينفذ بينما يملك الإنسان الخطة. وهذا الدرس نفسه من تحليلنا حول لماذا تفشل مشاريع الوكلاء دون تصميم يُبقي الإنسان في الحلقة.
لا تثق أبدًا بالنجاح المعلَن ذاتيًا. ابنِ تحققًا مستقلًا — اختبارات، بصمات تحقق، معايير تقييم، وكيل مراجع ثانٍ — في كل مسار عمل. قول الوكيل "تم" هو بداية ضمان الجودة لا نهايته. دليلنا حول تقييم الوكلاء في بيئة الإنتاج يغطي الأدوات.
راجع الاعتماد على الواجهات الرسومية. إذا كان مسار العمل يمر عبر برمجيات سطح المكتب — أنظمة محاسبة، تصميم هندسي، أدوات تصميم — فافترض أن الوكلاء لا يستطيعون أتمتته بعد، وابحث عن بدائل تعتمد واجهات برمجية أولًا قبل أن تعد بالأتمتة.

بوصلة أصدق

لن يبقى ALE ثابتًا. مجموعة المهام تنمو، والمهام الخاصة تتجدد، وكل تشغيل على لوحة النتائج يُفصح عن الإطار والنموذج واستهلاك التوكنز والتكلفة — ما يجعل الادعاءات قابلة لإعادة الإنتاج في مجال يحتاج ذلك بشدة. والتأطير الذي اختاره المعيار لنفسه هو الصحيح: تتبع التقدم نحو أثر على مستوى الناتج المحلي الإجمالي، لا نحو أمجاد لوحات النتائج.

سيواصل المزوّدون نشر أرقام قياسية على معايير مشبعة. أما ALE فيمنح بقيتنا مقياسًا أصدق — وخريطة دقيقة لمواضع كسب قيمة الوكلاء في العامين المقبلين. الشركات التي ستزدهر ليست تلك التي تنتظر نسبة 100 بالمئة، بل تلك التي تعلمت أن تربح من 26 بالمئة بينما ينشغل الآخرون بالجدل حول الضجيج.

المصادر: ورقة Agents' Last Exam على arXiv، ALE على GitHub، إعلان داون سونغ، تغطية VentureBeat.