معيار SWE-CI الجديد يكشف أن 75% من وكلاء البرمجة بالذكاء الاصطناعي يُعطّلون الكود العامل مع مرور الوقت

معيار تقييم جديد من باحثي علي بابا يتحدى الرواية السائدة بأن وكلاء البرمجة بالذكاء الاصطناعي جاهزون لاستبدال المطورين البشريين. نُشر SWE-CI في 4 مارس 2026، وهو أول إطار تقييم يختبر الوكلاء الذكية على ما يقضي فيه مهندسو البرمجيات معظم وقتهم فعلياً: صيانة وتطوير قواعد الكود الموجودة عبر سير عمل التكامل المستمر.

النتائج مثيرة للقلق. 75% من النماذج المُختبرة تُعطّل كوداً كان يعمل بشكل سليم أثناء مهام الصيانة طويلة المدى — حتى عندما تنتج في البداية تصحيحات تجتاز جميع الاختبارات.

ما الذي يميّز SWE-CI

معظم المعايير الحالية مثل SWE-bench تُقيّم الوكلاء على مهام منفصلة: إصلاح هذا الخلل، تنفيذ هذه الميزة، اجتياز هذه الاختبارات. يتبنى SWE-CI نهجاً مختلفاً جذرياً من خلال محاكاة دورة الحياة الكاملة لمشاريع البرمجيات الحقيقية.

كل مهمة من المهام الـ 100 في المعيار تتوافق مع تاريخ تطور مستودع Python حقيقي، يمتد بمتوسط 233 يوماً و71 تعديلاً متتالياً. يجب على الوكلاء العمل عبر عشرات الجولات التكرارية من التحليل والبرمجة — تماماً كمطور حقيقي يصون قاعدة كود إنتاجية.

تم اختيار المعيار من 4,923 مستودعاً مرشحاً، مع تصفية المشاريع التي تتميز بـ:

أكثر من 3 سنوات من الصيانة النشطة
أكثر من 500 نجمة على GitHub
تراخيص مفتوحة المصدر متساهلة
500 سطر كود معدّل على الأقل

النتائج: جرعة من الواقع

اختبر الباحثون 18 نموذجاً من 8 مزودين، بما في ذلك Claude وGPT وDeepSeek وQwen وMiniMax وKimi وGLM-5 وDoubao. كشفت النتائج عن فجوة واضحة:

نماذج Claude Opus كانت الوحيدة التي تجاوزت معدل عدم الانحدار 50% — أي أنها نجحت في تجنب تعطيل الوظائف القائمة أكثر من نصف الوقت
GLM-5 برز كأداء قوي في المرتبة الثانية
جميع النماذج الأخرى سجلت أقل من 25% في معدلات عدم الانحدار

EvoScore: طريقة جديدة لقياس جودة الكود

من أبرز إسهامات SWE-CI مقياس EvoScore، وهو مقياس تقييم جديد يُعاقب التحسين قصير المدى. على عكس مقاييس اجتياز الاختبارات التقليدية، يُعطي EvoScore وزناً أكبر للتكرارات اللاحقة مقارنة بالأولى.

هذا التصميم يكشف نمط فشل شائع: وكلاء تنتج إصلاحات سريعة في البداية لكنها تراكم ديناً تقنياً يسبب فشلاً متتالياً في التعديلات اللاحقة.

لماذا هذا مهم

الفجوة بين أداء المعايير والفائدة الفعلية أصبحت مصدر قلق متزايد في مجال البرمجة بالذكاء الاصطناعي. المطورون الذين يستخدمون أدوات مثل Cursor وClaude Code وDevin يُبلّغون عن نتائج قوية في التطوير من الصفر لكن إحباطاً في مهام الصيانة — العمل الذي يستهلك عادة 60-80% من وقت مهندس البرمجيات.

كما لخص أحد الباحثين: "اجتياز الاختبارات مرة واحدة هو الحد الأدنى. عدم تعطيل كل شيء مع مرور الوقت هو الوظيفة الحقيقية."

تشير نتائج SWE-CI إلى أن صناعة البرمجة بالذكاء الاصطناعي كانت تُحسّن للمقياس الخاطئ. كتابة كود جديد هي الجزء السهل. الجزء الصعب — والذي لا تزال الوكلاء الذكية تقصر فيه — هو صيانة وتطوير قاعدة كود حية دون انحدار عبر أشهر من التطوير المستمر.

ما التالي

المعيار متاح بشكل مفتوح بموجب ترخيص CC BY 4.0، ودعا الباحثون المجتمع لتبني تقييم الصيانة طويلة المدى كممارسة معيارية لأدوات البرمجة بالذكاء الاصطناعي.

للفرق التي تُقيّم مساعدي البرمجة بالذكاء الاصطناعي، يقدم SWE-CI منظوراً أكثر واقعية: ليس ما إذا كان الوكيل يستطيع كتابة الكود، بل ما إذا كان يمكن الوثوق به للحفاظ على عمل الكود مع مرور الوقت.

المصدر: SWE-CI: تقييم قدرات الوكلاء في صيانة قواعد الكود عبر التكامل المستمر

ما الذي يميّز SWE-CI

النتائج: جرعة من الواقع

EvoScore: طريقة جديدة لقياس جودة الكود

لماذا هذا مهم

ما التالي

ناقش مشروعك معنا