أنثروبيك تطلق Claude Opus 4.7 بعلامة قياسية 64.3٪ على اختبار SWE-bench Pro

أصدرت شركة أنثروبيك نموذج Claude Opus 4.7 يوم 16 أبريل، مستعيدةً بفارق ضئيل صدارة أقوى نموذج لغوي كبير متاح بشكل عام، وذلك بفضل قفزة قدرها 10.9 نقطة على معيار SWE-bench Pro للبرمجة. يأتي الإصدار الجديد بعد أيام قليلة من تحديث كل من xAI وOpenAI وGoogle لنماذجها الرائدة، وفي خضم تحول صناعي أوسع نحو أحمال العمل البرمجية الوكيلة.

أبرز النقاط

ارتفاع نتيجة SWE-bench Pro من 53.4٪ على Opus 4.6 إلى 64.3٪ على Opus 4.7.
صعود SWE-bench Verified من 80.8٪ إلى 87.6٪، وتسجيل 69.4٪ على Terminal-Bench 2.0.
تؤكد أنثروبيك أن نسبة حل المهام الإنتاجية تضاعفت نحو ثلاث مرات على تقييم Rakuten SWE-bench.
ثبات السعر عند 5 دولارات لكل مليون رمز إدخال و25 دولارًا لكل مليون رمز إخراج.
قفز إدخال الرؤية من 1.15 ميغابكسل إلى 3.75 ميغابكسل، ما يتيح معالجة لقطات الشاشة والتصاميم الكثيفة بدقة كاملة.
مستوى جهد جديد باسم "xhigh" بين العاليين high وmax، بالإضافة إلى أمر /ultrareview في بيئة Claude Code يحاكي مراجعًا بشريًا رفيع المستوى.

التفاصيل

يتوفر النموذج من اليوم الأول على منصات Amazon Bedrock وGoogle Cloud Vertex AI وMicrosoft Foundry، بنفس خطة النشر التي اعتمدتها أنثروبيك مع Opus 4.6. ووفقًا لمنصة التقييم المستقلة LayerLens، قفز الأداء أيضًا على اختبار Humanity's Last Exam من 18.6٪ على Opus 4.6 إلى 30.8٪ على Opus 4.7، أي زيادة قدرها 12.2 نقطة على أحد أصعب المعايير المقاومة للتلوث في الإنتاج.

يستهدف التحديث البرمجة الوكيلة بشكل مباشر. تُبرز أنثروبيك أن النموذج يتعامل مع المهام طويلة الأمد بصرامة أكبر، ويتبع التعليمات بدقة أعلى، ويتحقق من مخرجاته قبل الإبلاغ بها. وفي بيئة Claude Code، يتجاوز الأمر الجديد /ultrareview مجرد فحص التركيب البرمجي ليرصد العيوب التصميمية الدقيقة والثغرات المنطقية، ما يضع الميزة في مواجهة مباشرة مع تدفقات المراجعة متعددة الوكلاء التي أطلقتها OpenAI Codex وGitHub Copilot.

تحفظ Mythos

تعترف بطاقة النظام الرسمية الصادرة عن أنثروبيك بأن Opus 4.7 لا يدفع حدود القدرات إلى الأمام. ويبقى هذا اللقب حكرًا على نموذج Mythos الذي تختبره الشركة مع مجموعة محدودة من الشركاء تشمل بحسب التقارير Nvidia وJPMorgan Chase وGoogle وApple وMicrosoft. ويدفع المطورون الذين يبنون على واجهة البرمجة العامة السعر نفسه مقابل ما تصفه أنثروبيك بالنسخة من الطبقة الثانية.

رصد المراجعون المستقلون مقايضات إضافية غفل عنها الإعلان الرسمي. فبحسب مختبر TechLint Lab، تراجع أداء السياق الطويل على معيار MRCR v2 عند مليون رمز من 78.3٪ على Opus 4.6 إلى 32.2٪ على Opus 4.7، أي انخفاض بـ 46 نقطة موثق في بطاقة النظام لكنه غائب عن مدونة الإطلاق. كما يحول المُرمِّز الجديد النص ذاته إلى رموز أكثر بمعدل يتراوح بين 1.0 و1.35 مرة حسب نوع المحتوى، وهو ما تقدّر شركة التحليلات Finout أنه قد يرفع التكلفة الشهرية بنحو 35٪ على أحمال العمل ذاتها رغم ثبات السعر لكل رمز.

الأثر

بالنسبة لفرق البرمجة الوكيلة، يمثل Opus 4.7 ترقية فورية. فالقفزة على SWE-bench Pro من بين أكبر المكاسب في إصدار واحد شهدتها الصناعة هذا العام، ويشير ادعاء Rakuten للإنتاج — ثلاثة أضعاف المهام المحلولة — إلى أن مساعدي البرمجة في العالم الواقعي سيرون تحسينات ملموسة في الموثوقية على المهام الصعبة. يمكن للفرق التي تستخدم Claude Code بالفعل تجربة الأمر الجديد /ultrareview على طلبات السحب الحالية دون أي عمل ترحيل.

أما الفرق التي تدير خطوط استرجاع سياق طويل أو إجابات متعددة اللغات أو وكلاء طرفية مكثفة، فقد ترغب في التريث أو توجيه تلك الأحمال إلى نماذج أخرى. فلا يزال GPT-5.4 يتصدر البحث الوكيل بنسبة 89.3٪ مقابل 79.3٪ لـ Opus 4.7، ويُعد تراجع الـ 46 نقطة على MRCR v2 عند مليون رمز أمرًا بالغ الأهمية لأي فريق يمرر قاعدة الشفرات كاملة أو نصوصًا طويلة في موجّه واحد.

الخلفية

يعد Opus 4.7 الإصدار النقطي الرابع في خط 4.x من أنثروبيك، بعد Opus 4.5 أواخر 2025 وOpus 4.6 مطلع 2026 وإطلاق Sonnet 5 في وقت سابق من هذا الربيع. وتُبرز هذه الوتيرة مدى سرعة تكرار المختبرات الرائدة لنماذجها: فقد ظهر Grok 4.3 من xAI على قوائم الاشتراك المدفوع هذا الأسبوع، وأطلقت OpenAI نموذج GPT-5.4 قبل أيام بميزة استخدام الحاسوب وسياق يصل إلى 4 ملايين رمز، كما بلغ نموذج GLM-5.1 مفتوح المصدر من Zhipu نسبة 58.4٪ على SWE-bench Pro قبل عشرة أيام فقط من رفع Opus 4.7 السقف إلى 64.3٪.

جمعت أنثروبيك 30 مليار دولار في جولة تمويل من الفئة G بتقييم قدره 380 مليار دولار مطلع هذا العام، ما يمنح الشركة المجال المالي لمواصلة الإصدار بهذه الوتيرة مع الإبقاء على نماذج فئة Mythos للشركاء الاستراتيجيين.

ما التالي

لم تعلن أنثروبيك عن جدول زمني عام لإتاحة Mythos للجميع، لكن النمط المتبع مع Opus 4.6 يشير إلى إمكانية وصول إصدار نقطي 4.8 أو Sonnet 5.1 خلال أربعة إلى ثمانية أسابيع. ومن المتوقع أن تستهدف التحديثات القادمة المجالات التي فقد فيها Opus 4.7 نقاطًا: استرجاع السياق الطويل، والإجابة متعددة اللغات، والبرمجة عبر الطرفية. ويُنصح المطورون الذين يفكرون في الترحيل من Opus 4.6 ببدء التجربة على أحمال العمل البرمجية الوكيلة أولًا، ثم قياس أعداد الرموز بعناية قبل التوسع على نطاق أوسع.

المصدر: VentureBeat — أنثروبيك تطلق Claude Opus 4.7