تقنية التقطير الذاتي من آبل تحسّن توليد الكود بنسبة 30%

ماذا لو كان مفتاح تحسين قدرة الذكاء الاصطناعي على كتابة الكود ليس نموذجًا أكبر أو معلّمًا أذكى أو خط أنابيب تعلم معزز معقد، بل ببساطة ترك النموذج يتدرب على مخرجاته الخاصة؟ هذا بالضبط ما أثبته فريق أبحاث آبل، والنتائج تثير اهتمام مجتمع الذكاء الاصطناعي بأكمله.

الورقة البحثية التي فاجأت الجميع

في الأول من أبريل 2026، نشر باحثو آبل ورقة بعنوان التقطير الذاتي البسيط بشكل محرج يحسّن توليد الكود. العنوان ليس مبالغة. التقنية المسماة التقطير الذاتي البسيط (SSD) بسيطة فعلاً، لكنها تحقق تحسينات ضخمة في معايير تقييم البرمجة.

فريق البحث بقيادة Ruixiang Zhang مع Richard He Bai وHuangjie Zheng وNavdeep Jaitly وRonan Collobert وYizhe Zhang، أظهر أن النموذج يمكنه تحسين قدراته في توليد الكود بشكل كبير دون أي مساعدة خارجية.

كيف تعمل تقنية SSD

الطريقة تتكون من ثلاث خطوات:

أخذ العينات: توليد حلول برمجية من النموذج باستخدام إعدادات درجة حرارة واقتطاع محددة (وليس الفك الترميز الجشع).
الجمع: تجميع تلك المخرجات دون تصفية للصحة. لا مدقق، لا تنفيذ اختبارات، لا نموذج مكافآت.
الضبط الدقيق: تشغيل الضبط الدقيق المُشرف القياسي (SFT) على العينات المجمّعة.

هذا كل شيء. لا نموذج معلّم. لا تعلم معزز. لا تغذية راجعة بشرية. لا بيئة تنفيذ كود. النموذج حرفيًا يعلّم نفسه بالممارسة.

ما لا تحتاجه

هذا ما يجعل SSD مميزة. التقنية لا تتطلب أيًا مما يلي:

نموذج معلّم أقوى للتعلم منه
مدقق أو فاحص صحة
التعلم المعزز من التغذية الراجعة البشرية (RLHF)
بيئة تنفيذ كود معزولة
تسميات خارجية أو إشارات مكافأة

خط الأنابيب بالكامل يستخدم فقط مخرجات النموذج نفسه والضبط الدقيق القياسي.

نتائج يصعب تجاهلها

الرقم الرئيسي: تحسّن Qwen3-30B-Instruct من 42.4% إلى 55.3% في pass@1 على LiveCodeBench v6. هذا تحسّن نسبي يقارب 30%، تم تحقيقه بهذه الطريقة البسيطة بشكل محرج.

لكن المكاسب أعمق من ذلك:

المسائل الصعبة استفادت أكثر: قفز pass@5 في المسائل الصعبة من 31.1% إلى 54.1%
تعمل عبر عائلات النماذج: استمرت التحسينات في عائلتي Qwen وLlama
تتوسع عبر الأحجام: تم اختبارها بنجاح على نماذج بحجم 4 و8 و30 مليار معامل
تعمل على جميع المتغيرات: تحسنت كل من النماذج المضبوطة للتعليمات ونماذج التفكير والاستدلال

ربما الاكتشاف الأكثر إثارة للدهشة: حتى عند أخذ العينات بدرجات حرارة عالية أنتجت مخرجات غير مترابطة إلى حد كبير (62% هراء عند درجة حرارة 2.0)، لا يزال النموذج يتحسن بعد التدريب عليها.

لماذا تعمل؟ إطار التفرع والقفل

تتبّع الباحثون المكاسب إلى ما يسمونه صراع الدقة والاستكشاف في طريقة فك ترميز النماذج اللغوية.

فكّر في توليد الكود كالتنقل في شجرة قرارات. عند كل رمز، يواجه النموذج نوعين من المواقف:

مواقف القفل: حيث يقيّد بناء الجملة أو المنطق الرمز التالي بشدة. بعد for i in range(، يجب أن ينتج النموذج رقمًا أو متغيرًا بثقة عالية.
مواقف التفرع: حيث توجد عدة مقاربات صالحة. الاختيار بين حل تكراري أو تكراري، أو اختيار خوارزمية على أخرى.

فك الترميز الجشع القياسي يجبر النموذج على اختيار الرمز الأعلى احتمالية دائمًا. هذا يعمل جيدًا في مواقف القفل لكن بشكل سيء في مواقف التفرع، حيث يحتاج النموذج لاستكشاف مسارات صالحة مختلفة.

تعيد SSD تشكيل توزيعات الرموز الداخلية للنموذج بطريقة تعتمد على السياق:

في مواقف القفل، تقمع الرموز المشتتة، مما يجعل النموذج أكثر دقة
في مواقف التفرع، تحافظ على التنوع، مما يتيح للنموذج استكشاف بدائل صالحة

النتيجة نموذج أكثر دقة حيث يحتاج الدقة وأكثر إبداعًا حيث يفيد الإبداع.

ماذا يقول المجتمع التقني

اكتسبت الورقة زخمًا سريعًا على Hacker News بمئات التصويتات، وكشف النقاش عن عدة وجهات نظر مثيرة.

رسم بعض المطورين أوجه تشابه مع تعزيز الذاكرة أثناء النوم في علم الأعصاب. أثناء النوم، يعيد الدماغ تشغيل التجارب بأشكال مشوّشة أو معاد تركيبها، وهذه العملية تقوّي المسارات العصبية المهمة وتزيل الضعيفة. قد تفعل SSD شيئًا مشابهًا.

أشار آخرون إلى تبعة عملية: جودة مجموعة الاختبارات تصبح بنية تحتية للتدريب. إذا دمجت SSD مع تنفيذ الاختبارات، فإن تغطية اختباراتك تحدد مباشرة مدى جودة نموذجك المضبوط.

التداعيات على المطورين والفرق

1. الضبط الدقيق أصبح أكثر سهولة

تزيل SSD الأجزاء الأكثر تكلفة من التدريب اللاحق: نمذجة المكافآت وخطوط أنابيب RLHF وتقطير نموذج المعلّم. أي فريق لديه نموذج أساسي وموارد حوسبة يمكنه الآن تحسين نموذج البرمجة الخاص به بشكل ملحوظ.

2. اختباراتك أكثر قيمة مما تظن

إذا عملت SSD بشكل أفضل مع تصفية الاختبارات، فإن الاستثمار في مجموعات اختبار شاملة له عائد مزدوج: جودة برمجيات أفضل اليوم وتدريب نماذج ذكاء اصطناعي أفضل غدًا.

3. النماذج الصغيرة يمكنها منافسة الكبيرة

عملت التقنية على نماذج صغيرة بحجم 4 مليارات معامل. للفرق التي تشغّل مساعدي برمجة ذكاء اصطناعي محليين أو على الحافة، هذا يعني توليد كود أفضل بشكل ملموس من نماذج مدمجة دون الحاجة لبنية تحتية ضخمة.

4. اتجاه البساطة مستمر

تنضم هذه الورقة لنمط متزايد في أبحاث الذكاء الاصطناعي حيث تأتي النتائج الأكثر تأثيرًا من أبسط المقاربات.

نظرة للمستقبل

أصدرت آبل الكود لإعادة إنتاج نتائجهم على GitHub تحت apple/ml-ssd، مما يجعل هذا قابلاً للتطبيق فورًا للباحثين والممارسين.

الصورة الأكبر مقنعة: قد ندخل حقبة تستطيع فيها نماذج الذكاء الاصطناعي تحسين نفسها من خلال الممارسة وحدها، تمامًا كالمبرمج الذي يتحسن بكتابة المزيد من الكود، حتى دون تغذية راجعة خارجية على كل سطر.

بالنسبة لمنظومة أدوات البرمجة بالذكاء الاصطناعي، تمثل SSD تقنية وفلسفة في آن واحد. أحيانًا أفضل طريقة لجعل النموذج أذكى ليست إضافة المزيد من التعقيد، بل تركه يتعلم من تجربته الخاصة.

الورقة الكاملة "التقطير الذاتي البسيط بشكل محرج يحسّن توليد الكود" بقلم Ruixiang Zhang وآخرون متاحة على arXiv (2604.01193).