طلاب جامعة تورنتو يحرقون نموذج MicroGPT على شريحة FPGA ويحققون 53000 رمز في الثانية بدون GPU

أعلن طالبان في الهندسة في المرحلة الجامعية بجامعة تورنتو، لوثيرا أبييكون وكريش تشاجار، عن مشروع TALOS-V2 مفتوح المصدر، الذي يطبّق نموذج MicroGPT الخاص بأندريه كارباثي بالكامل على أجهزة FPGA. صدر المشروع في الأول من مايو 2026، ويُولّد أكثر من 50000 رمز في الثانية على لوحة Terasic DE1-SoC التي يبلغ سعرها نحو 300 دولار أمريكي، دون أي معالج رسومي، ولا مكتبة PyTorch، ولا حلقة استدلال على المعالج المركزي.

أبرز النقاط

يحرق TALOS-V2 مسار الاستدلال الكامل لنموذج MicroGPT داخل لغة وصف الأجهزة RTL على شريحة Cyclone V، بما في ذلك التضمينات، والانتباه الذاتي، والتطبيع، وطبقة MLP، ورأس النموذج اللغوي، وأخذ عينات الرموز.
قاس الفريق إنتاجية مستقرة بحوالي 53000 رمز في الثانية لتوليد الأسماء على مستوى الحرف، باستخدام ساعة PLL مخصّصة بتردد 56.25 ميغاهرتز.
تم إصدار الكود تحت رخصة مفتوحة المصدر على GitHub، مع هدف معلَن مفاده أن "تصميم المعجلات يصبح أسهل في التعلم عندما تكون الحزمة كاملة مرئية".

التفاصيل

نموذج MicroGPT هو نموذج محوّل تعليمي من نحو 200 سطر، أصدره أندريه كارباثي في وقت سابق من هذا العام، ويحتوي على نحو 4192 معاملاً قابلاً للتدريب، ومفردات رموز بمستوى الحرف الواحد، ومدرَّب على مجموعة بيانات الأسماء الكلاسيكية الخاصة به. يأخذ TALOS-V2 هذه البنية الصغيرة لكن الكاملة، ويترجم كل خطوة إلى مسارات بيانات صريحة بنقطة ثابتة مكتوبة بلغة SystemVerilog.

في صميم التصميم توجد بلاطة matrix-vector ذات 16 مساراً متدفقاً تستخدم حساب Q4.12 ذي النقطة الثابتة. تُستخدَم هذه البلاطة الواحدة بالتناوب الزمني عبر إسقاطات Q وK وV، وطبقات MLP، ورأس النموذج اللغوي، وهذه هي الطريقة التي مكّن بها الفريق الشبكة الكاملة من العمل على شريحة Cyclone V بدرجة تعليمية. تُخزَّن الأوزان في ذاكرة ROM داخل الشريحة بدلاً من جلبها من ذاكرة خارجية، مما يلغي عنق زجاجة عرض النطاق الذي يهيمن عادةً على الاستدلال.

ويشير المؤلفان إلى أن الانتباه كان أصعب جزء في الترجمة. ما هو سطر واحد في PyTorch يصبح خط أنابيب أجهزة من ثماني مراحل: توليد Q وK وV؛ مسح حواصل النقاط؛ تتبّع القيمة العظمى الجارية؛ تقريب الأسي؛ التراكم؛ القسمة؛ مزج القيم؛ ثم الإسقاط للخارج.

التأثير

المشروع صغير من حيث الحجم المطلق، لكن الإثبات يهم. فهو يُظهر أن حلقة استدلال محوّل كاملة يمكن تشغيلها من البداية إلى النهاية كخط أنابيب أجهزة، مع تدفق الرموز داخلاً وخارجاً من الشريحة دون أي برمجيات في المسار. وبالنسبة للذكاء الاصطناعي على الحافة، والروبوتات، وأي سيناريو مدمج حساس للزمن، فهذا دليل مهم.

وقد واجهت القياسات بالفعل اعتراضات. فقد أظهر أليكس تشيما وغيره من المطورين أن جهاز MacBook M4 Max يشغّل كود C الصافي على نواة أداء واحدة يصل إلى أكثر من 3.7 مليون رمز في الثانية على نفس النموذج، بينما يصل M5 Pro إلى نحو 6.7 مليون. من حيث الإنتاجية الخام لكل دولار وكل واط لهذا الحمل الصغير تحديداً، تتفوّق رقائق Apple الحديثة بوضوح.

ولا يجادل مؤلفا TALOS-V2 في ذلك. فعرضهما تربوي ومعماري بدلاً من أن يكون مدفوعاً بالقياس. الهدف هو جعل كل خطوة من خطوات استدلال المحوّل مرئية كذواكر، وعدّادات، وآلات حالة، وجداول بحث، بدلاً من نوى CUDA الغامضة.

الخلفية

الاستدلال على الذكاء الاصطناعي عبر FPGA ليس جديداً على نطاق مراكز البيانات. فقد استخدمت Microsoft شرائح Intel FPGA لاستدلال Bing لسنوات، وتُقدم AWS وAlibaba Cloud وغيرها مثيلات FPGA لمعجلات مخصصة. ما هو غير معتاد هو وجود محوّل مفتوح المصدر بالكامل من البداية إلى النهاية على لوحة تعليمية، مصحوب بـ RTL قابل للقراءة يمكن للطلاب استنساخه وتعديله.

يأتي هذا الإصدار في لحظة تتجادل فيها الصناعة علناً حول ما إذا كان مستقبل الاستدلال هو المزيد من وحدات GPU، أو ASIC مخصصة مثل LPU من Groq وأنظمة Vera Rubin التي أعلنتها Nvidia مؤخراً، أو نسيج قابل لإعادة التهيئة. ويشكل TALOS-V2 نقطة بيانات إضافية تثبت أن مساحة التصميم لا تزال مفتوحة على مصراعيها.

ما القادم

أعلن المؤلفان أنهما يعتزمان إبقاء المشروع كأداة تعلّم بدلاً من ملاحقة نماذج أكبر، والتي لن تتسع على Cyclone V في كل الأحوال. واقعياً، يتطلب توسيع نفس النهج لنماذج بمليار معامل إما رقائق FPGA أكبر بكثير مع ذاكرة HBM، أو الانتقال إلى ASIC مخصصة. ويُجرّب عدد من المطورين على X بالفعل نقل التصميم إلى لوحات أكبر وإلى نماذج أخرى صغيرة مفتوحة المصدر، وقد تشكّل مجتمع حول مستودع GitHub في أول 48 ساعة من الإصدار.

بالنسبة للمطورين في برامج الأجهزة في منطقة الشرق الأوسط وشمال أفريقيا والشركات الناشئة في الذكاء الاصطناعي المدمج، يُعدّ TALOS-V2 مورداً نادراً: محوّل FPGA كامل وقابل للقراءة من البداية إلى النهاية يمكن دراسته ومحاكاته وتوسيعه على أجهزة ميسورة التكلفة.

المصدر: الموقع الرسمي لـ TALOS-V2 ومستودع GitHub

أبرز النقاط

التفاصيل

التأثير

الخلفية

ما القادم

ناقش مشروعك معنا