نموذج NVIDIA TwoTower للانتشار: دليل المطور

طوال عقد كامل، كانت نماذج اللغة الكبيرة تولّد النص بالطريقة نفسها: رمزًا واحدًا في كل مرة، من اليسار إلى اليمين. هذا القرار التصميمي الواحد هو أيضًا العنق الأكبر في سرعة التوليد. في الأول من يوليو 2026، أطلقت NVIDIA نموذج Nemotron-Labs-TwoTower، وهو نموذج لغة انتشاري مفتوح الأوزان يكسر قاعدة "رمز واحد في كل مرة" ويولّد النص أسرع بـ 2.42 مرة مع الاحتفاظ بـ 98.7% من جودة نموذج انحداري قوي في الاختبارات المرجعية.

هذا واحد من أوائل نماذج اللغة الانتشارية مفتوحة الأوزان الجاهزة للإنتاج من مختبر كبير. إليك ما هو، ولماذا يهم، وكيف تشغّله.

العنق الذي يهاجمه TwoTower

النماذج الانحدارية (AR) — مثل GPT وClaude وLlama وتقريبًا كل ما تستخدمه — تتنبأ بالرمز التالي بناءً على كل الرموز السابقة. كل رمز يتطلب تمريرة أمامية كاملة، ولا يمكنك البدء بالرمز رقم 100 قبل وجود الرمز رقم 99. التوليد متسلسل بطبيعته، فالإنتاجية محدودة مهما زادت العتاد.

نماذج اللغة الانتشارية تسلك طريقًا مختلفًا. بدلًا من التوليد من اليسار إلى اليمين، تبدأ بكتلة من الرموز المُقنَّعة النائبة ثم تصقلها بالتوازي عبر خطوات متكررة، ملتزمةً بعدة رموز في كل خطوة. كانت الفكرة واعدة في البحث منذ فترة، لكن الجودة تخلّفت دائمًا خلف النماذج الانحدارية. ما يميّز TwoTower أنه يسدّ الفجوة بأكملها تقريبًا.

كيف يعمل البرجان

الجزء الذكي في الاسم نفسه. لا يدرّب TwoTower نموذج انتشار من الصفر — بل يعيد استخدام نموذج انحداري مدرَّب مسبقًا.

برج السياق (مُجمَّد): بنية جاهزة Nemotron-3-Nano-30B-A3B، مدرَّبة مسبقًا على 25 تريليون رمز. لا تُمَس أوزانه أبدًا.
برج إزالة التشويش (مُدرَّب): نسخة ثانية تتعلّم تحويل الضوضاء المُقنَّعة إلى رموز نظيفة، موجَّهةً في كل طبقة من برج السياق المُجمَّد عبر الانتباه المتقاطع.

ولأن المُدرَّب هو برج إزالة التشويش فقط، يبلغ النموذج كامل جودة النماذج الانحدارية بعد 2.1 تريليون رمز فقط من التدريب — جزء بسيط من الـ 25 تريليونًا التي استهلكتها البنية أصلًا. تحصل على سرعة الانتشار دون دفع فاتورة التدريب المسبق كاملة.

كل برج كومة هجينة من 52 طبقة: 23 طبقة Mamba-2، و6 طبقات انتباه ذاتي، و23 طبقة خليط خبراء (MoE). يوجّه إعداد MoE إلى 6 من أصل 128 خبيرًا زائد خبيرين مشتركين لكل رمز، فرغم وجود نحو 60 مليار معامل إجماليًا عبر البرجين، يبقى نشطًا نحو 3 مليارات معامل لكل رمز في كل برج. وحدة صغيرة لتكييف الزمن (نحو 1.5 مليون معامل) تخبر برج إزالة التشويش بخطوة الانتشار الحالية.

التوليد كتلةً بكتلة

يجري التوليد كتلةً بكتلة بدل رمزٍ برمز:

تبدأ كتلة من S موضعًا (الافتراضي 16) كرموز [MASK].
يشغّل المُزيل T خطوة صقل (الافتراضي 16) على تلك الكتلة.
داخل الكتلة يكون الانتباه ثنائي الاتجاه؛ والكتل السابقة يُنتبَه إليها سببيًا.
الانتباه المتقاطع المحاذي للطبقات يسحب السياق من البرج المُجمَّد في كل طبقة.
تُلتزَم الرموز عالية الثقة مبكرًا — غالبًا عدة رموز في الخطوة — بدل رمز واحد.

سلوك "التزام عدة رموز في الخطوة" هو مصدر التسريع 2.42 مرة في الزمن الفعلي. ومقبض confidence_threshold يتيح مقايضة الجودة بالسرعة: التزم بجرأة أكبر لمخرجات أسرع، أو اصقل أطول لدقة أعلى.

الأرقام التي تهم

عند الإعدادات الافتراضية (ثقة 0.8، حجم كتلة 16)، يحتفظ TwoTower بـ 98.7% من الجودة الإجمالية للأساس الانحداري. التفصيل حسب المهمة:

المهمة	الأساس الانحداري	TwoTower
MMLU (5-shot)	78.56	78.24
ARC-Challenge	91.72	92.66
HumanEval	79.27	75.58
GSM8K (8-shot)	92.49	90.14
MATH-500	84.40	80.60

المقايضة تقارب 1.3% من الجودة مقابل 2.42 مرة من السرعة. المعرفة العامة (MMLU) والمهام الاستدلالية الخفيفة (ARC) تكاد لا تتحرك؛ أما الكود والرياضيات الصعبة فتتأثر أكثر، وهو متوقع — فهذه المهام الأقل تسامحًا مع رمز التُزم به مبكرًا جدًا.

تشغيله

يُطرَح TwoTower برخصة NVIDIA Nemotron Open Model License (الاستخدام التجاري مسموح) على Hugging Face. النموذج الكامل بالبرجين يحتاج وحدتَي معالجة رسومية بنحو 59 غيغابايت لكل منهما بدقة BF16؛ ووضع الانحدار فقط يعمل على وحدة واحدة بسعة 80 غيغابايت.

حمّل النموذج وضع كل برج على جهازه:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
 
model_name = "nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
)
 
# برج لكل وحدة معالجة رسومية
model.place_towers_on_devices("cuda:0", "cuda:1")
model.eval()

والآن ولّد بفكّ التشفير الانتشاري المتوازي كتلةً بكتلة:

prompt = "France is a country "
inputs = tokenizer(prompt, return_tensors="pt").to("cuda:0")
 
outputs = model.generate_mask_diffusion(
    inputs["input_ids"],
    max_new_tokens=128,
    block_size=16,          # مواضع تُصقل معًا
    steps_per_block=16,     # تكرارات الصقل
    mask_token_id=3,
    temperature=0.1,
    confidence_threshold=0.8,  # أقل = أسرع، أعلى = أأمن
    eos_token_id=tokenizer.eos_token_id,
)
 
text = tokenizer.decode(
    outputs[0][inputs["input_ids"].shape[1]:],
    skip_special_tokens=True,
)
print(text)

تكشف النسخة ثلاثة أوضاع للاستدلال كي تختبر المقايضات على عتادك:

generate_mask_diffusion() — المسار السريع المتوازي كتلةً بكتلة.
generate_mock_ar() — البرجان، رمز واحد في الخطوة (أساس سرعة عادل).
generate_ar() — برج السياق المُجمَّد وحده، على وحدة واحدة.

نصيحة عملية للضبط: ارفع confidence_threshold نحو 0.9 وزِد steps_per_block للكود والرياضيات، حيث يكلّف الرمز الخاطئ المبكر كثيرًا. أما المحادثة والتلخيص والصياغة، فالعتبات الأدنى تطلق معظم السرعة بخسارة تكاد لا تُرى.

لماذا يهم هذا للمطورين في منطقة الشرق الأوسط وشمال إفريقيا

قوّتان تجعلان نموذجًا سريعًا مفتوح الأوزان كهذا ذا أهمية استراتيجية للفرق في تونس والسعودية والمنطقة الأوسع.

أولًا، تكلفة الاستدلال هي الفاتورة المتكررة، لا التدريب. مكسب إنتاجية 2.42 مرة على العتاد نفسه يعني الحجم المُقدَّم نفسه تقريبًا على مسرّعات أقل — إجابة مباشرة على شحّ الوحدات الرسومية وقيود الطاقة التي تواجهها مراكز البيانات الإقليمية. فك التشفير الانتشاري يحوّل الحوسبة الفائضة إلى سرعة بدل الحاجة لمزيد من العتاد.

ثانيًا، الأوزان المفتوحة تعني أن الاستضافة الذاتية بديل حقيقي. مع تزايد تقييد النماذج الرائدة المستضافة بضوابط التصدير والموافقات فردًا فردًا، فإن نموذجًا برخصة متساهلة يمكنك تنزيله وتدقيقه وتشغيله داخل حدود ثقتك لم يعد ترفًا — بل استراتيجية صمود. وTwoTower خيار جدّي مفتوح الأوزان يصادف أنه سريع.

التحوّل الأكبر

لن يستبدل TwoTower نقطة نهايتك الانحدارية في الإنتاج غدًا. فهو يحتاج وحدتين رسوميتين، وجودة الكود والرياضيات تنخفض قليلًا، ومنظومة الأدوات حول نماذج اللغة الانتشارية ما زالت فتيّة. لكنه دليل مهم: يمكنك تركيب مُزيل تشويش انتشاري مدرَّب على بنية مُجمَّدة مدرَّبة مسبقًا وشراء تسريع 2.4 مرة مقابل نحو 1% من الجودة — دون إعادة تدريب الجزء المكلف.

إن شحنت الأجيال القادمة من النماذج المفتوحة نقطة تفتيش انحدارية و مُزيل تشويش انتشاريًا مطابقًا، فإن "كم بسرعة تفكّ التشفير" يتوقف عن كونه خاصية ثابتة للبنية ويصبح مقبضًا تديره لكل عبء عمل. هذا هو المستقبل المثير الذي يشير إليه TwoTower.

المصادر: MarkTechPost، arXiv 2606.26493، بطاقة نموذج Hugging Face، NVIDIA Nemotron 3.