نيموترون 3 الترا: نموذج الذكاء الاصطناعي المفتوح من NVIDIA بـ 550 مليار معامل

في مؤتمر Computex 2026 بتايبيه، صعد جنسن هوانغ إلى المسرح وأعلن عن ما يُعدّ من أبرز إصدارات النماذج المفتوحة الأوزان لهذا العام: نيموترون 3 الترا. بـ 550 مليار معامل وتصميم مخصص لمهام الذكاء الاصطناعي الوكيل، تؤكد NVIDIA أنها لم تعد مجرد شركة رقائق — بل منصة ذكاء اصطناعي متكاملة.

يغطي هذا الدليل كل ما يحتاجه المطورون: البنية، المعايير، كيفية الوصول للنموذج، وكيفية بناء مسارات عمل وكيلة على قمته.

ما هو نيموترون 3 الترا؟

نيموترون 3 الترا هو النموذج الرائد في عائلة NVIDIA المفتوحة Nemotron 3. يأتي مزوداً بـ:

550 مليار معامل إجمالي، يُفعَّل منها 55 مليار فقط لكل رمز (كفاءة المزج بين الخبراء)
بنية هجينة Mamba-Transformer — تجمع طبقات الحالة المنتقاة مع كتل الانتباه القياسية
نافذة سياق مليون رمز — مدعومة أصلاً دون تكلفة إضافية
تدريب وتحديد دقة NVFP4 — يتيح نشر BF16 عالي الجودة وأربعة بتات موفرة للذاكرة
أوزان مفتوحة بالكامل، بيانات تدريب وكود — تصدر هذا الأسبوع على Hugging Face وNGC

أداء قياسي في النماذج المفتوحة

تعاونت NVIDIA مع Artificial Analysis لتقييم نيموترون 3 الترا قبل الإطلاق. النتائج تجعله أقوى نموذج أمريكي مفتوح الأوزان اليوم:

درجة 48 على مؤشر Artificial Analysis للذكاء — يتصدر جميع النماذج المفتوحة الأمريكية
أكثر من 300 رمز مُخرج في الثانية على أجهزة Hopper
إنتاجية أعلى 5 مرات مقارنة بنيموترون 3 الفائق على نفس الأجهزة
تكلفة استدلال أقل بنحو 30% مقارنة بأفضل البدائل المفتوحة

عائلة نيموترون 3 بنظرة واحدة

صممت NVIDIA العائلة الثلاثية المستويات لتتناسب مع متطلبات الحوسبة المختلفة:

النموذج	المعاملات	المعاملات النشطة	الأفضل لـ
Nano Omni	8 مليار	8 مليار	الحافة، الجوال، الزمن الحقيقي
Super	120 مليار	~25 مليار	المؤسسات متوسطة الحجم
Ultra	550 مليار	55 مليار	الاستدلال الأقصى، التخطيط المعقد

أعماق البنية: لماذا MoE + Mamba؟

تصميم مزج الخبراء الكامن هو سر الكفاءة الاقتصادية للنموذج الترا. بدلاً من تفعيل 550 مليار معامل لكل رمز، يوجّه النموذج كل رمز إلى المجموعة الأكثر صلة من طبقات الخبراء. النتيجة: نموذج يتمتع بجودة استدلالية حدودية بينما يدفع تكلفة حوسبة نموذج أصغر بكثير.

طبقات Mamba (نماذج الحالة الانتقائية للمساحة) تعالج التبعيات بعيدة المدى بكفاءة أعلى من الانتباه الكامل في التسلسلات الطويلة جداً. عند نافذة مليون رمز، هذا يحدث فارقاً هائلاً.

البدء: الوصول إلى النموذج

سيتوفر نيموترون 3 الترا عبر قنوات متعددة هذا الأسبوع:

عبر NVIDIA API Catalog:

from openai import OpenAI
 
client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key="YOUR_NVIDIA_API_KEY"
)
 
response = client.chat.completions.create(
    model="nvidia/nemotron-3-ultra-550b-instruct",
    messages=[
        {"role": "system", "content": "أنت مهندس برمجيات خبير."},
        {"role": "user", "content": "صمم معمارية خدمات مصغرة متسامحة مع الأخطاء لمنصة تجارة إلكترونية."}
    ],
    temperature=0.2,
    max_tokens=4096
)
print(response.choices[0].message.content)

عبر Hugging Face (مُستضاف ذاتياً):

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
 
model_id = "nvidia/Nemotron-3-Ultra-550B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
 
# يتطلب إعداد متعدد GPU — مثلاً 8 بطاقات H100 لـ BF16
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16
)

بناء مسارات العمل الوكيلة

جرى تحسين نيموترون 3 الترا تحديداً للمهام الوكيلة متعددة الخطوات — تلك المسارات التي يجب فيها للنموذج التخطيط، واستخدام الأدوات، وتقييم النتائج الوسيطة، والتكرار للوصول لإجابة نهائية.

يوفر NVIDIA Agent Toolkit وقت التشغيل الإنتاجي لهذا:

from nvidia_agent_toolkit import AgentRuntime, Tool
 
@Tool.define(description="البحث على الويب للحصول على معلومات في الوقت الفعلي")
def web_search(query: str) -> str:
    # تنفيذك هنا
    ...
 
agent = AgentRuntime(
    model="nvidia/nemotron-3-ultra-550b-instruct",
    tools=[web_search],
    context_window=1_000_000,
    max_iterations=20
)
 
result = agent.run(
    "ابحث عن أحدث اتجاهات أسعار وحدات معالجة الرسوميات من NVIDIA وأنتج تحليل تكلفة-فائدة لترقية مجموعة الاستدلال لدينا."
)

حالات استخدام وكيلة عملية

نافذة السياق المليونية مقترنة بعمق استدلال الترا تفتح أنماطاً مؤسسية عالية القيمة:

تحليل قاعدة الكود بأكملها: أدخل مستودعاً كاملاً في السياق واطلب من الترا تحديد نقاط ضعف الأمان، أو فرص إعادة الهيكلة، أو التناقضات المعمارية — في تمريرة واحدة.

تلخيص المستندات الطويلة: العقود القانونية والمراجع البحثية والإيداعات المالية التي كانت تستلزم تقطيعاً وRAG يمكن الآن الاستدلال عليها بشكل شامل.

وكلاء البحث متعدد الخطوات: حلقة بحثية موجهة ذاتياً تبحث وتقرأ وتجمّع وتنتج تقارير منظمة بتدخل بشري محدود.

خيارات النشر المحلي

أعلنت NVIDIA عن مسارين للنشر المحلي في Computex:

DGX Spark — حاسوب مكتبي فائق الإمكانيات مصمم للمطورين. يعمل مع عائلة Nemotron 3 بأكملها. مستهدف لفرق البحث والمستخدمين المحترفين.

RTX Spark (مع MediaTek وMicrosoft) — رقاقة حاسوب شخصي استهلاكية توفر بيتافلوب واحد من أداء الذكاء الاصطناعي في أجهزة الكمبيوتر المحمولة النحيلة.

لماذا يُغيّر هذا الإصدار مشهد الذكاء الاصطناعي المفتوح؟

ثلاثة عوامل تجعل هذا الإصدار متميزاً:

مفتوح بالكامل: الأوزان وبيانات التدريب والكود — ليس الأوزان فحسب.
إنتاجية مؤسسية: أكثر من 300 رمز في الثانية وتسريع استدلال 5 مرات يجعل النشر الإنتاجي قابلاً للتطبيق.
تكامل نظام NVIDIA البيئي: تكامل أصلي مع TensorRT-LLM وخدمات NIM الدقيقة وAgent Toolkit وأجهزة RTX.

سجّل نظام NVIDIA بيئة Nemotron 3 أكثر من 50 مليون تنزيل في 12 شهراً قبل هذا الإطلاق.

الخلاصة

نيموترون 3 الترا ليس ورقة بحثية أو معاينة محدودة — بل نموذج جاهز للإنتاج، مفتوح بالكامل، يصل هذا الأسبوع مع مكدس نشر متكامل. للمطورين الذين يبنون تطبيقات الذكاء الاصطناعي الوكيل، يمثل مزيج نافذة مليون رمز وكفاءة MoE وبنية NVIDIA التحتية للاستدلال بديلاً مقنعاً للواجهات البرمجية المغلقة.