أوديسي-2 ماكس: نماذج العالم تتجاوز فيديو الذكاء الاصطناعي

أوديسي-2 ماكس — نموذج عالمي يبث محاكاة ثلاثية الأبعاد تفاعلية في الوقت الحقيقي

في 21 أبريل 2026، أطلقت شركة Odyssey بهدوء ما قد يكون أهم إصدار للذكاء الاصطناعي هذا العام. ليس روبوت محادثة أكبر. ولا مولّد فيديو آخر لمقاطع بثماني ثوانٍ. بل نموذج عالمي (world model) — نظام يتوقع الإطار التالي من الواقع نفسه في الوقت الحقيقي، ويستمر طالما استمرّ المستخدم في التفاعل معه.

النموذج يحمل اسم أوديسي-2 ماكس (Odyssey-2 Max). يضاعف عدد المعاملات ثلاث مرات وقدرة الحساب عشر مرات مقارنة بأوديسي-2 برو. ويحقق أرقامًا قياسية جديدة في معيار VBench physics (58.52 مقابل 49.67) ومعيار PAI-Bench physics (93.02 مقابل 91.67). ويعمل بأقل من 50 مللي ثانية لكل إطار — سرعة كافية لبث تفاعلي بحوالي 20 إطارًا في الثانية.

إن لم يبدُ ذلك مثيرًا بعد، فلأن الحديث العام لا يزال يدور حول أوامر مقاطع فيديو قصيرة. نماذج العالم فئة مختلفة تمامًا.

نماذج العالم مقابل مولّدات الفيديو

تنتج Sora وVeo وRunway مقاطع. تكتب وصفًا، وتنتظر دقيقة أو اثنتين، وتحصل على فيديو ثابت له بداية ونهاية محددتان. هذه النماذج ثنائية الاتجاه ترى المقطع كله قبل إنتاجه. تريد تغيير رأيك في المنتصف؟ لا يمكنك. تريد تشغيله لعشر دقائق؟ لا يمكنك.

نماذج العالم تنتج عوالم. أوديسي-2 ماكس انحداري ذاتي (autoregressive) وسببي (causal): كل إطار يُتنبأ به اعتمادًا فقط على الإطارات السابقة وإدخالاتك اللحظية. تكتب وصفًا، فيبدأ النموذج في البث. تكتب وصفًا آخر في وسط المشهد، فيتجاوب العالم. تتحرك بداخله. تغيّر الطقس. تتركه يعمل لعدة دقائق. لا نهاية ثابتة، ولا سرد مسبق. محرّك توليدي لواقع تفاعلي.

هذا الفرق ليس شكليًا. إنه الحد الفاصل بين «مشاهدة فيديو ذكاء اصطناعي» و«العيش داخل محاكاة ذكاء اصطناعي».

لماذا دقة الفيزياء هي القصة الحقيقية

القفزات التي حققها النموذج في معايير VBench وPAI-Bench للفيزياء أهم مما قد تبدو عليه. دقة الفيزياء هي أهم خاصية على الإطلاق لخطوط أنابيب المحاكاة، وهذه الخطوط هي ما يُعطّل التقدم في ثلاث صناعات بمليارات الدولارات:

الروبوتات الشبيهة بالبشر. تحتاج شركات مثل Tesla Optimus وFigure و1X وUnitree إلى كميات فلكية من بيانات التدريب. تجمعها اليوم عبر تشغيل روبوتات حقيقية في مستودعات حقيقية لساعات طويلة. نماذج العالم تقلب هذا النموذج: إذا كانت محاكاتك دقيقة فيزيائيًا، فيمكنك توليد عقد كامل من بيانات التدريب في عطلة نهاية أسبوع من زمن وحدات المعالجة الرسومية. يتحول السباق من «أكثر ساعات حقيقية» إلى «أفضل محاكي».
الأنظمة المستقلة. القيادة الذاتية والطائرات المسيّرة والروبوتات الزراعية — كلها معطّلة بتكلفة بيانات الحالات الحرجة الحقيقية. نموذج عالمي يولّد حالات نادرة عند الطلب (طفل يعبر الطريق، عاصفة رملية على طريق سريع) يذيب هذا العائق.
الألعاب والوسائط التفاعلية. العوالم المولّدة إجرائيًا حلم منذ الثمانينيات. أوديسي-2 ماكس أول نظام يقدّم فعلاً عالمًا يبدو واقعيًا من الناحية الفيزيائية، بمواد وحركات حيوية وإضاءة تصمد على مدى طويل.

كيف يعمل أوديسي-2 ماكس من الداخل

النموذج هو محوّل (transformer) انحداري ذاتي سببي، مُدرَّب على مجموعة ضخمة من مقاطع الفيديو من العالم الحقيقي. يعتمد خط أنابيب التدريب متعدد المراحل على نقل النموذج تدريجيًا من الانتباه ثنائي الاتجاه (رؤية الإطارات المستقبلية) إلى الانتباه السببي الصرف (الإطارات السابقة وإدخالات المستخدم فقط).

بعض المواصفات التقنية التي يجدر معرفتها:

زمن الاستجابة: حوالي 50 مللي ثانية لكل إطار من طرف إلى طرف
الدقة: بث بدقة 720p دون طول مقطع ثابت
الأفق الزمني: عدة دقائق من محاكاة متماسكة دون انحراف (مشكلة الانحراف على المدى الطويل هي ما قضى على المحاولات السابقة)
المدخلات: أوامر نصية، صور، وإشارات حركة حية أثناء البث
المخرجات: فيديو تفاعلي مستمر، يمكن توجيهه في أي لحظة

خاصية «غياب الانحراف» هي أصعب مشكلة هندسية في المجال. النماذج السابقة كانت تبدو رائعة لعشر ثوانٍ ثم تتحول إلى عجينة لا تصدّقها الفيزياء. أوديسي-2 ماكس يحافظ على التماسك لعدة دقائق، وهي العتبة التي يصبح عندها مفيدًا لتدريب الروبوتات وجلسات الألعاب.

ما الذي يفتحه هذا لأعمال منطقة الشرق الأوسط وشمال أفريقيا

البصمة التجارية المباشرة لنماذج العالم ضيقة — مختبرات الروبوتات، استوديوهات الألعاب الكبرى، متعاقدو الدفاع، مؤثرات بصرية سينمائية من الطراز الأول. لكن التطبيقات المشتقة أوسع بكثير، ومعظمها سيصل خلال 18 شهرًا:

محاكاة تدريبية دون خطر مادي. المشغلون الصناعيون، عمال حقول النفط والغاز، فرق الطوارئ — يمكن تدريبهم جميعًا في بيئات محاكاة تفاعلية بالكامل، تُولَّد عند الطلب من وصف نصي. دون الحاجة لبناء منشأة مادية.
التصور في التجزئة والتجارة الإلكترونية. يتفاعل المتسوقون مع المنتجات في بيئات مولَّدة واقعية التصوير — يتجولون في صالة عرض افتراضية كُتبت في الوجود قبل ساعة.
الإعلانات وإنتاج المحتوى. الاستوديوهات التي كانت تنفق أسابيع على لقطة CGI واحدة يمكنها أن تُكرر بصريًا في دقائق. منحنيات تكلفة الإنتاج تنهار.
التعليم. يمكن للمعلمين توليد محاكاة تفاعلية لتفاعلات كيميائية أو حركة كوكبية أو أحداث تاريخية عند الطلب — بسلوك دقيق فيزيائيًا، لا رسوم متحركة مكتوبة.
الهندسة المعمارية والبناء. أخذ العميل في جولة محاكاة تفاعلية بالكامل لمبنى لم يُبنَ بعد، بمواد وإضاءة وطقس واقعي.

للشركات في منطقة الشرق الأوسط وشمال أفريقيا، الفرصة ليست في بناء نماذج العالم — فهذا مسار تدريب بعشرة مليارات دولار لحفنة من المختبرات. الفرصة هي في تحديد تدفق عمل في قطاعك تعطّل بسبب تكلفة النماذج المادية أو التجارب المادية أو بيئات التدريب المادية، والتخطيط لاستبداله بمحاكاة تفاعلية مولّدة حالما تصبح الأدوات متاحة.

متى يمكنك استخدامه فعليًا

أوديسي-2 ماكس في نسخة بيتا خاصة اليوم، مع واجهة برمجية مفتوحة لمطوري الروبوتات والألعاب والمحاكاة والدفاع. يتيح تطبيق مجاني للمستخدم النهائي تجربة أوديسي-2 برو (الإصدار السابق) للتعرف على النموذج العام.

لمعظم الشركات، نقطة الدخول العملية خلال السنة القادمة ستكون:

متابعة إصدارات واجهات المطورين من Odyssey وخط Genie من Google DeepMind وNvidia Cosmos.
البدء في تحديد حالات الاستخدام الداخلية التي تقلل فيها محاكاة تفاعلية في الوقت الحقيقي التكلفة أو المخاطر.
عندما تستقر الواجهات وتنخفض التكلفة بالساعة عن معدلات عرض السحابة الحالية، إطلاق تطبيق تجريبي في قطاع واحد.

لحظة GPT-2

يصف فريق Odyssey هذا الإصدار بأنه «لحظة GPT-2 لنماذج العالم». القياس ليس مبالغة تسويقية. كان GPT-2 عام 2019 مولّد نصوص محدودًا ومرتبكًا، ينتج في الغالب كلامًا معقولاً لكنه بلا معنى — غير أنه جعل المسار واضحًا. كل من نظر إليه واستقرأ رأى GPT-4 قادمًا.

أوديسي-2 ماكس عند العتبة نفسها. اليوم يبث محاكاة تفاعلية بدقة 720p لمشاهد تحت الماء، وأطفال يكدّسون مكعبات، ومتنزهين يعبرون مناظر طبيعية. خلال ثلاث إلى خمس سنوات، سيكون مكافئ GPT-4 لنماذج العالم يشغل محاكاة تدريب كل روبوت شبيه بالبشر على الكوكب، ويولّد أفلامًا تفاعلية عند الطلب، ويسمح للشركات بتصنيع نماذج منتجات مادية دون بنائها.

الشركات التي تنتبه الآن هي التي ستكون لديها تدفقات العمل والشراكات وبيانات المجال جاهزة حين تحين اللحظة. أما التي لا تزال تتجادل حول استخدام Sora أو Veo لمقاطع بثماني ثوانٍ، فستجد نفسها متأخرة جيلًا كاملًا بسرعة كبيرة.

العالم هو الموجِّه الجديد.