نتفليكس تطلق VOID، نموذج ذكاء اصطناعي مفتوح المصدر لإزالة الأجسام من الفيديو مع محاكاة فيزيائية واقعية

أطلقت نتفليكس نموذج VOID (حذف الأجسام والتفاعلات من الفيديو)، وهو نموذج ذكاء اصطناعي مفتوح المصدر يتجاوز مجرد مسح الأجسام من الفيديو. يقوم VOID بإزالة الأجسام مع محاكاة واقعية لكيفية تصرف المشهد المتبقي فيزيائياً بدونها — وهو إنجاز غير مسبوق في مجال ترميم الفيديو.

ما الذي يميز VOID

أدوات إزالة الأجسام الحالية عادةً ما تترك آثاراً مرئية أو تملأ الفراغ بخلفية ثابتة. أما VOID فيفهم السببية الفيزيائية. عند إزالة شخص يحمل غيتاراً، يسقط الغيتار بشكل طبيعي. وعند إزالة شخص يقفز في بركة سباحة، يختفي رذاذ الماء أيضاً. وعند إزالة سيارة من مشهد تصادم، تستمر السيارة الأخرى في طريقها بشكل طبيعي.

هذا النهج الواعي بالتفاعلات هو ما يميز VOID عن كل منافسيه في السوق.

كيف يعمل

بُني VOID على أساس CogVideoX ويستخدم بنية محول ثنائية المرحلة:

المرحلة الأولى: نموذج ترميم أساسي مُدرَّب بنظام أقنعة رباعي القيم يُشفّر أربعة أنواع من معلومات البكسل — الجسم المراد إزالته، مناطق التداخل، مناطق التفاعل المتأثرة، والخلفية المحفوظة
المرحلة الثانية: خطوة تنقية بالتشويش المُعاد تعيينه لتحسين الاتساق الزمني عبر التسلسلات الأطول

تم تدريب النموذج على مجموعتي بيانات اصطناعيتين: HUMOTO (تفاعلات بشرية مع أجسام مُصيَّرة في Blender مع محاكاة فيزيائية) وKubric (تفاعلات أجسام باستخدام Google Scanned Objects). جرى التدريب على 8 وحدات معالجة رسومات A100 بسعة 80 جيجابايت باستخدام DeepSpeed ZeRO Stage 2.

التفوق على المنافسين

في دراسات المستخدمين مع 25 مشاركاً عبر سيناريوهات متعددة، فُضّل VOID بنسبة 64.8% من الوقت، بينما جاء Runway في المرتبة الثانية بفارق كبير بنسبة 18.4%. تفوق النموذج على Runway وProPainter وDiffuEraser وGenerative Omnimatte وROSE وMiniMax-Remover.

مفتوح المصدر ومتاح الآن

أطلقت نتفليكس VOID بترخيص مفتوح على Hugging Face، مما يتيحه للجميع. يتضمن المشروع:

نقطتي تفتيش للنموذج (المرحلة الأولى والثانية)
دفتر Google Colab للتجربة السريعة
عرض تفاعلي على Hugging Face Spaces
كود كامل لتوليد بيانات التدريب الاصطناعية

يتطلب النموذج وحدة معالجة رسومات بذاكرة 40 جيجابايت أو أكثر (يُنصح بـ A100)، وSAM2 للتقسيم، ومفتاح Google Gemini API لتوليد الأقنعة.

الفريق خلف VOID

طوّر النموذج ستة باحثين: سامان موتادد (نتفليكس/جامعة صوفيا)، ويليام هارفي (نتفليكس)، بنجامين كلاين (نتفليكس)، لوك فان غول (جامعة صوفيا)، تشونينغ يوان (نتفليكس)، وتا-يينغ تشينغ (نتفليكس). الورقة البحثية المرافقة متاحة على arXiv.

لماذا هذا مهم

يمثل VOID أول إصدار عام كبير لنموذج ذكاء اصطناعي من نتفليكس، مما يشير إلى استثمار عملاق البث المتزايد في أبحاث الذكاء الاصطناعي بما يتجاوز خوارزميات التوصية المعروفة. بالنسبة لصناع الأفلام ومحرري الفيديو، تفتح إزالة الأجسام الواعية فيزيائياً إمكانيات جديدة في مرحلة ما بعد الإنتاج.

بالنسبة لمجتمع الذكاء الاصطناعي مفتوح المصدر، يضيف VOID أداة قوية جديدة لمنظومة توليد الفيديو، تعطي الأولوية للواقعية الفيزيائية على مجرد المعقولية البصرية.

المصدر: Netflix VOID على GitHub