Netflix lance VOID, un modèle IA open source qui supprime les objets des vidéos avec simulation physique

Noqta Team
Par Noqta Team ·

Chargement du lecteur de synthèse vocale...

Netflix vient de publier VOID (Video Object and Interaction Deletion), un modèle IA open source qui va bien au-delà de la simple suppression d'objets dans une vidéo. VOID supprime les objets tout en simulant de manière réaliste comment la scène restante se comporterait physiquement sans eux — une avancée majeure dans le domaine de l'inpainting vidéo.

Ce qui distingue VOID

Les outils existants de suppression d'objets laissent généralement des artefacts visibles ou remplissent simplement le vide avec un arrière-plan statique. VOID comprend la causalité physique. Supprimez une personne tenant une guitare, et la guitare tombe naturellement. Supprimez quelqu'un sautant dans une piscine, et les éclaboussures disparaissent aussi. Supprimez une voiture d'une scène de collision, et le véhicule restant continue sa route normalement.

Cette approche consciente des interactions est ce qui distingue VOID de tous ses concurrents sur le marché.

Comment ça fonctionne

VOID est construit sur CogVideoX et utilise une architecture transformer en deux passes :

  • Passe 1 : Un modèle d'inpainting de base entraîné avec un système de conditionnement par masque à quatre valeurs qui encode quatre types d'information par pixel — l'objet principal à supprimer, les zones de chevauchement, les zones d'interaction affectées et l'arrière-plan préservé
  • Passe 2 : Une étape de raffinement par bruit déformé pour améliorer la cohérence temporelle sur les séquences plus longues

Le modèle a été entraîné sur deux ensembles de données synthétiques : HUMOTO (interactions humain-objet rendues dans Blender avec simulation physique) et Kubric (interactions d'objets utilisant Google Scanned Objects). L'entraînement a été effectué sur 8 GPU A100 de 80 Go avec DeepSpeed ZeRO Stage 2.

Surpasser la concurrence

Dans des études utilisateurs avec 25 participants sur plusieurs scénarios, VOID a été préféré 64,8 % du temps, Runway arrivant loin derrière avec 18,4 %. Le modèle surpasse Runway, ProPainter, DiffuEraser, Generative Omnimatte, ROSE et MiniMax-Remover — des outils allant de produits commerciaux à la recherche de pointe.

Open source et disponible maintenant

Netflix a publié VOID sous licence ouverte sur Hugging Face, le rendant accessible à tous. Le projet comprend :

  • Deux checkpoints de modèle (Passe 1 et Passe 2)
  • Un notebook Google Colab pour une expérimentation rapide
  • Une démo interactive sur Hugging Face Spaces
  • Le code complet du pipeline d'entraînement pour générer des données synthétiques

Le modèle nécessite un GPU avec 40 Go ou plus de VRAM (A100 recommandé), SAM2 pour la segmentation, et une clé API Google Gemini pour la génération de masques.

L'équipe derrière VOID

Six chercheurs ont développé le modèle : Saman Motaded (Netflix/Université de Sofia), William Harvey (Netflix), Benjamin Klein (Netflix), Luc Van Gool (Université de Sofia), Zhuoning Yuan (Netflix) et Ta-Ying Cheng (Netflix). L'article de recherche est disponible sur arXiv.

Pourquoi c'est important

VOID représente la première publication majeure d'un modèle IA par Netflix, signalant l'investissement croissant du géant du streaming dans la recherche en IA au-delà de ses algorithmes de recommandation bien connus. Pour les cinéastes et monteurs vidéo, la suppression d'objets avec conscience physique ouvre de nouvelles possibilités en post-production.

Pour la communauté IA open source, VOID ajoute un outil puissant à l'écosystème de génération vidéo, qui privilégie le réalisme physique plutôt que la simple plausibilité visuelle.


Source : Netflix VOID sur GitHub


Vous voulez lire plus d'actualités? Découvrez notre dernier article sur Humain, soutenue par le PIF saoudien, investit 3 milliards de dollars dans xAI d'Elon Musk.

Discutez de votre projet avec nous

Nous sommes ici pour vous aider avec vos besoins en développement Web. Planifiez un appel pour discuter de votre projet et comment nous pouvons vous aider.

Trouvons les meilleures solutions pour vos besoins.