HeyGen HyperFrames : du HTML au MP4 pour agents IA

Le 17 avril 2026, HeyGen a publié en open source HyperFrames — un framework qui permet aux agents de codage IA d'écrire de la vidéo comme ils écrivent déjà des pages web. Vous décrivez la scène, Claude Code écrit du HTML avec des animations CSS et GSAP, et le CLI rend le tout en MP4 au pixel près. Pas de timeline, pas de clés API cloud, pas de modèle opaque sur le chemin critique.
Cela peut ressembler à une petite mise à jour d'outillage, mais ce n'en est pas une. C'est le pari que l'avenir de la vidéo programmatique n'est ni les composants React, ni les plug-ins After Effects. C'est le même HTML sur lequel chaque agent a déjà été entraîné.
Pourquoi le HTML est la bonne primitive vidéo pour les agents
La plupart des frameworks vidéo supposent qu'un humain est assis devant une timeline. Premiere, After Effects, Final Cut, et même les outils web modernes comme Descript — tous sont construits autour d'un espace de travail que l'humain clique. Les agents ne cliquent pas. Ils écrivent du texte.
Avant HyperFrames, les deux stacks sérieux de vidéo programmatique étaient Remotion et Motion Canvas. Tous deux sont excellents, tous deux reposent sur React en premier, et tous deux exigent de l'agent qu'il maîtrise un modèle de composition spécifique : useCurrentFrame, identifiants de composition, helpers d'interpolation. C'est apprenable, mais ce n'est pas natif à la manière dont les grands modèles de langage ont été entraînés.
HyperFrames inverse l'ergonomie. Une scène est un simple fichier HTML avec des attributs data- décrivant le timing et les transitions. Le CSS gère la mise en page et la typographie. GSAP gère le mouvement. Three.js gère la 3D. L'agent écrit le même web qu'il écrit depuis des années — sauf que la sortie est un MP4 au lieu d'un onglet de navigateur.
HeyGen a joint le geste à la parole. Leur propre vidéo de lancement pour HyperFrames a été entièrement générée dans Claude Code avec HyperFrames. La boucle de travail : prompt vers l'agent, prévisualisation dans le studio en navigateur, rendu final.
Comment fonctionne le pipeline de rendu
En interne, HyperFrames est un pipeline de capture d'images de navigateur couplé à FFmpeg. Le moteur de rendu lance une instance Chromium headless, charge le HTML de la composition, avance l'horloge de manière déterministe, capture chaque image à la résolution cible, puis assemble les images en MP4 avec FFmpeg. Les animations ne sont pas échantillonnées en direct — elles sont parcourues image par image, ce qui signifie que la sortie est reproductible d'une exécution à l'autre et d'une machine à l'autre.
Ce déterminisme est le deuxième point qui compte. Quand un agent itère sur une vidéo de lancement de 45 secondes, vous voulez que la même entrée produise les mêmes pixels à chaque fois. Sinon, le débogage devient de la divination. HyperFrames traite le MP4 comme les développeurs traitent les binaires compilés : une sortie déterministe à partir d'une source versionnée.
Le tout est publié sous licence Apache 2.0. Pas de clés API, pas de limites de débit, pas de frais par minute de rendu, pas de cloud propriétaire dans la boucle. Vous l'exécutez en local, dans Docker, ou dans une tâche CI.
Démarrage en trois commandes
L'installation est d'une simplicité déconcertante si vous utilisez un outil de codage IA compatible avec les skills — Claude Code, Cursor, Codex ou Gemini CLI fonctionnent tous prêts à l'emploi.
npx skills add heygen-com/hyperframesCela récupère le bundle de skill HyperFrames, qui enseigne à votre agent les patterns spécifiques au framework : comment structurer une composition, comment synchroniser les animations, comment appeler le moteur de rendu. Votre agent connaît désormais HyperFrames même s'il ne l'avait jamais vu.
Pour générer une vidéo, décrivez-la en texte brut. Par exemple :
Crée une vidéo de lancement produit de 20 secondes pour un outil SaaS
appelé « Noqta Ops ». Commence par le logo qui apparaît en fondu sur
un dégradé sombre, enchaîne avec trois cartes fonctionnalités
(analytique, automatisation, alertes) avec des entrées GSAP
échelonnées, et termine par un bouton CTA bleu.L'agent écrit la composition HTML, vous la passez en revue dans le studio de prévisualisation, et le CLI rend le MP4 final en local. Trois commandes. Zéro appel cloud. Aucun montage a posteriori.
HyperFrames face à Remotion : des objectifs différents
Ce n'est pas un tueur de Remotion, et il convient d'être précis sur les cas où chaque outil gagne. Remotion est le bon choix si vous êtes une équipe React qui construit un pipeline vidéo avec une logique programmatique lourde : vidéos pilotées par les données, graphiques dynamiques, personnalisation par utilisateur à grande échelle. Le modèle de composants React vous donne un contrôle profond et une composition propre d'états complexes.
HyperFrames est le bon choix quand l'agent est l'auteur principal. Le modèle mental est plus petit. Le rendu est déterministe sans gymnastique de comptage d'images. La sortie fonctionne partout où un navigateur peut rendre. Pour des vidéos de lancement, des publicités, des tutoriels et des clips sociaux produits par un opérateur solo avec un agent IA, HyperFrames supprime des frictions que Remotion conserve encore.
Il y a aussi une dimension de licence. La licence entreprise de Remotion s'active au-delà de seuils de taille d'équipe et de revenus. HyperFrames est Apache 2.0 sans paliers. Pour les petites équipes et les développeurs solo — l'audience la plus susceptible de laisser un agent livrer la vidéo — cela compte.
Ce que cela débloque pour les petites équipes
Ce qui est intéressant, ce n'est pas que HyperFrames existe. C'est ce que cela implique sur la forme du logiciel à venir. La vidéo était le dernier bastion de la création de contenu dirigée par des agents. Le texte, le code, les images et le design sont déjà agent-natifs. La vidéo exigeait soit un humain devant une timeline, soit un modèle génératif opaque qui hallucinait parfois une troisième main.
HyperFrames fait de la vidéo une étape de build. Le même agent qui écrit le copy de votre landing page, génère votre image Open Graph, et livre vos composants React peut désormais produire la vidéo de lancement de cette fonctionnalité. Pour une startup de deux personnes ou un opérateur solo dans la région MENA, c'est un vrai changement — la ligne budgétaire vidéo devient « quelques dollars de tokens d'agent et une minute de rendu CI ».
La licence open source compte aussi ici. Vous pouvez exécuter cela sur votre propre infrastructure, adapter le bundle de skill à votre marque, piper la sortie vers votre CMS, et ne jamais confier le script d'un client à une API vidéo tierce. C'est le type de contrôle que les entreprises et les industries régulées réclament depuis que la vidéo générative est devenue grand public.
Le motif plus large
HyperFrames fait partie d'un mouvement plus vaste en 2026 : des outils conçus pour les agents au lieu d'humains assistés par des agents. gh skill de GitHub livre les skills d'agents comme des packages installables. Les Agent Skills avec SKILL.md sont devenues le standard universel à travers plus de 30 outils. Désormais la vidéo rejoint la liste. Les interfaces passent de GUI avec IA greffée à des surfaces nativement textuelles que l'agent pilote de bout en bout.
Si vous livrez du contenu marketing, des tutoriels développeurs ou des lancements produit — et surtout si vous êtes une petite équipe en concurrence avec des structures bien plus grandes — HyperFrames vaut vingt minutes de votre après-midi. Installez-le, laissez Claude Code écrire une vidéo de lancement, et voyez si le résultat change votre modèle mental de ce qu'un agent peut livrer.
Le dépôt est public. La licence est permissive. L'installation tient en une commande. Il n'y a jamais eu de meilleur moment pour laisser un agent produire votre prochaine vidéo.
Discutez de votre projet avec nous
Nous sommes ici pour vous aider avec vos besoins en développement Web. Planifiez un appel pour discuter de votre projet et comment nous pouvons vous aider.
Trouvons les meilleures solutions pour vos besoins.