Comment monter une vidéo avec l'IA en utilisant HyperFrames

En bref

Les agents IA peuvent écrire du code, appeler des API et exécuter des flux de travail multi-étapes. Jusqu'à présent, une capacité leur échappait : l'édition vidéo. Les outils professionnels comme After Effects et DaVinci Resolve utilisent des chronologies à couches et des graphes de scène JSON sur lesquels les LLM n'ont pas été entraînés. Le nouveau projet open-source de HeyGen, HyperFrames, inverse l'approche. Il permet aux agents IA de composer des vidéos en utilisant HTML, CSS et JavaScript, puis rend le résultat en MP4, MOV ou WebM. Vous l'installez comme une compétence Claude Code avec une seule commande, et votre agent devient un éditeur vidéo.

Introduction

La vidéo est le format de communication le plus engageant sur le web. Chaque autre média qu'un agent IA peut produire (texte, code, images, graphiques) dispose d'une chaîne d'outils claire. La vidéo, non.

Vous pouviez demander à un modèle de générer un clip complet avec Sora, Veo ou Runway, mais cette approche a des limites. Vous obtenez une seule vidéo monolithique à partir d'une invite. Vous ne pouvez pas la composer. Vous ne pouvez pas itérer sur des animations graphiques ou superposer des animations de marque spécifiques. Vous ne pouvez pas dire à l'agent « refais la scène 3 avec un fondu plus lent ».

HeyGen a lancé HyperFrames le 17 avril 2026 pour combler cette lacune. Au lieu d'enseigner aux agents les logiciels vidéo traditionnels, ils leur ont donné un format qu'ils connaissent déjà : HTML. Ce guide explique comment cela fonctionne, pourquoi l'approche est pertinente et comment la configurer pour que votre propre agent puisse éditer des vidéos.

Si vous construisez des flux de travail d'agents basés sur des API qui produisent de la vidéo, vous voudrez également tester la couche d'orchestration. Nous verrons comment Apidog s'intègre à la fin.

button

Pourquoi les agents IA ne pouvaient pas éditer de vidéo auparavant

Les outils d'édition vidéo traditionnels n'ont pas été conçus pour les agents. Ils ont été conçus pour des humains qui cliquent sur des chronologies.

Trois obstacles spécifiques :

Les interfaces utilisateur basées sur une chronologie ne se traduisent pas en code. After Effects, Premiere et DaVinci Resolve stockent les projets sous des formats binaires propriétaires ou des graphes de scène JSON profondément imbriqués. Même si un agent pouvait lire ces fichiers, l'espace sémantique est étroit. Il n'existe presque pas de données d'entraînement pour les poids des modèles sur ces formats.

Les animations graphiques nécessitent une pensée visuelle. L'animation par images clés, les courbes d'accélération et la composition de calques sont généralement effectuées à l'œil. Les agents ne voient pas de fenêtre de prévisualisation. Ils ont besoin d'une abstraction textuelle pour raisonner sur le mouvement.

Les outils supposent un opérateur humain. Les pipelines de rendu, les écosystèmes de plugins et les choix de codecs sont tous derrière des menus d'interface utilisateur. L'automatisation via des scripts fonctionne pour des cas limités (ExtendScript dans After Effects, par exemple), mais les API sont étroites et fragiles.

Résultat : les agents pouvaient écrire un script pour appeler ffmpeg, assembler des clips et superposer du texte avec des filtres basiques. Tout ce qui allait au-delà nécessitait un humain.

L'idée du HTML pour la vidéo

L'équipe de HeyGen a eu une observation différente. Les LLM ont été entraînés sur des milliards de pages HTML, CSS et JavaScript. Ils ont vu des centaines de milliers d'animations GSAP, de compositions SVG, d'expériences Canvas et de fichiers Lottie. Le web est le plus grand média créatif de leurs données d'entraînement.

Lorsque vous demandez à un modèle de pointe de produire une animation visuellement riche, il écrit le HTML de manière fluide. Il sait comment :

Positionner des éléments avec CSS
Animer avec GSAP ou des images clés CSS
Rendre des chemins SVG
Composer des scènes superposées avec z-index et opacity
Transitionner entre les états

Toutes les primitives visuelles dont un éditeur a besoin existent déjà dans le navigateur. La pièce manquante était de transformer une chronologie de scènes HTML en un fichier vidéo rendu.

C'est ce que fait HyperFrames. Le nom le dit : HTML devient des images vidéo. HyperFrames.

Comment HyperFrames fonctionne

HyperFrames ajoute un petit ensemble d'attributs data- au HTML standard. Ces attributs définissent la chronologie de la vidéo. Tout le reste est du code web simple.

Les attributs principaux :

Attribut	Objectif
`data-composition-id`	ID unique pour la composition vidéo
`data-width` / `data-height`	Résolution de sortie en pixels
`data-start`	Heure de début de la scène en secondes
`data-duration`	Durée de la scène en secondes
`data-track-index`	Ordre de superposition pour les scènes qui se chevauchent

L'agent écrit un fichier HTML normal. HyperFrames lit les attributs de données, exécute la page dans un navigateur headless, capture les images à la fréquence d'images cible et encode la sortie avec FFmpeg.

C'est tout. Pas de nouveau DSL. Pas de graphe de scène. Pas d'éditeur d'images clés. L'animation réside dans les chronologies GSAP ou les animations CSS, exactement le code que le modèle produit déjà.

Un exemple minimal

Voici une composition vidéo de 5 secondes en moins de 70 lignes de HTML. Deux scènes : un écran titre qui apparaît en fondu, puis se fond en flou dans un écran de clôture.

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <script src="https://cdn.jsdelivr.net/npm/gsap@3.14.2/dist/gsap.min.js"></script>
  <style>
    body { margin:0; width:1920px; height:1080px; overflow:hidden; background:#0D1B2A; }
    .scene { position:absolute; inset:0; width:1920px; height:1080px; overflow:hidden; background:#0D1B2A; }
    #scene2 { z-index:2; opacity:0; }
    .s1 { display:flex; flex-direction:column; justify-content:center; padding:120px 160px; gap:20px; }
    .s2 { display:flex; flex-direction:column; justify-content:center; align-items:center; padding:100px 160px; gap:32px; }
  </style>
</head>
<body>
  <div id="root" data-composition-id="hyperframes-intro"
       data-width="1920" data-height="1080" data-start="0" data-duration="5">
    <div id="scene1" class="scene">
      <div class="s1">
        <div class="s1-title">HTML is Video</div>
        <div class="s1-sub">Compose. Animate. Render.</div>
      </div>
    </div>

    <div id="scene2" class="scene">
      <div class="s2-title">Start composing.</div>
    </div>
  </div>
  <script>
    window.__timelines = window.__timelines || {};
    const tl = gsap.timeline({ paused: true });

    // Scene 1: title entrance
    tl.from(".s1-title", { x:-40, opacity:0, duration:0.5, ease:"power3.out" }, 0.25);
    tl.from(".s1-sub", { y:15, opacity:0, duration:0.4, ease:"power2.out" }, 0.5);

    // Blur crossfade transition
    const T = 2.2;
    tl.to("#scene1", { filter:"blur(8px)", scale:1.03, opacity:0, duration:0.35, ease:"power2.inOut" }, T);
    tl.fromTo("#scene2",
      { filter:"blur(8px)", scale:0.97, opacity:0 },
      { filter:"blur(0px)", scale:1, opacity:1, duration:0.35, ease:"power2.inOut" }, T + 0.08);

    window.__timelines["hyperframes-intro"] = tl;
  </script>
</body>
</html>

Deux choses à noter :

La logique d'animation est purement GSAP. Tout modèle ayant consulté des tutoriels GSAP peut écrire des chronologies comme celle-ci.
La surcharge d'HyperFrames est minime. Quelques attributs data- sur l'élément racine. Rien d'autre.

Rendez ce fichier et vous obtiendrez un MP4 1920x1080 de l'animation. Changez le texte, changez les couleurs, échangez les polices, ajoutez un logo : le fichier entier est du HTML simple.

Ce que l'agent peut réellement utiliser

Parce que le pipeline de rendu est un véritable navigateur, toute technologie web fonctionne :

Animations et transitions CSS pour un mouvement simple
Chronologies GSAP pour une chorégraphie complexe
SVG pour les logos, les formes et les animations de chemin
Canvas pour les systèmes de particules ou les arrière-plans génératifs
Three.js pour les scènes 3D
D3.js pour les visualisations de données
Lottie pour les animations After Effects importées
Polices web de Google Fonts ou de sources personnalisées
Vidéo ou images d'arrière-plan chargées via <video> ou <img>

Pas de wrappers, pas d'architecture de plugin, pas de framework à apprendre. L'agent utilise ce qu'il sait déjà.

Comment donner à votre agent la capacité d'édition vidéo en une seule commande

HyperFrames est livré en tant que compétence Claude Code. Si vous utilisez Claude Code, l'installation se fait avec une seule commande npm.

npx skills add heygen-com/hyperframes

Cela récupère la compétence du dépôt GitHub de HeyGen, installe la chaîne d'outils et enregistre la capacité d'édition vidéo auprès de Claude Code.

Après l'installation, invitez votre agent naturellement :

Crée-moi une vidéo explicative de produit de 10 secondes pour une nouvelle API.
Commence par un arrière-plan dégradé sombre, anime le nom du produit
qui glisse du bas avec un fondu, puis passe à trois
points à puces avec des icônes, termine par une carte d'appel à l'action.

L'agent écrit le HTML, exécute une prévisualisation locale et rend le MP4 final. Pas de clés API. Pas de services externes. Tout fonctionne sur votre machine.

Configuration sans Claude Code

HyperFrames est agnostique au framework. Vous pouvez l'appeler depuis n'importe quel agent capable d'exécuter des commandes shell et de lire des fichiers.

Clonez le dépôt :

git clone https://github.com/heygen-com/hyperframes
cd hyperframes
npm install

Rendez un fichier de composition :

npx hyperframes render my-video.html --output my-video.mp4

Prévisualisez localement :

npx hyperframes preview my-video.html

La commande de prévisualisation ouvre une fenêtre de navigateur où vous pouvez parcourir la chronologie et vérifier la précision image par image avant de vous engager dans un rendu complet.

Ce que cela débloque pour les développeurs

Quelques cas d'utilisation s'ouvrent immédiatement.

Marketing produit automatisé. Votre agent peut extraire des notes de version, générer du HTML scène par scène et livrer un rendu à votre CDN. Chaque version obtient une vidéo sans qu'un humain ne touche une chronologie.

Réponses vidéo personnalisées. Les webhooks API déclenchent un agent qui rend un clip personnalisé par événement utilisateur. Vidéos de bienvenue, reçus, célébrations de jalons, tous générés à la demande.

Narration de données. Donnez des métriques à un agent. Il écrit des visualisations D3 enveloppées dans des scènes HyperFrames. Le résultat est une visite guidée narrée de votre tableau de bord, automatiquement mise à jour chaque trimestre.

B-roll dynamique pour les podcasts ou le contenu long format. Un agent lit une transcription, génère des animations graphiques illustrant chaque point clé, et les superpose à l'audio.

Vidéos de documentation API. Analysez votre spécification OpenAPI, générez des présentations de points de terminaison avec des diagrammes de requête/réponse animés, exportez sous forme de clips partageables.

Test de l'orchestration de l'agent avec Apidog

HyperFrames gère l'étape de rendu. Tout ce qui est en amont est l'orchestration : la boucle de l'agent, les appels d'outils, les requêtes API LLM et la logique qui décide quelle vidéo produire à partir de quelle entrée.

C'est là que les choses se gâtent en production. Les charges utiles d'outils mal formées, les requêtes API expirées, les références tool_use_id incorrectes ou les schémas de messages non concordants arrêtent tous le pipeline vidéo avant même qu'une seule image ne soit rendue.

Apidog vous offre un environnement de test pour les parties qu'HyperFrames ne couvre pas :

Simulez les points de terminaison LLM. Construisez un point de terminaison Claude ou OpenAI factice dans Apidog avec le schéma exact attendu par votre agent. Testez la réaction de votre pipeline aux réponses mal formées ou retardées avant que les coûts réels de l'API ne s'envolent.

Validez les charges utiles d'utilisation des outils. Si votre agent appelle des API externes (pour la récupération d'actifs, la recherche de séquences d'archives ou la récupération de kits de marque), configurez ces points de terminaison dans Apidog et enchaînez-les dans des scénarios de test. Confirmez que la structure d'appel d'outils de l'agent correspond à votre API avant de l'exécuter de bout en bout.

Suivez la consommation de jetons. Claude Opus 4.7 utilise un nouveau tokenizer qui produit jusqu'à 35 % de jetons de plus qu'Opus 4.6. Une composition vidéo avec un CSS riche et 200 lignes de JavaScript n'est pas petite. Le suivi d'utilisation d'Apidog vous aide à dimensionner vos invites avant que les coûts ne vous surprennent.

Déboguez les flux d'agents multi-tours. Un rendu vidéo complet nécessite souvent 5 à 10 tours LLM (planifier la vidéo, ébaucher les scènes, réviser le timing, corriger les animations, finaliser). Apidog vous permet de rejouer la conversation exacte pour trouver où l'agent a déraillé.

button

L'argument philosophique

L'équipe de HeyGen affirme plus qu'un simple « HTML est un format pratique pour la vidéo générée par un agent ». Ils croient que le HTML est le bon format pour l'avenir de la vidéo, point final.

Le raisonnement tient la route. La vidéo traditionnelle est enfermée dans des formats propriétaires contrôlés par Adobe, Blackmagic et une poignée de fournisseurs de codecs. Le HTML est ouvert, standardisé, versionnable, consultable et éditable avec tous les outils textuels de la planète.

Si la vidéo basée sur HTML devient le format d'échange, les vidéos deviennent :

Différenciables dans Git. Vous pouvez voir exactement ce qui a changé entre les révisions.
Composables. Une carte de titre est un composant React. Une animation graphique est un module importable.
Réactives. La même composition s'affiche en 1080p, 4K ou vertical 9:16 sans reconstruction.
Accessibles. Les lecteurs d'écran analysent la source. Le texte alternatif pour les éléments visuels est intégré.
Recherchables. Le texte à l'intérieur des vidéos est littéralement du texte, pas des pixels OCR.

Rien de tout cela n'est théorique. Chacune de ces propriétés fonctionne déjà dans le navigateur. HyperFrames est le pont qui prend le contenu natif du navigateur et en fait une source vidéo viable.

Limitations à connaître

HyperFrames est en version 1. Quelques contraintes réelles :

La vitesse de rendu dépend de la complexité. Une scène avec des particules Three.js et des shaders Canvas prend plus de temps à encoder qu'une simple animation de texte GSAP. Planifiez en conséquence.
L'entrée vidéo en direct est limitée. Vous pouvez intégrer des balises <video>, mais les flux de caméra en temps réel ou les sources de streaming nécessitent plus de code de liaison.
Le support audio est basique. Vous pouvez ajouter des pistes audio, mais le mixage avancé (ducking, égalisation, réduction de bruit) nécessite toujours un post-traitement FFmpeg.
La créativité de l'agent dépend toujours du modèle. Opus 4.6 et Gemini 3 ont été les premiers modèles à produire un résultat cohérent et esthétiquement frappant à partir d'invites simples. Opus 4.7 est actuellement le meilleur pour ce flux de travail.

Aucune de ces limitations n'est un facteur de rupture, mais prévoyez-les si vous construisez un pipeline de production.

Liste de contrôle pour commencer

Si vous souhaitez essayer HyperFrames dès maintenant :

[ ] Installez Claude Code (ou utilisez votre agent préféré)
[ ] Exécutez npx skills add heygen-com/hyperframes
[ ] Demandez à votre agent de créer une vidéo simple de 5 secondes
[ ] Rendez la sortie et inspectez le MP4
[ ] Itérez : modifiez le style, le timing ou le nombre de scènes
[ ] Pour les flux de travail basés sur des API, configurez vos points de terminaison LLM et d'outils dans Apidog
[ ] Créez une vraie vidéo (un teaser de produit, une histoire de données, un résumé de note de version)
[ ] Mettez en favori le dépôt GitHub sur github.com/heygen-com/hyperframes

Conclusion

Les agents IA sont capables de coder depuis des années. Jusqu'à présent, le montage vidéo était le dernier domaine créatif majeur où ils avaient besoin d'un humain dans la boucle. HyperFrames supprime cette dépendance en rencontrant les agents là où ils travaillent déjà : HTML, CSS et JavaScript.

L'approche est assez simple pour être décrite en une phrase et suffisamment flexible pour produire des animations graphiques de qualité diffusion. Si vous construisez quoi que ce soit nécessitant de la vidéo en sortie (automatisation marketing, contenu personnalisé, narration de données, documentation pilotée par agent), HyperFrames a sa place dans votre pile.

Pour la couche API et d'orchestration qui l'entoure, testez les conversations de votre agent, les appels d'outils et les requêtes LLM avec Apidog avant de monter en puissance. Les requêtes API échouées ne sont pas rendues en MP4.