Cómo Editar Videos con Inteligencia Artificial Usando HyperFrames

En resumen

Los agentes de IA pueden escribir código, llamar a APIs y ejecutar flujos de trabajo de varios pasos. Hasta ahora, una capacidad se les resistía: la edición de video. Las herramientas profesionales como After Effects y DaVinci Resolve utilizan líneas de tiempo en capas y gráficos de escenas JSON en los que los LLM no fueron entrenados. El nuevo proyecto de código abierto de HeyGen, HyperFrames, cambia el enfoque. Permite a los agentes de IA componer video usando HTML, CSS y JavaScript, y luego renderiza el resultado a MP4, MOV o WebM. Lo instalas como una habilidad de Claude Code con un solo comando, y tu agente se convierte en un editor de video.

Introducción

El video es el formato de comunicación más atractivo en la web. Todos los demás medios que un agente de IA puede producir (texto, código, imágenes, gráficos) tienen una cadena de herramientas clara. El video no la tenía.

Podrías pedirle a un modelo que genere un clip completo con Sora, Veo o Runway, pero ese enfoque tiene límites. Obtienes un solo video monolítico a partir de una instrucción. No puedes componerlo. No puedes iterar en gráficos en movimiento ni superponer animaciones de marca específicas. No puedes decirle al agente "rehacer la escena 3 con un desvanecimiento más lento".

HeyGen lanzó HyperFrames el 17 de abril de 2026 para cerrar esta brecha. En lugar de enseñar a los agentes software de video tradicional, les dieron un formato que ya conocen: HTML. Esta guía explica cómo funciona, por qué el enfoque tiene sentido y cómo configurarlo para que tu propio agente pueda editar video.

Si estás construyendo flujos de trabajo de agentes impulsados por API que producen video, también querrás probar la capa de orquestación. Cubriremos cómo Apidog encaja al final.

botón

Por qué los agentes de IA no podían editar video antes

Las herramientas tradicionales de edición de video no fueron creadas para agentes. Fueron creadas para humanos que hacían clic en líneas de tiempo.

Tres barreras específicas:

Las interfaces de usuario basadas en líneas de tiempo no se corresponden con el código. After Effects, Premiere y DaVinci Resolve almacenan proyectos como formatos binarios propietarios o gráficos de escenas JSON profundamente anidados. Incluso si un agente pudiera leer estos archivos, el espacio semántico es estrecho. Casi no existen datos de entrenamiento para los pesos del modelo en estos formatos.

Los gráficos en movimiento requieren pensamiento visual. Las animaciones con fotogramas clave, las curvas de aceleración y la composición de capas se suelen hacer a ojo. Los agentes no ven una ventana de vista previa. Necesitan una abstracción basada en texto para razonar sobre el movimiento.

Las herramientas asumen un operador humano. Las tuberías de renderizado, los ecosistemas de plugins y las elecciones de códecs viven detrás de los menús de la interfaz de usuario. Automatizarlos a través de scripts funciona para casos limitados (ExtendScript en After Effects, por ejemplo), pero las API son estrechas y frágiles.

Resultado: los agentes podían escribir un script para llamar a ffmpeg, unir clips y superponer texto con filtros básicos. Cualquier cosa más allá de eso requería un humano.

La revelación del HTML para video

El equipo de HeyGen hizo una observación diferente. Los LLM fueron entrenados con miles de millones de páginas de HTML, CSS y JavaScript. Han visto cientos de miles de animaciones GSAP, composiciones SVG, experimentos con Canvas y archivos Lottie. La web es el medio creativo más grande en sus datos de entrenamiento.

Cuando le pides a un modelo de frontera que produzca una animación visualmente rica, escribe HTML con fluidez. Sabe cómo:

Posicionar elementos con CSS
Animar con GSAP o keyframes de CSS
Renderizar trazados SVG
Componer escenas en capas con z-index y opacity
Hacer transiciones entre estados

Todos los primitivos visuales que un editor necesita ya existen en el navegador. La pieza que faltaba era convertir una línea de tiempo de escenas HTML en un archivo de video renderizado.

Eso es lo que hace HyperFrames. El nombre lo dice: HTML se convierte en Video Frames. HyperFrames.

Cómo funciona HyperFrames

HyperFrames añade un pequeño conjunto de atributos data- al HTML estándar. Estos atributos definen la línea de tiempo del video. Todo lo demás es código web puro.

Los atributos principales:

Atributo	Propósito
`data-composition-id`	ID único para la composición de video
`data-width` / `data-height`	Resolución de salida en píxeles
`data-start`	Tiempo de inicio de la escena en segundos
`data-duration`	Duración de la escena en segundos
`data-track-index`	Orden de capa para escenas superpuestas

El agente escribe un archivo HTML normal. HyperFrames lee los atributos de datos, ejecuta la página en un navegador sin interfaz gráfica (headless), captura fotogramas a la velocidad de fotogramas objetivo y codifica la salida con FFmpeg.

Eso es todo. Sin un nuevo DSL. Sin gráfico de escena. Sin editor de fotogramas clave. La animación reside en las líneas de tiempo de GSAP o en las animaciones CSS, exactamente el código que el modelo ya produce.

Un ejemplo mínimo

Aquí hay una composición de video de 5 segundos en menos de 70 líneas de HTML. Dos escenas: una tarjeta de título que aparece suavemente, luego se desvanece con un desenfoque y una transición cruzada a una pantalla de cierre.

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <script src="https://cdn.jsdelivr.net/npm/gsap@3.14.2/dist/gsap.min.js"></script>
  <style>
    body { margin:0; width:1920px; height:1080px; overflow:hidden; background:#0D1B2A; }
    .scene { position:absolute; inset:0; width:1920px; height:1080px; overflow:hidden; background:#0D1B2A; }
    #scene2 { z-index:2; opacity:0; }
    .s1 { display:flex; flex-direction:column; justify-content:center; padding:120px 160px; gap:20px; }
    .s2 { display:flex; flex-direction:column; justify-content:center; align-items:center; padding:100px 160px; gap:32px; }
  </style>
</head>
<body>
  <div id="root" data-composition-id="hyperframes-intro"
       data-width="1920" data-height="1080" data-start="0" data-duration="5">
    <div id="scene1" class="scene">
      <div class="s1">
        <div class="s1-title">HTML is Video</div>
        <div class="s1-sub">Compose. Animate. Render.</div>
      </div>
    </div>

    <div id="scene2" class="scene">
      <div class="s2-title">Start composing.</div>
    </div>
  </div>
  <script>
    window.__timelines = window.__timelines || {};
    const tl = gsap.timeline({ paused: true });

    // Scene 1: title entrance
    tl.from(".s1-title", { x:-40, opacity:0, duration:0.5, ease:"power3.out" }, 0.25);
    tl.from(".s1-sub", { y:15, opacity:0, duration:0.4, ease:"power2.out" }, 0.5);

    // Blur crossfade transition
    const T = 2.2;
    tl.to("#scene1", { filter:"blur(8px)", scale:1.03, opacity:0, duration:0.35, ease:"power2.inOut" }, T);
    tl.fromTo("#scene2",
      { filter:"blur(8px)", scale:0.97, opacity:0 },
      { filter:"blur(0px)", scale:1, opacity:1, duration:0.35, ease:"power2.inOut" }, T + 0.08);

    window.__timelines["hyperframes-intro"] = tl;
  </script>
</body>
</html>

Dos cosas a tener en cuenta:

La lógica de animación es GSAP puro. Cualquier modelo que haya visto tutoriales de GSAP puede escribir líneas de tiempo como esta.
La sobrecarga de HyperFrames es mínima. Unos pocos atributos data- en el elemento raíz. Nada más.

Renderiza este archivo y obtendrás un MP4 de 1920x1080 de la animación. Cambia el texto, los colores, las fuentes, añade un logo: todo el archivo es HTML puro.

Lo que el agente puede usar realmente

Dado que la tubería de renderizado es un navegador real, cualquier tecnología web funciona:

Animaciones y transiciones CSS para movimientos simples
Líneas de tiempo GSAP para coreografías complejas
SVG para logotipos, formas y animaciones de trazados
Canvas para sistemas de partículas o fondos generativos
Three.js para escenas 3D
D3.js para visualizaciones de datos
Lottie para animaciones importadas de After Effects
Fuentes web de Google Fonts o fuentes personalizadas
Video o imágenes de fondo cargados a través de <video> o <img>

Sin envoltorios, sin arquitectura de plugins, sin framework que aprender. El agente usa lo que ya sabe.

Cómo darle a tu agente la capacidad de editar video con un solo comando

HyperFrames se envía como una habilidad de Claude Code. Si usas Claude Code, la instalación es un solo comando npm.

npx skills add heygen-com/hyperframes

Esto obtiene la habilidad del repositorio de GitHub de HeyGen, instala la cadena de herramientas y registra la capacidad de edición de video con Claude Code.

Después de la instalación, pídale a su agente de forma natural:

Build me a 10-second product explainer video for a new API.
Start with a dark gradient background, animate the product name
sliding up from the bottom with a fade, then cut to three
bullet points with icons, end on a call-to-action card.

El agente escribe el HTML, ejecuta una vista previa local y renderiza el MP4 final. Sin claves de API. Sin servicios externos. Todo se ejecuta en su máquina.

Configuración sin Claude Code

HyperFrames es independiente de frameworks. Puedes llamarlo desde cualquier agente que pueda ejecutar comandos de shell y leer archivos.

Clonar el repositorio:

git clone https://github.com/heygen-com/hyperframes
cd hyperframes
npm install

Renderizar un archivo de composición:

npx hyperframes render my-video.html --output my-video.mp4

Previsualizar localmente:

npx hyperframes preview my-video.html

El comando de vista previa abre una ventana del navegador donde puedes moverte por la línea de tiempo y verificar la precisión fotograma a fotograma antes de comprometerte con un renderizado completo.

Lo que esto desbloquea para los desarrolladores

Algunos casos de uso se abren de inmediato.

Marketing de productos automatizado. Su agente puede extraer notas de lanzamiento, generar HTML escena por escena y enviar un renderizado a su CDN. Cada lanzamiento obtiene un video sin que un humano toque una línea de tiempo.

Respuestas de video personalizadas. Los webhooks de API activan un agente que renderiza un clip personalizado por evento de usuario. Videos de bienvenida, recibos, celebraciones de hitos, todo generado bajo demanda.

Narración de datos. Alimente métricas a un agente. Este escribe visualizaciones D3 envueltas en escenas de HyperFrames. La salida es un recorrido narrado de su panel de control, actualizado automáticamente cada trimestre.

Material de archivo (B-roll) dinámico para podcasts o contenido de formato largo. Un agente lee una transcripción, genera gráficos en movimiento que ilustran cada punto clave y los superpone al audio.

Videos de documentación de API. Analice su especificación OpenAPI, genere tutoriales de puntos finales con diagramas animados de solicitud/respuesta, expórtelos como clips compartibles.

Probando la orquestación del agente con Apidog

HyperFrames se encarga del paso de renderizado. Todo lo anterior es orquestación: el bucle del agente, las llamadas a herramientas, las solicitudes a la API de LLM y la lógica que decide qué video producir a partir de qué entrada.

Ahí es donde las cosas fallan en producción. Cargas de herramientas mal formadas, solicitudes a la API con tiempo de espera agotado, referencias incorrectas de tool_use_id o esquemas de mensajes que no coinciden, todo detiene la tubería de video antes de que se renderice un solo fotograma.

Apidog te proporciona un entorno de prueba para las partes que HyperFrames no cubre:

Simule los puntos finales del LLM. Cree un punto final ficticio de Claude u OpenAI en Apidog con el esquema exacto que espera su agente. Pruebe cómo reacciona su tubería a respuestas mal formadas o retrasadas antes de que incurra en costos reales de API.

Valide las cargas útiles de uso de herramientas. Si su agente llama a APIs externas (para recuperación de activos, búsqueda de material de archivo o obtención de kits de marca), configure esos puntos finales en Apidog y encadénelos en escenarios de prueba. Confirme que la estructura de llamada a la herramienta del agente coincide con su API antes de ejecutarla de extremo a extremo.

Seguimiento del consumo de tokens. Claude Opus 4.7 utiliza un nuevo tokenizador que produce hasta un 35% más de tokens que Opus 4.6. Una composición de video con CSS rico y 200 líneas de JavaScript no es pequeña. El seguimiento de uso de Apidog le ayuda a dimensionar sus prompts antes de que los costos lo sorprendan.

Depure flujos de agentes de múltiples turnos. Un renderizado de video completo a menudo necesita de 5 a 10 turnos del LLM (planificar el video, esbozar escenas, revisar el tiempo, arreglar animaciones, finalizar). Apidog le permite reproducir la conversación exacta para encontrar dónde el agente se desvió.

botón

El argumento filosófico

El equipo de HeyGen hace una afirmación más contundente que "HTML es un formato conveniente para el video generado por agentes". Creen que HTML es el formato correcto para el futuro del video, punto.

El razonamiento se sostiene. El video tradicional está encerrado en formatos propietarios controlados por Adobe, Blackmagic y un puñado de proveedores de códecs. HTML es abierto, estandarizado, versionable, buscable y editable con cada herramienta de texto del mundo.

Si el video basado en HTML se convierte en el formato de intercambio, los videos se vuelven:

Diferenciables en git. Puedes ver exactamente qué cambió entre revisiones.
Componentizables. Una tarjeta de título es un componente de React. Un gráfico en movimiento es un módulo importable.
Adaptables. La misma composición se renderiza a 1080p, 4K o vertical 9:16 sin reconstrucción.
Accesibles. Los lectores de pantalla analizan la fuente. El texto alternativo para elementos visuales está incorporado.
Buscables. El texto dentro de los videos es literalmente texto, no píxeles OCR.

Nada de esto es teórico. Cada una de esas propiedades ya funciona en el navegador. HyperFrames es el puente que toma el contenido nativo del navegador y lo convierte en una fuente de video viable.

Limitaciones a tener en cuenta

HyperFrames es la versión 1. Algunas limitaciones reales son:

La velocidad de renderizado depende de la complejidad. Una escena con partículas Three.js y sombreadores de Canvas tarda más en codificarse que una simple animación de texto GSAP. Planifícalo en consecuencia.
La entrada de video en vivo es limitada. Puedes incrustar etiquetas <video>, pero las fuentes de cámaras en tiempo real o de streaming necesitan más código de conexión.
El soporte de audio es básico. Puedes añadir pistas de audio, pero la mezcla avanzada (atenuación, ecualización, reducción de ruido) aún requiere postprocesamiento con FFmpeg.
La creatividad del agente todavía depende del modelo. Opus 4.6 y Gemini 3 fueron los primeros modelos que produjeron resultados consistentes y estéticamente sorprendentes a partir de prompts sencillos. Opus 4.7 es el mejor actualmente para este flujo de trabajo.

Ninguna de estas son limitaciones insalvables, pero planifíquelas si está construyendo una tubería de producción.

Lista de verificación para empezar

Si quieres probar HyperFrames ahora mismo:

[ ] Instala Claude Code (o usa tu agente preferido)
[ ] Ejecuta npx skills add heygen-com/hyperframes
[ ] Pídele a tu agente que cree un video simple de 5 segundos
[ ] Renderiza la salida e inspecciona el MP4
[ ] Itera: cambia el estilo, el tiempo o el número de escenas
[ ] Para flujos de trabajo basados en API, configura tus puntos finales de LLM y herramientas en Apidog
[ ] Construye un video real (un avance de producto, una historia de datos, un resumen de notas de lanzamiento)
[ ] Marca con una estrella el repositorio de GitHub en github.com/heygen-com/hyperframes

Conclusión

Los agentes de IA han sido capaces de codificar durante años. Hasta ahora, la edición de video era el último gran dominio creativo donde necesitaban un humano en el bucle. HyperFrames elimina esa dependencia al encontrarse con los agentes donde ya trabajan: HTML, CSS y JavaScript.

El enfoque es lo suficientemente simple como para describirse en una frase y lo suficientemente flexible como para producir gráficos en movimiento con calidad de transmisión. Si estás construyendo algo que necesita video como salida (automatización de marketing, contenido personalizado, narración de datos, documentación impulsada por agentes), HyperFrames pertenece a tu pila.

Para la capa de API y orquestación que lo rodea, prueba las conversaciones de tu agente, las llamadas a herramientas y las solicitudes a LLM con Apidog antes de escalar. Las solicitudes a la API fallidas no se renderizan a MP4.