Inti Masalah (TL;DR)
Agen AI dapat menulis kode, memanggil API, dan menjalankan alur kerja multi-langkah. Hingga saat ini, satu kemampuan terus luput dari mereka: mengedit video. Alat profesional seperti After Effects dan DaVinci Resolve menggunakan linimasa berlapis dan grafik adegan JSON yang tidak dilatih oleh LLM. Proyek sumber terbuka baru HeyGen, HyperFrames, membalikkan pendekatan tersebut. Ini memungkinkan agen AI membuat video menggunakan HTML, CSS, dan JavaScript, kemudian merender hasilnya ke MP4, MOV, atau WebM. Anda menginstalnya sebagai skill Claude Code dengan satu perintah, dan agen Anda menjadi editor video.
Pendahuluan
Video adalah format komunikasi paling menarik di web. Setiap media lain yang dapat dihasilkan agen AI (teks, kode, gambar, bagan) memiliki rantai alat yang jelas. Video tidak demikian.
Anda dapat memerintahkan model untuk membuat klip lengkap dengan Sora, Veo, atau Runway, tetapi pendekatan tersebut memiliki batasan. Anda mendapatkan satu video monolitik dari sebuah perintah. Anda tidak dapat menyusunnya. Anda tidak dapat mengulang grafik gerak atau menumpuk animasi merek tertentu. Anda tidak dapat memberi tahu agen "ulangi adegan 3 dengan fade yang lebih lambat."
HeyGen mengirimkan HyperFrames pada 17 April 2026 untuk menutup celah ini. Alih-alih mengajari agen perangkat lunak video tradisional, mereka memberi agen format yang sudah mereka kenal: HTML. Panduan ini menjelaskan cara kerjanya, mengapa pendekatan ini masuk akal, dan cara mengaturnya agar agen Anda dapat mengedit video.
Jika Anda membangun alur kerja agen berbasis API yang menghasilkan video, Anda juga ingin menguji lapisan orkestrasi. Kita akan membahas bagaimana Apidog cocok di akhir.
Mengapa Agen AI Tidak Bisa Mengedit Video Sebelumnya
Alat pengeditan video tradisional tidak dibuat untuk agen. Mereka dibuat untuk manusia yang mengklik linimasa.
Tiga hambatan spesifik:
UI berbasis linimasa tidak dapat dipetakan ke kode. After Effects, Premiere, dan DaVinci Resolve menyimpan proyek sebagai format biner proprietary atau grafik adegan JSON yang sangat berlapis. Sekalipun agen dapat membaca file-file ini, ruang semantiknya sempit. Hampir tidak ada data pelatihan yang tersedia untuk bobot model pada format-format ini.
Grafik gerak membutuhkan pemikiran visual. Animasi keyframe, kurva easing, dan komposit lapisan biasanya dilakukan secara visual. Agen tidak melihat jendela pratinjau. Mereka membutuhkan abstraksi berbasis teks untuk memahami gerakan.
Alat-alat tersebut mengasumsikan operator manusia. Pipeline rendering, ekosistem plugin, dan pilihan codec semuanya berada di balik menu UI. Mengotomatiskan mereka melalui skrip berfungsi untuk kasus terbatas (misalnya, ExtendScript di After Effects), tetapi API-nya sempit dan rapuh.
Hasilnya: agen dapat menulis skrip untuk memanggil ffmpeg, menggabungkan klip, dan menumpuk teks dengan filter dasar. Apa pun di luar itu membutuhkan manusia.
Wawasan HTML-untuk-video
Tim HeyGen memiliki pengamatan yang berbeda. LLM dilatih pada miliaran halaman HTML, CSS, dan JavaScript. Mereka telah melihat ratusan ribu animasi GSAP, komposisi SVG, eksperimen Canvas, dan file Lottie. Web adalah media kreatif terbesar dalam data pelatihan mereka.

Ketika Anda meminta model terdepan untuk menghasilkan animasi yang kaya visual, ia menulis HTML dengan lancar. Ia tahu cara:
- Memosisikan elemen dengan CSS
- Menganimasikan dengan GSAP atau keyframe CSS
- Merender jalur SVG
- Menyusun adegan berlapis dengan
z-indexdanopacity - Mengubah status antar-keadaan (tween)
Semua primitif visual yang dibutuhkan editor sudah ada di browser. Bagian yang hilang adalah mengubah linimasa adegan HTML menjadi file video yang dirender.
Itulah yang dilakukan HyperFrames. Namanya jelas: HTML menjadi Frame video. HyperFrames.
Cara Kerja HyperFrames
HyperFrames menambahkan sedikit atribut data- ke HTML standar. Atribut ini mendefinisikan linimasa video. Selebihnya adalah kode web biasa.
Atribut inti:
| Atribut | Tujuan |
|---|---|
data-composition-id |
ID unik untuk komposisi video |
data-width / data-height |
Resolusi output dalam piksel |
data-start |
Waktu mulai adegan dalam detik |
data-duration |
Durasi adegan dalam detik |
data-track-index |
Urutan lapisan untuk adegan yang tumpang tindih |
Agen menulis file HTML normal. HyperFrames membaca atribut data, menjalankan halaman di browser tanpa kepala (headless browser), menangkap bingkai pada laju bingkai target, dan mengkodekan hasilnya dengan FFmpeg.
Itu saja. Tidak ada DSL baru. Tidak ada grafik adegan. Tidak ada editor keyframe. Animasi hidup dalam linimasa GSAP atau animasi CSS, persis seperti kode yang sudah dihasilkan model.
Contoh Minimal
Berikut adalah komposisi video 5 detik dalam kurang dari 70 baris HTML. Dua adegan: kartu judul yang muncul dengan fade, lalu blur-crossfades ke layar penutup.
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<script src="https://cdn.jsdelivr.net/npm/gsap@3.14.2/dist/gsap.min.js"></script>
<style>
body { margin:0; width:1920px; height:1080px; overflow:hidden; background:#0D1B2A; }
.scene { position:absolute; inset:0; width:1920px; height:1080px; overflow:hidden; background:#0D1B2A; }
#scene2 { z-index:2; opacity:0; }
.s1 { display:flex; flex-direction:column; justify-content:center; padding:120px 160px; gap:20px; }
.s2 { display:flex; flex-direction:column; justify-content:center; align-items:center; padding:100px 160px; gap:32px; }
</style>
</head>
<body>
<div id="root" data-composition-id="hyperframes-intro"
data-width="1920" data-height="1080" data-start="0" data-duration="5">
<div id="scene1" class="scene">
<div class="s1">
<div class="s1-title">HTML is Video</div>
<div class="s1-sub">Compose. Animate. Render.</div>
</div>
</div>
<div id="scene2" class="scene">
<div class="s2-title">Start composing.</div>
</div>
</div>
<script>
window.__timelines = window.__timelines || {};
const tl = gsap.timeline({ paused: true });
// Scene 1: title entrance
tl.from(".s1-title", { x:-40, opacity:0, duration:0.5, ease:"power3.out" }, 0.25);
tl.from(".s1-sub", { y:15, opacity:0, duration:0.4, ease:"power2.out" }, 0.5);
// Blur crossfade transition
const T = 2.2;
tl.to("#scene1", { filter:"blur(8px)", scale:1.03, opacity:0, duration:0.35, ease:"power2.inOut" }, T);
tl.fromTo("#scene2",
{ filter:"blur(8px)", scale:0.97, opacity:0 },
{ filter:"blur(0px)", scale:1, opacity:1, duration:0.35, ease:"power2.inOut" }, T + 0.08);
window.__timelines["hyperframes-intro"] = tl;
</script>
</body>
</html>
Dua hal yang perlu diperhatikan:
- Logika animasi adalah murni GSAP. Model apa pun yang telah melihat tutorial GSAP dapat menulis linimasa seperti ini.
- Overhead HyperFrames sangat kecil. Beberapa atribut
data-pada elemen root. Tidak ada yang lain.
Render file ini dan Anda akan mendapatkan MP4 1920x1080 dari animasi tersebut. Ubah teks, ubah warna, tukar font, tambahkan logo: seluruh file adalah HTML biasa.
Apa yang Sebenarnya Dapat Digunakan Agen
Karena pipeline render adalah browser sungguhan, semua teknologi web berfungsi:
- Animasi dan transisi CSS untuk gerakan sederhana
- Linimasa GSAP untuk koreografi kompleks
- SVG untuk logo, bentuk, dan animasi jalur
- Canvas untuk sistem partikel atau latar belakang generatif
- Three.js untuk adegan 3D
- D3.js untuk visualisasi data
- Lottie untuk animasi After Effects yang diimpor
- Font web dari Google Fonts atau sumber khusus
- Video atau gambar latar belakang dimuat melalui
<video>atau<img>
Tidak ada wrapper, tidak ada arsitektur plugin, tidak ada framework yang harus dipelajari. Agen menggunakan apa yang sudah diketahuinya.
Cara Memberi Agen Anda Kemampuan Mengedit Video dalam Satu Perintah
HyperFrames dikirimkan sebagai skill Claude Code. Jika Anda menggunakan Claude Code, instalasinya adalah satu perintah npm.
npx skills add heygen-com/hyperframes
Ini mengambil skill dari repositori GitHub HeyGen, menginstal toolchain, dan mendaftarkan kemampuan pengeditan video dengan Claude Code.
Setelah instalasi, berikan perintah kepada agen Anda secara alami:
Buat saya video penjelas produk 10 detik untuk API baru.
Mulai dengan latar belakang gradien gelap, animasikan nama produk
meluncur dari bawah dengan fade, lalu potong ke tiga
poin-poin dengan ikon, akhiri dengan kartu panggilan-untuk-bertindak.
Agen menulis HTML, menjalankan pratinjau lokal, dan merender MP4 terakhir. Tidak ada kunci API. Tidak ada layanan eksternal. Semuanya berjalan di mesin Anda.
Pengaturan Tanpa Claude Code
HyperFrames adalah agnostik framework. Anda dapat memanggilnya dari agen mana pun yang dapat menjalankan perintah shell dan membaca file.
Kloning repositori:
git clone https://github.com/heygen-com/hyperframes
cd hyperframes
npm install
Render file komposisi:
npx hyperframes render my-video.html --output my-video.mp4
Pratinjau secara lokal:
npx hyperframes preview my-video.html
Perintah pratinjau membuka jendela browser di mana Anda dapat memutar linimasa dan memeriksa akurasi bingkai demi bingkai sebelum melakukan render penuh.
Apa yang Dibuka Ini untuk Pengembang
Beberapa kasus penggunaan langsung terbuka.
Pemasaran produk otomatis. Agen Anda dapat menarik catatan rilis, menghasilkan HTML adegan demi adegan, dan mengirim hasil render ke CDN Anda. Setiap rilis mendapatkan video tanpa manusia menyentuh linimasa.
Tanggapan video yang dipersonalisasi. Webhook API memicu agen yang merender klip yang dipersonalisasi per peristiwa pengguna. Video sambutan, tanda terima, perayaan pencapaian, semuanya dihasilkan sesuai permintaan.
Penceritaan data. Berikan metrik ke agen. Ia menulis visualisasi D3 yang dibungkus dalam adegan HyperFrames. Outputnya adalah panduan narasi dasbor Anda, yang diperbarui secara otomatis setiap kuartal.
B-roll dinamis untuk podcast atau konten berdurasi panjang. Agen membaca transkrip, menghasilkan grafik gerak yang menggambarkan setiap poin penting, dan melapiskannya di atas audio.
Video dokumentasi API. Uraikan spesifikasi OpenAPI Anda, hasilkan panduan endpoint dengan diagram permintaan/respons animasi, ekspor sebagai klip yang dapat dibagikan.
Menguji Orkestrasi Agen dengan Apidog
HyperFrames menangani langkah render. Segala sesuatu di hulu adalah orkestrasi: loop agen, panggilan alat, permintaan API LLM, dan logika yang memutuskan video apa yang akan dihasilkan dari masukan apa.
Di situlah segalanya rusak dalam produksi. Payload alat yang salah format, permintaan API yang waktu habis, referensi tool_use_id yang salah, atau skema pesan yang tidak cocok semuanya menghentikan pipeline video sebelum satu bingkai pun dirender.
Apidog memberi Anda lingkungan pengujian untuk bagian-bagian yang tidak dicakup oleh HyperFrames:
Mengejek endpoint LLM. Buat endpoint Claude atau OpenAI tiruan di Apidog dengan skema persis yang diharapkan agen Anda. Uji bagaimana pipeline Anda bereaksi terhadap respons yang salah format atau tertunda sebelum biaya API riil muncul.
Memvalidasi payload penggunaan alat. Jika agen Anda memanggil API eksternal (untuk pengambilan aset, pencarian stok rekaman, atau pengambilan kit merek), siapkan endpoint tersebut di Apidog dan gabungkan ke dalam skenario pengujian. Konfirmasikan struktur panggilan alat agen sesuai dengan API Anda sebelum menjalankannya secara end-to-end.
Melacak konsumsi token. Claude Opus 4.7 menggunakan tokenisasi baru yang menghasilkan hingga 35% lebih banyak token daripada Opus 4.6. Komposisi video dengan CSS yang kaya dan 200 baris JavaScript tidaklah kecil. Pelacakan penggunaan Apidog membantu Anda mengukur prompt Anda sebelum biaya mengejutkan Anda.
Mendebug alur agen multi-giliran. Render video lengkap seringkali membutuhkan 5-10 giliran LLM (merencanakan video, membuat draf adegan, merevisi waktu, memperbaiki animasi, menyelesaikan). Apidog memungkinkan Anda memutar ulang percakapan yang persis sama untuk menemukan di mana agen salah langkah.
Argumen Filosofis
Tim HeyGen membuat klaim yang lebih kuat daripada "HTML adalah format yang nyaman untuk video yang dihasilkan agen." Mereka percaya HTML adalah format yang tepat untuk masa depan video, titik.
Alasan itu masuk akal. Video tradisional terkunci dalam format proprietary yang dikendalikan oleh Adobe, Blackmagic, dan segelintir vendor codec. HTML bersifat terbuka, terstandardisasi, dapat diverifikasi versi, dapat dicari, dan dapat diedit dengan setiap alat teks di dunia.
Jika video berbasis HTML menjadi format pertukaran, video akan menjadi:
- Dapat dibandingkan di git. Anda dapat melihat persis apa yang berubah antara revisi.
- Dapat dikomponenkan. Kartu judul adalah komponen React. Grafik gerak adalah modul yang dapat diimpor.
- Responsif. Komposisi yang sama di-render pada 1080p, 4K, atau vertikal 9:16 tanpa pembangunan ulang.
- Aksesibel. Pembaca layar mengurai sumber. Teks alternatif untuk elemen visual sudah ada di dalamnya.
- Dapat dicari. Teks di dalam video secara harfiah adalah teks, bukan piksel hasil OCR.
Semua ini bukan teoretis. Setiap properti tersebut sudah berfungsi di browser. HyperFrames adalah jembatan yang mengambil konten asli browser dan menjadikannya sumber video yang layak.
Batasan yang Perlu Diketahui
HyperFrames adalah versi 1. Beberapa batasan nyata:
- Kecepatan render tergantung pada kompleksitas. Sebuah adegan dengan partikel Three.js dan shader Canvas membutuhkan waktu lebih lama untuk dikodekan daripada animasi teks GSAP sederhana. Rencanakan dengan sesuai.
- Masukan video langsung terbatas. Anda dapat menyematkan tag
<video>, tetapi umpan kamera real-time atau sumber streaming membutuhkan lebih banyak kode lem. - Dukungan audio masih dasar. Anda dapat menambahkan trek audio, tetapi mixing canggih (ducking, EQ, pengurangan noise) masih memerlukan pasca-pemrosesan FFmpeg.
- Kreativitas agen masih tergantung pada model. Opus 4.6 dan Gemini 3 adalah model pertama yang menghasilkan output yang konsisten, menarik secara estetika dari prompt biasa. Opus 4.7 saat ini adalah yang terbaik untuk alur kerja ini.
Tidak ada di antara ini yang menjadi penghalang, tetapi rencanakan untuk itu jika Anda sedang membangun pipeline produksi.
Daftar Periksa Memulai
Jika Anda ingin mencoba HyperFrames sekarang:
- [ ] Instal Claude Code (atau gunakan agen pilihan Anda)
- [ ] Jalankan
npx skills add heygen-com/hyperframes - [ ] Perintahkan agen Anda untuk membuat video 5 detik sederhana
- [ ] Render output dan periksa MP4
- [ ] Iterasi: ubah gaya, waktu, atau jumlah adegan
- [ ] Untuk alur kerja berbasis API, siapkan endpoint LLM dan alat Anda di Apidog
- [ ] Buat satu video nyata (teaser produk, cerita data, ringkasan catatan rilis)
- [ ] Beri bintang pada repositori GitHub di github.com/heygen-com/hyperframes
Kesimpulan
Agen AI telah mampu membuat kode selama bertahun-tahun. Hingga saat ini, pengeditan video adalah domain kreatif utama terakhir di mana mereka membutuhkan manusia. HyperFrames menghilangkan ketergantungan itu dengan memenuhi agen di mana mereka sudah bekerja: HTML, CSS, dan JavaScript.
Pendekatannya cukup sederhana untuk dijelaskan dalam satu kalimat dan cukup fleksibel untuk menghasilkan grafik gerak berkualitas siaran. Jika Anda membangun sesuatu yang membutuhkan video sebagai output (otomatisasi pemasaran, konten yang dipersonalisasi, penceritaan data, dokumentasi berbasis agen), HyperFrames harus ada di tumpukan teknologi Anda.
Untuk lapisan API dan orkestrasi yang mengelilinginya, uji percakapan agen Anda, panggilan alat, dan permintaan LLM dengan Apidog sebelum Anda meningkatkan skala. Permintaan API yang gagal tidak akan di-render ke MP4.
