Cara Menggunakan Video Referensi di Seedance 2.0: Meniru Gerakan dan Kamera

TL;DR

Video referensi di Seedance 2.0 memungkinkan Anda menambatkan gerakan — pergerakan kamera, koreografi karakter, pengaturan waktu — ke klip yang sudah ada daripada menjelaskan semuanya dalam teks. Gunakan klip referensi berdurasi 3-8 detik: satu bidikan, tanpa potongan lompat (jump cut), kompresi H.264 yang bersih. Jaga agar prompt teks tetap pendek (tiga kata sifat atau kurang untuk gaya). Teks menjelaskan apa yang tidak dapat ditunjukkan oleh referensi; referensi menangani gerakan. Jika keluaran Anda menyimpang atau mengabaikan referensi, ikuti panduan pemecahan masalah di panduan ini.

Pendahuluan

Pembuatan video hanya teks berfungsi baik untuk konsep-konsep longgar: adegan atmosferik, arahan eksplorasi, pendekatan visual yang bervariasi. Ketika gerakan sudah ditentukan — waktu spesifik sebuah gestur, dorongan masuk kamera, siklus berjalan — deskripsi teks menjadi tidak tepat.

Video referensi menutup celah tersebut. Anda menyediakan klip yang menunjukkan apa yang Anda inginkan, dan Seedance 2.0 menginterpretasikan ulang gerakan tersebut ke dalam adegan baru yang Anda deskripsikan.

Panduan ini mencakup kapan video referensi membantu dibandingkan dengan kapan teks saja lebih baik, cara menyiapkan klip referensi yang efektif, dan cara memperbaiki masalah paling umum.

tombol

Kapan menggunakan video referensi

Video referensi paling baik digunakan untuk:

Gerakan mikro: Pengaturan waktu yang tepat seperti "ketukan ibu jari" atau "anggukan yang jatuh pada ketukan ketiga." Teks tidak dapat menangkap waktu yang tepat; klip referensi bisa.
Koreografi: Pola gerakan yang konsisten seperti berjalan dengan irama tertentu atau rutinitas fisik yang berulang.
Pergerakan kamera: Operasi halus seperti dorongan masuk perlahan (slow push-ins), orbit terkontrol, atau perubahan pembingkaian spesifik. Ini sulit dijelaskan dengan tepat.
Pencocokan irama (Beat-matching): Menyinkronkan tindakan dengan isyarat audio. Model dapat membaca waktu dari klip referensi lebih baik daripada dari deskripsi teks.

Teks saja lebih baik untuk:

Konsep longgar atau karya atmosferik di mana variasi adalah hal yang baik
Menjelajahi arah visual yang berbeda untuk konten yang sama
Ketika Anda tidak memiliki klip referensi yang sesuai dan gerakan cukup sederhana untuk dideskripsikan

Mempersiapkan klip referensi

Klip referensi yang baik memiliki karakteristik berikut:

Durasi: 3-8 detik. Klip yang terlalu pendek memberikan terlalu sedikit informasi kepada model. Klip yang lebih panjang berisiko mengurangi kepercayaan model dan menghasilkan keluaran yang tidak konsisten.

Kontinuitas: Tanpa editan, tanpa potongan lompat (jump cut), tanpa jenis potongan apa pun. Satu bidikan kontinu dari awal hingga akhir.

Kompresi: H.264 bersih tanpa artefak makro-blocking. Klip yang dikompresi atau di-re-encode dengan artefak yang terlihat menghasilkan hasil yang lebih buruk.

Kejelasan subjek: Latar belakang polos dan pencahayaan stabil membantu model membaca siluet dan gerakan subjek dengan jelas. Latar belakang yang ramai bersaing dengan subjek untuk menarik perhatian model.

Daftar periksa sebelum mengunggah klip referensi:

[ ] Di bawah 8 detik
[ ] Satu bidikan kontinu, tanpa potongan
[ ] Kompresi bersih, tanpa blocking yang terlihat
[ ] Subjek terlihat jelas di latar belakang
[ ] Pencahayaan stabil sepanjang waktu

Membuat prompt dengan klip referensi

Ketika menggabungkan klip referensi dengan prompt teks, teks harus melengkapi daripada mengulang referensi.

Fokuskan teks pada apa yang tidak ditunjukkan oleh referensi:

Referensi menangani gerakan dan pengaturan waktu. Gunakan teks untuk:

Deskriptor gaya (pencahayaan, palet warna, nada visual)
Identitas subjek (siapa atau apa yang muncul dalam adegan baru)
Kontek kamera (jika belum jelas dari referensi)
Satu atau dua batasan

Struktur prompt yang optimal:

Gaya: [2-3 deskriptor untuk pencahayaan dan palet]
Subjek: [deskripsi identitas menggunakan fitur visual stabil]  
Kamera: [jika berbeda dari referensi]
Maksud referensi: "Hormati gerakan dari referensi: interpretasikan ulang tekstur dan warna."
Jangan sampai: [satu batasan spesifik jika diperlukan]

Contoh:

Klip referensi: seseorang berjalan dengan kecepatan terukur tertentu

Prompt teks:

Gaya: cahaya sore hangat, nada keemasan
Subjek: seorang pria berjas abu-abu, awal 40-an, postur percaya diri
Hormati gerakan dari referensi: interpretasikan ulang tekstur dan warna.
Jangan sampai: mengubah kecepatan berjalan

Batasan tiga kata sifat:

Lebih dari tiga deskriptor gaya menciptakan instruksi yang saling bertentangan. Model mencoba menggabungkan semuanya dan seringkali tidak memenuhi satupun dengan baik. Pilih tiga deskriptor terpenting dan abaikan sisanya.

Penggunaan API melalui WaveSpeedAI

Seedance 2.0 dapat diakses melalui API WaveSpeedAI. Endpoint video referensi:

POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json

{
  "prompt": "Cahaya sore hangat, nada keemasan. Seorang pria berjas abu-abu berjalan maju. Hormati gerakan dari referensi.",
  "image_url": "https://example.com/subject-reference.jpg",
  "reference_video_url": "https://example.com/motion-reference.mp4",
  "duration": 5,
  "aspect_ratio": "16:9"
}

Pengujian dengan Apidog

Siapkan koleksi pengujian sebelum membangun integrasi Anda.

Pengaturan lingkungan:

Buat lingkungan Apidog dengan WAVESPEED_API_KEY sebagai variabel Rahasia.

Alur dua permintaan:

Permintaan 1 memulai pembuatan. Permintaan 2 melakukan polling untuk penyelesaian.

Permintaan 1:

POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json

{
  "prompt": "{{motion_prompt}}",
  "image_url": "{{subject_image}}",
  "reference_video_url": "{{reference_clip}}",
  "duration": {{duration}},
  "aspect_ratio": "16:9"
}

Di tab Tests, ekstrak ID pekerjaan untuk polling:

pm.environment.set("job_id", pm.response.json().id);

Permintaan 2:

GET https://api.wavespeed.ai/api/v2/predictions/{{job_id}}
Authorization: Bearer {{WAVESPEED_API_KEY}}

Pernyataan:

Response body, field status equals "completed"

Panduan pemecahan masalah

Jitter gerakan

Pangkas klip untuk menghilangkan penyesuaian mikro yang tidak disengaja di bagian tepi
Kurangi noise visual dalam rekaman sumber
Stabilkan selama pengambilan gambar daripada menambahkan stabilisasi di pasca-produksi
Persingkat durasi referensi menjadi 3-5 detik
Sederhanakan prompt teks (hapus deskriptor yang mungkin bertentangan)

Referensi diabaikan (model mengabaikan klip referensi)

Pertegas gerakan sedikit dan posisikan subjek di tengah bingkai
Sertakan hanya satu jenis gerakan per klip (jangan campurkan pergerakan kamera dengan gerakan karakter)
Secara eksplisit sebutkan gerakan dalam teks: "salin pergerakan kamera dari referensi"
Ekstrak rentang 2-3 detik terbersih dari klip referensi
Gunakan tanda referensi (pita pada permukaan) untuk kejelasan paralaks dalam referensi pergerakan kamera

Penyimpangan gaya (keluaran tidak sesuai dengan estetika yang diinginkan)

Kurangi deskriptor gaya menjadi dua atau tiga
Tambahkan satu bingkai referensi statis di samping referensi video
Sederhanakan pola dan detail yang ramai dalam klip referensi
Pertahankan pengaturan yang konsisten di semua render
Kunci gerakan terlebih dahulu (dapatkan gerakan yang benar sebelum mengulang pada penampilan)

Hak dan persetujuan

Video referensi dengan orang yang dapat diidentifikasi memerlukan persetujuan. Persyaratan praktis:

Persetujuan tertulis dari siapa pun yang gerakan atau kemiripannya muncul dalam klip referensi
Tanda tangan wali untuk anak di bawah umur
Verifikasi bahwa lokasi syuting mengizinkan penggunaan komersial
Kecualikan logo terkemuka atau tanda pihak ketiga dari referensi
Simpan catatan: tanggal, catatan persetujuan, versi klip

Ini berlaku untuk klip referensi maupun subjek yang dapat diidentifikasi yang muncul dalam keluaran yang dihasilkan.

FAQ

Apakah video referensi menggantikan referensi gambar?
Keduanya memiliki tujuan yang berbeda. Referensi gambar menambatkan penampilan subjek (siapa yang muncul dalam adegan). Referensi video menambatkan gerakan (bagaimana subjek dan kamera bergerak). Gunakan keduanya ketika Anda ingin mengontrol penampilan dan gerakan secara independen.

Berapa lama durasi klip referensi seharusnya?
3-8 detik. Terlalu pendek: model memiliki informasi gerakan yang tidak memadai. Terlalu panjang: kepercayaan model menurun dan keluaran menjadi tidak konsisten.

Bisakah saya menggunakan klip referensi dari genre yang berbeda?
Ya. Anda dapat menggunakan klip referensi seseorang berjalan dari satu konteks dan menghasilkan karakter robot yang berjalan dengan gaya berjalan yang sama. Gerakannya ditransfer; konten visual digantikan oleh deskripsi teks Anda dan referensi subjek.

Berapa resolusi klip referensi seharusnya?
720p atau lebih tinggi. Klip referensi dengan resolusi sangat rendah memberikan informasi gerakan yang lebih sedikit dan menghasilkan transfer kualitas yang lebih rendah.

Bisakah saya menghasilkan beberapa klip dari referensi yang sama?
Ya. Klip referensi yang sama dapat mendorong beberapa generasi dengan prompt yang berbeda. Ini berguna untuk menghasilkan beberapa variasi adegan dengan gerakan yang konsisten.