TÓM TẮT
Video tham chiếu trong Seedance 2.0 cho phép bạn neo chuyển động — chuyển động máy ảnh, biên đạo nhân vật, thời gian — vào một clip hiện có thay vì mô tả mọi thứ bằng văn bản. Sử dụng các clip tham chiếu dài 3-8 giây: một cảnh quay duy nhất, không cắt nhảy, nén H.264 sạch. Giữ lời nhắc văn bản ngắn gọn (ba tính từ trở xuống cho phong cách). Văn bản mô tả những gì tham chiếu không thể hiển thị; tham chiếu xử lý chuyển động. Nếu đầu ra của bạn bị lệch hoặc bỏ qua tham chiếu, hãy làm theo quy trình khắc phục sự cố trong hướng dẫn này.
Giới thiệu
Tạo video chỉ bằng văn bản hoạt động tốt cho các khái niệm mở: cảnh quan khí quyển, hướng khám phá, cách tiếp cận hình ảnh đa dạng. Khi chuyển động đã được quyết định — thời điểm cụ thể của một cử chỉ, một cú đẩy máy ảnh vào, một chu kỳ đi bộ — mô tả văn bản không chính xác.
Video tham chiếu thu hẹp khoảng cách đó. Bạn cung cấp một clip hiển thị những gì bạn muốn, và Seedance 2.0 diễn giải lại chuyển động vào cảnh mới mà bạn đã mô tả.
Hướng dẫn này bao gồm khi nào video tham chiếu hữu ích so với khi chỉ văn bản là tốt hơn, cách chuẩn bị các clip tham chiếu hiệu quả và cách khắc phục các vấn đề phổ biến nhất.
Khi nào nên sử dụng video tham chiếu
Video tham chiếu hoạt động tốt nhất cho:
- Cử chỉ vi mô: Thời gian chính xác như "một cú chạm ngón cái" hoặc "một cái gật đầu đúng nhịp ba". Văn bản không thể nắm bắt được thời gian chính xác; một clip tham chiếu có thể.
- Biên đạo: Các mẫu chuyển động nhất quán như đi bộ với nhịp điệu cụ thể hoặc một thói quen thể chất lặp đi lặp lại.
- Chuyển động máy ảnh: Các thao tác tinh tế như đẩy chậm vào, quỹ đạo được kiểm soát hoặc thay đổi khung hình cụ thể. Những điều này khó mô tả chính xác.
- Ghép nhịp: Đồng bộ hóa hành động với tín hiệu âm thanh. Mô hình có thể đọc thời gian từ một clip tham chiếu tốt hơn từ một mô tả văn bản.
Chỉ văn bản tốt hơn cho:
- Các khái niệm mở hoặc các cảnh quan khí quyển nơi sự đa dạng là tốt
- Khám phá các hướng hình ảnh khác nhau cho cùng một nội dung
- Khi bạn không có clip tham chiếu phù hợp và chuyển động đủ đơn giản để mô tả
Chuẩn bị các clip tham chiếu
Một clip tham chiếu tốt có các đặc điểm sau:
Độ dài: 3-8 giây. Clip ngắn hơn cung cấp quá ít thông tin cho mô hình. Clip dài hơn có nguy cơ làm giảm độ tin cậy của mô hình và tạo ra đầu ra không nhất quán.
Tính liên tục: Không chỉnh sửa, không cắt nhảy, không cắt bất kỳ loại nào. Một cảnh quay liên tục từ đầu đến cuối.
Nén: H.264 sạch không có lỗi khối macro. Các clip đã nén hoặc được mã hóa lại với lỗi hiển thị sẽ tạo ra kết quả kém hơn.
Độ rõ nét của chủ thể: Nền đơn giản và ánh sáng ổn định giúp mô hình đọc rõ ràng bóng và chuyển động của chủ thể. Nền bận rộn cạnh tranh với chủ thể để thu hút sự chú ý của mô hình.
Danh sách kiểm tra trước khi tải lên clip tham chiếu:
- [ ] Dưới 8 giây
- [ ] Một cảnh quay liên tục, không cắt
- [ ] Nén sạch, không có lỗi khối hiển thị
- [ ] Chủ thể hiển thị rõ trên nền
- [ ] Ánh sáng ổn định trong suốt
Tạo lời nhắc với clip tham chiếu
Khi kết hợp một clip tham chiếu với một lời nhắc văn bản, văn bản nên bổ sung chứ không phải lặp lại tham chiếu.
Tập trung văn bản vào những gì tham chiếu không hiển thị:
Tham chiếu xử lý chuyển động và thời gian. Sử dụng văn bản cho:
- Mô tả phong cách (ánh sáng, bảng màu, tông màu hình ảnh)
- Danh tính chủ thể (ai hoặc cái gì xuất hiện trong cảnh mới)
- Ngữ cảnh máy ảnh (nếu chưa rõ từ tham chiếu)
- Một hoặc hai ràng buộc
Cấu trúc lời nhắc tối ưu:
Style: [2-3 mô tả cho ánh sáng và bảng màu]
Subject: [mô tả danh tính bằng các đặc điểm trực quan ổn định]
Camera: [nếu khác với tham chiếu]
Reference intent: "Tôn trọng chuyển động từ tham chiếu: diễn giải lại kết cấu và màu sắc."
Must not: [một ràng buộc cụ thể nếu cần]
Ví dụ:
Clip tham chiếu: một người đang đi bộ với nhịp độ đo đạc cụ thể
Lời nhắc văn bản:
Style: ánh sáng chiều ấm áp, tông màu vàng
Subject: một người đàn ông mặc vest xám, đầu 40, tư thế tự tin
Respect motion from reference: reinterpret texture and color.
Must not: change walking pace
Giới hạn ba tính từ:
Hơn ba mô tả phong cách tạo ra các chỉ dẫn mâu thuẫn. Mô hình cố gắng kết hợp tất cả chúng và thường không đáp ứng tốt cái nào. Chọn ba mô tả quan trọng nhất và bỏ qua phần còn lại.
Sử dụng API qua WaveSpeedAI
Seedance 2.0 có thể truy cập qua API của WaveSpeedAI. Điểm cuối video tham chiếu:
POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"prompt": "Warm afternoon light, golden tones. A man in a gray suit walks forward. Respect motion from reference.",
"image_url": "https://example.com/subject-reference.jpg",
"reference_video_url": "https://example.com/motion-reference.mp4",
"duration": 5,
"aspect_ratio": "16:9"
}
Kiểm thử với Apidog
Thiết lập một bộ sưu tập kiểm thử trước khi xây dựng tích hợp của bạn.
Thiết lập môi trường:
Tạo một môi trường Apidog với WAVESPEED_API_KEY làm biến Bí mật.
Luồng hai yêu cầu:
Yêu cầu 1 bắt đầu tạo. Yêu cầu 2 thăm dò hoàn thành.
Yêu cầu 1:
POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"prompt": "{{motion_prompt}}",
"image_url": "{{subject_image}}",
"reference_video_url": "{{reference_clip}}",
"duration": {{duration}},
"aspect_ratio": "16:9"
}
Trong tab Tests, trích xuất ID công việc để thăm dò:
pm.environment.set("job_id", pm.response.json().id);
Yêu cầu 2:
GET https://api.wavespeed.ai/api/v2/predictions/{{job_id}}
Authorization: Bearer {{WAVESPEED_API_KEY}}
Xác nhận:
Response body, field status equals "completed"
Hướng dẫn khắc phục sự cố
Rung lắc chuyển động
- Cắt clip để loại bỏ các điều chỉnh vi mô không chủ ý ở các cạnh
- Giảm nhiễu hình ảnh trong cảnh quay nguồn
- Ổn định trong quá trình quay chứ không phải thêm ổn định trong hậu kỳ
- Rút ngắn độ dài tham chiếu xuống 3-5 giây
- Đơn giản hóa lời nhắc văn bản (loại bỏ các mô tả có thể mâu thuẫn)
Tham chiếu bị bỏ qua (mô hình bỏ qua clip tham chiếu)
- Phóng đại chuyển động một chút và đặt chủ thể vào giữa khung hình
- Chỉ bao gồm một loại chuyển động mỗi clip (không trộn lẫn chuyển động máy ảnh với chuyển động nhân vật)
- Gọi rõ ràng chuyển động trong văn bản: “sao chép chuyển động máy ảnh từ tham chiếu”
- Trích xuất đoạn 2-3 giây rõ nét nhất từ clip tham chiếu
- Sử dụng dấu tham chiếu (băng dính trên bề mặt) để rõ ràng thị sai trong các tham chiếu chuyển động máy ảnh
Lệch phong cách (đầu ra không khớp với thẩm mỹ mong muốn)
- Giảm số lượng mô tả phong cách xuống còn hai hoặc ba
- Thêm một khung tham chiếu tĩnh duy nhất bên cạnh tham chiếu video
- Đơn giản hóa các mẫu và chi tiết bận rộn trong clip tham chiếu
- Giữ cài đặt nhất quán giữa các lần render
- Khóa chuyển động trước (đảm bảo chuyển động chính xác trước khi lặp lại về hình thức)
Quyền và sự đồng ý
Video tham chiếu có người có thể nhận dạng yêu cầu sự đồng ý. Các yêu cầu thực tế:
- Sự đồng ý bằng văn bản từ bất kỳ ai có chuyển động hoặc hình ảnh xuất hiện trong clip tham chiếu
- Chữ ký của người giám hộ cho trẻ vị thành niên
- Xác minh rằng các địa điểm quay phim cho phép sử dụng thương mại
- Loại trừ các logo nổi bật hoặc dấu hiệu của bên thứ ba khỏi tham chiếu
- Lưu giữ hồ sơ: ngày tháng, ghi chú đồng ý, phiên bản clip
Những điều này áp dụng cho cả clip tham chiếu và bất kỳ chủ thể nào có thể nhận dạng xuất hiện trong đầu ra được tạo.
Câu hỏi thường gặp
Video tham chiếu có thay thế tham chiếu hình ảnh không?
Chúng phục vụ các mục đích khác nhau. Tham chiếu hình ảnh neo giữ hình thức của chủ thể (ai xuất hiện trong cảnh). Tham chiếu video neo giữ chuyển động (cách chủ thể và máy ảnh di chuyển). Sử dụng cả hai khi bạn muốn kiểm soát hình thức và chuyển động một cách độc lập.
Clip tham chiếu nên dài bao lâu?
3-8 giây. Quá ngắn: mô hình có không đủ thông tin chuyển động. Quá dài: độ tin cậy của mô hình giảm và đầu ra trở nên không nhất quán.
Tôi có thể sử dụng một clip tham chiếu từ một thể loại khác không?
Có. Bạn có thể sử dụng một clip tham chiếu của một người đang đi bộ từ một ngữ cảnh và tạo một nhân vật robot đi bộ với cùng dáng đi đó. Chuyển động được chuyển giao; nội dung hình ảnh được thay thế bằng mô tả văn bản và tham chiếu chủ thể của bạn.
Clip tham chiếu nên có độ phân giải bao nhiêu?
720p hoặc cao hơn. Các clip tham chiếu có độ phân giải rất thấp cung cấp ít thông tin chuyển động hơn và tạo ra các bản chuyển đổi chất lượng thấp hơn.
Tôi có thể tạo nhiều clip từ cùng một tham chiếu không?
Có. Cùng một clip tham chiếu có thể thúc đẩy nhiều lần tạo với các lời nhắc khác nhau. Điều này hữu ích để tạo ra nhiều biến thể cảnh với chuyển động nhất quán.
