วิธีใช้ Reference Video ใน Seedance 2.0: ถ่ายโอนการเคลื่อนไหวและมุมกล้อง

สรุป

วิดีโออ้างอิงใน Seedance 2.0 ช่วยให้คุณสามารถกำหนดการเคลื่อนไหว — การเคลื่อนกล้อง, การออกแบบท่าทางตัวละคร, จังหวะเวลา — โดยอ้างอิงจากคลิปที่มีอยู่ แทนที่จะอธิบายทุกอย่างด้วยข้อความ ใช้คลิปอ้างอิงที่มีความยาว 3-8 วินาที: ถ่ายแบบช็อตเดียว, ไม่มีการตัดต่อแบบกะทันหัน (jump cuts), และมีการบีบอัดแบบ H.264 ที่สะอาด เขียนข้อความพรอมต์ให้สั้น (ใช้คำคุณศัพท์ไม่เกินสามคำสำหรับสไตล์) ข้อความจะอธิบายสิ่งที่วิดีโออ้างอิงแสดงไม่ได้; ส่วนวิดีโออ้างอิงจะจัดการกับการเคลื่อนไหว หากผลลัพธ์ของคุณผิดเพี้ยนไปหรือละเลยวิดีโออ้างอิง ให้ทำตามคำแนะนำการแก้ไขปัญหาในคู่มือนี้

บทนำ

การสร้างวิดีโอด้วยข้อความเพียงอย่างเดียวเหมาะสำหรับแนวคิดที่ไม่ตายตัว: ฉากที่สร้างบรรยากาศ, การสำรวจทิศทางต่างๆ, หรือแนวทางด้านภาพที่หลากหลาย แต่เมื่อการเคลื่อนไหวถูกกำหนดไว้แล้ว — เช่น จังหวะเวลาที่เฉพาะเจาะจงของการแสดงท่าทาง, การดันกล้องเข้าใกล้, หรือวัฏจักรการเดิน — การอธิบายด้วยข้อความจะมีความคลาดเคลื่อน

วิดีโออ้างอิงช่วยลดช่องว่างตรงนั้น คุณสามารถให้คลิปที่แสดงสิ่งที่คุณต้องการ และ Seedance 2.0 จะตีความการเคลื่อนไหวนั้นใหม่ให้ออกมาเป็นฉากใหม่ที่คุณอธิบายไว้

คู่มือนี้จะครอบคลุมถึงเวลาที่วิดีโออ้างอิงมีประโยชน์เทียบกับเวลาที่ข้อความอย่างเดียวดีกว่า, วิธีเตรียมคลิปอ้างอิงที่มีประสิทธิภาพ, และวิธีแก้ไขปัญหาที่พบบ่อยที่สุด

ปุ่ม

เมื่อควรใช้วิดีโออ้างอิง

วิดีโออ้างอิงทำงานได้ดีที่สุดสำหรับ:

ท่าทางเล็กๆ น้อยๆ (Micro-gestures): จังหวะเวลาที่แม่นยำ เช่น “การแตะนิ้วหัวแม่มือ” หรือ “การพยักหน้าลงจังหวะที่สาม” ข้อความไม่สามารถจับจังหวะเวลาที่แม่นยำได้; แต่คลิปอ้างอิงทำได้
การออกแบบท่าเต้น/ท่าทางการเคลื่อนไหว (Choreography): รูปแบบการเคลื่อนไหวที่สอดคล้องกัน เช่น การเดินด้วยจังหวะที่เฉพาะเจาะจง หรือกิจวัตรทางกายภาพที่ทำซ้ำๆ
การเคลื่อนไหวของกล้อง (Camera moves): การเคลื่อนไหวเล็กน้อย เช่น การดันกล้องเข้าอย่างช้าๆ, การหมุนรอบแบบควบคุมได้, หรือการเปลี่ยนแปลงเฟรมที่เฉพาะเจาะจง สิ่งเหล่านี้ยากที่จะอธิบายได้อย่างแม่นยำ
การจับจังหวะ (Beat-matching): การซิงโครไนซ์การกระทำให้เข้ากับสัญญาณเสียง โมเดลสามารถอ่านจังหวะเวลาจากคลิปอ้างอิงได้ดีกว่าจากการอธิบายด้วยข้อความ

ข้อความอย่างเดียวดีกว่าสำหรับ:

แนวคิดที่ไม่ตายตัว หรือฉากที่สร้างบรรยากาศซึ่งความหลากหลายเป็นสิ่งที่ดี
การสำรวจทิศทางภาพที่แตกต่างกันสำหรับเนื้อหาเดียวกัน
เมื่อคุณไม่มีคลิปอ้างอิงที่เหมาะสม และการเคลื่อนไหวก็เรียบง่ายพอที่จะอธิบายได้

การเตรียมคลิปอ้างอิง

คลิปอ้างอิงที่ดีควรมีคุณสมบัติดังนี้:

ความยาว: 3-8 วินาที คลิปที่สั้นเกินไปให้ข้อมูลแก่โมเดลน้อยเกินไป คลิปที่ยาวเกินไปอาจลดความมั่นใจของโมเดลและทำให้เกิดผลลัพธ์ที่ไม่สอดคล้องกัน

ความต่อเนื่อง: ไม่มีการแก้ไข, ไม่มี jump cuts, ไม่มีการตัดต่อใดๆ ทั้งสิ้น เป็นการถ่ายแบบช็อตเดียวต่อเนื่องตั้งแต่ต้นจนจบ

การบีบอัด: H.264 ที่สะอาดปราศจากสิ่งแปลกปลอมแบบ macro-blocking คลิปที่ถูกบีบอัดหรือเข้ารหัสซ้ำและมีสิ่งแปลกปลอมที่มองเห็นได้จะให้ผลลัพธ์ที่แย่ลง

ความชัดเจนของวัตถุ: พื้นหลังที่เรียบง่ายและแสงที่คงที่ช่วยให้โมเดลอ่านรูปร่างและการเคลื่อนไหวของวัตถุได้อย่างชัดเจน พื้นหลังที่ยุ่งเหยิงจะแย่งความสนใจของโมเดลไปจากวัตถุ

รายการตรวจสอบก่อนอัปโหลดคลิปอ้างอิง:

[ ] ความยาวไม่เกิน 8 วินาที
[ ] เป็นช็อตเดียวต่อเนื่อง ไม่มีรอยตัด
[ ] การบีบอัดสะอาด ไม่มีสิ่งแปลกปลอมที่มองเห็นได้
[ ] วัตถุสามารถมองเห็นได้ชัดเจนจากพื้นหลัง
[ ] แสงคงที่ตลอดทั้งคลิป

การใช้พรอมต์ร่วมกับคลิปอ้างอิง

เมื่อรวมคลิปอ้างอิงเข้ากับพรอมต์ข้อความ, ข้อความควรเสริมกันมากกว่าที่จะซ้ำกับสิ่งที่มีอยู่ในคลิปอ้างอิง

เน้นข้อความในส่วนที่วิดีโออ้างอิงแสดงไม่ได้:

วิดีโออ้างอิงจัดการกับการเคลื่อนไหวและจังหวะเวลา ใช้ข้อความสำหรับ:

คำอธิบายสไตล์ (แสง, โทนสี, น้ำเสียงภาพ)
อัตลักษณ์ของวัตถุ (ใครหรืออะไรที่ปรากฏในฉากใหม่)
บริบทของกล้อง (หากไม่ชัดเจนจากวิดีโออ้างอิง)
ข้อจำกัดหนึ่งหรือสองข้อ

โครงสร้างพรอมต์ที่เหมาะสมที่สุด:

Style: [คำอธิบาย 2-3 คำสำหรับแสงและโทนสี]
Subject: [คำอธิบายอัตลักษณ์โดยใช้ลักษณะที่มองเห็นได้ที่คงที่]  
Camera: [ถ้าแตกต่างจากวิดีโออ้างอิง]
Reference intent: "เคารพการเคลื่อนไหวจากวิดีโออ้างอิง: ตีความพื้นผิวและสีใหม่"
Must not: [ข้อจำกัดเฉพาะหนึ่งข้อถ้าจำเป็น]

ตัวอย่าง:

คลิปอ้างอิง: คนกำลังเดินด้วยจังหวะที่วัดได้และเฉพาะเจาะจง

พรอมต์ข้อความ:

สไตล์: แสงยามบ่ายที่อบอุ่น, โทนสีทอง
วัตถุ: ผู้ชายในชุดสูทสีเทา, อายุต้น 40, ท่าทางมั่นใจ
เคารพการเคลื่อนไหวจากวิดีโออ้างอิง: ตีความพื้นผิวและสีใหม่
ต้องไม่: เปลี่ยนจังหวะการเดิน

ข้อจำกัดคำคุณศัพท์สามคำ:

คำอธิบายสไตล์มากกว่าสามคำสร้างคำสั่งที่ขัดแย้งกัน โมเดลพยายามรวมทั้งหมดเข้าด้วยกัน แต่มักไม่สามารถตอบสนองได้ดีทั้งหมด เลือกคำอธิบายที่สำคัญที่สุดสามคำและตัดส่วนที่เหลือออกไป

การใช้งาน API ผ่าน WaveSpeedAI

Seedance 2.0 สามารถเข้าถึงได้ผ่าน API ของ WaveSpeedAI. จุดเชื่อมต่อสำหรับวิดีโออ้างอิงคือ:

POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json

{
  "prompt": "Warm afternoon light, golden tones. A man in a gray suit walks forward. Respect motion from reference.",
  "image_url": "https://example.com/subject-reference.jpg",
  "reference_video_url": "https://example.com/motion-reference.mp4",
  "duration": 5,
  "aspect_ratio": "16:9"
}

การทดสอบด้วย Apidog

ตั้งค่าคอลเลกชันสำหรับการทดสอบก่อนที่จะสร้างการเชื่อมต่อของคุณ

การตั้งค่าสภาพแวดล้อม:

สร้างสภาพแวดล้อม Apidog ด้วย WAVESPEED_API_KEY เป็นตัวแปรลับ (Secret variable)

การทำงานแบบสองคำขอ:

คำขอที่ 1 เริ่มการสร้าง. คำขอที่ 2 ตรวจสอบสถานะความสำเร็จ.

คำขอที่ 1:

POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json

{
  "prompt": "{{motion_prompt}}",
  "image_url": "{{subject_image}}",
  "reference_video_url": "{{reference_clip}}",
  "duration": {{duration}},
  "aspect_ratio": "16:9"
}

ในแท็บ Tests, ดึง Job ID เพื่อใช้ในการตรวจสอบสถานะ:

pm.environment.set("job_id", pm.response.json().id);

คำขอที่ 2:

GET https://api.wavespeed.ai/api/v2/predictions/{{job_id}}
Authorization: Bearer {{WAVESPEED_API_KEY}}

ยืนยัน:

Response body, field status เท่ากับ "completed"

คู่มือการแก้ไขปัญหา

การสั่นของการเคลื่อนไหว (Motion jitter)

ตัดแต่งคลิปเพื่อลบการปรับแต่งเล็กน้อยที่ไม่ตั้งใจที่ขอบ
ลดสัญญาณรบกวนทางภาพในฟุตเทจต้นฉบับ
ทำให้ภาพนิ่งในระหว่างการถ่ายทำ แทนที่จะเพิ่มความเสถียรในขั้นตอนหลังการถ่ายทำ
ลดความยาวของวิดีโออ้างอิงให้เหลือ 3-5 วินาที
ทำให้พรอมต์ข้อความง่ายขึ้น (ลบคำอธิบายที่อาจขัดแย้งกันออก)

วิดีโออ้างอิงถูกละเลย (โมเดลละเลยคลิปอ้างอิง)

ทำให้การเคลื่อนไหวเกินจริงเล็กน้อย และจัดวัตถุให้อยู่กึ่งกลางเฟรม
รวมการเคลื่อนไหวเพียงประเภทเดียวต่อคลิป (อย่าผสมการเคลื่อนกล้องกับการเคลื่อนที่ของตัวละคร)
ระบุการเคลื่อนไหวในข้อความอย่างชัดเจน: “คัดลอกการเคลื่อนไหวของกล้องจากวิดีโออ้างอิง”
ดึงช่วงที่สะอาดที่สุด 2-3 วินาทีออกจากคลิปอ้างอิง
ใช้เครื่องหมายอ้างอิง (เทปบนพื้นผิว) เพื่อความชัดเจนของ parallax ในการอ้างอิงการเคลื่อนกล้อง

สไตล์ผิดเพี้ยน (ผลลัพธ์ไม่ตรงกับสุนทรียศาสตร์ที่ตั้งใจไว้)

ลดคำอธิบายสไตล์ให้เหลือสองหรือสามคำ
เพิ่มเฟรมอ้างอิงแบบคงที่หนึ่งเฟรมควบคู่ไปกับวิดีโออ้างอิง
ทำให้ลวดลายและรายละเอียดที่ยุ่งเหยิงในคลิปอ้างอิงเรียบง่ายขึ้น
รักษาระดับการตั้งค่าให้สอดคล้องกันตลอดการเรนเดอร์ทั้งหมด
ล็อกการเคลื่อนไหวไว้ก่อน (จัดการการเคลื่อนไหวให้ถูกต้องก่อนที่จะปรับปรุงรูปลักษณ์)

สิทธิ์และความยินยอม

วิดีโออ้างอิงที่มีบุคคลที่สามารถระบุตัวตนได้ต้องได้รับความยินยอม ข้อกำหนดเชิงปฏิบัติ:

ความยินยอมเป็นลายลักษณ์อักษรจากบุคคลใดๆ ที่มีการเคลื่อนไหวหรือภาพปรากฏในคลิปอ้างอิง
ลายเซ็นของผู้ปกครองสำหรับผู้เยาว์
ตรวจสอบว่าสถานที่ถ่ายทำอนุญาตให้ใช้งานเชิงพาณิชย์
ยกเว้นโลโก้ที่โดดเด่นหรือเครื่องหมายของบุคคลที่สามออกจากวิดีโออ้างอิง
เก็บรักษาบันทึก: วันที่, บันทึกความยินยอม, เวอร์ชันคลิป

สิ่งเหล่านี้ใช้ได้กับทั้งคลิปอ้างอิงและวัตถุที่สามารถระบุตัวตนได้ซึ่งปรากฏในผลลัพธ์ที่สร้างขึ้น

คำถามที่พบบ่อย (FAQ)

วิดีโออ้างอิงใช้แทนภาพอ้างอิงได้หรือไม่?
ทั้งสองมีวัตถุประสงค์ที่แตกต่างกัน ภาพอ้างอิงใช้กำหนดลักษณะของวัตถุ (ใครปรากฏในฉาก) วิดีโออ้างอิงใช้กำหนดการเคลื่อนไหว (วัตถุและกล้องเคลื่อนไหวอย่างไร) ใช้ทั้งสองอย่างเมื่อคุณต้องการควบคุมรูปลักษณ์และการเคลื่อนไหวแยกจากกัน

คลิปอ้างอิงควรมีความยาวเท่าไร?
3-8 วินาที สั้นเกินไป: โมเดลมีข้อมูลการเคลื่อนไหวไม่เพียงพอ ยาวเกินไป: ความมั่นใจของโมเดลลดลงและผลลัพธ์จะไม่สอดคล้องกัน

ฉันสามารถใช้คลิปอ้างอิงจากประเภทที่แตกต่างกันได้หรือไม่?
ได้ คุณสามารถใช้คลิปอ้างอิงของคนกำลังเดินจากบริบทหนึ่ง และสร้างตัวละครหุ่นยนต์ที่เดินด้วยท่าเดินแบบเดียวกันได้ การเคลื่อนไหวจะถูกถ่ายโอน; ส่วนเนื้อหาทางภาพจะถูกแทนที่ด้วยคำอธิบายข้อความและวัตถุอ้างอิงของคุณ

คลิปอ้างอิงควรมีความละเอียดเท่าไร?
720p หรือสูงกว่า คลิปอ้างอิงที่มีความละเอียดต่ำมากจะให้ข้อมูลการเคลื่อนไหวน้อยลง และสร้างการถ่ายโอนคุณภาพต่ำลง

ฉันสามารถสร้างคลิปหลายคลิปจากวิดีโออ้างอิงเดียวกันได้หรือไม่?
ได้ คลิปอ้างอิงเดียวกันสามารถใช้สร้างผลลัพธ์ได้หลายครั้งด้วยพรอมต์ที่แตกต่างกัน สิ่งนี้มีประโยชน์สำหรับการสร้างฉากที่หลากหลายด้วยการเคลื่อนไหวที่สอดคล้องกัน