สรุป
วิดีโออ้างอิงใน Seedance 2.0 ช่วยให้คุณสามารถกำหนดการเคลื่อนไหว — การเคลื่อนกล้อง, การออกแบบท่าทางตัวละคร, จังหวะเวลา — โดยอ้างอิงจากคลิปที่มีอยู่ แทนที่จะอธิบายทุกอย่างด้วยข้อความ ใช้คลิปอ้างอิงที่มีความยาว 3-8 วินาที: ถ่ายแบบช็อตเดียว, ไม่มีการตัดต่อแบบกะทันหัน (jump cuts), และมีการบีบอัดแบบ H.264 ที่สะอาด เขียนข้อความพรอมต์ให้สั้น (ใช้คำคุณศัพท์ไม่เกินสามคำสำหรับสไตล์) ข้อความจะอธิบายสิ่งที่วิดีโออ้างอิงแสดงไม่ได้; ส่วนวิดีโออ้างอิงจะจัดการกับการเคลื่อนไหว หากผลลัพธ์ของคุณผิดเพี้ยนไปหรือละเลยวิดีโออ้างอิง ให้ทำตามคำแนะนำการแก้ไขปัญหาในคู่มือนี้
บทนำ
การสร้างวิดีโอด้วยข้อความเพียงอย่างเดียวเหมาะสำหรับแนวคิดที่ไม่ตายตัว: ฉากที่สร้างบรรยากาศ, การสำรวจทิศทางต่างๆ, หรือแนวทางด้านภาพที่หลากหลาย แต่เมื่อการเคลื่อนไหวถูกกำหนดไว้แล้ว — เช่น จังหวะเวลาที่เฉพาะเจาะจงของการแสดงท่าทาง, การดันกล้องเข้าใกล้, หรือวัฏจักรการเดิน — การอธิบายด้วยข้อความจะมีความคลาดเคลื่อน
วิดีโออ้างอิงช่วยลดช่องว่างตรงนั้น คุณสามารถให้คลิปที่แสดงสิ่งที่คุณต้องการ และ Seedance 2.0 จะตีความการเคลื่อนไหวนั้นใหม่ให้ออกมาเป็นฉากใหม่ที่คุณอธิบายไว้
คู่มือนี้จะครอบคลุมถึงเวลาที่วิดีโออ้างอิงมีประโยชน์เทียบกับเวลาที่ข้อความอย่างเดียวดีกว่า, วิธีเตรียมคลิปอ้างอิงที่มีประสิทธิภาพ, และวิธีแก้ไขปัญหาที่พบบ่อยที่สุด
เมื่อควรใช้วิดีโออ้างอิง
วิดีโออ้างอิงทำงานได้ดีที่สุดสำหรับ:
- ท่าทางเล็กๆ น้อยๆ (Micro-gestures): จังหวะเวลาที่แม่นยำ เช่น “การแตะนิ้วหัวแม่มือ” หรือ “การพยักหน้าลงจังหวะที่สาม” ข้อความไม่สามารถจับจังหวะเวลาที่แม่นยำได้; แต่คลิปอ้างอิงทำได้
- การออกแบบท่าเต้น/ท่าทางการเคลื่อนไหว (Choreography): รูปแบบการเคลื่อนไหวที่สอดคล้องกัน เช่น การเดินด้วยจังหวะที่เฉพาะเจาะจง หรือกิจวัตรทางกายภาพที่ทำซ้ำๆ
- การเคลื่อนไหวของกล้อง (Camera moves): การเคลื่อนไหวเล็กน้อย เช่น การดันกล้องเข้าอย่างช้าๆ, การหมุนรอบแบบควบคุมได้, หรือการเปลี่ยนแปลงเฟรมที่เฉพาะเจาะจง สิ่งเหล่านี้ยากที่จะอธิบายได้อย่างแม่นยำ
- การจับจังหวะ (Beat-matching): การซิงโครไนซ์การกระทำให้เข้ากับสัญญาณเสียง โมเดลสามารถอ่านจังหวะเวลาจากคลิปอ้างอิงได้ดีกว่าจากการอธิบายด้วยข้อความ
ข้อความอย่างเดียวดีกว่าสำหรับ:
- แนวคิดที่ไม่ตายตัว หรือฉากที่สร้างบรรยากาศซึ่งความหลากหลายเป็นสิ่งที่ดี
- การสำรวจทิศทางภาพที่แตกต่างกันสำหรับเนื้อหาเดียวกัน
- เมื่อคุณไม่มีคลิปอ้างอิงที่เหมาะสม และการเคลื่อนไหวก็เรียบง่ายพอที่จะอธิบายได้
การเตรียมคลิปอ้างอิง
คลิปอ้างอิงที่ดีควรมีคุณสมบัติดังนี้:
ความยาว: 3-8 วินาที คลิปที่สั้นเกินไปให้ข้อมูลแก่โมเดลน้อยเกินไป คลิปที่ยาวเกินไปอาจลดความมั่นใจของโมเดลและทำให้เกิดผลลัพธ์ที่ไม่สอดคล้องกัน
ความต่อเนื่อง: ไม่มีการแก้ไข, ไม่มี jump cuts, ไม่มีการตัดต่อใดๆ ทั้งสิ้น เป็นการถ่ายแบบช็อตเดียวต่อเนื่องตั้งแต่ต้นจนจบ
การบีบอัด: H.264 ที่สะอาดปราศจากสิ่งแปลกปลอมแบบ macro-blocking คลิปที่ถูกบีบอัดหรือเข้ารหัสซ้ำและมีสิ่งแปลกปลอมที่มองเห็นได้จะให้ผลลัพธ์ที่แย่ลง
ความชัดเจนของวัตถุ: พื้นหลังที่เรียบง่ายและแสงที่คงที่ช่วยให้โมเดลอ่านรูปร่างและการเคลื่อนไหวของวัตถุได้อย่างชัดเจน พื้นหลังที่ยุ่งเหยิงจะแย่งความสนใจของโมเดลไปจากวัตถุ
รายการตรวจสอบก่อนอัปโหลดคลิปอ้างอิง:
- [ ] ความยาวไม่เกิน 8 วินาที
- [ ] เป็นช็อตเดียวต่อเนื่อง ไม่มีรอยตัด
- [ ] การบีบอัดสะอาด ไม่มีสิ่งแปลกปลอมที่มองเห็นได้
- [ ] วัตถุสามารถมองเห็นได้ชัดเจนจากพื้นหลัง
- [ ] แสงคงที่ตลอดทั้งคลิป
การใช้พรอมต์ร่วมกับคลิปอ้างอิง
เมื่อรวมคลิปอ้างอิงเข้ากับพรอมต์ข้อความ, ข้อความควรเสริมกันมากกว่าที่จะซ้ำกับสิ่งที่มีอยู่ในคลิปอ้างอิง
เน้นข้อความในส่วนที่วิดีโออ้างอิงแสดงไม่ได้:
วิดีโออ้างอิงจัดการกับการเคลื่อนไหวและจังหวะเวลา ใช้ข้อความสำหรับ:
- คำอธิบายสไตล์ (แสง, โทนสี, น้ำเสียงภาพ)
- อัตลักษณ์ของวัตถุ (ใครหรืออะไรที่ปรากฏในฉากใหม่)
- บริบทของกล้อง (หากไม่ชัดเจนจากวิดีโออ้างอิง)
- ข้อจำกัดหนึ่งหรือสองข้อ
โครงสร้างพรอมต์ที่เหมาะสมที่สุด:
Style: [คำอธิบาย 2-3 คำสำหรับแสงและโทนสี]
Subject: [คำอธิบายอัตลักษณ์โดยใช้ลักษณะที่มองเห็นได้ที่คงที่]
Camera: [ถ้าแตกต่างจากวิดีโออ้างอิง]
Reference intent: "เคารพการเคลื่อนไหวจากวิดีโออ้างอิง: ตีความพื้นผิวและสีใหม่"
Must not: [ข้อจำกัดเฉพาะหนึ่งข้อถ้าจำเป็น]
ตัวอย่าง:
คลิปอ้างอิง: คนกำลังเดินด้วยจังหวะที่วัดได้และเฉพาะเจาะจง
พรอมต์ข้อความ:
สไตล์: แสงยามบ่ายที่อบอุ่น, โทนสีทอง
วัตถุ: ผู้ชายในชุดสูทสีเทา, อายุต้น 40, ท่าทางมั่นใจ
เคารพการเคลื่อนไหวจากวิดีโออ้างอิง: ตีความพื้นผิวและสีใหม่
ต้องไม่: เปลี่ยนจังหวะการเดิน
ข้อจำกัดคำคุณศัพท์สามคำ:
คำอธิบายสไตล์มากกว่าสามคำสร้างคำสั่งที่ขัดแย้งกัน โมเดลพยายามรวมทั้งหมดเข้าด้วยกัน แต่มักไม่สามารถตอบสนองได้ดีทั้งหมด เลือกคำอธิบายที่สำคัญที่สุดสามคำและตัดส่วนที่เหลือออกไป
การใช้งาน API ผ่าน WaveSpeedAI
Seedance 2.0 สามารถเข้าถึงได้ผ่าน API ของ WaveSpeedAI. จุดเชื่อมต่อสำหรับวิดีโออ้างอิงคือ:
POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"prompt": "Warm afternoon light, golden tones. A man in a gray suit walks forward. Respect motion from reference.",
"image_url": "https://example.com/subject-reference.jpg",
"reference_video_url": "https://example.com/motion-reference.mp4",
"duration": 5,
"aspect_ratio": "16:9"
}
การทดสอบด้วย Apidog
ตั้งค่าคอลเลกชันสำหรับการทดสอบก่อนที่จะสร้างการเชื่อมต่อของคุณ
การตั้งค่าสภาพแวดล้อม:
สร้างสภาพแวดล้อม Apidog ด้วย WAVESPEED_API_KEY เป็นตัวแปรลับ (Secret variable)
การทำงานแบบสองคำขอ:
คำขอที่ 1 เริ่มการสร้าง. คำขอที่ 2 ตรวจสอบสถานะความสำเร็จ.
คำขอที่ 1:
POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"prompt": "{{motion_prompt}}",
"image_url": "{{subject_image}}",
"reference_video_url": "{{reference_clip}}",
"duration": {{duration}},
"aspect_ratio": "16:9"
}
ในแท็บ Tests, ดึง Job ID เพื่อใช้ในการตรวจสอบสถานะ:
pm.environment.set("job_id", pm.response.json().id);
คำขอที่ 2:
GET https://api.wavespeed.ai/api/v2/predictions/{{job_id}}
Authorization: Bearer {{WAVESPEED_API_KEY}}
ยืนยัน:
Response body, field status เท่ากับ "completed"
คู่มือการแก้ไขปัญหา
การสั่นของการเคลื่อนไหว (Motion jitter)
- ตัดแต่งคลิปเพื่อลบการปรับแต่งเล็กน้อยที่ไม่ตั้งใจที่ขอบ
- ลดสัญญาณรบกวนทางภาพในฟุตเทจต้นฉบับ
- ทำให้ภาพนิ่งในระหว่างการถ่ายทำ แทนที่จะเพิ่มความเสถียรในขั้นตอนหลังการถ่ายทำ
- ลดความยาวของวิดีโออ้างอิงให้เหลือ 3-5 วินาที
- ทำให้พรอมต์ข้อความง่ายขึ้น (ลบคำอธิบายที่อาจขัดแย้งกันออก)
วิดีโออ้างอิงถูกละเลย (โมเดลละเลยคลิปอ้างอิง)
- ทำให้การเคลื่อนไหวเกินจริงเล็กน้อย และจัดวัตถุให้อยู่กึ่งกลางเฟรม
- รวมการเคลื่อนไหวเพียงประเภทเดียวต่อคลิป (อย่าผสมการเคลื่อนกล้องกับการเคลื่อนที่ของตัวละคร)
- ระบุการเคลื่อนไหวในข้อความอย่างชัดเจน: “คัดลอกการเคลื่อนไหวของกล้องจากวิดีโออ้างอิง”
- ดึงช่วงที่สะอาดที่สุด 2-3 วินาทีออกจากคลิปอ้างอิง
- ใช้เครื่องหมายอ้างอิง (เทปบนพื้นผิว) เพื่อความชัดเจนของ parallax ในการอ้างอิงการเคลื่อนกล้อง
สไตล์ผิดเพี้ยน (ผลลัพธ์ไม่ตรงกับสุนทรียศาสตร์ที่ตั้งใจไว้)
- ลดคำอธิบายสไตล์ให้เหลือสองหรือสามคำ
- เพิ่มเฟรมอ้างอิงแบบคงที่หนึ่งเฟรมควบคู่ไปกับวิดีโออ้างอิง
- ทำให้ลวดลายและรายละเอียดที่ยุ่งเหยิงในคลิปอ้างอิงเรียบง่ายขึ้น
- รักษาระดับการตั้งค่าให้สอดคล้องกันตลอดการเรนเดอร์ทั้งหมด
- ล็อกการเคลื่อนไหวไว้ก่อน (จัดการการเคลื่อนไหวให้ถูกต้องก่อนที่จะปรับปรุงรูปลักษณ์)
สิทธิ์และความยินยอม
วิดีโออ้างอิงที่มีบุคคลที่สามารถระบุตัวตนได้ต้องได้รับความยินยอม ข้อกำหนดเชิงปฏิบัติ:
- ความยินยอมเป็นลายลักษณ์อักษรจากบุคคลใดๆ ที่มีการเคลื่อนไหวหรือภาพปรากฏในคลิปอ้างอิง
- ลายเซ็นของผู้ปกครองสำหรับผู้เยาว์
- ตรวจสอบว่าสถานที่ถ่ายทำอนุญาตให้ใช้งานเชิงพาณิชย์
- ยกเว้นโลโก้ที่โดดเด่นหรือเครื่องหมายของบุคคลที่สามออกจากวิดีโออ้างอิง
- เก็บรักษาบันทึก: วันที่, บันทึกความยินยอม, เวอร์ชันคลิป
สิ่งเหล่านี้ใช้ได้กับทั้งคลิปอ้างอิงและวัตถุที่สามารถระบุตัวตนได้ซึ่งปรากฏในผลลัพธ์ที่สร้างขึ้น
คำถามที่พบบ่อย (FAQ)
วิดีโออ้างอิงใช้แทนภาพอ้างอิงได้หรือไม่?
ทั้งสองมีวัตถุประสงค์ที่แตกต่างกัน ภาพอ้างอิงใช้กำหนดลักษณะของวัตถุ (ใครปรากฏในฉาก) วิดีโออ้างอิงใช้กำหนดการเคลื่อนไหว (วัตถุและกล้องเคลื่อนไหวอย่างไร) ใช้ทั้งสองอย่างเมื่อคุณต้องการควบคุมรูปลักษณ์และการเคลื่อนไหวแยกจากกัน
คลิปอ้างอิงควรมีความยาวเท่าไร?
3-8 วินาที สั้นเกินไป: โมเดลมีข้อมูลการเคลื่อนไหวไม่เพียงพอ ยาวเกินไป: ความมั่นใจของโมเดลลดลงและผลลัพธ์จะไม่สอดคล้องกัน
ฉันสามารถใช้คลิปอ้างอิงจากประเภทที่แตกต่างกันได้หรือไม่?
ได้ คุณสามารถใช้คลิปอ้างอิงของคนกำลังเดินจากบริบทหนึ่ง และสร้างตัวละครหุ่นยนต์ที่เดินด้วยท่าเดินแบบเดียวกันได้ การเคลื่อนไหวจะถูกถ่ายโอน; ส่วนเนื้อหาทางภาพจะถูกแทนที่ด้วยคำอธิบายข้อความและวัตถุอ้างอิงของคุณ
คลิปอ้างอิงควรมีความละเอียดเท่าไร?
720p หรือสูงกว่า คลิปอ้างอิงที่มีความละเอียดต่ำมากจะให้ข้อมูลการเคลื่อนไหวน้อยลง และสร้างการถ่ายโอนคุณภาพต่ำลง
ฉันสามารถสร้างคลิปหลายคลิปจากวิดีโออ้างอิงเดียวกันได้หรือไม่?
ได้ คลิปอ้างอิงเดียวกันสามารถใช้สร้างผลลัพธ์ได้หลายครั้งด้วยพรอมต์ที่แตกต่างกัน สิ่งนี้มีประโยชน์สำหรับการสร้างฉากที่หลากหลายด้วยการเคลื่อนไหวที่สอดคล้องกัน
