Kurzfassung
Referenzvideo in Seedance 2.0 ermöglicht es Ihnen, Bewegung – Kamerabewegungen, Charakterchoreografie, Timing – an einen bestehenden Clip zu koppeln, anstatt alles in Text zu beschreiben. Verwenden Sie 3-8 Sekunden lange Referenzclips: eine einzige Aufnahme, keine Sprungschnitte, saubere H.264-Kompression. Halten Sie Text-Prompts kurz (drei Adjektive oder weniger für den Stil). Der Text beschreibt, was die Referenz nicht zeigen kann; die Referenz übernimmt die Bewegung. Wenn Ihre Ausgabe abweicht oder die Referenz ignoriert, folgen Sie der Fehlerbehebung in diesem Leitfaden.
Einleitung
Textbasierte Videogenerierung funktioniert gut für lose Konzepte: atmosphärische Szenen, explorative Richtungen, vielfältige visuelle Ansätze. Wenn die Bewegung bereits festgelegt ist – das spezifische Timing einer Geste, ein Kamera-Push-in, ein Gehzyklus – sind Textbeschreibungen ungenau.
Referenzvideo schließt diese Lücke. Sie stellen einen Clip bereit, der zeigt, was Sie wollen, und Seedance 2.0 interpretiert die Bewegung in die von Ihnen beschriebene neue Szene um.
Dieser Leitfaden behandelt, wann Referenzvideo hilft und wann Text allein besser ist, wie effektive Referenzclips vorbereitet werden und wie die häufigsten Probleme behoben werden können.
Wann Referenzvideo verwendet werden sollte
Referenzvideo funktioniert am besten für:
- Mikro-Gesten: Präzises Timing wie „ein Daumentippen“ oder „ein Nicken, das auf dem dritten Takt landet“. Text kann das genaue Timing nicht erfassen; ein Referenzclip kann es.
- Choreografie: Konsistente Bewegungsmuster wie Gehen mit einer bestimmten Kadenz oder eine wiederholte körperliche Routine.
- Kamerabewegungen: Subtile Operationen wie langsame Push-ins, kontrollierte Orbit-Bewegungen oder spezifische Rahmenänderungen. Diese sind schwer präzise zu beschreiben.
- Beat-Matching: Synchronisation von Aktionen mit Audio-Cues. Das Modell kann das Timing aus einem Referenzclip besser lesen als aus einer Textbeschreibung.
Text allein ist besser für:
- Lose Konzepte oder atmosphärische Stücke, bei denen Abwechslung erwünscht ist
- Erkundung verschiedener visueller Richtungen für denselben Inhalt
- Wenn Sie keinen geeigneten Referenzclip haben und die Bewegung einfach genug zu beschreiben ist
Referenzclips vorbereiten
Ein guter Referenzclip hat diese Eigenschaften:
Länge: 3-8 Sekunden. Kürzere Clips geben dem Modell zu wenig Informationen. Längere Clips riskieren eine Reduzierung des Modellvertrauens und die Erzeugung inkonsistenter Ergebnisse.
Kontinuität: Keine Bearbeitungen, keine Sprungschnitte, keine Schnitte jeglicher Art. Eine einzige kontinuierliche Aufnahme von Anfang bis Ende.
Kompression: Sauberes H.264 ohne Makroblock-Artefakte. Komprimierte oder neu kodierte Clips mit sichtbaren Artefakten erzeugen schlechtere Ergebnisse.
Klarheit des Motivs: Einfache Hintergründe und gleichmäßige Beleuchtung helfen dem Modell, die Silhouette und Bewegung des Motivs klar zu erkennen. Überladene Hintergründe konkurrieren mit dem Motiv um die Aufmerksamkeit des Modells.
Checkliste vor dem Hochladen eines Referenzclips:
- [ ] Unter 8 Sekunden
- [ ] Eine einzige kontinuierliche Aufnahme, keine Schnitte
- [ ] Saubere Kompression, keine sichtbaren Blockartefakte
- [ ] Motiv vor dem Hintergrund sichtbar
- [ ] Durchgehend gleichmäßige Beleuchtung
Prompting mit einem Referenzclip
Beim Kombinieren eines Referenzclips mit einem Text-Prompt sollte der Text die Referenz ergänzen, anstatt sie zu wiederholen.
Konzentrieren Sie den Text auf das, was die Referenz nicht zeigt:
Die Referenz kümmert sich um Bewegung und Timing. Verwenden Sie Text für:
- Stilbeschreibungen (Beleuchtung, Farbpalette, visueller Ton)
- Motividentität (wer oder was in der neuen Szene erscheint)
- Kamerakontext (falls nicht bereits aus der Referenz ersichtlich)
- Eine oder zwei Einschränkungen
Optimale Prompt-Struktur:
Stil: [2-3 Beschreibungen für Beleuchtung und Palette]
Motiv: [Identitätsbeschreibung unter Verwendung stabiler sichtbarer Merkmale]
Kamera: [falls abweichend von Referenz]
Referenzintention: „Bewegung aus Referenz respektieren: Textur und Farbe neu interpretieren.“
Muss nicht: [eine spezifische Einschränkung, falls nötig]
Beispiel:
Referenzclip: eine Person geht mit einem bestimmten, gemessenen Tempo
Text-Prompt:
Stil: warmes Nachmittagslicht, goldene Töne
Motiv: ein Mann in grauem Anzug, Anfang 40, selbstbewusste Haltung
Bewegung aus Referenz respektieren: Textur und Farbe neu interpretieren.
Muss nicht: Gehgeschwindigkeit ändern
Das Drei-Adjektiv-Limit:
Mehr als drei Stilbeschreibungen erzeugen widersprüchliche Anweisungen. Das Modell versucht, alle zu berücksichtigen, und erfüllt oft keine davon gut. Wählen Sie die drei wichtigsten Deskriptoren aus und lassen Sie den Rest weg.
API-Nutzung über WaveSpeedAI
Seedance 2.0 ist über die WaveSpeedAI-API zugänglich. Der Referenzvideo-Endpunkt:
POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"prompt": "Warmes Nachmittagslicht, goldene Töne. Ein Mann in grauem Anzug geht vorwärts. Bewegung aus Referenz respektieren.",
"image_url": "https://example.com/subject-reference.jpg",
"reference_video_url": "https://example.com/motion-reference.mp4",
"duration": 5,
"aspect_ratio": "16:9"
}
Testen mit Apidog
Richten Sie eine Testkollektion ein, bevor Sie Ihre Integration erstellen.
Umgebungseinrichtung:
Erstellen Sie eine Apidog-Umgebung mit WAVESPEED_API_KEY als geheimer Variable.
Zwei-Anfragen-Fluss:
Anfrage 1 startet die Generierung. Anfrage 2 fragt nach Abschluss.
Anfrage 1:
POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"prompt": "{{motion_prompt}}",
"image_url": "{{subject_image}}",
"reference_video_url": "{{reference_clip}}",
"duration": {{duration}},
"aspect_ratio": "16:9"
}
Im Tab „Tests“ extrahieren Sie die Job-ID für das Polling:
pm.environment.set("job_id", pm.response.json().id);
Anfrage 2:
GET https://api.wavespeed.ai/api/v2/predictions/{{job_id}}
Authorization: Bearer {{WAVESPEED_API_KEY}}
Bestätigen:
Antwortkörper, Feldstatus ist gleich „completed“
Fehlerbehebungsanleitung
Bewegungszittern
- Schneiden Sie den Clip, um unbeabsichtigte Mikroanpassungen an den Rändern zu entfernen
- Reduzieren Sie visuelles Rauschen im Quellmaterial
- Stabilisieren Sie während der Aufnahme, anstatt die Stabilisierung in der Nachbearbeitung hinzuzufügen
- Verkürzen Sie die Referenzlänge auf 3-5 Sekunden
- Vereinfachen Sie den Text-Prompt (entfernen Sie Beschreibungen, die widersprüchlich sein könnten)
Referenz ignoriert (Modell ignoriert den Referenzclip)
- Übertreiben Sie die Bewegung leicht und zentrieren Sie das Motiv im Bild
- Fügen Sie pro Clip nur eine Art von Bewegung hinzu (mischen Sie keine Kamerabewegungen mit Charakterbewegungen)
- Nennen Sie die Bewegung explizit im Text: „Kamerabewegung aus Referenz kopieren“
- Extrahieren Sie den saubersten 2-3 Sekunden langen Abschnitt aus dem Referenzclip
- Verwenden Sie Referenzmarkierungen (Klebeband auf einer Oberfläche) für Parallaxen-Klarheit bei Kamerabewegungsreferenzen
Stilabweichung (Ausgabe stimmt nicht mit der beabsichtigten Ästhetik überein)
- Reduzieren Sie die Stilbeschreibungen auf zwei oder drei
- Fügen Sie einen einzelnen statischen Referenzrahmen neben der Videoreferenz hinzu
- Vereinfachen Sie Muster und belebte Details im Referenzclip
- Halten Sie die Einstellungen bei allen Renderings konsistent
- Fixieren Sie zuerst die Bewegung (stellen Sie die Bewegung richtig ein, bevor Sie am Aussehen iterieren)
Rechte und Zustimmung
Referenzvideos mit identifizierbaren Personen erfordern eine Einverständniserklärung. Praktische Anforderungen:
- Schriftliche Zustimmung von Personen, deren Bewegung oder Abbild im Referenzclip erscheint
- Unterschriften der Erziehungsberechtigten für Minderjährige
- Überprüfen Sie, ob Drehorte die kommerzielle Nutzung erlauben
- Ausschließen prominenter Logos oder Marken Dritter aus der Referenz
- Führen Sie Aufzeichnungen: Daten, Einverständniserklärungen, Clip-Versionen
Dies gilt sowohl für den Referenzclip als auch für alle identifizierbaren Personen, die in der generierten Ausgabe erscheinen.
Häufig gestellte Fragen
Ersetzt das Referenzvideo die Bildreferenz?
Sie dienen unterschiedlichen Zwecken. Die Bildreferenz verankert das Erscheinungsbild des Motivs (wer in der Szene erscheint). Die Videoreferenz verankert die Bewegung (wie sich Motive und Kamera bewegen). Verwenden Sie beides, wenn Sie Erscheinungsbild und Bewegung unabhängig voneinander steuern möchten.
Wie lang sollte der Referenzclip sein?
3-8 Sekunden. Zu kurz: Das Modell hat unzureichende Bewegungsinformationen. Zu lang: Das Modellvertrauen sinkt und die Ausgabe wird inkonsistent.
Kann ich einen Referenzclip aus einem anderen Genre verwenden?
Ja. Sie können einen Referenzclip einer gehenden Person aus einem Kontext verwenden und einen Robotercharakter generieren, der mit demselben Gang geht. Die Bewegung wird übertragen; der visuelle Inhalt wird durch Ihre Textbeschreibung und Motivreferenz ersetzt.
Welche Auflösung sollte der Referenzclip haben?
720p oder höher. Sehr niedrig aufgelöste Referenzclips liefern weniger Bewegungsinformationen und erzeugen qualitativ schlechtere Übertragungen.
Kann ich mehrere Clips aus derselben Referenz generieren?
Ja. Derselbe Referenzclip kann mehrere Generierungen mit unterschiedlichen Prompts steuern. Dies ist nützlich, um mehrere Szenenvarianten mit konsistenter Bewegung zu erzeugen.
