En bref
La vidéo de référence dans Seedance 2.0 vous permet d'ancrer le mouvement — mouvements de caméra, chorégraphie de personnages, timing — à un clip existant plutôt que de tout décrire en texte. Utilisez des clips de référence de 3 à 8 secondes : une seule prise, pas de coupes franches, compression H.264 propre. Gardez les invites textuelles courtes (trois adjectifs ou moins pour le style). Le texte décrit ce que la référence ne peut pas montrer ; la référence gère le mouvement. Si votre sortie dévie ou ignore la référence, suivez les étapes de dépannage de ce guide.
Introduction
La génération de vidéo basée uniquement sur du texte fonctionne bien pour les concepts flous : scènes atmosphériques, directions exploratoires, approches visuelles variées. Lorsque le mouvement est déjà décidé — le timing spécifique d'un geste, un zoom avant de caméra, un cycle de marche — les descriptions textuelles sont imprécises.
La vidéo de référence comble cette lacune. Vous fournissez un clip qui montre ce que vous voulez, et Seedance 2.0 réinterprète le mouvement dans la nouvelle scène que vous avez décrite.
Ce guide explique quand la vidéo de référence est utile par rapport à quand le texte seul est préférable, comment préparer des clips de référence efficaces et comment résoudre les problèmes les plus courants.
Quand utiliser la vidéo de référence
La vidéo de référence fonctionne mieux pour :
- Micro-gestes : Timing précis comme « un tapotement de pouce » ou « un hochement de tête qui tombe sur le troisième temps ». Le texte ne peut pas capturer le timing exact ; un clip de référence le peut.
- Chorégraphie : Motifs de mouvement cohérents comme des marches avec une cadence spécifique ou une routine physique répétée.
- Mouvements de caméra : Opérations subtiles comme des zooms avant lents, des orbites contrôlées ou des changements de cadrage spécifiques. Ceux-ci sont difficiles à décrire précisément.
- Synchronisation rythmique : Synchroniser les actions avec des repères audio. Le modèle peut mieux lire le timing à partir d'un clip de référence qu'à partir d'une description textuelle.
Le texte seul est préférable pour :
- Concepts flous ou pièces atmosphériques où la variété est un atout
- Explorer différentes directions visuelles pour le même contenu
- Lorsque vous n'avez pas de clip de référence approprié et que le mouvement est suffisamment simple à décrire
Préparation des clips de référence
Un bon clip de référence présente ces caractéristiques :
Durée : 3-8 secondes. Des clips plus courts donnent trop peu d'informations au modèle. Des clips plus longs risquent de réduire la confiance du modèle et de produire des résultats incohérents.
Continuité : Pas de montages, pas de coupes franches, aucune coupe de quelque nature que ce soit. Une seule prise continue du début à la fin.
Compression : H.264 propre sans artefacts de macroblocage. Les clips compressés ou ré-encodés avec des artefacts visibles produisent de moins bons résultats.
Clarté du sujet : Des arrière-plans simples et un éclairage stable aident le modèle à lire clairement la silhouette et le mouvement du sujet. Les arrière-plans chargés détournent l'attention du modèle du sujet.
Liste de contrôle avant de téléverser un clip de référence :
- [ ] Moins de 8 secondes
- [ ] Une seule prise continue, sans coupes
- [ ] Compression propre, pas de blocage visible
- [ ] Sujet visible sur l'arrière-plan
- [ ] Éclairage stable du début à la fin
Création d'invites avec un clip de référence
Lorsque vous combinez un clip de référence avec une invite textuelle, le texte doit compléter plutôt que répéter la référence.
Concentrez le texte sur ce que la référence ne montre pas :
La référence gère le mouvement et le timing. Utilisez le texte pour :
- Descripteurs de style (éclairage, palette de couleurs, ton visuel)
- Identité du sujet (qui ou quoi apparaît dans la nouvelle scène)
- Contexte de la caméra (si ce n'est pas déjà clair à partir de la référence)
- Une ou deux contraintes
Structure d'invite optimale :
Style : [2-3 descripteurs pour l'éclairage et la palette]
Sujet : [description de l'identité utilisant des caractéristiques visibles stables]
Caméra : [si différente de la référence]
Intention de référence : "Respecter le mouvement de la référence : réinterpréter la texture et la couleur."
Ne doit pas : [une contrainte spécifique si nécessaire]
Exemple :
Clip de référence : une personne marchant à un rythme mesuré spécifique
Invite textuelle :
Style : lumière chaude d'après-midi, tons dorés
Sujet : un homme en costume gris, début quarantaine, posture confiante
Respecter le mouvement de la référence : réinterpréter la texture et la couleur.
Ne doit pas : changer le rythme de marche
La limite de trois adjectifs :
Plus de trois descripteurs de style créent des instructions contradictoires. Le modèle essaie de les incorporer tous et n'en satisfait souvent aucun correctement. Choisissez les trois descripteurs les plus importants et supprimez les autres.
Utilisation de l'API via WaveSpeedAI
Seedance 2.0 est accessible via l'API de WaveSpeedAI. Le point d'accès pour la vidéo de référence :
POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"prompt": "Lumière chaude d'après-midi, tons dorés. Un homme en costume gris avance. Respecter le mouvement de la référence.",
"image_url": "https://example.com/subject-reference.jpg",
"reference_video_url": "https://example.com/motion-reference.mp4",
"duration": 5,
"aspect_ratio": "16:9"
}
Test avec Apidog
Configurez une collection de tests avant de construire votre intégration.
Configuration de l'environnement :
Créez un environnement Apidog avec WAVESPEED_API_KEY comme variable secrète.
Flux à deux requêtes :
La Requête 1 lance la génération. La Requête 2 interroge pour la complétion.
Requête 1 :
POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"prompt": "{{motion_prompt}}",
"image_url": "{{subject_image}}",
"reference_video_url": "{{reference_clip}}",
"duration": {{duration}},
"aspect_ratio": "16:9"
}
Dans l'onglet Tests, extrayez l'ID de la tâche pour l'interrogation :
pm.environment.set("job_id", pm.response.json().id);
Requête 2 :
GET https://api.wavespeed.ai/api/v2/predictions/{{job_id}}
Authorization: Bearer {{WAVESPEED_API_KEY}}
Assertion :
Corps de la réponse, le champ statut est égal à "completed"
Guide de dépannage
Mouvement saccadé
- Coupez le clip pour supprimer les micro-ajustements involontaires sur les bords
- Réduisez le bruit visuel dans le métrage source
- Stabilisez pendant la capture plutôt que d'ajouter une stabilisation en post-production
- Raccourcissez la durée de la référence à 3-5 secondes
- Simplifiez l'invite textuelle (supprimez les descripteurs qui pourraient entrer en conflit)
Référence ignorée (le modèle ignore le clip de référence)
- Exagérez légèrement le mouvement et centrez le sujet dans le cadre
- N'incluez qu'un seul type de mouvement par clip (ne mélangez pas les mouvements de caméra avec les mouvements de personnages)
- Mentionnez explicitement le mouvement dans le texte : « copier le mouvement de caméra de la référence »
- Extrayez la séquence la plus nette de 2-3 secondes du clip de référence
- Utilisez des repères (ruban adhésif sur une surface) pour une meilleure clarté de la parallaxe dans les références de mouvements de caméra
Dérive de style (la sortie ne correspond pas à l'esthétique prévue)
- Réduisez les descripteurs de style à deux ou trois
- Ajoutez une seule image de référence statique à côté de la vidéo de référence
- Simplifiez les motifs et les détails chargés dans le clip de référence
- Maintenez les paramètres cohérents entre les rendus
- Verrouillez le mouvement en premier (obtenez le bon mouvement avant d'itérer sur l'apparence)
Droits et consentement
La vidéo de référence avec des personnes identifiables nécessite un consentement. Exigences pratiques :
- Consentement écrit de toute personne dont le mouvement ou la ressemblance apparaît dans le clip de référence
- Signatures des tuteurs pour les mineurs
- Vérifiez que les lieux de tournage autorisent l'utilisation commerciale
- Excluez les logos proéminents ou les marques de tiers de la référence
- Conservez les enregistrements : dates, notes de consentement, versions des clips
Ceci s'applique à la fois au clip de référence et à tout sujet identifiable apparaissant dans le résultat généré.
FAQ
La vidéo de référence remplace-t-elle l'image de référence ?
Elles servent des objectifs différents. L'image de référence ancre l'apparence du sujet (qui apparaît dans la scène). La vidéo de référence ancre le mouvement (comment les sujets et la caméra se déplacent). Utilisez les deux lorsque vous souhaitez contrôler l'apparence et le mouvement indépendamment.
Quelle doit être la durée du clip de référence ?
3-8 secondes. Trop court : le modèle a des informations de mouvement insuffisantes. Trop long : la confiance du modèle diminue et le résultat devient incohérent.
Puis-je utiliser un clip de référence d'un genre différent ?
Oui. Vous pouvez utiliser un clip de référence d'une personne marchant dans un contexte et générer un personnage robotique marchant avec la même démarche. Le mouvement est transféré ; le contenu visuel est remplacé par votre description textuelle et la référence du sujet.
Quelle résolution doit avoir le clip de référence ?
720p ou plus. Les clips de référence à très faible résolution fournissent moins d'informations de mouvement et produisent des transferts de qualité inférieure.
Puis-je générer plusieurs clips à partir de la même référence ?
Oui. Le même clip de référence peut servir à plusieurs générations avec différentes invites. C'est utile pour générer plusieurs variations de scène avec un mouvement cohérent.
