Em Resumo
O vídeo de referência no Seedance 2.0 permite ancorar o movimento — movimentos de câmera, coreografia de personagem, tempo — a um clipe existente em vez de descrever tudo em texto. Use clipes de referência de 3 a 8 segundos: tomada única, sem cortes bruscos, compressão H.264 limpa. Mantenha os prompts de texto curtos (três adjetivos ou menos para o estilo). O texto descreve o que a referência não pode mostrar; a referência cuida do movimento. Se sua saída desviar ou ignorar a referência, siga as etapas de solução de problemas neste guia.
Introdução
A geração de vídeo apenas com texto funciona bem para conceitos amplos: cenas atmosféricas, direções exploratórias, abordagens visuais variadas. Quando o movimento já está decidido — o tempo específico de um gesto, um zoom de câmera (push-in), um ciclo de caminhada — as descrições de texto são imprecisas.
O vídeo de referência fecha essa lacuna. Você fornece um clipe que mostra o que deseja, e o Seedance 2.0 reinterpreta o movimento na nova cena que você descreveu.
Este guia abrange quando o vídeo de referência ajuda versus quando o texto sozinho é melhor, como preparar clipes de referência eficazes e como corrigir os problemas mais comuns.
Quando usar vídeo de referência
O vídeo de referência funciona melhor para:
- Micro-gestos: Sincronização precisa como “um toque de polegar” ou “um aceno que cai no terceiro tempo”. O texto não consegue capturar o tempo exato; um clipe de referência consegue.
- Coreografia: Padrões de movimento consistentes como caminhadas com uma cadência específica ou uma rotina física repetida.
- Movimentos de câmera: Operações sutis como zooms lentos (push-ins), órbitas controladas ou mudanças de enquadramento específicas. Estes são difíceis de descrever com precisão.
- Sincronização de ritmo (Beat-matching): Sincronizar ações a pistas de áudio. O modelo pode ler o tempo de um clipe de referência melhor do que de uma descrição de texto.
Apenas texto é melhor para:
- Conceitos amplos ou peças atmosféricas onde a variedade é boa
- Explorar diferentes direções visuais para o mesmo conteúdo
- Quando você não tem um clipe de referência apropriado e o movimento é simples o suficiente para descrever
Preparando clipes de referência
Um bom clipe de referência tem estas características:
Duração: 3-8 segundos. Clipes mais curtos fornecem pouca informação ao modelo. Clipes mais longos arriscam reduzir a confiança do modelo e produzir resultados inconsistentes.
Continuidade: Sem edições, sem cortes bruscos (jump cuts), sem cortes de qualquer tipo. Uma única tomada contínua do início ao fim.
Compressão: H.264 limpa, sem artefatos de macrobloqueio. Clipes comprimidos ou recodificados com artefatos visíveis produzem resultados piores.
Clareza do sujeito: Fundos simples e iluminação estável ajudam o modelo a ler a silhueta e o movimento do sujeito claramente. Fundos movimentados competem com o sujeito pela atenção do modelo.
Checklist antes de fazer upload de um clipe de referência:
- [ ] Abaixo de 8 segundos
- [ ] Tomada única contínua, sem cortes
- [ ] Compressão limpa, sem bloqueios visíveis
- [ ] Sujeito visível contra o fundo
- [ ] Iluminação estável durante todo o clipe
Criando prompts com um clipe de referência
Ao combinar um clipe de referência com um prompt de texto, o texto deve complementar em vez de repetir a referência.
Concentre o texto no que a referência não mostra:
A referência cuida do movimento e do tempo. Use o texto para:
- Descritores de estilo (iluminação, paleta de cores, tom visual)
- Identidade do sujeito (quem ou o que aparece na nova cena)
- Contexto da câmera (se não estiver claro na referência)
- Uma ou duas restrições
Estrutura de prompt ideal:
Estilo: [2-3 descritores para iluminação e paleta]
Assunto: [descrição de identidade usando características visíveis estáveis]
Câmera: [se diferente da referência]
Intenção da referência: "Respeitar o movimento da referência: reinterpretar textura e cor."
Não deve: [uma restrição específica, se necessário]
Exemplo:
Clipe de referência: uma pessoa andando com um ritmo específico e medido
Prompt de texto:
Estilo: luz quente de fim de tarde, tons dourados
Assunto: um homem de terno cinza, na casa dos 40, postura confiante
Respeitar o movimento da referência: reinterpretar textura e cor.
Não deve: mudar o ritmo da caminhada
O limite de três adjetivos:
Mais de três descritores de estilo criam instruções conflitantes. O modelo tenta incorporar todos eles e muitas vezes não satisfaz nenhum bem. Escolha os três descritores mais importantes e descarte o restante.
Uso da API via WaveSpeedAI
O Seedance 2.0 é acessível via API da WaveSpeedAI. O endpoint de vídeo de referência:
POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"prompt": "Warm afternoon light, golden tones. A man in a gray suit walks forward. Respect motion from reference.",
"image_url": "https://example.com/subject-reference.jpg",
"reference_video_url": "https://example.com/motion-reference.mp4",
"duration": 5,
"aspect_ratio": "16:9"
}
Testando com Apidog
Configure uma coleção de testes antes de construir sua integração.
Configuração do ambiente:
Crie um ambiente Apidog com WAVESPEED_API_KEY como uma variável Secreta.
Fluxo de duas requisições:
A Requisição 1 inicia a geração. A Requisição 2 consulta a conclusão.
Requisição 1:
POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"prompt": "{{motion_prompt}}",
"image_url": "{{subject_image}}",
"reference_video_url": "{{reference_clip}}",
"duration": {{duration}},
"aspect_ratio": "16:9"
}
Na aba Testes, extraia o ID do trabalho para consulta:
pm.environment.set("job_id", pm.response.json().id);
Requisição 2:
GET https://api.wavespeed.ai/api/v2/predictions/{{job_id}}
Authorization: Bearer {{WAVESPEED_API_KEY}}
Verificar:
Corpo da resposta, campo status igual a "completed"
Guia de Solução de Problemas
Instabilidade de movimento (Jitter)
- Corte o clipe para remover microajustes indesejados nas bordas
- Reduza o ruído visual na filmagem original
- Estabilize durante a captura em vez de adicionar estabilização na pós-produção
- Encurte a duração da referência para 3-5 segundos
- Simplifique o prompt de texto (remova descritores que possam entrar em conflito)
Referência ignorada (o modelo ignora o clipe de referência)
- Exagere um pouco o movimento e centralize o sujeito no quadro
- Inclua apenas um tipo de movimento por clipe (não misture movimentos de câmera com movimento de personagem)
- Mencione explicitamente o movimento no texto: “copiar movimento de câmera da referência”
- Extraia o trecho mais limpo de 2-3 segundos do clipe de referência
- Use marcas de referência (fita em uma superfície) para clareza de paralaxe em referências de movimento de câmera
Desvio de estilo (a saída não corresponde à estética pretendida)
- Reduza os descritores de estilo para dois ou três
- Adicione um único quadro de referência estático ao lado da referência de vídeo
- Simplifique padrões e detalhes complexos no clipe de referência
- Mantenha as configurações consistentes em todas as renderizações
- Bloqueie o movimento primeiro (acerte o movimento antes de iterar na aparência)
Direitos e consentimento
Vídeos de referência com pessoas identificáveis exigem consentimento. Requisitos práticos:
- Consentimento por escrito de qualquer pessoa cujo movimento ou imagem apareça no clipe de referência
- Assinaturas de guardiões para menores
- Verifique se os locais de filmagem permitem uso comercial
- Exclua logotipos proeminentes ou marcas de terceiros da referência
- Mantenha registros: datas, notas de consentimento, versões dos clipes
Isso se aplica tanto ao clipe de referência quanto a quaisquer sujeitos identificáveis que apareçam na saída gerada.
Perguntas Frequentes
O vídeo de referência substitui a imagem de referência?
Eles servem a propósitos diferentes. A imagem de referência ancora a aparência do sujeito (quem aparece na cena). O vídeo de referência ancora o movimento (como os sujeitos e a câmera se movem). Use ambos quando quiser controlar a aparência e o movimento independentemente.
Qual deve ser a duração do clipe de referência?
3-8 segundos. Muito curto: o modelo tem informações de movimento insuficientes. Muito longo: a confiança do modelo diminui e a saída se torna inconsistente.
Posso usar um clipe de referência de um gênero diferente?
Sim. Você pode usar um clipe de referência de uma pessoa caminhando em um contexto e gerar um personagem robô caminhando com o mesmo andar. O movimento é transferido; o conteúdo visual é substituído pela sua descrição de texto e referência de assunto.
Qual deve ser a resolução do clipe de referência?
720p ou superior. Clipes de referência de resolução muito baixa fornecem menos informações de movimento e produzem transferências de qualidade inferior.
Posso gerar vários clipes a partir da mesma referência?
Sim. O mesmo clipe de referência pode impulsionar múltiplas gerações com prompts diferentes. Isso é útil para gerar várias variações de cena com movimento consistente.
