Seedance 2.0: Como usar vídeo de referência para copiar movimentos e câmera

Em Resumo

O vídeo de referência no Seedance 2.0 permite ancorar o movimento — movimentos de câmera, coreografia de personagem, tempo — a um clipe existente em vez de descrever tudo em texto. Use clipes de referência de 3 a 8 segundos: tomada única, sem cortes bruscos, compressão H.264 limpa. Mantenha os prompts de texto curtos (três adjetivos ou menos para o estilo). O texto descreve o que a referência não pode mostrar; a referência cuida do movimento. Se sua saída desviar ou ignorar a referência, siga as etapas de solução de problemas neste guia.

Introdução

A geração de vídeo apenas com texto funciona bem para conceitos amplos: cenas atmosféricas, direções exploratórias, abordagens visuais variadas. Quando o movimento já está decidido — o tempo específico de um gesto, um zoom de câmera (push-in), um ciclo de caminhada — as descrições de texto são imprecisas.

O vídeo de referência fecha essa lacuna. Você fornece um clipe que mostra o que deseja, e o Seedance 2.0 reinterpreta o movimento na nova cena que você descreveu.

Este guia abrange quando o vídeo de referência ajuda versus quando o texto sozinho é melhor, como preparar clipes de referência eficazes e como corrigir os problemas mais comuns.

botão

Quando usar vídeo de referência

O vídeo de referência funciona melhor para:

Micro-gestos: Sincronização precisa como “um toque de polegar” ou “um aceno que cai no terceiro tempo”. O texto não consegue capturar o tempo exato; um clipe de referência consegue.
Coreografia: Padrões de movimento consistentes como caminhadas com uma cadência específica ou uma rotina física repetida.
Movimentos de câmera: Operações sutis como zooms lentos (push-ins), órbitas controladas ou mudanças de enquadramento específicas. Estes são difíceis de descrever com precisão.
Sincronização de ritmo (Beat-matching): Sincronizar ações a pistas de áudio. O modelo pode ler o tempo de um clipe de referência melhor do que de uma descrição de texto.

Apenas texto é melhor para:

Conceitos amplos ou peças atmosféricas onde a variedade é boa
Explorar diferentes direções visuais para o mesmo conteúdo
Quando você não tem um clipe de referência apropriado e o movimento é simples o suficiente para descrever

Preparando clipes de referência

Um bom clipe de referência tem estas características:

Duração: 3-8 segundos. Clipes mais curtos fornecem pouca informação ao modelo. Clipes mais longos arriscam reduzir a confiança do modelo e produzir resultados inconsistentes.

Continuidade: Sem edições, sem cortes bruscos (jump cuts), sem cortes de qualquer tipo. Uma única tomada contínua do início ao fim.

Compressão: H.264 limpa, sem artefatos de macrobloqueio. Clipes comprimidos ou recodificados com artefatos visíveis produzem resultados piores.

Clareza do sujeito: Fundos simples e iluminação estável ajudam o modelo a ler a silhueta e o movimento do sujeito claramente. Fundos movimentados competem com o sujeito pela atenção do modelo.

Checklist antes de fazer upload de um clipe de referência:

[ ] Abaixo de 8 segundos
[ ] Tomada única contínua, sem cortes
[ ] Compressão limpa, sem bloqueios visíveis
[ ] Sujeito visível contra o fundo
[ ] Iluminação estável durante todo o clipe

Criando prompts com um clipe de referência

Ao combinar um clipe de referência com um prompt de texto, o texto deve complementar em vez de repetir a referência.

Concentre o texto no que a referência não mostra:

A referência cuida do movimento e do tempo. Use o texto para:

Descritores de estilo (iluminação, paleta de cores, tom visual)
Identidade do sujeito (quem ou o que aparece na nova cena)
Contexto da câmera (se não estiver claro na referência)
Uma ou duas restrições

Estrutura de prompt ideal:

Estilo: [2-3 descritores para iluminação e paleta]
Assunto: [descrição de identidade usando características visíveis estáveis]  
Câmera: [se diferente da referência]
Intenção da referência: "Respeitar o movimento da referência: reinterpretar textura e cor."
Não deve: [uma restrição específica, se necessário]

Exemplo:

Clipe de referência: uma pessoa andando com um ritmo específico e medido

Prompt de texto:

Estilo: luz quente de fim de tarde, tons dourados
Assunto: um homem de terno cinza, na casa dos 40, postura confiante
Respeitar o movimento da referência: reinterpretar textura e cor.
Não deve: mudar o ritmo da caminhada

O limite de três adjetivos:

Mais de três descritores de estilo criam instruções conflitantes. O modelo tenta incorporar todos eles e muitas vezes não satisfaz nenhum bem. Escolha os três descritores mais importantes e descarte o restante.

Uso da API via WaveSpeedAI

O Seedance 2.0 é acessível via API da WaveSpeedAI. O endpoint de vídeo de referência:

POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json

{
  "prompt": "Warm afternoon light, golden tones. A man in a gray suit walks forward. Respect motion from reference.",
  "image_url": "https://example.com/subject-reference.jpg",
  "reference_video_url": "https://example.com/motion-reference.mp4",
  "duration": 5,
  "aspect_ratio": "16:9"
}

Testando com Apidog

Configure uma coleção de testes antes de construir sua integração.

Configuração do ambiente:

Crie um ambiente Apidog com WAVESPEED_API_KEY como uma variável Secreta.

Fluxo de duas requisições:

A Requisição 1 inicia a geração. A Requisição 2 consulta a conclusão.

Requisição 1:

POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json

{
  "prompt": "{{motion_prompt}}",
  "image_url": "{{subject_image}}",
  "reference_video_url": "{{reference_clip}}",
  "duration": {{duration}},
  "aspect_ratio": "16:9"
}

Na aba Testes, extraia o ID do trabalho para consulta:

pm.environment.set("job_id", pm.response.json().id);

Requisição 2:

GET https://api.wavespeed.ai/api/v2/predictions/{{job_id}}
Authorization: Bearer {{WAVESPEED_API_KEY}}

Verificar:

Corpo da resposta, campo status igual a "completed"

Guia de Solução de Problemas

Instabilidade de movimento (Jitter)

Corte o clipe para remover microajustes indesejados nas bordas
Reduza o ruído visual na filmagem original
Estabilize durante a captura em vez de adicionar estabilização na pós-produção
Encurte a duração da referência para 3-5 segundos
Simplifique o prompt de texto (remova descritores que possam entrar em conflito)

Referência ignorada (o modelo ignora o clipe de referência)

Exagere um pouco o movimento e centralize o sujeito no quadro
Inclua apenas um tipo de movimento por clipe (não misture movimentos de câmera com movimento de personagem)
Mencione explicitamente o movimento no texto: “copiar movimento de câmera da referência”
Extraia o trecho mais limpo de 2-3 segundos do clipe de referência
Use marcas de referência (fita em uma superfície) para clareza de paralaxe em referências de movimento de câmera

Desvio de estilo (a saída não corresponde à estética pretendida)

Reduza os descritores de estilo para dois ou três
Adicione um único quadro de referência estático ao lado da referência de vídeo
Simplifique padrões e detalhes complexos no clipe de referência
Mantenha as configurações consistentes em todas as renderizações
Bloqueie o movimento primeiro (acerte o movimento antes de iterar na aparência)

Direitos e consentimento

Vídeos de referência com pessoas identificáveis exigem consentimento. Requisitos práticos:

Consentimento por escrito de qualquer pessoa cujo movimento ou imagem apareça no clipe de referência
Assinaturas de guardiões para menores
Verifique se os locais de filmagem permitem uso comercial
Exclua logotipos proeminentes ou marcas de terceiros da referência
Mantenha registros: datas, notas de consentimento, versões dos clipes

Isso se aplica tanto ao clipe de referência quanto a quaisquer sujeitos identificáveis que apareçam na saída gerada.

Perguntas Frequentes

O vídeo de referência substitui a imagem de referência?
Eles servem a propósitos diferentes. A imagem de referência ancora a aparência do sujeito (quem aparece na cena). O vídeo de referência ancora o movimento (como os sujeitos e a câmera se movem). Use ambos quando quiser controlar a aparência e o movimento independentemente.

Qual deve ser a duração do clipe de referência?
3-8 segundos. Muito curto: o modelo tem informações de movimento insuficientes. Muito longo: a confiança do modelo diminui e a saída se torna inconsistente.

Posso usar um clipe de referência de um gênero diferente?
Sim. Você pode usar um clipe de referência de uma pessoa caminhando em um contexto e gerar um personagem robô caminhando com o mesmo andar. O movimento é transferido; o conteúdo visual é substituído pela sua descrição de texto e referência de assunto.

Qual deve ser a resolução do clipe de referência?
720p ou superior. Clipes de referência de resolução muito baixa fornecem menos informações de movimento e produzem transferências de qualidade inferior.

Posso gerar vários clipes a partir da mesma referência?
Sim. O mesmo clipe de referência pode impulsionar múltiplas gerações com prompts diferentes. Isso é útil para gerar várias variações de cena com movimento consistente.