要約
Seedance 2.0の参照ビデオを使用すると、動き(カメラの動き、キャラクターの振り付け、タイミング)をテキストですべて記述するのではなく、既存のクリップに固定できます。参照クリップは3〜8秒とし、シングルショットでジャンプカットがなく、クリーンなH.264圧縮を使用してください。テキストプロンプトは短く(スタイルの場合は形容詞3つ以下)。テキストは参照では示せないものを記述し、参照が動きを処理します。出力がずれたり、参照を無視したりする場合は、このガイドのトラブルシューティング手順に従ってください。
はじめに
テキストのみのビデオ生成は、漠然としたコンセプト(雰囲気のあるシーン、探索的な方向性、多様な視覚的アプローチ)には適しています。しかし、動きがすでに決まっている場合(ジェスチャーの特定のタイミング、カメラのプッシュイン、歩行サイクルなど)には、テキストの説明は不明瞭になります。
参照ビデオはこのギャップを埋めます。あなたが望む動きを示すクリップを提供すると、Seedance 2.0はその動きを、あなたが記述した新しいシーンに再解釈します。
このガイドでは、参照ビデオが役立つ場合とテキストのみの方が良い場合、効果的な参照クリップの準備方法、および最も一般的な問題の解決方法について説明します。
参照ビデオを使用する場面
参照ビデオは、特に以下の状況で最も効果的です。
- 微細なジェスチャー:「指のタップ」や「3拍目に合わせる頷き」のような正確なタイミング。テキストでは正確なタイミングを捉えられませんが、参照クリップなら可能です。
- 振り付け:特定の歩調での歩行や繰り返される身体動作のような、一貫した動きのパターン。
- カメラワーク:ゆっくりとしたプッシュイン、制御された軌道、特定のフレーミング変更など、微妙な操作。これらを正確に記述するのは困難です。
- ビートマッチング:オーディオキューにアクションを同期させること。モデルは、テキストの説明よりも参照クリップからタイミングをより正確に読み取ることができます。
テキストのみの方が適しているのは以下の状況です。
- 多様性が求められる漠然としたコンセプトや雰囲気のある作品
- 同じコンテンツに対して異なる視覚的アプローチを探索する場合
- 適切な参照クリップがなく、動きがテキストで記述するのに十分シンプルである場合
参照クリップの準備
良い参照クリップには、以下の特徴があります。
長さ:3〜8秒。短すぎるとモデルに十分な情報が与えられません。長すぎるとモデルの信頼性が低下し、一貫性のない出力が生成されるリスクがあります。
連続性:編集なし、ジャンプカットなし、いかなる種類のカットもなし。最初から最後まで単一の連続したショットであること。
圧縮:マクロブロックアーティファクトのないクリーンなH.264。視覚的なアーティファクトのある圧縮または再エンコードされたクリップは、より悪い結果を生み出します。
被写体の明瞭さ:シンプルな背景と安定した照明は、モデルが被写体のシルエットと動きを明確に読み取るのに役立ちます。ごちゃごちゃした背景は、被写体とモデルの注意を奪い合います。
参照クリップをアップロードする前のチェックリスト:
- [ ] 8秒未満
- [ ] 単一の連続したショット、カットなし
- [ ] クリーンな圧縮、視覚的なブロックなし
- [ ] 被写体が背景に対して視認できる
- [ ] 全体を通して安定した照明
参照クリップを使ったプロンプト作成
参照クリップをテキストプロンプトと組み合わせる場合、テキストは参照を繰り返すのではなく、補完するものであるべきです。
参照では示されないものにテキストを集中させる:
参照は動きとタイミングを処理します。テキストは以下に使用します。
- スタイル記述子(照明、カラーパレット、視覚的なトーン)
- 被写体のID(新しいシーンに誰または何が登場するか)
- カメラのコンテキスト(参照からすでに明らかでない場合)
- 1つまたは2つの制約
最適なプロンプト構造:
Style: [照明とパレットの2〜3の記述子]
Subject: [安定した目に見える特徴を使用したID記述]
Camera: [参照と異なる場合]
Reference intent: "Respect motion from reference: reinterpret texture and color." (参照の動きを尊重する:テクスチャと色を再解釈する)
Must not: [必要な場合に1つの特定の制約]
例:
参照クリップ:特定の規則的なペースで歩く人物
テキストプロンプト:
Style: warm afternoon light, golden tones (暖かい午後の光、黄金色)
Subject: a man in a gray suit, early 40s, confident posture (40代前半、グレーのスーツを着た男性、自信に満ちた姿勢)
Respect motion from reference: reinterpret texture and color. (参照の動きを尊重する:テクスチャと色を再解釈する)
Must not: change walking pace (歩行ペースを変更しない)
形容詞3つという制限:
3つ以上のスタイル記述子を使用すると、競合する指示が生まれます。モデルはそれらすべてを組み込もうとしますが、しばしばどれもうまく満たせません。最も重要な3つの記述子を選択し、残りは削除してください。
WaveSpeedAIを介したAPI使用
Seedance 2.0はWaveSpeedAIのAPIを介してアクセスできます。参照ビデオのエンドポイント:
POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"prompt": "Warm afternoon light, golden tones. A man in a gray suit walks forward. Respect motion from reference.",
"image_url": "https://example.com/subject-reference.jpg",
"reference_video_url": "https://example.com/motion-reference.mp4",
"duration": 5,
"aspect_ratio": "16:9"
}
Apidogでのテスト
統合を構築する前に、テストコレクションを設定してください。
環境設定:
WAVESPEED_API_KEYを秘密変数として含むApidog環境を作成します。
2つのリクエストの流れ:
リクエスト1は生成を開始します。リクエスト2は完了をポーリングします。
リクエスト1:
POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"prompt": "{{motion_prompt}}",
"image_url": "{{subject_image}}",
"reference_video_url": "{{reference_clip}}",
"duration": {{duration}},
"aspect_ratio": "16:9"
}
テストタブで、ポーリング用のジョブIDを抽出します。
pm.environment.set("job_id", pm.response.json().id);
リクエスト2:
GET https://api.wavespeed.ai/api/v2/predictions/{{job_id}}
Authorization: Bearer {{WAVESPEED_API_KEY}}
アサート:
Response body, field status equals "completed" (レスポンスボディ、フィールドstatusが"completed"と等しいこと)
トラブルシューティングガイド
モーションの揺れ(ジッター)
- クリップをトリミングして、端での意図しない微調整を削除します
- ソース映像の視覚的なノイズを減らします
- ポストプロダクションでスタビライズを追加するのではなく、撮影中にスタビライズします
- 参照の長さを3〜5秒に短縮します
- テキストプロンプトを簡素化します(競合する可能性のある記述子を削除します)
参照が無視される(モデルが参照クリップを無視する)
- 動きをわずかに誇張し、被写体をフレームの中央に配置します
- クリップごとに1種類の動きのみを含めます(カメラの動きとキャラクターの動きを混ぜないでください)
- テキストで明示的に動きを呼び出します:「参照からカメラの動きをコピーする」
- 参照クリップから最もクリーンな2〜3秒間を抽出します
- カメラの動きの参照における視差の明確さのために、参照マーク(表面のテープなど)を使用します
スタイルずれ(出力が意図した美学と一致しない)
- スタイル記述子を2つまたは3つに減らします
- ビデオ参照と並行して、単一の静止参照フレームを追加します
- 参照クリップのパターンやごちゃごちゃしたディテールを簡素化します
- レンダー間で設定を一貫させます
- まず動きを固定します(見た目を反復する前に、動きを正しくします)
権利と同意
個人を特定できる人物を含む参照ビデオには、同意が必要です。実用的な要件:
- 参照クリップに動きや肖像が登場するすべての人物からの書面による同意
- 未成年者の場合は保護者の署名
- 撮影場所が商業利用を許可していることを確認
- 参照から目立つロゴや第三者のマークを除外
- 記録の保持:日付、同意メモ、クリップのバージョン
これらは、参照クリップと、生成された出力に登場する識別可能なすべての被写体の両方に適用されます。
よくある質問
参照ビデオは画像参照を置き換えるものですか?
これらは異なる目的を果たします。画像参照は被写体の外見(シーンに誰が登場するか)を固定します。ビデオ参照は動き(被写体とカメラがどのように動くか)を固定します。外見と動きを独立して制御したい場合は、両方を使用してください。
参照クリップの長さはどのくらいが適切ですか?
3〜8秒です。短すぎると、モデルに十分な動きの情報がありません。長すぎると、モデルの信頼性が低下し、出力が一貫しなくなります。
異なるジャンルの参照クリップを使用できますか?
はい。ある文脈で歩いている人物の参照クリップを使用して、同じ歩行で歩くロボットキャラクターを生成できます。動きは転送され、視覚的な内容はテキスト記述と被写体参照によって置き換えられます。
参照クリップの解像度はどのくらいが適切ですか?
720p以上です。非常に低解像度の参照クリップは、動きの情報が少なく、転送品質が低下します。
同じ参照から複数のクリップを生成できますか?
はい。同じ参照クリップを使用して、異なるプロンプトで複数の生成を行うことができます。これは、一貫した動きで複数のシーンバリエーションを生成するのに役立ちます。
