Googleのブログは、同社の推論スタックを生成出力に組み込む新しいモデル、Gemini Omniを発表しました。最初のバリアントであるGemini Omni Flashは、テキスト、画像、音声、またはビデオを入力として受け取り、ビデオを返します。これはすでにGeminiアプリ、Google Flow、YouTube Shorts、およびYouTube Createアプリ内で利用可能で、開発者APIアクセスは数週間以内に提供される予定です。
Apidogで開発している場合、すでにテキストモデル、Nano Banana 2のような画像生成ツール、そしてVeo 3.1のようなビデオモデルを接続しているでしょう。Gemini Omniは次に計画すべきエンドポイントであり、その設計はGoogleがこれまでに出荷したものとは大きく異なります。この記事では、Omniが何をするのか、現在どこで利用できるのか、APIがいつリリースされるのか、Gemini 3 Proとどのように関連するのか、そしてAPIキーが利用可能になった日に接続できるようにApidogワークスペースを設定する方法について詳しく説明します。
TL;DR (要点)
Gemini Omniは、Geminiの推論能力とネイティブなマルチモーダル生成を組み合わせたGoogleの新しいモデルファミリーです。最初のリリースであるGemini Omni Flashは、テキスト、画像、音声、ビデオの入力を受け入れ、ビデオを出力します。画像および音声出力も計画されています。AI Plus、Pro、Ultraのサブスクライバー向けにはGeminiアプリとGoogle Flowで、YouTube ShortsとYouTube Createでは無料で現在利用可能で、開発者およびエンタープライズAPIは数週間以内に展開される予定です。
Gemini Omniとは
Gemini Omniは、これまでの生成モデルとは異なるタイプです。ほとんどのビデオジェネレーターはプロンプトを受け取り、フレームを生成します。Omniは、言語モデルがそうするようにプロンプトについて推論し、その後出力を生成します。Koray Kavukcuogluが率いるGoogle DeepMindチームは、Omniを、Geminiの世界知識と、重力、運動エネルギー、流体力学などの物理学に対する直感的な理解を用いて、次に何が起こるべきかを考えるモデルとして説明しています。
このように考えてみてください。Veo 3は、リアルに見える動きを生成するのに優れています。Omniは、その動きが現実世界と同じように振る舞うように構築されています。Omniに階段を跳ね上がるボールの様子を表示するように要求した場合、単にフレームを盲目的にアニメーション化するわけではありません。各段での運動量損失について推論し、その後それがどのように見えるべきかを描画します。これがGoogleが提供している差異です。つまり、フレーム補間ではなく、推論主導の生成です。
その命名はGoogleのパターンに従っています。重い処理にはGemini 3 Pro、速度とコストにはGemini 3 Flash。Gemini Omni Flashは同じFlashティアに位置づけられ、これは低遅延、幅広い可用性、そしてAPIがリリースされればGemini 3 Flashファミリーを反映するであろう価格帯を意味します。より大規模なOmniバリアントもロードマップにある可能性が高いですが、Googleは発表していません。
Omniを以前のGoogleのビデオ作品と区別するいくつかの決定的な特徴があります。
- マルチモーダル入力がネイティブです。静止画像と音声クリップをOmniに渡し、画像内の被写体がクリップの言葉を話す6秒のビデオを生成させることができます。外部のリップシンク段階は不要です。
- リファレンスブレンド。2つのリファレンスショット、ブランドカラー仕様、スクリプトを投入します。Omniは生成されたクリップ全体と後続の編集全体でこれらすべての一貫性を保ちます。
- マルチターン編集。Omniにクリップを要求し、「背景をもっと雪深くして」とか「猫をキツネに替えて」と指示します。言及しなかった部分はそのまま維持されます。これは言うほど簡単ではありません。現在のほとんどのビデオモデルは、再生成のたびに以前の一貫性を捨ててしまいます。
Veo 3とGemini 3 Proとの違い
Googleの最近のモデルリリースに対して出荷している場合、ファミリーは現在3つの頭を持っています。
| モデル | 用途 | 入力 | 出力 | 推論 |
|---|---|---|---|---|
| Gemini 3 Pro | 大規模なテキスト+マルチモーダル推論 | テキスト、画像、音声、ビデオ、コード | テキスト、コード | 強力 (Deep Think利用可能) |
| Veo 3.1 | 純粋なビデオ生成 | テキスト、画像 | ビデオ | 限定的; プロンプト駆動型 |
| Gemini Omni Flash | 推論+クリエイティブ生成 | テキスト、画像、音声、ビデオ | ビデオ (画像/音声は今後提供) | ネイティブ、生成に適用 |
Veo 3は、依然として最高忠実度のシングルショットビデオで優位に立っています。Veo 3 APIガイドとVeo 3.1リリース報道で詳しく取り上げました。Omniが追加するのは推論ループです。このモデルには「カメラがスマートフォンの開封を追跡し、ユーザーのナレーションに反応する30秒間の製品ウォークスルーを作成してください」と指示することができ、生成する前にショットを計画します。
Omniには、中間編集を平易な言葉で入力することもできます。Veoでは、プロンプトを再入力して再生成しますが、Omniでは会話を続けることができます。これが、GoogleがOmniを単なるジェネレーターではなく「クリエイティブなコラボレーター」として位置づけている理由です。
純粋なテキスト作業には、Gemini 3 Proが依然として適切な選択です。正確に何を求めているか分かっている純粋なビデオの場合、Veo 3.1はまだ安価で高速です。Omniは、プロンプトの解釈が必要で、出力がコンテキストに反応する必要がある場合に適しています。
今日、それで何ができるか
Omni Flashは現在、以下の4つの場所で利用可能です。
- Geminiアプリ。会話形式でビデオクリップを生成し、後続のターンで洗練させます。
- Google Flow。複数のショットをシーケンスにまとめるためのGoogleの映像制作インターフェースです。
- YouTube Shorts。プラットフォーム上のすべてのクリエイターが無料で利用できます。
- YouTube Createアプリ。無料のモバイルファースト生成です。
有料プランの場合、OmniへのアクセスはGoogle AI Plus、Pro、Ultraのサブスクリプションにバンドルされています。無料のクリエイターはYouTubeを通じて直接利用できます。これは注目すべき配布戦略です。Googleは開発者APIがリリースされる前に、何百万ものショートフォームクリエイターにこのモデルを提供しています。
Omniが生成するすべてのビデオにはSynthIDウォーターマークが付いています。Geminiアプリ、ChromeのGemini、またはGoogle検索を通じて出所を確認できます。コンテンツの出所が重要となるもの(コンプライアンスレビュー、ブランドセーフティ、ニュース検証など)を構築している場合、これは有用なプリミティブです。SynthIDは視聴者には見えませんが、Googleの検出器には読み取り可能です。
Avatarsという機能もあります。自分の声で自分自身のデジタル版を構築し、そのアバターが新しいセリフを話すビデオを生成できます。同じ仕組みはブランドキャラクターにも適用されます。GoogleはAPIティアにおける同意と検証フローがどのようなものになるかを明らかにしていませんが、コンシューマー版では、アバターがあなたの肖像を使用する前に明示的な音声設定が必要です。
推論と生成のアイデアを平易な言葉で説明
「推論+生成」がなぜ重要なのでしょうか?具体的な例を挙げましょう。
プロンプト:「テーブルの端からグラスが傾いて落ち、木の床に着地する様子を見せてください。」
純粋な生成モデルは、グラスが傾くように見えるフレームを補間します。推論モデルは、まず一連の内部的な質問に答えます。重心が端を越えたとき、半分の水が入ったグラスはどのくらいの速さで傾くのか?水は縁が床に当たる前か後かどちらでグラスから出るのか?グラスは割れるのか、跳ね返るのか?どんな音がするのか?そして、それらの答えと一貫したフレームを生成します。
これがGoogleが言う「物理学の直感的な理解」です。Omniは内部で物理シミュレーションを実行しているわけではありません。物理的な直感を持つ人が予測するのと同じように結果を予測するように訓練されており、その予測が生成を導きます。
これは主に3つの点で最も顕著に現れます。
- 軌道。落下する物体は浮遊するのではなく、重力に従います。
- 材料の振る舞い。布は折りたたまれ、水は飛び散り、煙は自然な感じで上昇します。
- 接触。2つの物体が衝突したとき、その反応(跳ね返る、くっつく、変形する)は期待と一致します。
とはいえ、Omniは物理エンジンではありません。長いテイクでの動きを混同したり、引き継ぎ時にオブジェクトの永続性を時折破ったりすることがあり、適切なVFXパイプラインに取って代わるものではありません。それがクリアする基準は、「あらゆる詳細をプロンプトエンジニアリングすることなく、もっともらしく見える」ということです。
現在、Gemini Omni Flashはどこで動作しているか
リリース時点でのアクセスティアの概要です。
| サービス | 費用 | アクセス |
|---|---|---|
| YouTube Shorts | 無料 | すべてのクリエイター |
| YouTube Createアプリ | 無料 | モバイルクリエイター |
| Geminiアプリ | 有料 | AI Plus / Pro / Ultra |
| Google Flow | 有料 | AI Plus / Pro / Ultra |
| 開発者API | 未定 | 数週間以内 |
| エンタープライズAPI | 未定 | 数週間以内 |
このブログの読者のほとんどが関心を持っているのは開発者APIです。Googleは「数週間以内」という以外に日付を明言していません。Gemini 3の展開パターンに従い、Google AI StudioとVertex AIで最初にエンドポイントが提供されると予想されます。
待っている間に、APIワークスペースを設定しましょう。Apidogをダウンロードし、Gemini 3 ProまたはVeo 3で使用している既存のGemini APIスキーマをインポートすれば、OpenAPI仕様がリリースされ次第、Omniエンドポイントを追加する準備が整います。Apidogのインポート機能は、認証、環境変数、モックレスポンスを処理するため、ライブエンドポイントが存在する前にビデオ生成レスポンスのスタブを作成できます。
APIと開発者アクセス:分かっていること
これまでのところ、Googleが開発者アクセスについて確認したすべての内容は以下の通りです。
- APIティア。Gemini Omni Flashが最初に登場します。より大規模なOmniバリアントは発表されていません。
- エンドポイント。おそらくGoogle AI Studio(プロトタイプ作成用)とVertex AI(本番環境用)です。Gemini 3ファミリーもこのパスを辿りました。
- 起動時の入力モダリティ。テキスト、画像、音声、ビデオ。
- 起動時の出力モダリティ。ビデオのみ。画像と音声の出力は、Googleの表現では「いずれ」提供されます。
- 価格。未確認。Flashティアは歴史的に低価格です。Veoと同様に、出力秒数ごとの課金を予想します。
- レート制限。未確認。
- 地域での利用可能性。未確認。
現在のパイプラインがVeo 3.1またはサードパーティのビデオモデルに依存している場合、移行パスは原則として簡単です。同じプロンプト構造、より豊かな入力、より豊かな出力。コストとレイテンシは未知数です。
現時点でのより安全な賭けは、単一の内部インターフェースの背後でモデルを交換するようにアプリケーションを設計することです。Veo、Omni、および将来の代替案をすべて1つのサービスでラップします。Apidogを使用して新しいエンドポイントの形状をモックし、クライアントコードを検証し、Omniが一般利用可能になったときにのみライブURLを交換することで、交換をテストします。この正確なパターンについては、テキストからビデオへのAPIガイドで説明しました。
Apidog内でOmniエンドポイントを推進する
Omni APIがリリースされたら、あなたのApidogワークスペースには以下の3つのものが必要になります。
- 認証設定。GoogleがAI Studio (
x-goog-api-key) を経由するかVertex (OAuth + サービスアカウント) を経由するかに関わらず、Apidogの環境に両方を設定します。リクエストごとにヘッダーを編集するのではなく、ワンクリックで切り替えることができます。 - スキーマ定義。GoogleがOpenAPI仕様を公開したらすぐにインポートします。公開されない場合は、Gemini 3の仕様をベースラインとしてApidogのビジュアルデザイナーでスキーマをスケッチします。公式OpenAPIがリリースされる前にGemini 3がリリースされた際も、同じアプローチが機能しました。
- モックレスポンス。ビデオ生成は遅く、コストがかかります。Apidogのスマートモックは、あらかじめ用意されたbase64または署名付きURLレスポンスを返すため、実際のAPIクォータを消費することなくフロントエンドクライアントを構築およびテストできます。
典型的なOmniリクエストは、おそらく生の形式で次のようになります。
curl -X POST https://generativelanguage.googleapis.com/v1beta/models/gemini-omni-flash:generateContent \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{ "text": "Generate a 6s product shot of the attached phone rotating on a white background" },
{ "inline_data": { "mime_type": "image/jpeg", "data": "<base64-image>" } }
]
}],
"generationConfig": {
"responseMimeType": "video/mp4",
"durationSeconds": 6
}
}'
(この形式は、既存のGemini 3マルチモーダルAPIからの予測です。Googleはフィールド名を変更する可能性があります。)
これをApidogにリクエストとして追加し、Geminiコレクションの下に保存すれば、チームと共有できる再実行可能なテストが手に入ります。レスポンスコード、ペイロードサイズ、SynthIDウォーターマークの存在について視覚的なアサーションを追加します。実際のエンドポイントが稼働したら、更新する必要があるのはURLだけです。
OmniとSora 2、Veo 3.1、Nano Banana 2の比較
2026年のビデオモデルのラインナップは厳しく、コミットする前に公正な比較が重要です。
| モデル | ベンダー | 推論 | マルチモーダル入力 | 編集可能 | ウォーターマーク |
|---|---|---|---|---|---|
| Gemini Omni Flash | ネイティブ | テキスト、画像、音声、ビデオ | マルチターン | SynthID | |
| Veo 3.1 | 限定的 | テキスト、画像 | 再プロンプトのみ | SynthID | |
| Sora 2 | OpenAI | 一部 | テキスト、画像 | 再プロンプトのみ | C2PA |
| Nano Banana 2 | 一部 | テキスト、画像 | 限定的 | SynthID |
Veo 3.1は、映画のようなシングルテイクの品質で優位に立っています。Sora 2は、OpenAIのポジショニングによると、最も強力な世界シミュレーションを持っています。Sora 2の詳細分析でその点を詳しく説明しました。Omniの明確な利点は、推論、マルチターン編集、そして個別の段階を必要としないオーディオ入力・ビデオ出力です。
今日の本番ワークフローでどれかを選ぶなら、Veo 3.1とApidogのモックレイヤーの組み合わせが最も安定した選択肢です。ユーザーが平易な言葉で編集内容を記述し、モデルがそれに追随することを期待するようなものを試すのであれば、APIがリリースされたらOmniにテスト時間を投資すべきです。完全な比較は、ビデオモデル対決にあります。
実世界のユースケース
早期に予想されるいくつかのパターンです。
- 製品マーケティングチーム。単一の英語スクリプトと参照静止画から、ローカライズされた製品ウォークスルーを生成します。モデルとのチャットを通じてマーケティング担当者と反復作業を行います。
- 教育者。Omniに物理学の概念を実演してもらうことで説明します。ここでは推論のステップが重要です。視覚的にきれいだが物理的に誤っているのではなく、物理的に正しいデモを望むでしょう。
- カスタマーサクセス。顧客ごとにパーソナライズされたアバター駆動の短いオンボーディングビデオを生成します。Avatars機能がその鍵となります。
- ニュースとコンテンツの検証。モデレーションパイプラインにSynthID検出を組み込み、Omniによって生成された素材にフラグを立てます。これは信頼と安全性チームにとって特に関連性の高いものです。
- ゲームおよびアプリのプロトタイピング。3Dアーティストが関わる前に、映画のようなシーケンスをブロックアウトします。
ベストプラクティスと注意点
OmniのAPIリリースに備えるなら、いくつかの選択が実際の時間を節約するでしょう。
- モデル名をハードコードしないでください。環境変数でラップしてください。Geminiのモデル名はプレビュー版と一般提供版の間で変更されることがあります。
- まずモックを使用する。生成ビデオは、あなたのスタックで最も高価な呼び出しです。Apidogのモックを使用して、ライブエンドポイントに接続する前にUIを構築し、クライアントのエラーパスをテストしてください。
- 出力を積極的にキャッシュする。同じプロンプト+同じ参照入力はキャッシュにヒットするはずです。Omniの推論ステップはVeoよりもコストがかかるため、それを再支払いしたくはありません。
- コンテンツポリシーエラーに注意する。Googleの安全フィルターは、実在の人物、著作権で保護されたキャラクター、および多数の機密カテゴリを含む生成をブロックします。エラーページではなく、フォールバック付きのリトライロジックを構築してください。
- SynthID検証を計画する。Omniの出力を再公開する場合、ウォーターマークの出所をエンドユーザーに表示するかどうかを決定してください。コンプライアンスチームは問い合わせを始めています。
- レイテンシを考慮する。ビデオ生成は瞬時ではありません。6秒のクリップでもエンドツーエンドで30秒以上かかることがあります。呼び出しは非同期として扱い、メインスレッドをブロックしないでください。
避けるべき一般的な間違い:Omniがあなたの編集パイプラインを置き換えると期待しないでください。これは生成モデルであり、非線形エディターではありません。カット、カラー、オーディオミックスのために、DaVinci、Premiere、またはGoogle Flowでの最終的な処理が依然として必要です。
よくある質問
Gemini Omniとは何ですか?
Gemini Omniは、Geminiの推論とネイティブなマルチモーダル生成を組み合わせたGoogleの新しいモデルファミリーです。最初のバリアントであるGemini Omni Flashは、テキスト、画像、音声、ビデオを入力として受け入れ、ビデオを出力します。
Gemini OmniはVeo 3と同じですか?
違います。Veoは推論が限定的な専用のビデオ生成モデルです。Omniは、ビデオを生成する推論モデルであり、複雑なプロンプトを解釈し、複数ターンにわたる編集を行い、より豊富な入力タイプを受け入れることができます。実際の違いについては、Veo 3 APIガイドをご覧ください。
Gemini Omni APIはいつリリースされますか?
Googleは2026年5月の発表時点で「数週間以内」と述べています。開発者およびエンタープライズAPIは同時に展開されます。確定した日付はありません。
Gemini Omniの費用はいくらですか?
消費者向けには、YouTube ShortsとYouTube Createで無料で、Google AI Plus、Pro、Ultraのサブスクリプションにバンドルされています。APIの料金は発表されていません。Flashティアは通常、Googleの呼び出しごとの料金が最も低いレベルです。
Gemini Omniは音声を生成できますか?
まだです。リリース時点での出力はビデオのみです。音声出力と画像出力はロードマップにありますが、日付は未定です。
Gemini Omniにはウォーターマークがありますか?
はい。Omniが生成するすべてのビデオにはSynthIDウォーターマークが付いており、Geminiアプリ、ChromeのGemini、Google検索を通じて検証可能です。ウォーターマークは視聴者には見えませんが、Googleの検出器には読み取り可能です。
ApidogはGemini Omni APIをサポートしますか?
はい、Apidogが現在Gemini 3、Veo 3、Nano Bananaのエンドポイントをサポートしているのと同じ方法でサポートします。GoogleがOmniのOpenAPI仕様を公開した瞬間に、直接インポートできます。それまでは、スキーマをスケッチし、レスポンスをモックし、クライアントコードを準備しておきましょう。
Gemini Omniは物理学をどのように扱いますか?
このモデルは、物理的な直感を持つ人が予測するのと同じように結果を予測するように訓練されており、その予測と一貫するフレームを生成します。物理シミュレーションを実行しているわけではありませんが、純粋な生成モデルよりも頻繁に重力、流体力学、衝突の挙動を正確に処理します。
まとめ
Gemini Omniは、Googleが今四半期にリリースした中で最も興味深いモデルです。これは高速なVeo以上のものです。生成する前に推論し、あらゆる入力を受け入れ、複数ターンにわたる会話を通じて編集を行う異なるアーキテクチャです。現在の制限(ビデオ出力のみ、まだ公開APIがない)は数週間以内に解消されるでしょう。
ビデオモデルを構築している場合、今週行うべき5つのこと:
- Google AI StudioダッシュボードでOmni Flashエンドポイントを監視してください。
- 後でコードを変更せずにモデルを交換できるよう、今すぐApidogで認証と環境変数を設定してください。
- 予測されるOmniリクエストの形状をモックし、クライアント統合を検証してください。
- 推論ベースの生成がVeo 3.1に比べてどこでメリットをもたらすかを決定してください。
- 信頼と安全のパイプラインでSynthID検証を計画してください。
APIがリリースされたとき、準備作業を終えたチームは数時間以内に本番稼働できるでしょう。残りのチームはドキュメントを読むことになるでしょう。
