GoogleのGemini Embedding 2は、テキスト、画像、動画、音声、ドキュメントを単一の埋め込み空間で処理し、マルチモーダルAIアプリケーションの構築を容易にします。2026年3月にリリースされたこれは、Google初の、個別のパイプラインなしで複数のコンテンツタイプをネイティブに処理する埋め込みモデルです。
セマンティック検索、RAGシステム、または異なるメディアタイプを扱うAPIのテストを構築している場合、このモデルはアーキテクチャを簡素化し、精度を向上させます。
Gemini Embedding 2は何が違うのか?
ほとんどの埋め込みモデルは、1種類のコンテンツを処理します。テキスト埋め込みはテキストを扱い、画像埋め込みは画像を扱います。お分かりいただけたかと思います。

Gemini Embedding 2はそのパターンを打ち破ります。これらすべてのコンテンツタイプを単一の埋め込み空間にマッピングします。
- テキスト(最大8,192トークン)
- 画像(1リクエストあたり最大6枚)
- 動画(最大128秒)
- 音声(最大80秒)
- PDFドキュメント(最大6ページ)
これにより、単一のクエリで異なるメディアタイプを横断して検索できます。テキストで質問し、関連する動画、画像、またはドキュメントを検索できます。これがマルチモーダル埋め込みの力です。
知っておくべき主要な機能
1. インターリーブされたマルチモーダル入力
単一のリクエストでコンテンツタイプを混在させることができます。画像とテキスト、または動画と音声を送信できます。モデルはそれらがどのように関連しているかを理解します。
これは、データが本質的にマルチモーダルである場合に重要です。製品には画像、説明、動画デモがあるかもしれません。Gemini Embedding 2は、これらすべての関係を1つの埋め込みに捉えます。
2. マトリョーシカ表現学習 (MRL)
ここが賢い点です。モデルはデフォルトで3,072次元の埋め込みを出力しますが、精度をほとんど損なうことなく、より小さなサイズに切り詰めることができます。
ロシアの入れ子人形(マトリョーシカ)のように考えてください(そのためこの名前が付けられました)。重要な情報が入れ子になっているため、768次元のバージョンでも、ストレージを75%削減しながら、ほぼ最高の品質を維持します。
本番システムでは、768次元が品質と効率の間のスイートスポットとなります。
3. カスタムタスク指示
モデルに何をしようとしているかを伝えることができます。次のようなタスク指示を使用します。
RETRIEVAL_QUERY- 検索クエリ用RETRIEVAL_DOCUMENT- インデックス作成するドキュメント用SEMANTIC_SIMILARITY- コンテンツ比較用CLASSIFICATION- 分類タスク用
モデルはユースケースに基づいて埋め込みを調整し、特定のタスクに対してより良い結果を提供します。
4. ネイティブ音声処理
音声をまずテキストに転写する他のモデルとは異なり、Gemini Embedding 2は音声を直接処理します。これにより、転写で失われがちなトーン、感情、文脈などのニュアンスが保持されます。
技術仕様
テキスト:
- 1リクエストあたり8,192トークン
- 100以上の言語をサポート
- コードと長文ドキュメントを処理
画像:
- 1リクエストあたり最大6枚の画像
- PNGおよびJPEG形式
動画:
- 1リクエストあたり最大128秒
- MP4、MOV形式
- H264, H265, AV1, VP9コーデック
音声:
- 1リクエストあたり最大80秒
- MP3、WAV形式
- 転写不要
PDFドキュメント:
- 1リクエストあたり最大6ページ
- テキストコンテンツとビジュアルコンテンツの両方を処理
- 内蔵OCR
実際のユースケース
メディアタイプを横断するセマンティック検索
形式に関係なく関連コンテンツを見つける検索エンジンを構築します。ユーザーが「水漏れする蛇口の修理方法」を検索すると、次のような結果が得られます。
- チュートリアル動画
- ステップバイステップ記事
- 図解画像
- 音声指示
すべて関連性でランク付けされ、すべて単一のクエリからのものです。
マルチモーダルコンテキストを持つRAGシステム
複数のソースからLLMにコンテキストを提供します。製品に関する質問に答える際、次のような情報を利用できます。
- 製品説明(テキスト)
- ユーザーマニュアルページ(PDF)
- デモ動画
- 顧客レビュー音声
埋め込みは、すべての形式にわたって最も関連性の高い部分を見つけるのに役立ちます。
セマンティック類似性によるAPIテスト
Apidogでは、Gemini埋め込みを使用してAPI応答をセマンティックにテストできます。厳密な文字列一致ではなく、応答の埋め込みを期待される出力と比較します。これにより、言葉遣いは変わっても意味は同じであるケースを検出でき、LLMを搭載したAPIや自然言語応答のテストに役立ちます。

APIドキュメントにセマンティック検索を組み込むこともできます。これにより、開発者は正確なパラメーター名を知らなくても、何をしたいかを記述することで関連するエンドポイントを見つけることができます。
コンテンツのクラスタリングと整理
形式が異なっていても、類似するコンテンツをまとめてグループ化します。製品の写真、説明、動画は、製品カテゴリ別に自動的にクラスター化されます。
チャネルを横断する感情分析
顧客からのフィードバックを分析します。
- テキストレビュー
- 動画による推薦
- 音声サポートコール
- ソーシャルメディア画像
すべてのチャネルにわたる感情の統一されたビューを取得します。
パフォーマンスとベンチマーク
Googleは、Gemini Embedding 2がテキスト、画像、動画タスクにおいて主要なモデルを上回る性能を発揮すると主張しています。これは、以前の埋め込みモデルでは利用できなかった強力な音声機能を導入しています。
このモデルは、マルチモーダルな深さの新しい標準を確立し、単一モダリティモデルよりも異なるコンテンツタイプ間の複雑な関係をより良く処理します。
料金
テキスト埋め込みの料金は100万トークンあたり0.20ドルです。リアルタイム応答が必要ない場合、バッチAPIは50%オフを提供します。
画像、音声、動画は、標準のGemini APIメディアトークン料金に従います。
ほとんどのアプリケーションにとって、コストは妥当です。数千のドキュメントを処理する典型的なRAGシステムでは、コーパス全体を埋め込むのに数ドルかかるかもしれません。
Gemini Embedding 2 vs 競合他社
Gemini Embedding 2が他の人気のある埋め込みモデルとどのように比較されるかを示します。
| 機能 | Gemini Embedding 2 | OpenAI text-embedding-3 | Cohere Embed v3 |
|---|---|---|---|
| モダリティ | テキスト、画像、動画、音声、PDF | テキストのみ | テキストのみ |
| 最大入力 | 8,192トークン(テキスト) | 8,191トークン | 512トークン |
| 次元 | 128-3,072(柔軟) | 256-3,072 | 1,024 |
| 言語 | 100以上 | 100以上 | 100以上 |
| タスク指示 | あり | なし | あり |
| 料金 | $0.20/Mトークン | $0.13/Mトークン | $0.10/Mトークン |
| 最適用途 | マルチモーダルアプリ | テキストのみのアプリ | テキスト分類 |
主な差別化要因はマルチモーダルサポートです。テキスト埋め込みのみが必要な場合は、OpenAIまたはCohereの方が安価かもしれません。しかし、画像、動画、または音声を扱っている場合、Gemini Embedding 2はすべてを1つの埋め込み空間で処理できる唯一の選択肢です。
統合と利用可能性
Gemini Embedding 2は、`gemini-embedding-2-preview`として以下の方法でパブリックプレビューで利用可能です。
- Gemini API
- Vertex AI
- LangChain
- LlamaIndex
- Haystack
- Weaviate
- QDrant
- ChromaDB
- Vector Search
主要なほとんどのベクトルデータベースとAIフレームワークがすでにそれをサポートしています。パブリックプレビューの状態は、一般提供前にAPIが変更される可能性があることを意味するため、本番システムでの潜在的な更新に備えて計画してください。
重要な移行に関する注意
古い`gemini-embedding-001`モデルを使用している場合、埋め込み空間には互換性がないことに注意してください。同じベクトルデータベース内で古い埋め込みと新しい埋め込みを混在させることはできません。
アップグレードは、データセット全体を再埋め込みすることを意味します。既存のベクトルを保持する移行パスはありません。切り替えを検討している場合は、この点について計画を立ててください。
出力次元: 何を選択すべきか
このモデルは128次元から3,072次元までをサポートしています。Googleが推奨するのは以下の通りです。
- 3,072次元: 最高品質、最大ストレージ
- 1,536次元: 品質とサイズのバランス
- 768次元: 本番環境の最適点(ほぼ最高品質、ストレージ75%削減)
ほとんどのアプリケーションでは、768次元が非常にうまく機能します。管理しやすいストレージコストで優れた品質を得られます。
Gemini Embedding 2を使用するタイミング
このモデルを使用するのは次の場合です。
- マルチモーダルデータ(テキスト、画像、動画、音声)がある場合
- 異なるコンテンツタイプを横断するセマンティック検索が必要な場合
- 多様なソースを持つRAGシステムを構築している場合
- 複合メディアコンテンツをクラスター化または分類したい場合
- モダリティ間の関係を理解する埋め込みが必要な場合
テキストのみのモデルを使用するのは次の場合です。
- テキストのみを扱う場合
- テキストのみで最高のパフォーマンスが必要な場合
- 再生成できない既存の埋め込みがある場合
開発者にとっての意味
Gemini Embedding 2は、マルチモーダルAIアプリケーションを簡素化します。以前は、コンテンツタイプごとに個別の埋め込みモデルが必要で、それらを結合する方法を考える必要がありました。今では、すべてを処理する1つのモデルで済みます。
これにより、コードベースの複雑さが軽減されます。1つのAPIコール、1つの埋め込み空間、1つのベクトルデータベース。検索および取得ロジックはシンプルに保たれます。
マトリョーシカのアプローチにより、特定のニーズに合わせて最適化できます。開発中は完全な3,072次元から始め、本番環境ではコスト削減のために768次元に落とすことができます。
カスタムタスク指示により、トレーニングなしでファインチューニングが可能です。モデルに何をしているかを伝えるだけで、モデルが調整します。
始めるにあたって
Gemini Embedding 2を使用するには:
- Google AI StudioからGemini APIキーを取得する
- Google Generative AI SDKをインストールする
- コンテンツで埋め込みエンドポイントを呼び出す
- 埋め込みをベクトルデータベースに保存する
- 検索、RAG、または分類にそれらを使用する
APIはシンプルです。コンテンツを送信し、タスクタイプや次元などのオプションパラメータを指定すると、埋め込みが返されます。
結論
Gemini Embedding 2は、マルチモーダルAIの課題に対するGoogleの答えです。テキスト、画像、動画、音声、ドキュメントを1つの統合された埋め込み空間で処理します。
マトリョーシカのアプローチは、次元に関する柔軟性を提供します。カスタムタスク指示は、特定のユースケースの精度を向上させます。ネイティブの音声処理は、他のモデルが見逃すニュアンスを保持します。
複数のコンテンツタイプを扱うアプリケーションを構築しているなら、このモデルはテストする価値があります。パブリックプレビューは、Gemini APIとVertex AIを通じて現在利用可能です。
セマンティック検索、RAGシステム、またはコンテンツ理解に取り組む開発者にとって、Gemini Embedding 2はマルチモーダルAIへのよりシンプルな道を提供します。また、ApidogでAPIをテストしている場合、これらの埋め込みを使用して応答のセマンティックな類似性を検証できます。これは特にLLMを搭載したエンドポイントに役立ちます。
