Gemma 4をAPIバックエンドとして実行する方法

TL;DR: Googleは2026年4月にGemma 4をリリースしました。これはApache 2.0ライセンスの下で提供される4つのオープンモデルファミリーで、標準的なベンチマークで20倍のサイズのモデルを凌駕します。Gemma 4 APIはGoogle AI Studio、Vertex AIを通じて呼び出すか、OllamaとvLLMを使用してローカルで実行できます。ApidogのSmart Mockと組み合わせれば、OpenAPIスキーマから単一のモックルールを記述することなく、リアルなAPIレスポンスを自動生成できます。

はじめに

ほとんどのオープンソースAIモデルは、生の能力かデプロイのしやすさのどちらかを選択させます。ラップトップで実行するには大きすぎるモデルか、多段階の推論を処理できない小さなモデルのどちらかです。Gemma 4はそのトレードオフを打ち破ります。

Gemma 4は、Google DeepMindがこれまでに開発した中で最も高性能なオープンモデルファミリーです。31B Denseモデルは、Arena AIのリーダーボードでオープンモデル全体の中で3位にランクされ、20倍のサイズの競合モデルを凌駕しています。26B Mixture of Experts（MoE）は6位を占めています。どちらも1つの80GB GPUで実行可能です。軽量なE2BおよびE4Bモデルは、スマートフォンやエッジデバイスで完全にオフラインで動作します。

API開発者にとって、これは見た目以上に重要です。Gemma 4は、関数呼び出し、構造化されたJSON出力、256Kのコンテキストウィンドウをネイティブにサポートしています。これにより、テストデータの生成からモックの作成、APIレスポンスの分析まで、AIを活用したAPIツールの構築に実用的な選択肢となります。

💡

Gemma 4を使って構築していて、AIが生成したレスポンスをOpenAPI仕様に対して検証する必要がある場合、ApidogのSmart Mockエンジンは、API定義からスキーマに準拠したモックレスポンスを自動生成できます。個々のモックルールを書く必要はありません。Smart Mockはスキーマを読み取り、状況に応じた適切なデータを即座に生成します。Apidogを無料でダウンロードし、Gemma 4 APIワークフローに接続してください。

ボタン

Gemma 4とは何か、そして新機能

Gemma 4はGoogle DeepMindのオープン言語モデルの第4世代です。「Gemma」という名前は、ラテン語で宝石を意味する言葉に由来しています。このシリーズは2024年初頭に始まり、リリース以来、Gemmaモデルは4億回以上ダウンロードされています。コミュニティは10万以上のバリアントを構築し、Googleが「Gemmaverse」と呼ぶものを形成しています。

Gemma 4は、以前の世代がカスタム使用ポリシーを使用していたのとは異なり、Apache 2.0ライセンスの下でリリースされます。これは、Gemma 4を商業目的で制限なく使用、変更、配布できることを意味します。これは、AIインフラストラクチャを完全に制御する必要がある企業やスタートアップにとって、重要な変化です。

Gemma 4の目玉の改善点は、Googleが「パラメーターあたりのインテリジェンス」と呼ぶものです。31B Denseモデルは、GPT-4やClaude 3 Sonnetのようなモデルの計算コストのほんの一部で、フロンティアレベルの機能を提供します。Arena AIのテキストリーダーボード（2026年4月時点）では、Gemma 4 31Bは600B+パラメーターを持つモデルを凌駕しています。

Gemma 3と比較した純粋な新機能は次のとおりです。

ネイティブなマルチモーダル入力。 4つのGemma 4モデルすべてが、画像と動画をネイティブに処理します。E2BおよびE4Bエッジモデルは、音声認識のためにネイティブなオーディオ入力を追加しています。これはGemma 3の基本機能には含まれていませんでした。

より長いコンテキストウィンドウ。 E2BおよびE4Bモデルは128Kトークンをサポートします。26Bおよび31Bモデルは256Kトークンまで拡張されます。これはプロンプト1つでコードリポジトリ全体を渡すのに十分な長さです。

エージェントワークフローのサポート。 Gemma 4には、ネイティブな関数呼び出し、構造化されたJSON出力モード、およびシステム命令が含まれています。これら3つの機能が揃うことで、外部APIを呼び出し、レスポンスを解析し、アクションを連鎖させるエージェントを構築することが実用的になります。

高度な推論。 31Bモデルは、Gemma 3と比較して、数学および多段階命令追従のベンチマークで大幅な改善を示しています。これは、モデルがエンドポイントとデータスキーマ間の関係を理解する必要があるAPIテスト生成にとって重要です。

140以上の言語をサポート。 Gemma 4は、英語から後付けされたものではなく、140以上の言語でネイティブにトレーニングされました。これにより、すぐにグローバルなAPI製品に利用できます。

Apache 2.0ライセンス。 前述のとおり、これにより商用利用における法的曖昧さが解消されます。モデル、データ、デプロイはすべてユーザーが所有します。

Gemma 4モデルのバリアントと機能

GoogleはGemma 4を4つのサイズでリリースしました。それぞれ特定のハードウェア層を対象としています。

モデル	パラメーター	アクティブなパラメーター (推論時)	コンテキスト	最適用途
E2B	実効2B	約2B	128K	モバイル、IoT、オフラインエッジ
E4B	実効4B	約4B	128K	スマートフォン、Raspberry Pi、Jetson Orin
26B MoE	合計26B	約3.8Bアクティブ	256K	レイテンシが重要なサーバータスク
31B Dense	31B	31B	256K	最高品質、研究、ファインチューニング

E2BおよびE4Bモデルは、Mixture of Expertsアーキテクチャを使用しており、トークンごとに全パラメーターのごく一部のみがアクティブになります。これにより、制約のあるデバイスでのバッテリー寿命とRAMが節約されます。GoogleはQualcommおよびMediaTekと共同でこれらを構築し、AICore Developer Previewを通じてAndroidで完全にオフラインで動作します。

26B MoEモデルは、合計26Bのパラメーターがあるにもかかわらず、推論時にはわずか3.8Bのパラメーターしかアクティブになりません。これは、品質をあまり犠牲にすることなく低レイテンシを実現したいサーバーサイドデプロイメントにとって最速の選択肢です。

31B Denseモデルは品質のリーダーです。ドメイン固有のタスクでのファインチューニングや、速度よりも出力品質が重要なあらゆるユースケースで選択されるでしょう。4つのバリアントすべてが、命令チューニング済み（IT）およびベース形式で出荷されます。

APIのユースケースでは、26B MoEが最高の速度/品質バランスを打ち出します。31B Denseは、複雑なAPIレスポンスの構造化JSON出力が必要な場合や、多段階ロジックを含むテストシナリオを生成する場合に最適な選択肢です。

すべてのモデルが関数呼び出しとJSON出力モードをサポートしており、これらはGemma 4でAPIツールを構築する際に最もよく使用する機能です。

Gemma 4 APIのセットアップ：ステップバイステップ

Gemma 4を呼び出すには、主に3つの方法があります。Google AI Studio（最速）、Vertex AI（エンタープライズ向け）、またはOllamaやvLLMによるローカルデプロイです。それぞれのセットアップ方法を以下に示します。

オプション1：Google AI Studio（プロトタイプ作成に推奨）

Google AI Studioにアクセスし、無料アカウントを作成します。そこからAPIキーを生成します。

Google Generative AI SDKをインストールします。

pip install google-genai

最初の呼び出しを行います。

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel("gemma-4-31b-it")

response = model.generate_content(
    "Generate a JSON object for a user account with id, email, and created_at fields."
)

print(response.text)

構造化されたJSON出力には、response_mime_typeパラメーターを使用します。

import google.generativeai as genai
import json

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel(
    "gemma-4-31b-it",
    generation_config={"response_mime_type": "application/json"}
)

prompt = """
Generate 3 sample user objects for an e-commerce API. 
Each user should have: id (integer), email (string), username (string), 
created_at (ISO 8601 timestamp), and subscription_tier (free|pro|enterprise).
Return as a JSON array.
"""

response = model.generate_content(prompt)
users = json.loads(response.text)
print(json.dumps(users, indent=2))

オプション2：Ollamaを使ったローカルデプロイ

Ollamaを使用すると、Gemma 4を完全に自分のマシンで実行できます。ollama.comからOllamaをインストールし、モデルをプルします。

ollama pull gemma4

モデルサーバーを実行します。

ollama serve

OpenAI互換のAPI形式で呼び出します。

import requests
import json

response = requests.post(
    "http://localhost:11434/api/chat",
    json={
        "model": "gemma4",
        "messages": [
            {
                "role": "user",
                "content": "Generate a valid JSON response for a REST API /products endpoint. Include id, name, price, and stock fields."
            }
        ],
        "stream": False
    }
)

result = response.json()
print(result["message"]["content"])

オプション3：APIオーケストレーションのための関数呼び出し

Gemma 4はネイティブな関数呼び出しをサポートしています。これにより、モデルが会話中に呼び出すことができるツールを定義できます。

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

# Gemmaが呼び出せるツールを定義する
tools = [
    {
        "function_declarations": [
            {
                "name": "get_api_schema",
                "description": "与えられたエンドポイントパスのOpenAPIスキーマを取得する",
                "parameters": {
                    "type": "object",
                    "properties": {
                        "endpoint_path": {
                            "type": "string",
                            "description": "APIエンドポイントパス、例: /users/{id}"
                        },
                        "method": {
                            "type": "string",
                            "enum": ["GET", "POST", "PUT", "DELETE", "PATCH"]
                        }
                    },
                    "required": ["endpoint_path", "method"]
                }
            }
        ]
    }
]

model = genai.GenerativeModel("gemma-4-31b-it", tools=tools)

response = model.generate_content(
    "GET /users/{id}エンドポイントをテストする必要があります。レスポンスはどのスキーマに従うべきですか？"
)

# モデルが関数を呼び出したいかどうかをチェックする
if response.candidates[0].content.parts[0].function_call:
    fc = response.candidates[0].content.parts[0].function_call
    print(f"Model called function: {fc.name}")
    print(f"With args: {dict(fc.args)}")

この関数呼び出しパターンが、Gemma 4がエージェント型APIテストパイプラインを構築するのに役立つ理由です。

Gemma 4を使ったAIパワードAPIモックの構築

API開発者にとってGemma 4の最も実用的な応用の一つは、モックデータの生成です。バックエンドが存在する前にフロントエンドを構築している場合や、本番環境でトリガーするのが難しいエッジケースをテストしている場合、リアルなモックレスポンスが必要です。

OpenAPIスキーマからモックデータを生成するためにGemma 4を使用する方法は次のとおりです。

import google.generativeai as genai
import json

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel(
    "gemma-4-31b-it",
    generation_config={"response_mime_type": "application/json"}
)

# レスポンスのOpenAPIスキーマ
schema = {
    "type": "object",
    "properties": {
        "id": {"type": "integer"},
        "order_number": {"type": "string", "pattern": "^ORD-[0-9]{6}$"},
        "status": {"type": "string", "enum": ["pending", "shipped", "delivered", "cancelled"]},
        "total": {"type": "number", "minimum": 0},
        "items": {
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "product_id": {"type": "integer"},
                    "quantity": {"type": "integer", "minimum": 1},
                    "unit_price": {"type": "number"}
                }
            }
        },
        "created_at": {"type": "string", "format": "date-time"}
    }
}

prompt = f"""
注文管理APIのリアルなモックレスポンスを5つ生成してください。
各レスポンスは以下のJSONスキーマに正確に準拠する必要があります。
{json.dumps(schema, indent=2)}

データはリアルにしてください：リアルな価格、製品ID、様々なステータスを使用してください。
5つの注文オブジェクトのJSON配列として返してください。
"""

response = model.generate_content(prompt)
mock_orders = json.loads(response.text)
print(json.dumps(mock_orders, indent=2))

ここでの鍵は、Gemma 4がJSONスキーマの制約を理解していることです。列挙値、文字列パターン、数値範囲を尊重します。ランダムな文字列ではなく、API契約に真に一致するモックデータが得られます。

このパターンを拡張して、あらゆるAPIエンドポイントのモックデータを生成できます。OpenAPI仕様からレスポンススキーマを入力すると、Gemma 4はスキーマ準拠のテストデータを生成します。

より高度なモックには、Gemma 4と条件付きレスポンスロジックを組み合わせます。リクエストに特定のユーザーIDが含まれている場合、エラーレスポンスを返します。それ以外の場合は成功データを返します。Gemma 4の256Kコンテキストウィンドウが役立つのはここです。プロンプトにOpenAPI仕様全体を含め、複数のエンドポイントのモックレスポンスを一度に生成するように求めることができます。

実用的なワークフローの例：ApidogコレクションをOpenAPI仕様としてエクスポートし、それをプロンプトに貼り付け、Gemma 4にエンドポイントごとに10個のリアルなテストケースを生成するように依頼します。数時間ではなく数秒で完全なモックデータセットが得られます。

Apidogを使ったGemma 4 APIレスポンスのテスト

Gemma 4がデータを生成したり、APIパイプラインの一部として機能するようになったら、そのレスポンスがスキーマに一致するかどうかを検証する必要があります。Apidogのテストシナリオ機能が役立つのはこの点です。

具体的なワークフローは次のとおりです。

ステップ1：Gemma 4 APIエンドポイントをApidogにインポートする。

Apidogでプロジェクトに移動し、新しいエンドポイントを作成します。URLをGemma 4の周りに構築したラッパーAPI（またはGoogle AI Studioエンドポイントに直接）に設定します。Apidogインターフェースで予期されるレスポンススキーマを定義します。

ステップ2：Smart Mockを使って予期されるレスポンスをプロトタイプ化する。

Gemma 4に対してライブテストを実行する前に、ApidogのSmart Mockを使用してスキーマからベースラインレスポンスを生成します。Smart Mockはレスポンス仕様を読み取り、プロパティ名と型に基づいてリアルなデータを生成します。「email」という名前のフィールドは自動的に有効なメールアドレスを取得します。「created_at」という名前のフィールドは適切にフォーマットされたタイムスタンプを取得します。

Smart Mockは3つの優先度層を使用します。まずカスタムモックフィールド値、次にプロパティ名の一致（フィールド名からデータ型を推測）、次にJSONスキーマのデフォルトです。この階層により、特定のフィールドをオーバーライドしつつ、エンジンに残りを処理させることができます。

ステップ3：Gemma 4パイプラインのテストシナリオを作成する。

Apidogの「テスト」モジュールに移動し、新しいテストシナリオを作成します。Gemma 4 API呼び出しを最初のステップとして追加します。次に、レスポンスを検証するためのアサーションステップを追加します。

Apidogのテストシナリオのオーケストレーションモードでは、複数のリクエストを連鎖させることができます。Gemma 4 API統合テストの場合、シナリオは次のようになるかもしれません。

認証エンドポイントを呼び出してトークンを取得する
認証トークンを付けてGemma 4にプロンプトを送信する
レスポンスボディから生成されたJSONを抽出する
抽出されたJSONをスキーマアサーションに対して検証する
検証されたデータをダウンストリームのPOSTエンドポイントに渡す

ステップ4：アサーションを設定する。

アサーションステップでは、ステータスコード、レスポンスヘッダー、JSONフィールドをチェックできます。Gemma 4レスポンスの場合、通常はcandidates[0].content.parts[0].textフィールドが存在すること、およびその解析されたコンテンツが予期されるスキーマと一致することをアサートします。

Apidogの「変数抽出プロセッサ」を使用して、Gemma 4の出力を変数に格納します。その後、その変数を後続のリクエストステップで使用します。これにより、Gemma 4が生成したデータを多段階テストワークフローで連鎖させることができます。

ステップ5：データ駆動テストで実行する。

ApidogはCSVおよびJSONテストデータファイルをサポートしています。CSVに50種類のプロンプトバリエーションを定義し、それをテストシナリオにインポートして、ワンクリックで50種類すべてを実行できます。これは、Gemma 4の統合が多様な入力を正しく処理することを確認する方法です。

スキーマ定義からテスト実行までの完全なワークフローは、設定に約15分かかります。その後、CI/CDパイプラインでApidog CLIを介してコミットごとに実行できます。

実世界でのユースケース

APIテストデータ生成。 QAチームはテストフィクスチャの作成に多大な時間を費やします。Gemma 4のJSON出力モードとOpenAPIスキーマを使用すれば、数分で数百ものリアルなテストレコードを生成できます。スキーマを入力し、カバーしたいエッジケースを指定するだけで、モデルがデータを生成します。

インテリジェントなAPIモック。 従来のモックは静的データを返します。Gemma 4をモックサーバーの背後に配置すれば、文脈に応じたレスポンスを返すことができます。商品検索APIのモックは、検索クエリに基づいて異なる商品セットを返すことができ、各ケースをハードコーディングする必要はありません。

APIドキュメント生成。 Gemma 4の256Kコンテキストウィンドウを使用すると、コードベース全体をプロンプトにフィードできます。ドキュメント化されていないエンドポイントのOpenAPIドキュメントを生成するように依頼します。関数呼び出しサポートにより、ルートファイルを読み取り、自動的にAPI仕様を作成するエージェントを構築できます。

レスポンススキーマ検証。 サードパーティAPIを使用する場合、レスポンスが期待と一致することを検証したいものです。Gemma 4を使用してAPIレスポンスを分析し、スキーマ違反をフラグ付けします。単純なJSONスキーマバリデーターよりも、欠落しているフィールド、不正な型、一貫性のない列挙型をより良く特定できます。

自動回帰テスト作成。 Gemma 4にAPI仕様とバグレポートのリストを与えます。各バグを検出するテストケースを作成するように依頼します。スキーマの関係を理解しているため、状態遷移やフィールドの依存関係をチェックする非自明なテストを作成できます。

API利用におけるGemma 4と他のオープンモデルの比較

APIツールを構築することを目的とした場合、Gemma 4は他のオープンモデルとどのように比較されるでしょうか？

モデル	パラメーター	コンテキスト	JSON出力	関数呼び出し	ライセンス
Gemma 4 31B	31B	256K	ネイティブ	ネイティブ	Apache 2.0
Gemma 4 26B MoE	26B (3.8Bアクティブ)	256K	ネイティブ	ネイティブ	Apache 2.0
Llama 3.3 70B	70B	128K	プロンプト経由	プロンプト経由	Llama Community
Mistral 7B	7B	32K	プロンプト経由	限定的	Apache 2.0
Qwen 2.5 72B	72B	128K	ネイティブ	ネイティブ	Apache 2.0

APIのユースケースでは、ネイティブなJSON出力モード、関数呼び出しサポート、コンテキスト長が重要な機能です。Gemma 4 31Bと26Bは両方ともこれらの3つすべてを備えています。

Llama 3.3 70Bは主要な競合です。強力なモデルですが、実行にはGemma 4 31Bの2倍の計算能力が必要です。Arena AIのリーダーボードでは、Gemma 4 31BはLlama 3.3 70Bの半分のサイズにもかかわらず、その上位にランクされています。大規模に推論を実行する場合、GPU要件のこの違いは直接インフラコストに影響します。

Mistral 7Bははるかに小さく高速ですが、32Kのコンテキストウィンドウは大規模なAPI仕様への有用性を制限します。また、ネイティブなJSONモードと信頼性の高い関数呼び出しも欠いています。

Qwen 2.5 72Bは、特に多言語アプリケーションにおいて有能な代替手段です。APIツール機能はGemma 4に匹敵しますが、より多くのハードウェアを必要とします。

Gemma 4のApache 2.0ライセンスは、過小評価されている利点です。LlamaはLlama Community Licenseを使用しており、特定の商用利用に制限があります。オープンモデルの上に製品を構築する場合、Apache 2.0の法的明確さは重要です。

ほとんどのAPIツールユースケースでは、レイテンシが重要なタスクにはGemma 4 26B MoEから、最高品質の出力にはGemma 4 31Bから始めるのが良いでしょう。

結論

Gemma 4は、APIツールを構築するために、プロプライエタリなAI APIに代わる信頼できるオープンな選択肢を開発者に提供します。Apache 2.0ライセンスは、以前のオープンモデルの商用利用を複雑にしていた法的摩擦を取り除きます。ネイティブな関数呼び出しとJSON出力モードにより、広範なプロンプトエンジニアリングなしでAPIワークフローに統合することが実用的になります。

4つのモデルサイズは、スマートフォンからワークステーションまで、あらゆるハードウェア層をカバーしています。26B MoEモデルは、ほとんどのAPI開発ユースケースにおいて際立った選択肢です。フロンティアに近い品質を、わずかな推論コストで提供します。

Gemma 4をApidogと組み合わせることで、AIが生成したデータとAPI検証の間のループを閉じることができます。Gemma 4を使ってテストデータとモックレスポンスを生成します。ApidogのSmart Mockを使ってスキーマをプロトタイプ化し、そのテストシナリオを使ってAI出力がAPI契約を満たしていることを検証します。これらを組み合わせることで、AIを活用したAPIの構築とテストのための実用的なワークフローが形成されます。

ボタン

よくある質問

Gemma 4とは何ですか？Gemma 4は、Google DeepMindが2026年4月にリリースした最新のオープン言語モデルファミリーです。4つのサイズ（E2B、E4B、26B MoE、31B Dense）があり、Apache 2.0ライセンスの下で提供されます。31Bモデルは現在、Arena AIのテキストリーダーボードでオープンモデル全体の中で3位にランクされています。

Gemma 4は無料で使えますか？モデルの重みはApache 2.0ライセンスの下で自由にダウンロードして使用できます。ご自身で実行する場合は、計算リソースに対して料金が発生します。Google AI Studioを使用する場合、レート制限のある無料枠があります。Vertex AIは標準のGoogle Cloud計算料金を請求します。

Gemma 4は構造化されたJSONを出力できますか？はい。Gemma 4は、Google Generative AI SDKを介して、ネイティブなresponse_mime_type: "application/json"パラメーターをサポートしています。これにより、モデルは常に有効なJSONを返すことが強制され、プログラムで出力を解析するAPI統合にとって不可欠です。

Gemma 4はAPI開発においてGPT-4oと比較してどうですか？GPT-4oはプロプライエタリなモデルであり、ローカルデプロイのオプションがなく、APIコストも高くなります。Gemma 4 31Bは無料でローカルにデプロイでき、そのベンチマークスコアは推論タスクにおいてGPT-4oと競合しています。データプライバシーやコスト管理を必要とするチームにとって、Gemma 4は真剣に検討する価値があります。

自分のAPIデータでGemma 4をファインチューニングできますか？はい。Google AI Studio、Vertex AI、およびHugging Face TRLのようなサードパーティツールを通じてGemma 4のファインチューニングがサポートされています。ドメイン固有のAPIスキーマとレスポンスパターンでファインチューニングすることで、特殊なユースケースにおける出力品質を大幅に向上させることができます。

Gemma 4をローカルで実行するにはどのようなハードウェアが必要ですか？31Bおよび26Bモデルは、bfloat16で単一の80GB NVIDIA H100に収まります。量子化バージョンは、16～24GBのVRAMを持つコンシューマーGPUで実行できます。E4BおよびE2Bモデルは、Raspberry PiやNVIDIA Jetsonを含むスマートフォンやエッジデバイスで実行できます。

Gemma 4は関数呼び出しをサポートしていますか？はい、すべてのGemma 4モデルはネイティブな関数呼び出しをサポートしています。名前、説明、パラメーターのスキーマを含むJSONオブジェクトとしてツールを定義します。モデルはツールを呼び出すタイミングを決定し、コードで操作できる構造化された引数を渡します。

Gemma 4 APIレスポンスを自動的にテストするにはどうすればよいですか？Apidogのテストシナリオを使用して、連鎖的なテストワークフローを構築します。Gemma 4 APIエンドポイントをインポートし、リクエストステップを設定し、アサーションを追加してレスポンス構造を検証します。シナリオはローカルで、CLIを介して、またはCI/CDパイプラインでコードプッシュごとに自動的に実行できます。