Gemma 4 12BはオープンウェイトでApache 2.0ライセンスなので、「無料」とは本当に無料であることを意味します。API料金もサブスクリプションもありません。モデルをダウンロードして自分のマシンで実行するか、ブラウザのタブで試すことができます。唯一の費用は、すでに所有しているハードウェアだけです。
まず知っておくべきこととして、12Bはローカルおよびオンデバイスでの使用向けに構築されています。より大型の31Bと26Bは、GoogleがAI Studioで無料チャット用にホストしているものです。12Bの最大の売りは、16GBのノートPCで動作することであり、以下の無料の方法は、それを迅速にハードウェアに導入する方法についてです。このモデルが初めてですか?仕様についてはGemma 4 12Bとはから始めてください。

60秒のブラウザデモから、構築可能な完全なローカルAPIまで、6つの実用的な方法を紹介します。
クイックサマリー
| 方法 | 得られるもの | 最適な用途 |
|---|---|---|
| Hugging Face Space | ブラウザチャット、インストール不要 | 1分で試す |
| Ollama | ローカルモデル + OpenAI互換API | 開発者向け、ワンコマンド |
| LM Studio | GUI付きローカルデスクトップアプリ | ターミナル不要 |
| llama.cpp | 軽量ローカルAPIサーバー | 上級者向け、低オーバーヘッドセットアップ |
| HF Transformers | Python、完全な制御、無料のColab GPU | ノートブックとファインチューニング |
| Google AI Edge | オンデバイス、モバイル | スマートフォンおよびエッジハードウェア |
方法1: ブラウザで試す(インストール不要)
Gemma 4 12Bを試す最も速い方法は、Hugging Faceの公式デモスペースです。ダウンロード、アカウント作成、GPUは不要です。

- Gemma 4 12Bデモスペースを開く
- プロンプトを入力するか、画像またはオーディオクリップをアップロードします
- 応答を読みます
これは手軽に確認するための最適な方法です。このSpaceは画像や音声の入力に対応しているため、マルチモーダル機能もテストできます。何か本格的なものを構築する準備ができたら、以下のローカル方法のいずれかに移行してください。
方法2: Ollama(開発者向けデフォルト)
Ollamaは、Gemma 4 12Bをローカルで実行し、動作するAPIを取得する最も簡単な方法です。一度インストールし、一度プルすれば完了です。

Ollamaのインストール
macOSまたはLinuxの場合:
curl -fsSL https://ollama.com/install.sh | sh
Windowsの場合、ollama.comからインストーラーをダウンロードして実行します。
モデルをプルして実行する
ollama pull gemma4:12b
ollama run gemma4:12b
最初のコマンドはモデルをダウンロードします(デフォルトでは4ビットQ4_K_Mビルド、約8GB)。2番目のコマンドはインタラクティブチャットを開始します。/byeと入力して終了します。
ローカルAPIを使用する
これは開発者が関心を持つ部分です。Ollamaはhttp://localhost:11434でOpenAI互換のREST APIを提供します。キー、クラウド、レート制限は不要です。
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:12b",
"messages": [
{"role": "user", "content": "Explain how transformers work in two sentences."}
]
}'
このエンドポイントはOpenAI形式と一致するため、OpenAIに対応する任意のSDKやツールは、ベースURLをlocalhost:11434/v1に向けることで機能します。これにはエディタ、エージェントフレームワーク、APIクライアントが含まれます。IDEの設定パターンについては、私たちのCursorでのDeepSeek V4ウォークスルーのアプローチと同じです。モデル文字列をgemma4:12bに置き換えてください。
便利なコマンド:
ollama list: ダウンロード済みのモデルを表示ollama ps: 実行中のモデルを表示ollama show gemma4:12b: モデルの詳細を表示
方法3: LM Studio(ターミナル不要)
コマンドラインに触れたくない場合は、Windows、macOS、Linux用のデスクトップアプリであるLM Studioがあります。
- LM Studioをダウンロードしてインストールします
- モデルカタログでGemma 4 12Bを検索します
- RAMに合った量子化を選択してダウンロードします
- チャットタブを開いてプロンプトを入力し始めます
LM Studioは、通常ポート1234でOpenAI互換のエンドポイントを持つローカルサーバーも実行するため、コードを書かずにAPIを利用できます。これは、デザイナー、ライター、そして設定ファイルよりもチャットウィンドウを好むすべての人にとって最も使いやすい方法です。
方法4: llama.cpp(軽量で高速)
llama.cppは、GGUFモデルを少ないオーバーヘッドで実行し、独自のOpenAI互換サーバーを提供します。
インストール:
# macOS
brew install llama.cpp
# Windows
winget install llama.cpp
次に、公式のGGUFビルドを指すサーバーを起動します。正確な12Bリポジトリ名については、Hugging Faceのggml-org/gemma-4コレクションを参照し、それをllama-serverに渡します。
llama-server -hf ggml-org/gemma-4-12B-it-GGUF
これにより、http://localhost:8080/v1でOpenAI互換APIが公開されます。この方法は、最小限の依存関係を望む場合や、控えめなハードウェアで実行する場合に最適です。また、他のいくつかのツールの基盤となるエンジンでもあるため、学習する価値はあります。
方法5: Hugging Face Transformers(完全な制御)
ノートブック、スクリプト、またはファインチューニングには、PythonでTransformersを使ってモデルを実行します。ローカルGPUがない場合は、無料のGoogle ColabノートブックでGPUを利用できます。
ライブラリをインストールします:
pip install transformers torch accelerate torchvision
# add librosa for audio and video input
pip install librosa
次に、指示に基づいてファインチューニングされたモデルをロードして生成します:
from transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Write a short joke about saving RAM."},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=False,
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
print(processor.parse_response(response))
ステップバイステップの推論モードを有効にするには、enable_thinking=Trueを設定します。画像またはオーディオファイルを供給するには、テキストの前に{"type": "image", ...}、その後に{"type": "audio", ...}を含むコンテンツリストを追加します。Kaggleにもウェイトが公開されています。完全なコードパターンは開発者ガイドにあります。
方法6: Google AI Edge(オンデバイスおよびモバイル)
スマートフォンやエッジデバイスでGemma 4 12Bを実行するには、GoogleがAI Edgeスタックを提供しています。Google AI Edge GalleryアプリとLiteRT-LM CLIの両方が、12Bをオンデバイスで実行します。
LiteRT-LMを使用したローカルサーバーの場合:
litert-lm import \
--from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve
これは、データがデバイスから離れることのないオフラインモバイルアシスタントや組み込みアプリケーション向けのパスです。
ApidogでローカルGemma 4 12B APIをテストする
Ollamaまたはllama.cppを介してGemma 4 12Bが実行されると、マシン上に実際のHTTP APIが構築されます。それをアプリケーションに組み込む前に、適切なAPIクライアントで試してみて、正確なリクエストとレスポンスの形式を把握すると役立ちます。Apidogはそのために作られています。

以下にクリーンなセットアップを示します:
- Apidogをダウンロードし、新しいHTTPプロジェクトを作成します
http://localhost:11434/v1/chat/completionsへのPOSTリクエストを追加します- ボディをJSONに設定し、サンプルペイロードを貼り付けます:
{
"model": "gemma4:12b",
"messages": [
{"role": "user", "content": "Return a JSON object with two fields: city and country."}
],
"stream": false
}
- ベースURLを環境変数として保存し、ワンクリックでOllama(
:11434)とllama.cpp(:8080)を切り替えられるようにします - モデルが
contentフィールドに有効なJSONを返すことを確認するための応答アサーションを追加します "stream": trueに切り替え、Apidogがストリーミングされたトークンをレンダリングするのを確認します。これにより、UIを構築する前にストリーミングが機能することを確認できます
そのメリットは、誤ったプロンプトやフィールド名を、アプリケーションコードの深層ではなく、Apidogで捕捉できることです。クライアントを比較している場合は、無料のオンラインAPIテストツールと最適なPostman代替品のまとめをご覧ください。同じテストフローは、あらゆるOpenAI互換エンドポイントで機能するため、その習慣はPostmanでAPIをテストする方法のようなワークフローに直接引き継がれます。
どの量子化を選択すべきか?
Gemma 4 12Bは、どれだけアグレッシブに圧縮されているかによって、異なるマシンに適合します:
| ビルド | 必要なメモリ | トレードオフ |
|---|---|---|
| フル精度 | 約16GB | 最高の品質 |
| 8ビット | 約14GB | ほぼフル品質 |
| 4ビット (Q4_K_M) | 約8GB | わずかな品質低下、幅広い環境で動作 |
Ollamaはデフォルトで4ビットビルドを使用します。そのため、8GB GPUまたは16GB MacBookで動作します。余裕がある場合は、数ギガバイト余分に使うことで8ビットビルドで品質を向上させることができます。
どの無料方法を選択すべきか?
簡単な意思決定ツリー:
- ただ興味があるだけですか? Hugging Face Spaceのデモ
- ソフトウェアを構築していますか? ワンコマンドのローカルAPIにOllama
- ターミナルは不要ですか? LM Studio
- 最小限のハードウェアまたは依存関係? llama.cpp
- ノートブックまたはファインチューニング? 無料のColab GPUを利用したTransformers
- スマートフォンまたはエッジデバイス? Google AI Edge
ほとんどの開発者は日常使いにはOllamaを、より重い作業にはTransformersを保持しています。
無料のローカルGemmaを最大限に活用するためのヒント
- 量子化をRAMに合わせる。 ディスクにスワップするモデルは動作が遅くなります。4ビットビルドが安全なデフォルトです。
- 難しい問題には思考モードを使用する。 数学や多段階推論には
enable_thinking=Trueを設定し、迅速なチャットでは時間を節約するためにオフにします。 - プロンプトを256Kウィンドウ内に保つ。 大きいですが、長いトランスクリプトやコードベースは合計すると大きくなります。
- 最初にApidogでリクエストを検証する。 アプリが依存する前にJSONの形式を確認します。
- 他の無料モデルと比較する。 同じローカルパターンは、Qwen 3.7、MiniMax M3、およびClaude Opus 4.8のアクセスパスでも機能します。
よくある質問
Gemma 4 12Bは本当に無料ですか? はい。Apache 2.0オープンウェイトで、商用利用を含め無料でダウンロードして実行できます。費用が発生するのは、実行するハードウェアまたはクラウドに対してのみです。
GPUは必要ですか? いいえ、必須ではありませんが、あった方が良いです。4ビットビルドは8GBのGPUまたは16GBのユニファイドメモリMacで動作します。CPUのみでも動作しますが、速度は遅くなります。
Google AI StudioでGemma 4 12Bを使用できますか? 現在はできません。AI Studioは、無料のブラウザチャット用に31Bおよび26Bモデルをホストしています。12Bはローカルおよびオンデバイスでの使用向けに構築されているため、上記の方法でご自身で実行する必要があります。
ローカルAPIにはAPIキーが必要ですか? いいえ。Ollamaとllama.cppはキーなしでlocalhostにモデルを提供します。ツールがキーフィールドを要求する場合は、任意のプレースホルダー文字列を入力してください。ローカルサーバーはそれを無視します。
既存のOpenAIコードから呼び出すことはできますか? はい。Ollamaとllama.cppの両方がOpenAI互換のエンドポイントを公開しています。ベースURLをhttp://localhost:11434/v1(Ollama)またはhttp://localhost:8080/v1(llama.cpp)に指定すれば、コードを変更せずに使用できます。
画像および音声機能はどのように実行しますか? マルチモーダル入力をサポートするTransformers、LM Studio、またはAI Edgeアプリを使用します。テキストプロンプトの前に画像コンテンツを、その後に音声コンテンツを追加します。
Ollamaとllama.cpp、どちらが速いですか? 両者とも同じ基盤エンジンを使用しています。llama.cppはオーバーヘッドが少なく、より多くのチューニングフラグがありますが、Ollamaはセットアップが簡単です。ほとんどの人にとってその差は小さいでしょう。
