Googleは2026年6月3日にGemma 4 12Bをリリースしました。これはテキスト、画像、音声、ビデオを読み取ることができる119.5億のパラメータを持つオープンウェイトモデルで、16GBのメモリを搭載したノートパソコンで動作します。主要な特徴は、ネイティブな音声入力を備えた最初の中規模モデルであり、独立したビジョンエンコーダやオーディオエンコーダなしでこれを実現している点です。
その点がGemma 4 12Bを他とは違うものにしています。ほとんどのマルチモーダルモデルは、ビジョンエンコーダとオーディオエンコーダを言語モデルに結合させます。Gemma 4 12Bはこれら両方を廃止し、生の画像パッチと音声波形を直接モデルに入力します。これにより、4つの入力タイプを処理し、オフラインで実行でき、商用利用可能なApache 2.0ライセンスで提供される単一の12Bファイルが手に入ります。
このモデルがどのようなもので、Gemma 4ファミリーの中でどのような位置付けにあり、それを使って何ができるかをご紹介します。今日すぐに実行したい場合は、「Gemma 4 12Bを無料で使う方法」という付随ガイドをご覧ください。
Gemma 4 12Bの概要
| 仕様 | 値 |
|---|---|
| リリース日 | 2026年6月3日 |
| パラメータ数 | 119.5億(密結合) |
| 入力 | テキスト、画像、音声、ビデオ |
| 出力 | テキスト |
| コンテキストウィンドウ | 256Kトークン |
| アーキテクチャ | エンコーダフリー統合マルチモーダル |
| ライセンス | Apache 2.0 |
| 動作環境 | 16GB VRAMまたはユニファイドメモリ(4ビット量子化で約8GB) |
| バリアント | google/gemma-4-12B(ベース)、google/gemma-4-12B-it(指示チューニング済み) |
簡潔な答え
Gemma 4 12Bは、Google DeepMindが開発した、テキスト、画像、音声、ビデオを入力として受け取り、テキストを返す密結合の120億パラメータを持つオープンモデルです。これは、256Kトークンのコンテキストウィンドウ、ネイティブなツール呼び出し、オプションの段階的推論モードを備え、コンシューマーハードウェアでローカルに動作するようにチューニングされています。

Gemma 4ラインナップの中間に位置します。Googleはこれを、エッジデバイスに適したE4Bモデルと、より大規模な26B Mixture-of-Expertsモデルとの橋渡しをするものと表現しており、26Bモデルの半分以下のメモリ使用量で、いくつかのベンチマークにおいて26Bに匹敵する品質を実現しています。
Gemma 4ファミリーにおける12Bの位置付け
Gemma 4は一度に全モデルがリリースされたわけではありません。E2B、E4B、26B、31Bモデルは2026年3月31日に登場しました。12Bは最新のメンバーで、6月3日に追加されました。全ラインナップは以下の通りです。
| モデル | サイズ | コンテキスト | 備考 |
|---|---|---|---|
| Gemma 4 E2B | 実質23億(生51億) | 128K | オンデバイス、音声入力 |
| Gemma 4 E4B | 実質45億(生80億) | 128K | コンパクト、音声入力 |
| Gemma 4 12B | 119.5億(密結合) | 256K | エンコーダフリー、音声入力 |
| Gemma 4 26B A4B | アクティブ40億 / 合計260億 (MoE) | 256K | Mixture-of-experts |
| Gemma 4 31B | 310億(密結合) | 256K | 最先端性能 |
12Bは、エンコーダフリー設計に基づいて構築されたファミリー唯一のモデルです。他のモデルは従来のビジョンエンコーダ(そして、小さい2つのモデルではコンフォーマーオーディオエンコーダ)を維持しています。この点が、GoogleがオンデバイスマルチモーダルAIをどこへ向かわせているかを示す最も明確なデモンストレーションとなっています。
これらのモデルが他のオープンモデルとどのように比較されるかについては、MiniMax M3、DeepSeek V4、Qwen 3.7の比較と、広範なオープンウェイト価格競争をご覧ください。
「エンコーダフリー」が実際に意味するもの
標準的なマルチモーダルモデルは2段階で動作します。ビジョンエンコーダが画像を埋め込みベクトルに変換し、オーディオエンコーダが音声を埋め込みベクトルに変換し、その後プロジェクターがそれらを言語モデルの空間にマッピングします。これらはロード、チューニング、メモリ保持が必要な3つのコンポーネントです。
Gemma 4 12Bはエンコーダを削除します。Googleの記述によると:
- ビジョン:軽量な埋め込みモジュール(単一の行列乗算、位置埋め込み、正規化)が、生の画像パッチをモデルの埋め込み空間に直接投影します。
- オーディオ:オーディオエンコーダはなくなりました。生の音声はテキストトークンと同じ次元空間に投影され、音と単語は単一の経路を共有します。
ビジョンとオーディオの入力は、直接言語モデルのバックボーンに流れ込みます。1つのモデル、1組の重みで、あらゆるモダリティがトークンとして扱われます。
さらに2つのアーキテクチャの選択が、小さなハードウェア上での効率を維持しています。
- レイヤーごとの埋め込み (PLE):各デコーダーレイヤーは、トークン識別ルックアップとコンテキスト認識型投影を組み合わせた専用の小さな埋め込みを受け取ります。これにより、レイヤーが専門化しつつ、パラメータコストを削減します。
- 共有KVキャッシュ:最後のいくつかのレイヤーは、自身のキーと値のテンソルを計算する代わりに、以前のレイヤーからのキーと値のテンソルを再利用します。これにより、長いコンテキストやオンデバイスでの実行中にメモリを削減し、品質低下はほとんどありません。
Googleはまた、投機的デコーディングのためのMulti-Token Prediction (MTP) ドラフターも提供しており、これにより出力品質を変更することなく、エンドツーエンドの推論を約3倍高速化できます。
ネイティブオーディオと完全なマルチモーダリティ
多くのオープンモデルが画像を読み取れます。Gemma 4 12Bは、テキストとビジョンを処理する同じモデル内で、音声をネイティブに処理する最初の中規模モデルです。これにより、異なる種類の作業が可能になります:
- 自動音声認識と文字起こし
- 話者ダイアライゼーション(誰がいつ話したか)
- 非音声サウンドに対する音声質問応答
- フレームだけでなく、音声を含むビデオ理解
- 画像タスク:キャプション生成、オブジェクトおよびUI検出、視覚的推論
モダリティを組み合わせる際には、入力の順序が重要です。チャットテンプレートでは、テキストプロンプトの前に画像コンテンツ、その後に音声が期待されます。モデルはすべての場合においてテキストを返します。
Gemma 4 12Bの性能
これらは、Hugging Faceのモデルカードに掲載されている、指示チューニング済みgemma-4-12B-itの公開スコアです。
| ベンチマーク | Gemma 4 12B-it |
|---|---|
| MMLU Pro(推論) | 77.2% |
| AIME 2026(数学、ツールなし) | 77.5% |
| GPQA Diamond(科学) | 78.8% |
| LiveCodeBench v6(コーディング) | 72.0% |
| Codeforces(ELO) | 1659 |
| MMMU Pro(ビジョン) | 69.1% |
| MATH-Vision | 79.7% |
| MRCR v2、128K、8ニードル(長コンテキスト) | 43.4% |
そのファミリーにおける位置付けを明確にするため、いくつかの主要なテストで12Bが隣接するモデルと比較してどのようになるかを見てみましょう。
| ベンチマーク | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
そのパターンは明らかです。12Bは4BクラスのE4Bを大きく上回り、26B MoEモデルにも匹敵する性能を示しています。これはGoogleが提唱するトレードオフであり、より大きなモデルの品質の大部分を、既存のデバイスで実現できることを意味します。
Gemma 3との比較における新機能
Gemma 3を使用していたなら、以下の4つの点が際立っています。
- ネイティブオーディオ。 Gemma 3はテキストとビジョンでした。12Bはベースモデルに音声とオーディオ付きビデオを追加します。
- エンコーダフリー設計。 ビジョンまたはオーディオエンコーダを追加でロードする必要がありません。
- 256Kコンテキスト。 長いドキュメント、議事録、複数ファイルコードに対して、4倍のヘッドルームが提供されます。
- Apache 2.0。 以前のGemmaリリースでは、使用制限のある独自のGemmaライセンスが使用されていました。Gemma 4は標準のApache 2.0に移行し、商用利用や再配布がより簡単になりました。
これを使って何ができるか
12Bは、クラウドではなくデバイス上で実行される作業を対象としています。
- データを外部に送信せずに画面を認識し、マイク音声を聴き取るオフラインアシスタント
- 議事録作成、話者分離、要約をローカルで行う会議および通話ツール
- PDF、スクリーンショット、音声を1つのプロンプトにまとめるドキュメントおよびメディアパイプライン
- エージェントワークフロー:関数呼び出しとツール使用をサポートし、計画を立てて実行できます
- LiveCodeBenchレベルで72.0%のコーディング支援。ローカルでのオートコンプリートやリファクタリングに利用可能
Ollamaやllama.cppのようなランナーを通じて標準のチャットインターフェースを公開しているため、既存のツールをこれに接続できます。ローカルモデルをアプリケーションに組み込む際には、リクエストとレスポンスの形式を確認する必要があります。Apidogのようなツールを使用すると、ローカルエンドポイントを保存し、サンプルプロンプトを送信し、その上に構築する前にJSONをチェックできます。Apidogを無料でダウンロードし、すぐにローカルサーバーで試すことができます。詳細については、無料使用ガイドをご覧ください。
ライセンスとApache 2.0が提供するもの
Gemma 4 12BはApache 2.0ライセンスの下でリリースされています。簡単に言えば:
- 商用利用が可能です。
- 変更、ファインチューニング、再配布が可能です。
- クローズドソース製品での実行が可能です。
- 生成物はあなたのものです。
これは、Google独自の利用規約を伴っていた以前のGemmaライセンスからの大きな変更点です。Apache 2.0は、多くのオープンインフラストラクチャで使用されているのと同じ寛容なライセンスであるため、法務審査は迅速に行われる傾向があります。
必要なハードウェア
Googleがターゲットとしているのは、VRAMまたはApple方式のユニファイドメモリを搭載した16GBのマシンです。量子化により、さらに低減できます。
- フル品質:約16GB
- 8ビット:約14GB
- 4ビット (Q4_K_M):約8GB(Ollamaのデフォルト)
これにより、12Bは主流のゲーミングGPU、16GB MacBook、またはミドルレンジのワークステーションで利用可能になります。ハードウェアの制約がある場合は、より小型のE2BおよびE4Bモデルを選択することも可能です。
留意すべき制限事項
Googleはモデルカードでトレードオフについて直接言及しています。
- 不正確または古い事実を生成する可能性があります。重要な情報は確認してください。
- トレーニングデータに含まれる偏りを反映する可能性があります。
- 皮肉、ニュアンス、比喩表現の処理は均一ではありません。
- このサイズの他のモデルと同様に、常識的な推論には限界があります。
- 出力品質は、プロンプトの明確さと提供するコンテキストに依存します。
これらは12Bのオープンモデルにおける一般的な注意点です。最も困難な推論において、最先端のクラウドモデルを置き換えるものではありませんが、それが目的ではありません。目的は、データが存在する場所で実行できる、高性能なマルチモーダルAIを提供することです。
よくある質問
Gemma 4 12Bは無料ですか? はい。重みはApache 2.0の下でオープンソースとして公開されており、Hugging FaceやKaggleから無料でダウンロードできます。実行するハードウェアまたはクラウドに対してのみ費用がかかります。Gemma 4 12Bを無料で使う方法をご覧ください。
Gemma 4 12Bは本当に音声を理解できますか? はい。生の音声を入力として受け取り、音声を文字起こししたり、話者を特定したり、音に関する質問に答えたりできます。これは、個別の音声モデルを介するのではなく、ネイティブにこれを行う最初の中規模モデルです。
gemma-4-12Bとgemma-4-12B-itの違いは何ですか? ベースモデルは事前学習のみです。-itバージョンは、チャット、ツール使用、指示の追従のために指示チューニングされています。ほとんどの人は-itビルドを望むでしょう。
12Bは26Bや31Bとどう違いますか? 12Bは密結合でエンコーダフリーであり、16GBのマシン向けにチューニングされています。26BはMixture-of-Expertsモデル(アクティブ40億、合計260億)、31Bは最先端品質向けのより大規模な密結合モデルです。どちらの大型モデルもベンチマークでより高いスコアを出しますが、より多くのメモリを必要とします。
Gemma 4 12Bはツール呼び出しをサポートしていますか? はい。テキストおよびマルチモーダルな関数呼び出しをサポートしており、段階的な推論のためのオプションの思考モードも備えているため、エージェントワークフローに利用できます。
Gemini 3.5と比較してどうですか? 目的が異なります。Gemini 3.5はGoogleがホストする最先端モデルです。Gemini 3.5とは何かをご覧ください。Gemma 4 12Bは自分で実行するオープンモデルです。最高の品質の一部と引き換えに、プライバシー、オフライン使用、トークンごとのコストがゼロという利点が得られます。
