Gemma 4 12B とは?

Gemma 4 12Bの解説:Googleが2026年6月に公開するオープンモデルで、ネイティブオーディオ対応、エンコーダーフリーのマルチモーダルアーキテクチャ、256Kのコンテキスト長を持ち、Apache 2.0ライセンスで提供され、16GBのノートPCで動作します。

Ashley Innocent

Ashley Innocent

4 6月 2026

Gemma 4 12B とは?

Apidog エンタープライズ

オンプレミスデプロイ

SSO & RBAC

SOC 2 準拠

Apidog Enterpriseを見る

Googleは2026年6月3日にGemma 4 12Bをリリースしました。これはテキスト、画像、音声、ビデオを読み取ることができる119.5億のパラメータを持つオープンウェイトモデルで、16GBのメモリを搭載したノートパソコンで動作します。主要な特徴は、ネイティブな音声入力を備えた最初の中規模モデルであり、独立したビジョンエンコーダやオーディオエンコーダなしでこれを実現している点です。

その点がGemma 4 12Bを他とは違うものにしています。ほとんどのマルチモーダルモデルは、ビジョンエンコーダとオーディオエンコーダを言語モデルに結合させます。Gemma 4 12Bはこれら両方を廃止し、生の画像パッチと音声波形を直接モデルに入力します。これにより、4つの入力タイプを処理し、オフラインで実行でき、商用利用可能なApache 2.0ライセンスで提供される単一の12Bファイルが手に入ります。

button

このモデルがどのようなもので、Gemma 4ファミリーの中でどのような位置付けにあり、それを使って何ができるかをご紹介します。今日すぐに実行したい場合は、「Gemma 4 12Bを無料で使う方法」という付随ガイドをご覧ください。

Gemma 4 12Bの概要

仕様
リリース日 2026年6月3日
パラメータ数 119.5億(密結合)
入力 テキスト、画像、音声、ビデオ
出力 テキスト
コンテキストウィンドウ 256Kトークン
アーキテクチャ エンコーダフリー統合マルチモーダル
ライセンス Apache 2.0
動作環境 16GB VRAMまたはユニファイドメモリ(4ビット量子化で約8GB)
バリアント google/gemma-4-12B(ベース)、google/gemma-4-12B-it(指示チューニング済み)

簡潔な答え

Gemma 4 12Bは、Google DeepMindが開発した、テキスト、画像、音声、ビデオを入力として受け取り、テキストを返す密結合の120億パラメータを持つオープンモデルです。これは、256Kトークンのコンテキストウィンドウ、ネイティブなツール呼び出し、オプションの段階的推論モードを備え、コンシューマーハードウェアでローカルに動作するようにチューニングされています。

Gemma 4ラインナップの中間に位置します。Googleはこれを、エッジデバイスに適したE4Bモデルと、より大規模な26B Mixture-of-Expertsモデルとの橋渡しをするものと表現しており、26Bモデルの半分以下のメモリ使用量で、いくつかのベンチマークにおいて26Bに匹敵する品質を実現しています。

Gemma 4ファミリーにおける12Bの位置付け

Gemma 4は一度に全モデルがリリースされたわけではありません。E2B、E4B、26B、31Bモデルは2026年3月31日に登場しました。12Bは最新のメンバーで、6月3日に追加されました。全ラインナップは以下の通りです。

モデル サイズ コンテキスト 備考
Gemma 4 E2B 実質23億(生51億) 128K オンデバイス、音声入力
Gemma 4 E4B 実質45億(生80億) 128K コンパクト、音声入力
Gemma 4 12B 119.5億(密結合) 256K エンコーダフリー、音声入力
Gemma 4 26B A4B アクティブ40億 / 合計260億 (MoE) 256K Mixture-of-experts
Gemma 4 31B 310億(密結合) 256K 最先端性能

12Bは、エンコーダフリー設計に基づいて構築されたファミリー唯一のモデルです。他のモデルは従来のビジョンエンコーダ(そして、小さい2つのモデルではコンフォーマーオーディオエンコーダ)を維持しています。この点が、GoogleがオンデバイスマルチモーダルAIをどこへ向かわせているかを示す最も明確なデモンストレーションとなっています。

これらのモデルが他のオープンモデルとどのように比較されるかについては、MiniMax M3、DeepSeek V4、Qwen 3.7の比較と、広範なオープンウェイト価格競争をご覧ください。

「エンコーダフリー」が実際に意味するもの

標準的なマルチモーダルモデルは2段階で動作します。ビジョンエンコーダが画像を埋め込みベクトルに変換し、オーディオエンコーダが音声を埋め込みベクトルに変換し、その後プロジェクターがそれらを言語モデルの空間にマッピングします。これらはロード、チューニング、メモリ保持が必要な3つのコンポーネントです。

Gemma 4 12Bはエンコーダを削除します。Googleの記述によると:

ビジョンとオーディオの入力は、直接言語モデルのバックボーンに流れ込みます。1つのモデル、1組の重みで、あらゆるモダリティがトークンとして扱われます。

さらに2つのアーキテクチャの選択が、小さなハードウェア上での効率を維持しています。

Googleはまた、投機的デコーディングのためのMulti-Token Prediction (MTP) ドラフターも提供しており、これにより出力品質を変更することなく、エンドツーエンドの推論を約3倍高速化できます。

ネイティブオーディオと完全なマルチモーダリティ

多くのオープンモデルが画像を読み取れます。Gemma 4 12Bは、テキストとビジョンを処理する同じモデル内で、音声をネイティブに処理する最初の中規模モデルです。これにより、異なる種類の作業が可能になります:

モダリティを組み合わせる際には、入力の順序が重要です。チャットテンプレートでは、テキストプロンプトの前に画像コンテンツ、その後に音声が期待されます。モデルはすべての場合においてテキストを返します。

Gemma 4 12Bの性能

これらは、Hugging Faceのモデルカードに掲載されている、指示チューニング済みgemma-4-12B-itの公開スコアです。

ベンチマーク Gemma 4 12B-it
MMLU Pro(推論) 77.2%
AIME 2026(数学、ツールなし) 77.5%
GPQA Diamond(科学) 78.8%
LiveCodeBench v6(コーディング) 72.0%
Codeforces(ELO) 1659
MMMU Pro(ビジョン) 69.1%
MATH-Vision 79.7%
MRCR v2、128K、8ニードル(長コンテキスト) 43.4%

そのファミリーにおける位置付けを明確にするため、いくつかの主要なテストで12Bが隣接するモデルと比較してどのようになるかを見てみましょう。

ベンチマーク E4B 12B 26B A4B 31B
MMLU Pro 69.4% 77.2% 82.6% 85.2%
AIME 2026 42.5% 77.5% 88.3% 89.2%
GPQA Diamond 58.6% 78.8% 82.3% 84.3%
LiveCodeBench v6 52.0% 72.0% 77.1% 80.0%

そのパターンは明らかです。12Bは4BクラスのE4Bを大きく上回り、26B MoEモデルにも匹敵する性能を示しています。これはGoogleが提唱するトレードオフであり、より大きなモデルの品質の大部分を、既存のデバイスで実現できることを意味します。

Gemma 3との比較における新機能

Gemma 3を使用していたなら、以下の4つの点が際立っています。

  1. ネイティブオーディオ。 Gemma 3はテキストとビジョンでした。12Bはベースモデルに音声とオーディオ付きビデオを追加します。
  2. エンコーダフリー設計。 ビジョンまたはオーディオエンコーダを追加でロードする必要がありません。
  3. 256Kコンテキスト。 長いドキュメント、議事録、複数ファイルコードに対して、4倍のヘッドルームが提供されます。
  4. Apache 2.0。 以前のGemmaリリースでは、使用制限のある独自のGemmaライセンスが使用されていました。Gemma 4は標準のApache 2.0に移行し、商用利用や再配布がより簡単になりました。

これを使って何ができるか

12Bは、クラウドではなくデバイス上で実行される作業を対象としています。

Ollamaやllama.cppのようなランナーを通じて標準のチャットインターフェースを公開しているため、既存のツールをこれに接続できます。ローカルモデルをアプリケーションに組み込む際には、リクエストとレスポンスの形式を確認する必要があります。Apidogのようなツールを使用すると、ローカルエンドポイントを保存し、サンプルプロンプトを送信し、その上に構築する前にJSONをチェックできます。Apidogを無料でダウンロードし、すぐにローカルサーバーで試すことができます。詳細については、無料使用ガイドをご覧ください。

ライセンスとApache 2.0が提供するもの

Gemma 4 12BはApache 2.0ライセンスの下でリリースされています。簡単に言えば:

これは、Google独自の利用規約を伴っていた以前のGemmaライセンスからの大きな変更点です。Apache 2.0は、多くのオープンインフラストラクチャで使用されているのと同じ寛容なライセンスであるため、法務審査は迅速に行われる傾向があります。

必要なハードウェア

Googleがターゲットとしているのは、VRAMまたはApple方式のユニファイドメモリを搭載した16GBのマシンです。量子化により、さらに低減できます。

これにより、12Bは主流のゲーミングGPU、16GB MacBook、またはミドルレンジのワークステーションで利用可能になります。ハードウェアの制約がある場合は、より小型のE2BおよびE4Bモデルを選択することも可能です。

留意すべき制限事項

Googleはモデルカードでトレードオフについて直接言及しています。

これらは12Bのオープンモデルにおける一般的な注意点です。最も困難な推論において、最先端のクラウドモデルを置き換えるものではありませんが、それが目的ではありません。目的は、データが存在する場所で実行できる、高性能なマルチモーダルAIを提供することです。

よくある質問

Gemma 4 12Bは無料ですか? はい。重みはApache 2.0の下でオープンソースとして公開されており、Hugging FaceやKaggleから無料でダウンロードできます。実行するハードウェアまたはクラウドに対してのみ費用がかかります。Gemma 4 12Bを無料で使う方法をご覧ください。

Gemma 4 12Bは本当に音声を理解できますか? はい。生の音声を入力として受け取り、音声を文字起こししたり、話者を特定したり、音に関する質問に答えたりできます。これは、個別の音声モデルを介するのではなく、ネイティブにこれを行う最初の中規模モデルです。

gemma-4-12Bgemma-4-12B-itの違いは何ですか? ベースモデルは事前学習のみです。-itバージョンは、チャット、ツール使用、指示の追従のために指示チューニングされています。ほとんどの人は-itビルドを望むでしょう。

12Bは26Bや31Bとどう違いますか? 12Bは密結合でエンコーダフリーであり、16GBのマシン向けにチューニングされています。26BはMixture-of-Expertsモデル(アクティブ40億、合計260億)、31Bは最先端品質向けのより大規模な密結合モデルです。どちらの大型モデルもベンチマークでより高いスコアを出しますが、より多くのメモリを必要とします。

Gemma 4 12Bはツール呼び出しをサポートしていますか? はい。テキストおよびマルチモーダルな関数呼び出しをサポートしており、段階的な推論のためのオプションの思考モードも備えているため、エージェントワークフローに利用できます。

Gemini 3.5と比較してどうですか? 目的が異なります。Gemini 3.5はGoogleがホストする最先端モデルです。Gemini 3.5とは何かをご覧ください。Gemma 4 12Bは自分で実行するオープンモデルです。最高の品質の一部と引き換えに、プライバシー、オフライン使用、トークンごとのコストがゼロという利点が得られます。

button

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる