Google hat Gemma 4 12B am 3. Juni 2026 ausgeliefert. Es ist ein Open-Weights-Modell mit 11,95 Milliarden Parametern, das Text, Bilder, Audio und Video liest und auf einen Laptop mit 16 GB Arbeitsspeicher passt. Das wichtigste Detail: Es ist das erste mittelgroße Modell mit nativer Audioeingabe, und es erreicht dies ohne separaten Bild- oder Audiokodierer.
Dieser letzte Teil macht den Unterschied. Die meisten multimodalen Modelle schrauben einen Bildkodierer und einen Audiokodierer an ein Sprachmodell. Gemma 4 12B verzichtet auf beides und speist rohe Bildausschnitte und Audiowellenformen direkt in das Modell ein. Sie erhalten eine einzelne 12B-Datei, die vier Eingabetypen verarbeitet, offline läuft und unter einer Apache 2.0-Lizenz ausgeliefert wird, die Sie kommerziell nutzen können.
Hier erfahren Sie, was das Modell ist, wo es in der Gemma 4-Familie steht und was Sie damit bauen können. Wenn Sie es heute ausführen möchten, springen Sie zur Begleitanleitung über die kostenlose Nutzung von Gemma 4 12B.
Gemma 4 12B auf einen Blick
| Spezifikation | Wert |
|---|---|
| Veröffentlicht | 3. Juni 2026 |
| Parameter | 11,95 Mrd. (dicht) |
| Eingaben | Text, Bild, Audio, Video |
| Ausgabe | Text |
| Kontextfenster | 256K Token |
| Architektur | Encoder-freie, vereinheitlichte multimodale |
| Lizenz | Apache 2.0 |
| Läuft auf | 16 GB VRAM oder Unified Memory (ca. 8 GB bei 4-Bit) |
| Varianten | google/gemma-4-12B (Basis), google/gemma-4-12B-it (auf Anweisungen abgestimmt) |
Die Kurzversion
Gemma 4 12B ist ein dichtes Open-Modell von Google DeepMind mit 12 Milliarden Parametern, das Text, Bilder, Audio und Video als Eingabe akzeptiert und Text ausgibt. Es ist darauf abgestimmt, lokal auf Consumer-Hardware zu laufen, mit einem 256K-Token-Kontextfenster, nativer Werkzeugaufruf-Funktionalität und einem optionalen schrittweisen Denkmodus.

Es positioniert sich in der Mitte der Gemma 4-Produktreihe. Google beschreibt es als Brücke zwischen dem Edge-freundlichen E4B-Modell und dem größeren 26B Mixture-of-Experts-Modell, dessen Qualität bei mehreren Benchmarks an das 26B heranreicht, aber weniger als die Hälfte des Speicherbedarfs hat.
Wo das 12B in die Gemma 4-Familie passt
Gemma 4 wurde nicht auf einmal eingeführt. Die Modelle E2B, E4B, 26B und 31B kamen am 31. März 2026 auf den Markt. Das 12B ist das neueste Mitglied, das am 3. Juni hinzugefügt wurde. Hier ist die vollständige Reihe:
| Modell | Größe | Kontext | Anmerkungen |
|---|---|---|---|
| Gemma 4 E2B | 2,3 Mrd. effektiv (5,1 Mrd. roh) | 128K | Auf dem Gerät, Audioeingabe |
| Gemma 4 E4B | 4,5 Mrd. effektiv (8 Mrd. roh) | 128K | Kompakt, Audioeingabe |
| Gemma 4 12B | 11,95 Mrd. dicht | 256K | Encoder-frei, Audioeingabe |
| Gemma 4 26B A4B | 4 Mrd. aktiv / 26 Mrd. gesamt (MoE) | 256K | Mixture-of-Experts |
| Gemma 4 31B | 31 Mrd. dicht | 256K | Spitzenleistung |
Das 12B ist das einzige Modell in der Familie, das auf dem Encoder-freien Design basiert. Die anderen behalten einen traditionellen Bildkodierer (und bei den beiden kleineren einen Conformer-Audiokodierer). Das macht das 12B zur klarsten Demonstration, wohin Google mit der multimodalen KI auf Geräten steuert.
Für einen Vergleich, wie sich diese Modelle im Vergleich zu anderen offenen Modellen schlagen, siehe unseren Vergleich von MiniMax M3, DeepSeek V4 und Qwen 3.7 und den umfassenderen Preiskampf bei Open-Weight-Modellen.
Was „Encoder-frei“ tatsächlich bedeutet
Standard-Multimodale Modelle arbeiten in zwei Phasen. Ein Bildkodierer wandelt ein Bild in Embeddings um, ein Audiokodierer wandelt Ton in Embeddings um, und dann projiziert ein Projektor diese in den Raum des Sprachmodells. Das sind drei Komponenten, die geladen, abgestimmt und im Speicher gehalten werden müssen.
Gemma 4 12B entfernt die Encoder. Laut Google’s Beschreibung:
- Bild: Ein leichtgewichtiges Embedding-Modul (eine einzelne Matrixmultiplikation plus Positions-Embeddings und Normalisierung) projiziert rohe Bildausschnitte direkt in den Embedding-Raum des Modells.
- Audio: Der Audiokodierer ist entfallen. Rohes Audio wird in denselben dimensionalen Raum wie Text-Tokens projiziert, sodass Klang und Wörter einen gemeinsamen Pfad teilen.
Die Bild- und Audioeingaben fließen direkt in das Sprachmodell-Backbone. Ein Modell, ein Satz von Gewichten, jede Modalität wird als Token behandelt.
Zwei weitere Architekturwahlen halten es auf kleiner Hardware effizient:
- Schichtspezifische Embeddings (PLE): Jede Decoder-Schicht erhält ein kleines dediziertes Embedding, das eine Token-Identitäts-Nachschlagefunktion mit einer kontextbewussten Projektion mischt. Dies senkt die Parameterkosten und ermöglicht gleichzeitig die Spezialisierung der Schichten.
- Gemeinsamer KV-Cache: Die letzten Schichten verwenden Key-Value-Tensoren aus früheren Schichten wieder, anstatt eigene zu berechnen. Das reduziert den Speicherverbrauch bei langen Kontexten und On-Device-Ausführungen mit geringem Qualitätsverlust.
Google liefert auch einen Multi-Token Prediction (MTP) Drafter für spekulative Dekodierung, der die End-to-End-Inferenz um bis zu etwa das Dreifache beschleunigen kann, ohne die Ausgabequalität zu verändern.
Native Audio- und vollständige Multimodalität
Viele offene Modelle lesen Bilder. Gemma 4 12B ist das erste mittelgroße Modell, das Audio nativ in demselben Modell verarbeitet, das Text und Bild handhabt. Das eröffnet eine andere Art von Arbeit:
- Automatische Spracherkennung und Transkription
- Sprecherdiarisierung (wer wann gesprochen hat)
- Audio-Frage-Antwort über Nicht-Sprachgeräusche
- Videoverständnis, mit Audio, nicht nur Einzelbildern
- Bildaufgaben: Beschriftung, Objekt- und UI-Erkennung, visuelles Schlussfolgern
Die Eingabereihenfolge ist wichtig, wenn Sie Modalitäten mischen. Die Chat-Vorlage erwartet Bildinhalte vor der Textaufforderung und Audio danach. Das Modell gibt in jedem Fall Text zurück.
Wie Gemma 4 12B abschneidet
Dies sind die veröffentlichten Ergebnisse für das auf Anweisungen abgestimmte gemma-4-12B-it, von der Hugging Face Modellkarte:
| Benchmark | Gemma 4 12B-it |
|---|---|
| MMLU Pro (Schlussfolgern) | 77.2% |
| AIME 2026 (Mathematik, ohne Werkzeuge) | 77.5% |
| GPQA Diamond (Wissenschaft) | 78.8% |
| LiveCodeBench v6 (Kodierung) | 72.0% |
| Codeforces (ELO) | 1659 |
| MMMU Pro (Vision) | 69.1% |
| MATH-Vision | 79.7% |
| MRCR v2, 128K, 8-Nadel (langer Kontext) | 43.4% |
Um das in den Familienkontext zu stellen, hier ist, wie sich das 12B bei einigen wichtigen Tests zwischen seinen Nachbarn einordnet:
| Benchmark | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
Das Muster ist klar. Das 12B liegt deutlich über dem E4B der 4B-Klasse und ist in Reichweite des 26B MoE, was dem von Google angepriesenen Kompromiss entspricht: Der Großteil der Qualität des größeren Modells, auf einer Maschine, die Sie bereits besitzen.
Was ist neu im Vergleich zu Gemma 3
Wenn Sie Gemma 3 verwendet haben, stechen vier Dinge hervor:
- Native Audio. Gemma 3 war Text und Bild. Das 12B fügt im Basismodell Ton und Video mit Audio hinzu.
- Das Encoder-freie Design. Kein aufgeschraubter Bild- oder Audiokodierer zum Laden.
- 256K Kontext. Viermal mehr Spielraum für lange Dokumente, Transkripte und Code aus mehreren Dateien.
- Apache 2.0. Frühere Gemma-Veröffentlichungen verwendeten eine benutzerdefinierte Gemma-Lizenz mit Nutzungsbeschränkungen. Gemma 4 wechselt zur Standard-Apache 2.0, die für die kommerzielle Nutzung und Weiterverteilung einfacher ist.
Was Sie damit bauen können
Das 12B ist für Aufgaben gedacht, die auf dem Gerät und nicht in der Cloud ausgeführt werden:
- Offline-Assistenten, die Ihren Bildschirm sehen und Ihr Mikrofon hören, ohne Daten zu senden
- Besprechungs- und Anruftools, die lokal transkribieren, diarizieren und zusammenfassen
- Dokument- und Medien-Pipelines, die PDFs, Screenshots und Audio in einem Prompt mischen
- Agenten-Workflows: Es unterstützt Funktionsaufrufe und Werkzeugnutzung, sodass es planen und handeln kann
- Programmierhilfe auf einem LiveCodeBench-Niveau von 72,0 %, nutzbar für lokale Autovervollständigung und Refactoring
Da es eine Standard-Chat-Oberfläche über Runner wie Ollama und llama.cpp bereitstellt, können Sie bestehende Tools darauf richten. Wenn Sie ein lokales Modell in eine App integrieren, möchten Sie immer noch die Form der Anfragen und Antworten bestätigen. Ein Tool wie Apidog ermöglicht es Ihnen, den lokalen Endpunkt zu speichern, Beispiel-Prompts zu senden und das JSON zu überprüfen, bevor Sie darauf aufbauen. Sie können Apidog kostenlos herunterladen und es in einer Minute auf den lokalen Server richten. Mehr dazu in der kostenlosen Nutzungsanleitung.
Lizenz und was Apache 2.0 Ihnen bietet
Gemma 4 12B wird unter Apache 2.0 veröffentlicht. Im Klartext:
- Sie können es kommerziell nutzen.
- Sie können es modifizieren, feinabstimmen und weiterverbreiten.
- Sie können es in Closed-Source-Produkten verwenden.
- Sie behalten Ihre Ausgaben.
Dies ist eine echte Abkehr von der früheren Gemma-Lizenz, die Googles eigene Nutzungsbedingungen enthielt. Apache 2.0 ist dieselbe permissive Lizenz, die hinter einer langen Liste offener Infrastruktur steht, daher ist die rechtliche Überprüfung in der Regel schnell.
Benötigte Hardware
Googles Ziel ist eine Maschine mit 16 GB, VRAM oder Apple-ähnlichem Unified Memory. Quantisierung reduziert dies:
- Volle Qualität: ca. 16 GB
- 8-Bit: ca. 14 GB
- 4-Bit (Q4_K_M): ca. 8 GB, der Standard in Ollama
Damit ist das 12B für eine gängige Gaming-GPU, ein 16-GB-MacBook oder eine Mittelklasse-Workstation erreichbar. Die kleineren E2B- und E4B-Modelle benötigen noch weniger, wenn Ihre Hardware knapp ist.
Wissenswerte Einschränkungen
Google ist direkt bezüglich der Kompromisse in der Modellkarte:
- Es kann falsche oder veraltete Fakten produzieren; überprüfen Sie alles Wichtige.
- Es kann Vorurteile in seinen Trainingsdaten widerspiegeln.
- Es behandelt Sarkasmus, Nuancen und bildliche Sprache ungleichmäßig.
- Das gesunde Menschenvermögen hat Grenzen, wie bei jedem Modell dieser Größe.
- Die Ausgabequalität hängt von der Klarheit des Prompts und dem Kontext ab, den Sie ihm geben.
Dies sind die üblichen Vorbehalte für ein offenes 12B-Modell. Es wird kein führendes Cloud-Modell für die schwierigsten Schlussfolgerungen ersetzen, aber das ist auch nicht der Punkt. Der Punkt ist eine fähige multimodale KI, die dort läuft, wo Ihre Daten bereits vorhanden sind.
FAQ
Ist Gemma 4 12B kostenlos? Ja. Die Gewichte sind unter Apache 2.0 offen und können kostenlos von Hugging Face und Kaggle heruntergeladen werden. Sie zahlen nur für die Hardware oder Cloud, auf der Sie es ausführen. Siehe wie man Gemma 4 12B kostenlos verwendet.
Kann Gemma 4 12B wirklich Audio verstehen? Ja. Es nimmt rohes Audio als Eingabe entgegen und kann Sprache transkribieren, Sprecher identifizieren und Fragen zu Geräuschen beantworten. Es ist das erste mittelgroße Modell, das dies nativ und nicht über ein separates Sprachmodell tut.
Was ist der Unterschied zwischen gemma-4-12B und gemma-4-12B-it? Das Basismodell ist nur vortrainiert. Die -it-Version ist für Chat, Werkzeugnutzung und das Befolgen von Anweisungen optimiert. Die meisten Leute bevorzugen die -it-Version.
Wie unterscheidet sich das 12B von den 26B und 31B? Das 12B ist dicht und Encoder-frei, optimiert für 16-GB-Maschinen. Das 26B ist ein Mixture-of-Experts-Modell (4B aktiv, 26B gesamt), und das 31B ist ein größeres dichtes Modell für Spitzenqualität. Beide größeren Modelle erzielen höhere Benchmark-Ergebnisse, benötigen aber mehr Speicher.
Unterstützt Gemma 4 12B Funktionsaufrufe? Ja. Es unterstützt text- und multimodale Funktionsaufrufe sowie einen optionalen Denkmodus für schrittweises Schlussfolgern, was es für Agenten-Workflows nutzbar macht.
Wie vergleicht es sich mit Gemini 3.5? Unterschiedliche Aufgaben. Gemini 3.5 ist Googles gehostetes Spitzenmodell; siehe was ist Gemini 3.5. Gemma 4 12B ist ein offenes Modell, das Sie selbst ausführen. Sie tauschen etwas Spitzenqualität gegen Privatsphäre, Offline-Nutzung und Null Kosten pro Token ein.
