Was ist Gemma 4 12B

Gemma 4 12B erklärt: Googles offenes Modell vom Juni 2026 mit nativem Audio, encoderfreier multimodaler Architektur, 256K Kontext, Apache 2.0, läuft auf einem 16GB Laptop.

Ashley Innocent

Ashley Innocent

4 June 2026

Was ist Gemma 4 12B

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

Google hat Gemma 4 12B am 3. Juni 2026 ausgeliefert. Es ist ein Open-Weights-Modell mit 11,95 Milliarden Parametern, das Text, Bilder, Audio und Video liest und auf einen Laptop mit 16 GB Arbeitsspeicher passt. Das wichtigste Detail: Es ist das erste mittelgroße Modell mit nativer Audioeingabe, und es erreicht dies ohne separaten Bild- oder Audiokodierer.

Dieser letzte Teil macht den Unterschied. Die meisten multimodalen Modelle schrauben einen Bildkodierer und einen Audiokodierer an ein Sprachmodell. Gemma 4 12B verzichtet auf beides und speist rohe Bildausschnitte und Audiowellenformen direkt in das Modell ein. Sie erhalten eine einzelne 12B-Datei, die vier Eingabetypen verarbeitet, offline läuft und unter einer Apache 2.0-Lizenz ausgeliefert wird, die Sie kommerziell nutzen können.

button

Hier erfahren Sie, was das Modell ist, wo es in der Gemma 4-Familie steht und was Sie damit bauen können. Wenn Sie es heute ausführen möchten, springen Sie zur Begleitanleitung über die kostenlose Nutzung von Gemma 4 12B.

Gemma 4 12B auf einen Blick

Spezifikation Wert
Veröffentlicht 3. Juni 2026
Parameter 11,95 Mrd. (dicht)
Eingaben Text, Bild, Audio, Video
Ausgabe Text
Kontextfenster 256K Token
Architektur Encoder-freie, vereinheitlichte multimodale
Lizenz Apache 2.0
Läuft auf 16 GB VRAM oder Unified Memory (ca. 8 GB bei 4-Bit)
Varianten google/gemma-4-12B (Basis), google/gemma-4-12B-it (auf Anweisungen abgestimmt)

Die Kurzversion

Gemma 4 12B ist ein dichtes Open-Modell von Google DeepMind mit 12 Milliarden Parametern, das Text, Bilder, Audio und Video als Eingabe akzeptiert und Text ausgibt. Es ist darauf abgestimmt, lokal auf Consumer-Hardware zu laufen, mit einem 256K-Token-Kontextfenster, nativer Werkzeugaufruf-Funktionalität und einem optionalen schrittweisen Denkmodus.

Es positioniert sich in der Mitte der Gemma 4-Produktreihe. Google beschreibt es als Brücke zwischen dem Edge-freundlichen E4B-Modell und dem größeren 26B Mixture-of-Experts-Modell, dessen Qualität bei mehreren Benchmarks an das 26B heranreicht, aber weniger als die Hälfte des Speicherbedarfs hat.

Wo das 12B in die Gemma 4-Familie passt

Gemma 4 wurde nicht auf einmal eingeführt. Die Modelle E2B, E4B, 26B und 31B kamen am 31. März 2026 auf den Markt. Das 12B ist das neueste Mitglied, das am 3. Juni hinzugefügt wurde. Hier ist die vollständige Reihe:

Modell Größe Kontext Anmerkungen
Gemma 4 E2B 2,3 Mrd. effektiv (5,1 Mrd. roh) 128K Auf dem Gerät, Audioeingabe
Gemma 4 E4B 4,5 Mrd. effektiv (8 Mrd. roh) 128K Kompakt, Audioeingabe
Gemma 4 12B 11,95 Mrd. dicht 256K Encoder-frei, Audioeingabe
Gemma 4 26B A4B 4 Mrd. aktiv / 26 Mrd. gesamt (MoE) 256K Mixture-of-Experts
Gemma 4 31B 31 Mrd. dicht 256K Spitzenleistung

Das 12B ist das einzige Modell in der Familie, das auf dem Encoder-freien Design basiert. Die anderen behalten einen traditionellen Bildkodierer (und bei den beiden kleineren einen Conformer-Audiokodierer). Das macht das 12B zur klarsten Demonstration, wohin Google mit der multimodalen KI auf Geräten steuert.

Für einen Vergleich, wie sich diese Modelle im Vergleich zu anderen offenen Modellen schlagen, siehe unseren Vergleich von MiniMax M3, DeepSeek V4 und Qwen 3.7 und den umfassenderen Preiskampf bei Open-Weight-Modellen.

Was „Encoder-frei“ tatsächlich bedeutet

Standard-Multimodale Modelle arbeiten in zwei Phasen. Ein Bildkodierer wandelt ein Bild in Embeddings um, ein Audiokodierer wandelt Ton in Embeddings um, und dann projiziert ein Projektor diese in den Raum des Sprachmodells. Das sind drei Komponenten, die geladen, abgestimmt und im Speicher gehalten werden müssen.

Gemma 4 12B entfernt die Encoder. Laut Google’s Beschreibung:

Die Bild- und Audioeingaben fließen direkt in das Sprachmodell-Backbone. Ein Modell, ein Satz von Gewichten, jede Modalität wird als Token behandelt.

Zwei weitere Architekturwahlen halten es auf kleiner Hardware effizient:

Google liefert auch einen Multi-Token Prediction (MTP) Drafter für spekulative Dekodierung, der die End-to-End-Inferenz um bis zu etwa das Dreifache beschleunigen kann, ohne die Ausgabequalität zu verändern.

Native Audio- und vollständige Multimodalität

Viele offene Modelle lesen Bilder. Gemma 4 12B ist das erste mittelgroße Modell, das Audio nativ in demselben Modell verarbeitet, das Text und Bild handhabt. Das eröffnet eine andere Art von Arbeit:

Die Eingabereihenfolge ist wichtig, wenn Sie Modalitäten mischen. Die Chat-Vorlage erwartet Bildinhalte vor der Textaufforderung und Audio danach. Das Modell gibt in jedem Fall Text zurück.

Wie Gemma 4 12B abschneidet

Dies sind die veröffentlichten Ergebnisse für das auf Anweisungen abgestimmte gemma-4-12B-it, von der Hugging Face Modellkarte:

Benchmark Gemma 4 12B-it
MMLU Pro (Schlussfolgern) 77.2%
AIME 2026 (Mathematik, ohne Werkzeuge) 77.5%
GPQA Diamond (Wissenschaft) 78.8%
LiveCodeBench v6 (Kodierung) 72.0%
Codeforces (ELO) 1659
MMMU Pro (Vision) 69.1%
MATH-Vision 79.7%
MRCR v2, 128K, 8-Nadel (langer Kontext) 43.4%

Um das in den Familienkontext zu stellen, hier ist, wie sich das 12B bei einigen wichtigen Tests zwischen seinen Nachbarn einordnet:

Benchmark E4B 12B 26B A4B 31B
MMLU Pro 69.4% 77.2% 82.6% 85.2%
AIME 2026 42.5% 77.5% 88.3% 89.2%
GPQA Diamond 58.6% 78.8% 82.3% 84.3%
LiveCodeBench v6 52.0% 72.0% 77.1% 80.0%

Das Muster ist klar. Das 12B liegt deutlich über dem E4B der 4B-Klasse und ist in Reichweite des 26B MoE, was dem von Google angepriesenen Kompromiss entspricht: Der Großteil der Qualität des größeren Modells, auf einer Maschine, die Sie bereits besitzen.

Was ist neu im Vergleich zu Gemma 3

Wenn Sie Gemma 3 verwendet haben, stechen vier Dinge hervor:

  1. Native Audio. Gemma 3 war Text und Bild. Das 12B fügt im Basismodell Ton und Video mit Audio hinzu.
  2. Das Encoder-freie Design. Kein aufgeschraubter Bild- oder Audiokodierer zum Laden.
  3. 256K Kontext. Viermal mehr Spielraum für lange Dokumente, Transkripte und Code aus mehreren Dateien.
  4. Apache 2.0. Frühere Gemma-Veröffentlichungen verwendeten eine benutzerdefinierte Gemma-Lizenz mit Nutzungsbeschränkungen. Gemma 4 wechselt zur Standard-Apache 2.0, die für die kommerzielle Nutzung und Weiterverteilung einfacher ist.

Was Sie damit bauen können

Das 12B ist für Aufgaben gedacht, die auf dem Gerät und nicht in der Cloud ausgeführt werden:

Da es eine Standard-Chat-Oberfläche über Runner wie Ollama und llama.cpp bereitstellt, können Sie bestehende Tools darauf richten. Wenn Sie ein lokales Modell in eine App integrieren, möchten Sie immer noch die Form der Anfragen und Antworten bestätigen. Ein Tool wie Apidog ermöglicht es Ihnen, den lokalen Endpunkt zu speichern, Beispiel-Prompts zu senden und das JSON zu überprüfen, bevor Sie darauf aufbauen. Sie können Apidog kostenlos herunterladen und es in einer Minute auf den lokalen Server richten. Mehr dazu in der kostenlosen Nutzungsanleitung.

Lizenz und was Apache 2.0 Ihnen bietet

Gemma 4 12B wird unter Apache 2.0 veröffentlicht. Im Klartext:

Dies ist eine echte Abkehr von der früheren Gemma-Lizenz, die Googles eigene Nutzungsbedingungen enthielt. Apache 2.0 ist dieselbe permissive Lizenz, die hinter einer langen Liste offener Infrastruktur steht, daher ist die rechtliche Überprüfung in der Regel schnell.

Benötigte Hardware

Googles Ziel ist eine Maschine mit 16 GB, VRAM oder Apple-ähnlichem Unified Memory. Quantisierung reduziert dies:

Damit ist das 12B für eine gängige Gaming-GPU, ein 16-GB-MacBook oder eine Mittelklasse-Workstation erreichbar. Die kleineren E2B- und E4B-Modelle benötigen noch weniger, wenn Ihre Hardware knapp ist.

Wissenswerte Einschränkungen

Google ist direkt bezüglich der Kompromisse in der Modellkarte:

Dies sind die üblichen Vorbehalte für ein offenes 12B-Modell. Es wird kein führendes Cloud-Modell für die schwierigsten Schlussfolgerungen ersetzen, aber das ist auch nicht der Punkt. Der Punkt ist eine fähige multimodale KI, die dort läuft, wo Ihre Daten bereits vorhanden sind.

FAQ

Ist Gemma 4 12B kostenlos? Ja. Die Gewichte sind unter Apache 2.0 offen und können kostenlos von Hugging Face und Kaggle heruntergeladen werden. Sie zahlen nur für die Hardware oder Cloud, auf der Sie es ausführen. Siehe wie man Gemma 4 12B kostenlos verwendet.

Kann Gemma 4 12B wirklich Audio verstehen? Ja. Es nimmt rohes Audio als Eingabe entgegen und kann Sprache transkribieren, Sprecher identifizieren und Fragen zu Geräuschen beantworten. Es ist das erste mittelgroße Modell, das dies nativ und nicht über ein separates Sprachmodell tut.

Was ist der Unterschied zwischen gemma-4-12B und gemma-4-12B-it? Das Basismodell ist nur vortrainiert. Die -it-Version ist für Chat, Werkzeugnutzung und das Befolgen von Anweisungen optimiert. Die meisten Leute bevorzugen die -it-Version.

Wie unterscheidet sich das 12B von den 26B und 31B? Das 12B ist dicht und Encoder-frei, optimiert für 16-GB-Maschinen. Das 26B ist ein Mixture-of-Experts-Modell (4B aktiv, 26B gesamt), und das 31B ist ein größeres dichtes Modell für Spitzenqualität. Beide größeren Modelle erzielen höhere Benchmark-Ergebnisse, benötigen aber mehr Speicher.

Unterstützt Gemma 4 12B Funktionsaufrufe? Ja. Es unterstützt text- und multimodale Funktionsaufrufe sowie einen optionalen Denkmodus für schrittweises Schlussfolgern, was es für Agenten-Workflows nutzbar macht.

Wie vergleicht es sich mit Gemini 3.5? Unterschiedliche Aufgaben. Gemini 3.5 ist Googles gehostetes Spitzenmodell; siehe was ist Gemini 3.5. Gemma 4 12B ist ein offenes Modell, das Sie selbst ausführen. Sie tauschen etwas Spitzenqualität gegen Privatsphäre, Offline-Nutzung und Null Kosten pro Token ein.

button

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen

Was ist Gemma 4 12B