Gemma 4 12B kostenlos nutzen: 6 funktionierende Methoden 2026

Gemma 4 12B 2026 kostenlos nutzen: Hugging Face-Demo, Ollama, LM Studio, llama.cpp, Transformers und Google AI Edge. Funktionierende Befehle sowie wie man die lokale API testet.

Ashley Innocent

Ashley Innocent

4 June 2026

Gemma 4 12B kostenlos nutzen: 6 funktionierende Methoden 2026

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

Gemma 4 12B ist quelloffen (Open-Weights) und unter Apache 2.0 lizenziert, daher bedeutet „kostenlos“ hier tatsächlich kostenlos. Es gibt keine API-Rechnung und kein Abonnement. Sie laden das Modell herunter und führen es auf Ihrem eigenen Rechner aus oder probieren es in einem Browser-Tab aus. Die einzigen Kosten sind die Hardware, die Sie bereits besitzen.

Eines vorab: Die 12B-Version ist für den lokalen Einsatz und die Verwendung auf Geräten konzipiert. Ihre größeren Geschwister, die 31B- und 26B-Versionen, werden von Google für kostenlose Chats in AI Studio gehostet. Der Hauptvorteil der 12B-Version ist, dass sie auf einem Laptop mit 16 GB läuft, daher geht es bei den folgenden kostenlosen Wegen darum, sie schnell auf Ihrer Hardware zum Laufen zu bringen. Neu beim Modell? Beginnen Sie mit Was ist Gemma 4 12B für die Spezifikationen.

Hier sind sechs funktionierende Methoden, von einer 60-sekündigen Browser-Demo bis hin zu einer vollständigen lokalen API, auf der Sie aufbauen können.

Kurze Zusammenfassung

Methode Was Sie bekommen Am besten geeignet fĂĽr
Hugging Face Space Browser-Chat, keine Installation Um es in einer Minute auszuprobieren
Ollama Lokales Modell + OpenAI-kompatible API Entwickler, ein Befehl
LM Studio Lokale Desktop-App mit GUI Kein Terminal erforderlich
llama.cpp Leichter lokaler API-Server Fortgeschrittene und ressourcenschonende Setups
HF Transformers Python, volle Kontrolle, kostenlose Colab GPU Notebooks und Feinabstimmung
Google AI Edge Auf dem Gerät, mobil Telefone und Edge-Hardware

Methode 1: Im Browser ausprobieren (keine Installation)

Der schnellste Weg, Gemma 4 12B zu sehen, ist der offizielle Demo-Space auf Hugging Face. Kein Download, kein Konto, keine GPU.

  1. Ă–ffnen Sie den Gemma 4 12B Demo-Space
  2. Geben Sie eine Anfrage ein oder laden Sie ein Bild oder einen Audio-Clip hoch
  3. Lesen Sie die Antwort

Dies ist der richtige Weg für einen schnellen Test. Sie können auch die multimodale Seite testen, da der Space Bild- und Audioeingaben akzeptiert. Wenn Sie bereit sind, etwas Reales zu erstellen, wechseln Sie zu einer der folgenden lokalen Methoden.

Methode 2: Ollama (die Standardmethode fĂĽr Entwickler)

Ollama ist der einfachste Weg, Gemma 4 12B lokal auszufĂĽhren und eine funktionierende API zu erhalten. Eine Installation, ein Pull-Vorgang, fertig.

Ollama installieren

Unter macOS oder Linux:

curl -fsSL https://ollama.com/install.sh | sh

Unter Windows laden Sie das Installationsprogramm von ollama.com herunter und fĂĽhren es aus.

Modell herunterladen und ausfĂĽhren

ollama pull gemma4:12b
ollama run gemma4:12b

Der erste Befehl lädt das Modell herunter (standardmäßig eine 4-Bit Q4_K_M-Build, etwa 8 GB). Der zweite Befehl führt Sie in einen interaktiven Chat. Geben Sie /bye ein, um zu beenden.

Die lokale API verwenden

Dies ist der Teil, der fĂĽr Entwickler wichtig ist. Ollama stellt eine OpenAI-kompatible REST-API unter http://localhost:11434 bereit. Kein SchlĂĽssel, keine Cloud, keine Ratenbegrenzung.

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {"role": "user", "content": "Explain how transformers work in two sentences."}
    ]
  }'

Da der Endpunkt dem OpenAI-Format entspricht, funktioniert jedes SDK oder Tool, das OpenAI spricht, indem die Basis-URL auf localhost:11434/v1 zeigt. Dazu gehören Editoren, Agenten-Frameworks und API-Clients. Für ein IDE-Setup-Muster spiegelt der Ansatz unsere DeepSeek V4 in Cursor Anleitung wider; tauschen Sie den Modell-String gegen gemma4:12b aus.

NĂĽtzliche Befehle:

Methode 3: LM Studio (kein Terminal)

Wenn Sie die Kommandozeile lieber meiden möchten, ist LM Studio eine Desktop-Anwendung für Windows, macOS und Linux.

  1. Laden Sie LM Studio herunter und installieren Sie es
  2. Suchen Sie im Modellkatalog nach Gemma 4 12B
  3. Wählen Sie eine Quantisierung, die zu Ihrem RAM passt, und laden Sie sie herunter
  4. Ă–ffnen Sie den Chat-Tab und beginnen Sie mit der Eingabe

LM Studio betreibt auch einen lokalen Server mit einem OpenAI-kompatiblen Endpunkt, normalerweise auf Port 1234, sodass Sie eine API erhalten, ohne Code schreiben zu mĂĽssen. Dies ist der benutzerfreundlichste Weg fĂĽr Designer, Autoren und alle, die ein Chatfenster einer Konfigurationsdatei vorziehen.

Methode 4: llama.cpp (leichtgewichtig und schnell)

llama.cpp fĂĽhrt GGUF-Modelle mit geringem Overhead aus und liefert einen eigenen OpenAI-kompatiblen Server mit.

Installation:

# macOS
brew install llama.cpp

# Windows
winget install llama.cpp

Starten Sie dann einen Server, der auf den offiziellen GGUF-Build verweist. Durchsuchen Sie die Sammlung ggml-org/gemma-4 auf Hugging Face nach dem genauen 12B-Repo-Namen und ĂĽbergeben Sie ihn dann an llama-server:

llama-server -hf ggml-org/gemma-4-12B-it-GGUF

Das stellt eine OpenAI-kompatible API unter http://localhost:8080/v1 bereit. Dieser Weg ist am besten, wenn Sie minimale Abhängigkeiten wünschen oder auf bescheidener Hardware laufen. Es ist auch die Engine unter mehreren anderen Tools, sodass sich das Erlernen auszahlt.

Methode 5: Hugging Face Transformers (volle Kontrolle)

FĂĽr Notebooks, Skripte oder Feinabstimmung fĂĽhren Sie das Modell mit Transformers in Python aus. Wenn Sie keine lokale GPU haben, bietet Ihnen ein kostenloses Google Colab-Notebook eine.

Installieren Sie die Bibliotheken:

pip install transformers torch accelerate torchvision
# add librosa for audio and video input
pip install librosa

Laden Sie dann das auf Anweisungen abgestimmte Modell und generieren Sie:

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
print(processor.parse_response(response))

Setzen Sie enable_thinking=True, um den Schritt-für-Schritt-Denkmodus zu aktivieren. Um eine Bild- oder Audiodatei einzugeben, fügen Sie eine Inhaltsliste mit {"type": "image", ...} vor dem Text und {"type": "audio", ...} danach hinzu. Die Gewichte sind auch auf Kaggle verfügbar, falls Sie diese Quelle bevorzugen. Vollständige Code-Muster finden Sie im Entwicklerhandbuch.

Methode 6: Google AI Edge (auf dem Gerät und mobil)

Um Gemma 4 12B auf einem Telefon oder Edge-Gerät auszuführen, liefert Google den AI Edge Stack. Die Google AI Edge Gallery App und die LiteRT-LM CLI führen beide die 12B-Version auf dem Gerät aus.

FĂĽr einen lokalen Server mit LiteRT-LM:

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve

Dies ist der Weg für mobile Offline-Assistenten und eingebettete Anwendungen, bei denen Daten das Gerät nie verlassen.

Testen Sie Ihre lokale Gemma 4 12B API mit Apidog

Sobald Gemma 4 12B über Ollama oder llama.cpp läuft, haben Sie eine echte HTTP-API auf Ihrem Computer. Bevor Sie sie in eine App integrieren, ist es hilfreich, sie in einem geeigneten API-Client zu testen, um die genaue Anfragen- und Antwortstruktur zu kennen. Apidog ist dafür gemacht.

Hier ist eine saubere Einrichtung:

  1. Laden Sie Apidog herunter und erstellen Sie ein neues HTTP-Projekt
  2. FĂĽgen Sie eine POST-Anfrage zu http://localhost:11434/v1/chat/completions hinzu
  3. Stellen Sie den Body auf JSON ein und fĂĽgen Sie eine Beispiel-Payload ein:
{
  "model": "gemma4:12b",
  "messages": [
    {"role": "user", "content": "Return a JSON object with two fields: city and country."}
  ],
  "stream": false
}
  1. Speichern Sie die Basis-URL als Umgebungsvariable, damit Sie mit einem Klick zwischen Ollama (:11434) und llama.cpp (:8080) wechseln können
  2. Fügen Sie eine Antwortprüfung hinzu, um zu bestätigen, dass das Modell gültiges JSON im Feld content zurückgibt
  3. Ändern Sie "stream": true und beobachten Sie, wie Apidog die gestreamten Token rendert. So können Sie bestätigen, dass das Streaming funktioniert, bevor Sie eine Benutzeroberfläche darum herum aufbauen.

Der Vorteil: Sie fangen eine falsch formatierte Eingabeaufforderung oder einen falschen Feldnamen in Apidog ab, nicht drei Ebenen tief in Ihrem Anwendungscode. Wenn Sie Clients vergleichen, sehen Sie sich unsere Zusammenfassung der kostenlosen Online-API-Test-Tools und die besten Postman-Alternativen an. Der gleiche Testablauf funktioniert fĂĽr jeden OpenAI-kompatiblen Endpunkt, sodass die Gewohnheiten direkt auf Workflows im Postman-Stil ĂĽbertragbar sind.

Welche Quantisierung sollten Sie wählen?

Gemma 4 12B passt zu verschiedenen Maschinen, je nachdem, wie stark es komprimiert ist:

Build Benötigter Speicher Kompromiss
Volle Präzision ~16 GB Beste Qualität
8-Bit ~14 GB Nahezu volle Qualität
4-Bit (Q4_K_M) ~8 GB Leichter Qualitätsverlust, läuft weit verbreitet

Ollama verwendet standardmäßig den 4-Bit-Build, weshalb es auf einer 8 GB GPU oder einem 16 GB MacBook läuft. Wenn Sie ausreichend Kapazitäten haben, bietet Ihnen der 8-Bit-Build einen Qualitätsschub für ein paar zusätzliche Gigabyte.

Welche kostenlose Methode sollten Sie wählen?

Ein schneller Entscheidungsbaum:

Die meisten Entwickler entscheiden sich für Ollama für den täglichen Gebrauch und behalten Transformers für anspruchsvollere Aufgaben.

Tipps, um das Beste aus der kostenlosen lokalen Gemma herauszuholen

FAQ

Ist Gemma 4 12B wirklich kostenlos? Ja. Es ist Apache 2.0 quelloffen (Open-Weights), kostenlos herunterzuladen und auszufĂĽhren, auch kommerziell. Sie zahlen nur fĂĽr die Hardware oder Cloud, auf der Sie es ausfĂĽhren.

Benötige ich eine GPU? Nein, aber es hilft. Der 4-Bit-Build läuft auf einer 8 GB GPU oder einem 16 GB Unified-Memory Mac. Nur mit CPU funktioniert es, läuft aber langsam.

Kann ich Gemma 4 12B in Google AI Studio verwenden? Derzeit nicht. AI Studio hostet die 31B- und 26B-Modelle fĂĽr kostenlosen Browser-Chat. Die 12B-Version ist fĂĽr die lokale und On-Device-Nutzung konzipiert, daher fĂĽhren Sie sie selbst mit den oben genannten Methoden aus.

Benötigt die lokale API einen API-Schlüssel? Nein. Ollama und llama.cpp stellen das Modell auf localhost ohne Schlüssel bereit. Wenn ein Tool ein Schlüsselfeld erfordert, geben Sie eine beliebige Platzhalterzeichenfolge ein; der lokale Server ignoriert sie.

Kann ich es von meinem bestehenden OpenAI-Code aus aufrufen? Ja. Sowohl Ollama als auch llama.cpp stellen OpenAI-kompatible Endpunkte bereit. Richten Sie Ihre Basis-URL auf http://localhost:11434/v1 (Ollama) oder http://localhost:8080/v1 (llama.cpp) und behalten Sie Ihren Code bei.

Wie verwende ich die Bild- und Audiofunktionen? Verwenden Sie Transformers, LM Studio oder die AI Edge Apps, die multimodale Eingaben unterstĂĽtzen. FĂĽgen Sie Bildinhalte vor Ihrer Texteingabe und Audioinhalte danach hinzu.

Was ist schneller, Ollama oder llama.cpp? Sie verwenden dieselbe zugrunde liegende Engine. llama.cpp hat weniger Overhead und mehr Optimierungsflags; Ollama ist einfacher einzurichten. FĂĽr die meisten Menschen ist der Unterschied gering.

button

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen