Gemma 4 als API Backend betreiben

TL;DR: Google hat im April 2026 Gemma 4 veröffentlicht, eine Familie von vier offenen Modellen, die unter Apache 2.0 lizenziert sind und auf Standard-Benchmarks Modelle übertreffen, die 20-mal so groß sind. Sie können die Gemma 4 API über Google AI Studio, Vertex AI aufrufen oder lokal mit Ollama und vLLM ausführen. Kombinieren Sie es mit Apidogs Smart Mock, um realistische API-Antworten aus Ihren OpenAPI-Schemata automatisch zu generieren, ohne eine einzige Mock-Regel schreiben zu müssen.

Einleitung

Die meisten Open-Source-KI-Modelle zwingen Sie zur Wahl: rohe Leistungsfähigkeit oder einfache Bereitstellung. Entweder erhalten Sie ein Modell, das zu groß ist, um auf Ihrem Laptop ausgeführt zu werden, oder ein kleines Modell, das keine mehrstufige Argumentation bewältigen kann. Gemma 4 durchbricht diesen Kompromiss.

Gemma 4 ist Googles DeepMinds bisher leistungsfähigste offene Modellfamilie. Das 31B Dense Modell belegt Platz 3 unter allen offenen Modellen auf der Bestenliste von Arena AI und übertrifft Konkurrenten, die 20-mal so groß sind. Das 26B Mixture of Experts (MoE) belegt Platz 6. Beide laufen auf einer einzigen 80-GB-GPU. Die leichten E2B- und E4B-Modelle laufen komplett offline auf Telefonen und Edge-Geräten.

Für API-Entwickler ist dies wichtiger, als es scheinen mag. Gemma 4 unterstützt nativ Funktionsaufrufe, strukturierte JSON-Ausgabe und Kontextfenster von 256K. Das macht es zu einer praktischen Wahl für die Entwicklung von KI-gestützten API-Tools, von der Generierung von Testdaten über das Schreiben von Mocks bis zur Analyse von API-Antworten.

💡

Wenn Sie mit Gemma 4 entwickeln und diese KI-generierten Antworten anhand Ihrer OpenAPI-Spezifikation validieren müssen, kann Apidogs Smart Mock Engine schema-konforme Mock-Antworten aus Ihrer API-Definition automatisch generieren. Sie müssen keine individuellen Mock-Regeln schreiben; Smart Mock liest Ihr Schema und erstellt sofort kontextuell passende Daten. Laden Sie Apidog kostenlos herunter und verbinden Sie es mit Ihrem Gemma 4 API-Workflow.

button

Was ist Gemma 4 und was ist neu?

Gemma 4 ist die vierte Generation offener Sprachmodelle von Google DeepMind. Der Name „Gemma“ leitet sich vom lateinischen Wort für Edelstein ab. Die Serie begann Anfang 2024, und seit der Einführung haben Entwickler Gemma-Modelle über 400 Millionen Mal heruntergeladen. Die Community hat mehr als 100.000 Varianten erstellt und damit das gebildet, was Google als „Gemmaverse“ bezeichnet.

Gemma 4 wird unter einer Apache 2.0-Lizenz veröffentlicht, eine wesentliche Änderung gegenüber früheren Generationen, die eine benutzerdefinierte Nutzungsrichtlinie verwendeten. Das bedeutet, Sie können Gemma 4 kommerziell ohne Einschränkung nutzen, modifizieren und verbreiten. Dies ist eine bedeutende Veränderung für Unternehmen und Startups, die die volle Kontrolle über ihre KI-Infrastruktur benötigen.

Die wichtigste Verbesserung in Gemma 4 ist das, was Google als „Intelligenz pro Parameter“ bezeichnet. Das 31B Dense Modell bietet Spitzenleistungen zu einem Bruchteil der Rechenkosten von Modellen wie GPT-4 oder Claude 3 Sonnet. Auf der Text-Bestenliste von Arena AI (Stand April 2026) übertrifft Gemma 4 31B Modelle mit über 600 Milliarden Parametern.

Hier ist, was im Vergleich zu Gemma 3 wirklich neu ist:

Native multimodale Eingabe. Alle vier Gemma 4 Modelle verarbeiten Bilder und Videos nativ. Die Edge-Modelle E2B und E4B fügen native Audioeingabe für die Spracherkennung hinzu. Dies war nicht Teil der Basisfunktionen von Gemma 3.

Längere Kontextfenster. Die E2B- und E4B-Modelle unterstützen 128K Token. Die 26B- und 31B-Modelle erweitern sich auf 256K Token. Das reicht aus, um ein gesamtes Code-Repository in einem einzigen Prompt zu übergeben.

Unterstützung für Agenten-Workflows. Gemma 4 umfasst native Funktionsaufrufe, einen strukturierten JSON-Ausgabemodus und Systemanweisungen. Diese drei Funktionen zusammen machen es praktisch, Agenten zu erstellen, die externe APIs aufrufen, Antworten parsen und Aktionen miteinander verketten.

Fortgeschrittene Argumentation. Das 31B-Modell zeigt im Vergleich zu Gemma 3 signifikante Benchmark-Verbesserungen in Mathematik und bei der Befolgung mehrstufiger Anweisungen. Dies ist wichtig für die API-Testgenerierung, wo das Modell die Beziehungen zwischen Endpunkten und Daten-Schemata verstehen muss.

Unterstützung für über 140 Sprachen. Gemma 4 wurde nativ auf über 140 Sprachen trainiert und nicht nachträglich aus dem Englischen angepasst. Das macht es sofort für globale API-Produkte nutzbar.

Apache 2.0-Lizenzierung. Wie erwähnt, beseitigt dies rechtliche Unklarheiten für die kommerzielle Nutzung. Sie besitzen Ihre Modelle, Ihre Daten und Ihre Bereitstellungen.

Gemma 4 Modellvarianten und Fähigkeiten

Google hat Gemma 4 in vier Größen veröffentlicht, die jeweils auf eine bestimmte Hardware-Tier abzielen:

Modell	Parameter	Aktive Parameter (Inferenz)	Kontext	Am besten geeignet für
E2B	Effektive 2B	~2B	128K	Mobil, IoT, Offline-Edge
E4B	Effektive 4B	~4B	128K	Telefone, Raspberry Pi, Jetson Orin
26B MoE	26B gesamt	~3.8B aktiv	256K	Latenzempfindliche Serveraufgaben
31B Dense	31B	31B	256K	Höchste Qualität, Forschung, Fine-Tuning

Die E2B- und E4B-Modelle verwenden eine Mixture-of-Experts-Architektur, die pro Token nur einen Bruchteil der Gesamtparameter aktiviert. Dies schont die Akkulaufzeit und den Arbeitsspeicher auf ressourcenbeschränkten Geräten. Google hat sie in Zusammenarbeit mit Qualcomm und MediaTek entwickelt, und sie laufen über die AICore Developer Preview komplett offline auf Android.

Das 26B MoE Modell aktiviert während der Inferenz nur 3,8 Milliarden Parameter, obwohl es insgesamt 26 Milliarden Parameter hat. Es ist die schnellste Option für serverseitige Bereitstellung, wenn Sie geringe Latenz wünschen, ohne viel Qualität einzubüßen.

Das 31B Dense Modell ist der Qualitätsführer. Es ist das Modell, das Sie für das Fine-Tuning bei domänenspezifischen Aufgaben oder für jeden Anwendungsfall wählen würden, bei dem die Ausgabequalität wichtiger ist als die Geschwindigkeit. Alle vier Varianten werden in instruktionsoptimierten (IT) und Basisformen ausgeliefert.

Für API-Anwendungsfälle bietet das 26B MoE Modell das beste Verhältnis von Geschwindigkeit und Qualität. Das 31B Dense ist die richtige Wahl, wenn Sie strukturierte JSON-Ausgaben für komplexe API-Antworten benötigen oder wenn Sie Testszenarien mit mehrstufiger Logik generieren.

Alle Modelle unterstützen Funktionsaufrufe und den JSON-Ausgabemodus, welche die beiden Funktionen sind, die Sie beim Erstellen von API-Tools mit Gemma 4 am häufigsten verwenden werden.

Gemma 4 API einrichten: Schritt für Schritt

Sie haben drei Hauptwege, um Gemma 4 aufzurufen: Google AI Studio (am schnellsten), Vertex AI (Unternehmen) oder lokale Bereitstellung mit Ollama oder vLLM. So richten Sie jeden ein.

Option 1: Google AI Studio (empfohlen für Prototyping)

Gehen Sie zu Google AI Studio und erstellen Sie ein kostenloses Konto. Generieren Sie dort einen API-Schlüssel.

Installieren Sie das Google Generative AI SDK:

pip install google-genai

Machen Sie Ihren ersten Aufruf:

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel("gemma-4-31b-it")

response = model.generate_content(
    "Generate a JSON object for a user account with id, email, and created_at fields."
)

print(response.text)

Für strukturierte JSON-Ausgabe verwenden Sie den Parameter response_mime_type:

import google.generativeai as genai
import json

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel(
    "gemma-4-31b-it",
    generation_config={"response_mime_type": "application/json"}
)

prompt = """
Generate 3 sample user objects for an e-commerce API. 
Each user should have: id (integer), email (string), username (string), 
created_at (ISO 8601 timestamp), and subscription_tier (free|pro|enterprise).
Return as a JSON array.
"""

response = model.generate_content(prompt)
users = json.loads(response.text)
print(json.dumps(users, indent=2))

Option 2: Lokale Bereitstellung mit Ollama

Mit Ollama können Sie Gemma 4 vollständig auf Ihrem Rechner ausführen. Installieren Sie Ollama von ollama.com, und laden Sie dann das Modell herunter:

ollama pull gemma4

Starten Sie den Modellserver:

ollama serve

Rufen Sie es mit dem OpenAI-kompatiblen API-Format auf:

import requests
import json

response = requests.post(
    "http://localhost:11434/api/chat",
    json={
        "model": "gemma4",
        "messages": [
            {
                "role": "user",
                "content": "Generate a valid JSON response for a REST API /products endpoint. Include id, name, price, and stock fields."
            }
        ],
        "stream": False
    }
)

result = response.json()
print(result["message"]["content"])

Option 3: Funktionsaufrufe für API-Orchestrierung

Gemma 4 unterstützt native Funktionsaufrufe. Dies ermöglicht es Ihnen, Tools zu definieren, die das Modell während einer Konversation aufrufen kann:

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

# Define a tool that Gemma can call
tools = [
    {
        "function_declarations": [
            {
                "name": "get_api_schema",
                "description": "Retrieve the OpenAPI schema for a given endpoint path",
                "parameters": {
                    "type": "object",
                    "properties": {
                        "endpoint_path": {
                            "type": "string",
                            "description": "The API endpoint path, e.g. /users/{id}"
                        },
                        "method": {
                            "type": "string",
                            "enum": ["GET", "POST", "PUT", "DELETE", "PATCH"]
                        }
                    },
                    "required": ["endpoint_path", "method"]
                }
            }
        ]
    }
]

model = genai.GenerativeModel("gemma-4-31b-it", tools=tools)

response = model.generate_content(
    "I need to test the GET /users/{id} endpoint. What schema should the response follow?"
)

# Check if the model wants to call a function
if response.candidates[0].content.parts[0].function_call:
    fc = response.candidates[0].content.parts[0].function_call
    print(f"Model called function: {fc.name}")
    print(f"With args: {dict(fc.args)}")

Dieses Muster der Funktionsaufrufe macht Gemma 4 nützlich für die Entwicklung von agentengestützten API-Testpipelines.

Erstellen von KI-gestützten API-Mocks mit Gemma 4

Eine der praktischsten Anwendungen von Gemma 4 für API-Entwickler ist die Generierung von Mock-Daten. Wenn Sie ein Frontend entwickeln, bevor das Backend existiert, oder Randfälle testen, die in der Produktion schwer auszulösen sind, benötigen Sie realistische Mock-Antworten.

So verwenden Sie Gemma 4, um Mock-Daten aus einem OpenAPI-Schema zu generieren:

import google.generativeai as genai
import json

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel(
    "gemma-4-31b-it",
    generation_config={"response_mime_type": "application/json"}
)

# Your OpenAPI schema for the response
schema = {
    "type": "object",
    "properties": {
        "id": {"type": "integer"},
        "order_number": {"type": "string", "pattern": "^ORD-[0-9]{6}$"},
        "status": {"type": "string", "enum": ["pending", "shipped", "delivered", "cancelled"]},
        "total": {"type": "number", "minimum": 0},
        "items": {
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "product_id": {"type": "integer"},
                    "quantity": {"type": "integer", "minimum": 1},
                    "unit_price": {"type": "number"}
                }
            }
        },
        "created_at": {"type": "string", "format": "date-time"}
    }
}

prompt = f"""
Generate 5 realistic mock responses for an order management API.
Each response must conform exactly to this JSON Schema:
{json.dumps(schema, indent=2)}

Make the data realistic: use realistic prices, product IDs, and varied statuses.
Return as a JSON array of 5 order objects.
"""

response = model.generate_content(prompt)
mock_orders = json.loads(response.text)
print(json.dumps(mock_orders, indent=2))

Der Schlüssel hier ist, dass Gemma 4 JSON-Schema-Einschränkungen versteht. Es berücksichtigt Enum-Werte, String-Muster und numerische Bereiche. Sie erhalten Mock-Daten, die wirklich Ihrem API-Vertrag entsprechen, keine zufälligen Zeichenketten.

Sie können dieses Muster erweitern, um Mock-Daten für jeden API-Endpunkt zu generieren. Geben Sie das Antwortschema aus Ihrer OpenAPI-Spezifikation ein, und Gemma 4 erstellt schema-konforme Testdaten.

Für fortgeschrittenere Mocks kombinieren Sie Gemma 4 mit bedingter Antwortlogik. Wenn eine Anfrage eine bestimmte Benutzer-ID enthält, geben Sie eine Fehlermeldung zurück. Andernfalls geben Sie Erfolgsdaten zurück. Hier hilft das 256K Kontextfenster von Gemma 4: Sie können Ihre gesamte OpenAPI-Spezifikation in den Prompt aufnehmen und Gemma 4 bitten, Mock-Antworten für mehrere Endpunkte gleichzeitig zu generieren.

Ein praktischer Workflow: Exportieren Sie Ihre Apidog-Sammlung als OpenAPI-Spezifikation, fügen Sie sie in einen Prompt ein und bitten Sie Gemma 4, 10 realistische Testfälle pro Endpunkt zu generieren. Sie erhalten einen vollständigen Mock-Datensatz in Sekunden statt in Stunden.

Testen von Gemma 4 API-Antworten mit Apidog

Sobald Gemma 4 Daten generiert oder als Teil Ihrer API-Pipeline fungiert, müssen Sie überprüfen, ob die Antworten Ihrem Schema entsprechen. Hier kommt die Funktion „Test Scenarios“ von Apidog ins Spiel.

Hier ist der spezifische Workflow:

Schritt 1: Importieren Sie Ihren Gemma 4 API-Endpunkt in Apidog.

Gehen Sie in Apidog zu Ihrem Projekt und erstellen Sie einen neuen Endpunkt. Stellen Sie die URL auf die Wrapper-API ein, die Sie um Gemma 4 herum gebaut haben (oder zeigen Sie direkt auf den Google AI Studio Endpunkt). Definieren Sie das erwartete Antwortschema in der Apidog-Oberfläche.

Schritt 2: Verwenden Sie Smart Mock, um erwartete Antworten zu prototypisieren.

Bevor Sie Live-Tests gegen Gemma 4 ausführen, verwenden Sie Apidogs Smart Mock, um Basisantworten aus Ihrem Schema zu generieren. Smart Mock liest Ihre Antwortspezifikation und erstellt realistische Daten basierend auf Eigenschaftsnamen und -typen. Ein Feld namens email erhält automatisch eine gültige E-Mail-Adresse. Ein Feld namens created_at erhält einen korrekt formatierten Zeitstempel.

Smart Mock verwendet drei Prioritätsebenen: zuerst benutzerdefinierte Mock-Feldwerte, dann die Übereinstimmung von Eigenschaftsnamen (wobei es den Datentyp aus Feldnamen ableitet), dann JSON-Schema-Standardwerte. Diese Hierarchie bedeutet, dass Sie bestimmte Felder überschreiben können, während die Engine den Rest übernimmt.

Schritt 3: Erstellen Sie ein Testszenario für Ihre Gemma 4 Pipeline.

Gehen Sie zum Modul „Tests“ in Apidog und erstellen Sie ein neues Testszenario. Fügen Sie Ihren Gemma 4 API-Aufruf als ersten Schritt hinzu. Fügen Sie dann Assertionsschritte hinzu, um die Antwort zu validieren.

Der Orchestrierungsmodus von Apidogs Testszenarien ermöglicht es Ihnen, mehrere Anfragen zu verketten. Für einen Gemma 4 API-Integrationstest könnte Ihr Szenario wie folgt aussehen:

Rufen Sie Ihren Authentifizierungsendpunkt auf, um einen Token zu erhalten
Senden Sie einen Prompt an Gemma 4 mit dem Auth-Token
Extrahieren Sie das generierte JSON aus dem Antworttext
Validieren Sie das extrahierte JSON anhand Ihrer Schema-Assertions
Übergeben Sie die validierten Daten an einen nachgeschalteten POST-Endpunkt

Schritt 4: Assertions einrichten.

Im Assertionsschritt können Sie Statuscodes, Antwort-Header und JSON-Felder überprüfen. Für Gemma 4 Antworten würden Sie typischerweise assertieren, dass das Feld candidates[0].content.parts[0].text existiert und dass sein geparster Inhalt Ihrem erwarteten Schema entspricht.

Verwenden Sie Apidogs „Extract Variable“-Prozessor, um die Gemma 4 Ausgabe in eine Variable zu ziehen. Verwenden Sie diese Variable dann in nachfolgenden Anfrageschritten. Dies ermöglicht Ihnen, von Gemma 4 generierte Daten durch einen mehrstufigen Test-Workflow zu verketten.

Schritt 5: Ausführung mit datengesteuertem Testen.

Apidog unterstützt CSV- und JSON-Testdatendateien. Sie können 50 verschiedene Prompt-Variationen in einer CSV-Datei definieren, diese in Ihr Testszenario importieren und alle 50 Variationen mit einem Klick ausführen. So testen Sie, ob Ihre Gemma 4 Integration diverse Eingaben korrekt verarbeitet.

Der gesamte Workflow von der Schema-Definition bis zur Testausführung dauert etwa 15 Minuten zur Einrichtung. Danach können Sie ihn bei jedem Commit über die Apidog CLI in Ihrer CI/CD-Pipeline ausführen.

Praktische Anwendungsfälle

API-Testdatengenerierung. QA-Teams verbringen viel Zeit mit dem Schreiben von Test-Fixtures. Mit Gemma 4s JSON-Ausgabemodus und Ihrem OpenAPI-Schema können Sie Hunderte realistischer Testdatensätze in Minuten generieren. Füttern Sie das Schema, geben Sie die Randfälle an, die Sie abdecken möchten, und lassen Sie das Modell die Daten produzieren.

Intelligentes API-Mocking. Traditionelle Mocks liefern statische Daten. Mit Gemma 4 hinter Ihrem Mock-Server können Sie kontextuell passende Antworten zurückgeben. Ein Mock für eine Produktsuch-API könnte verschiedene Produktgruppen basierend auf der Suchanfrage zurückgeben, selbst ohne jeden Fall fest zu codieren.

API-Dokumentationsgenerierung. Gemma 4s 256K Kontextfenster ermöglicht es Ihnen, Ihre gesamte Codebasis in einen Prompt einzuspeisen. Bitten Sie es, OpenAPI-Dokumentation für undokumentierte Endpunkte zu generieren. Die Unterstützung von Funktionsaufrufen bedeutet, dass Sie einen Agenten bauen können, der Ihre Routen-Dateien liest und automatisch API-Spezifikationen schreibt.

Antwortschema-Validierung. Beim Konsumieren von Drittanbieter-APIs möchten Sie validieren, dass die Antworten Ihren Erwartungen entsprechen. Verwenden Sie Gemma 4, um API-Antworten zu analysieren und Schemaverletzungen zu kennzeichnen. Es kann fehlende Felder, inkorrekte Typen und inkonsistente Enums besser erkennen als ein einfacher JSON-Schema-Validator.

Automatisiertes Schreiben von Regressionstests. Geben Sie Gemma 4 Ihre API-Spezifikation und eine Liste von Fehlerberichten. Bitten Sie es, Testfälle zu schreiben, die jeden Fehler abgefangen hätten. Da es die Schema-Beziehungen versteht, kann es nicht-triviale Tests schreiben, die Zustandsübergänge und Feldabhängigkeiten überprüfen.

Gemma 4 im Vergleich zu anderen offenen Modellen für die API-Nutzung

Wie schneidet Gemma 4 im Vergleich zu anderen offenen Modellen ab, wenn Ihr Ziel die Entwicklung von API-Tools ist?

Modell	Parameter	Kontext	JSON-Ausgabe	Funktionsaufruf	Lizenz
Gemma 4 31B	31B	256K	Nativ	Nativ	Apache 2.0
Gemma 4 26B MoE	26B (3.8B aktiv)	256K	Nativ	Nativ	Apache 2.0
Llama 3.3 70B	70B	128K	Über Prompt	Über Prompt	Llama Community
Mistral 7B	7B	32K	Über Prompt	Begrenzt	Apache 2.0
Qwen 2.5 72B	72B	128K	Nativ	Nativ	Apache 2.0

Für API-Anwendungsfälle sind die kritischen Merkmale der native JSON-Ausgabemodus, die Unterstützung von Funktionsaufrufen und die Kontextlänge. Gemma 4 31B und 26B verfügen beide über alle drei.

Llama 3.3 70B ist der Hauptkonkurrent. Es ist ein starkes Modell, benötigt aber die zweifache Rechenleistung von Gemma 4 31B, um zu laufen. Auf der Bestenliste von Arena AI rangiert Gemma 4 31B trotz halber Größe über Llama 3.3 70B. Wenn Sie Inferenzen im großen Maßstab ausführen, führt dieser Unterschied in den GPU-Anforderungen direkt zu Infrastrukturkosten.

Mistral 7B ist viel kleiner und schneller, aber sein 32K Kontextfenster schränkt seine Nützlichkeit für große API-Spezifikationen ein. Ihm fehlt auch ein nativer JSON-Modus und zuverlässige Funktionsaufrufe.

Qwen 2.5 72B ist eine leistungsfähige Alternative, insbesondere für mehrsprachige Anwendungen. Seine API-Tooling-Funktionen sind vergleichbar mit Gemma 4, erfordert jedoch deutlich mehr Hardware.

Die Apache 2.0-Lizenz für Gemma 4 ist ein unterschätzter Vorteil. Llama verwendet die Llama Community License, die Einschränkungen für bestimmte kommerzielle Nutzungen enthält. Wenn Sie ein Produkt auf Basis eines offenen Modells entwickeln, ist die rechtliche Klarheit der Apache 2.0-Lizenz wichtig.

Für die meisten API-Tooling-Anwendungsfälle: Beginnen Sie mit Gemma 4 26B MoE für latenzempfindliche Aufgaben oder Gemma 4 31B für die höchste Ausgabequalität.

Fazit

Gemma 4 bietet Entwicklern eine glaubwürdige offene Alternative zu proprietären KI-APIs für den Bau von API-Tools. Die Apache 2.0-Lizenz beseitigt die rechtlichen Hürden, die frühere offene Modelle kommerziell kompliziert machten. Native Funktionsaufrufe und der JSON-Ausgabemodus machen die Integration in API-Workflows ohne umfangreiches Prompt Engineering praktikabel.

Die vier Modellgrößen decken jede Hardware-Stufe ab, von Telefonen bis zu Workstations. Das 26B MoE Modell ist die herausragende Option für die meisten API-Entwicklungsanwendungsfälle: Es liefert eine Qualität nahe der Spitzenklasse zu einem Bruchteil der Inferenzkosten.

Kombinieren Sie Gemma 4 mit Apidog, um den Kreislauf zwischen KI-generierten Daten und API-Validierung zu schließen. Verwenden Sie Gemma 4, um Testdaten und Mock-Antworten zu generieren. Verwenden Sie Apidogs Smart Mock, um Schemata zu prototypisieren, und seine Testszenarien, um zu validieren, dass die KI-Ausgabe Ihrem API-Vertrag entspricht. Zusammen bilden sie einen praktischen Workflow für die Entwicklung und das Testen von KI-gestützten APIs.

button

FAQ

Was ist Gemma 4?Gemma 4 ist Google DeepMinds neueste Familie offener Sprachmodelle, die im April 2026 veröffentlicht wurde. Sie ist in vier Größen (E2B, E4B, 26B MoE, 31B Dense) erhältlich und unter Apache 2.0 lizenziert. Das 31B-Modell belegt derzeit Platz 3 unter allen offenen Modellen auf der Text-Bestenliste von Arena AI.

Ist Gemma 4 kostenlos nutzbar?Die Modellgewichte können kostenlos heruntergeladen und unter der Apache 2.0-Lizenz verwendet werden. Sie zahlen für die Rechenleistung, wenn Sie es selbst ausführen. Wenn Sie Google AI Studio verwenden, gibt es eine kostenlose Stufe mit Ratenbegrenzungen. Vertex AI berechnet Standard-Google Cloud-Rechenraten.

Kann Gemma 4 strukturiertes JSON ausgeben?Ja. Gemma 4 unterstützt einen nativen Parameter response_mime_type: "application/json" über das Google Generative AI SDK. Dies zwingt das Modell, jedes Mal gültiges JSON zurückzugeben, was für API-Integrationen, bei denen Sie die Ausgabe programmatisch parsen, unerlässlich ist.

Wie schneidet Gemma 4 im Vergleich zu GPT-4o bei der API-Entwicklung ab?GPT-4o ist ein proprietäres Modell ohne lokale Bereitstellungsoption und mit höheren API-Kosten. Gemma 4 31B kann kostenlos lokal bereitgestellt werden, und seine Benchmark-Ergebnisse sind bei Denkaufgaben mit GPT-4o wettbewerbsfähig. Für Teams, die Datenschutz oder Kostenkontrolle benötigen, ist Gemma 4 eine ernsthafte Überlegung wert.

Kann ich Gemma 4 mit meinen eigenen API-Daten feinabstimmen?Ja. Google unterstützt das Fine-Tuning von Gemma 4 über Google AI Studio, Vertex AI und Drittanbieter-Tools wie Hugging Face TRL. Das Fine-Tuning auf domänenspezifische API-Schemata und Antwortmuster kann die Ausgabequalität für spezielle Anwendungsfälle erheblich verbessern.

Welche Hardware benötige ich, um Gemma 4 lokal auszuführen?Die 31B- und 26B-Modelle passen auf eine einzelne 80-GB-NVIDIA H100 in bfloat16. Quantisierte Versionen laufen auf Consumer-GPUs mit 16-24 GB VRAM. Die E4B- und E2B-Modelle laufen auf Telefonen und Edge-Geräten, einschließlich Raspberry Pi und NVIDIA Jetson.

Unterstützt Gemma 4 Funktionsaufrufe?Ja, alle Gemma 4 Modelle unterstützen native Funktionsaufrufe. Sie definieren Tools als JSON-Objekte mit einem Namen, einer Beschreibung und einem Parameter-Schema. Das Modell entscheidet, wann ein Tool aufgerufen wird, und übergibt strukturierte Argumente, die Sie im Code verarbeiten können.

Wie teste ich Gemma 4 API-Antworten automatisch?Verwenden Sie Apidogs Testszenarien, um einen verketteten Test-Workflow zu erstellen. Importieren Sie Ihren Gemma 4 API-Endpunkt, richten Sie Anfrageschritte ein und fügen Sie Assertions hinzu, um die Antwortstruktur zu validieren. Sie können das Szenario lokal, über CLI oder automatisch in Ihrer CI/CD-Pipeline bei jedem Code-Push ausführen.