Google Gemini API Batch-Modus: 50% günstiger

Googles Gemini API bietet jetzt den Batch-Modus, ein transformatives Update, das für große, asynchrone Aufgaben entwickelt wurde und mit einer Kostenreduzierung von 50 % einhergeht. 🚀

Dieser leistungsstarke Endpunkt ermöglicht es Ihnen, riesige Aufträge zu verarbeiten, wobei Ihre Ergebnisse innerhalb von 24 Stunden geliefert werden, alles zum halben Standard-API-Preis.
Das System ist für Workloads mit hohem Durchsatz ausgelegt, unterstützt JSONL-Dateien bis zu 2 GB und nutzt Optimierungen wie Context Caching für höhere Effizienz.
Es unterstützt auch integrierte Tools wie Google Search und wird über eine einfache API zum Erstellen, Löschen und Abrufen von Aufträgen verwaltet, was die massive KI-Verarbeitung erschwinglicher und unkomplizierter macht.

Werfen wir also einen genaueren Blick auf den neuen Google Gemini API Batch-Modus!

💡

Möchten Sie ein großartiges API-Testtool, das schöne API-Dokumentation generiert?

Möchten Sie eine integrierte All-in-One-Plattform, damit Ihr Entwicklerteam mit maximaler Produktivität zusammenarbeiten kann?

Apidog erfüllt all Ihre Anforderungen und ersetzt Postman zu einem wesentlich günstigeren Preis!

button

Preise des Gemini API Batch-Modus

Ein Hauptvorteil des Gemini API Batch-Modus ist eine erhebliche Kostenreduzierung. Alle über diesen Endpunkt übermittelten Aufträge werden zu 50 % unter dem Standardtarif für das äquivalente Modell berechnet, das in einem synchronen (Echtzeit-)Aufruf verwendet wird.

Dieser Rabatt von 50 % gilt direkt für die Preisstruktur pro Token. Unabhängig davon, ob Sie gemini-2.5-pro, gemini-2.5-flash oder ein anderes unterstütztes Modell verwenden, werden die Kosten für Eingabe- und Ausgabe-Tokens halbiert, wenn sie über einen Batch-Job verarbeitet werden. Dieses Preismodell macht es finanziell machbar, große Aufgaben auszuführen, wie das Analysieren von Terabytes von Textdaten oder das Generieren von Inhalten für einen gesamten Produktkatalog, die mit der Standard-API zu kostspielig wären. Die Kosten werden weiterhin basierend auf der Anzahl der Tokens in Ihrer Eingabe und der generierten Ausgabe berechnet, aber der Preis pro Token ist derjenige, der rabattiert wird.

Wie man den Gemini API Batch-Modus verwendet: Eine Schritt-für-Schritt-Anleitung

Der Workflow für den Gemini API Batch-Modus ist unkompliziert gestaltet und umfasst die Dateivorbereitung, Auftragserstellung und Ergebnisabfrage. Die folgenden Abschnitte bieten eine praktische Anleitung zur Verwendung des Google GenAI Python SDK.

Schritt 1: Vorbereiten Ihrer Eingabedatei für den Gemini API Batch-Modus

Der Gemini API Batch-Modus verarbeitet Anfragen aus einer JSON Lines (JSONL)-Datei. Jede Zeile in der Datei muss ein gültiges JSON-Objekt sein, das eine einzelne, in sich geschlossene Anfrage darstellt. Die Datei kann bis zu 2 GB groß sein.

Jedes JSON-Objekt in der Datei muss zwei Felder enthalten:

key: Ein eindeutiger Zeichenfolgen-Identifikator (nach Ihrer Wahl) für jede Anfrage, der verwendet wird, um Anfragen mit ihren Ergebnissen zu korrelieren.
request: Die Anfrage-Payload, die in ihrer Struktur identisch mit einer an die synchrone Gemini API gesendeten Anfrage ist. Sie enthält ein contents-Feld mit dem Modell-Prompt.

Beispiel batch_requests.jsonl:

{"key": "request_1", "request": {"contents": [{"parts": [{"text": "Explain how AI works in a few words"}]}]}}
{"key": "request_2", "request": {"contents": [{"parts": [{"text": "Summarize the key benefits of context caching in LLMs."}]}]}}
{"key": "request_3", "request": {"contents": [{"parts": [{"text": "Write a python function to reverse a string."}]}]}}

Schritt 2: Der Programmier-Workflow für den Gemini API Batch-Modus

Das Python SDK vereinfacht den Prozess der Interaktion mit dem Batching-Endpunkt auf wenige wichtige Funktionsaufrufe.

Eingabedatei hochladen: Zuerst müssen Sie Ihre JSONL-Datei in den Dateidienst von Google hochladen. Dies gibt ein Datei-Objekt zurück, auf das Sie sich beim Erstellen des Auftrags beziehen werden.

import google.generativeai as genai

# It is recommended to configure your API key as an environment variable
# genai.configure(api_key="YOUR_API_KEY")

uploaded_batch_requests = genai.upload_file(path="batch_requests.jsonl")

Batch-Job erstellen: Nachdem die Datei hochgeladen wurde, können Sie nun den Batch-Job erstellen. Dieser Aufruf erfordert die Angabe des Modells, das Sie verwenden möchten, und die Bereitstellung der hochgeladenen Datei als Quelle für Anfragen.

batch_job = genai.create_batch_job(
    model="gemini-2.5-flash",  # Or "gemini-2.5-pro", etc.
    requests=uploaded_batch_requests,
    config={
        'display_name': "MyFirstBatchJob-1",
    },
)
print(f"Created batch job: {batch_job.name}")
print(f"Initial state: {batch_job.state.name}")

Diese Funktion kehrt sofort zurück und liefert den Namen des Jobs und seinen anfänglichen Status, der typischerweise JOB_STATE_PENDING ist.

Schritt 3: Verwalten und Überwachen von Jobs im Gemini API Batch-Modus

Da Batch-Jobs asynchron sind, müssen Sie ihren Status überwachen. Sie können den aktuellen Status eines Jobs jederzeit über seinen Namen abrufen. Jobs werden garantiert innerhalb eines 24-Stunden-Fensters abgeschlossen.

Die möglichen Job-Zustände sind:

JOB_STATE_UNSPECIFIED: Standardzustand.
JOB_STATE_PENDING: Der Job wurde erstellt und wartet auf die Verarbeitung.
JOB_STATE_RUNNING: Der Job wird aktiv verarbeitet.
JOB_STATE_SUCCEEDED: Der Job wurde erfolgreich abgeschlossen.
JOB_STATE_FAILED: Der Job ist fehlgeschlagen. Das error-Feld des Job-Objekts enthält Diagnoseinformationen.
JOB_STATE_CANCELLING: Eine Abbruchanforderung wurde empfangen.
JOB_STATE_CANCELLED: Der Job wurde abgebrochen.

Beispiel für die Überprüfung des Job-Status:

# Check the status after some time has passed
retrieved_job = genai.get_batch_job(name=batch_job.name)
print(f"Current job state: {retrieved_job.state.name}")

Schritt 4: Verarbeiten von Ergebnissen aus dem Gemini API Batch-Modus

Sobald der Job-Status JOB_STATE_SUCCEEDED ist, stehen die Ergebnisse als JSONL-Datei zum Download bereit. Jede Zeile in der Ausgabedatei entspricht einer Anfrage aus der Eingabedatei.

Das Ausgabe-JSON-Objekt enthält den key aus der ursprünglichen Anfrage und ein response-Objekt, das die Ausgabe des Modells enthält.

Ergebnisdatei herunterladen:

if retrieved_job.state.name == 'JOB_STATE_SUCCEEDED':
    result_file_metadata = retrieved_job.result_file
    result_file_content_bytes = genai.download_file(name=result_file_metadata.name).read()
    
    # Decode and process the results
    file_content = result_file_content_bytes.decode('utf-8')
    for line in file_content.splitlines():
        print(line)
elif retrieved_job.state.name == 'JOB_STATE_FAILED':
    print(f"Job failed with error: {retrieved_job.error}")

Beispiel einer Ausgabedateizeile:

{"key": "request_1", "response": {"candidates": [{"content": {"parts": [{"text": "Artificial intelligence enables machines to learn and reason."}]}}]}}

Sie können diese Datei parsen und den key verwenden, um jede Antwort ihrem ursprünglichen Prompt zuzuordnen.

Erweiterte Funktionalität im Gemini API Batch-Modus

Der Gemini API Batch-Modus unterstützt auch erweiterte Funktionen zur Optimierung von Workflows in großem Maßstab.

Kontext-Caching mit dem Gemini API Batch-Modus

Für Aufgaben, die einen großen, gemeinsamen Kontext (z. B. ein langes Dokument, zu dem Sie mehrere Fragen stellen möchten) umfassen, können Sie Context Caching verwenden. Diese Funktion ermöglicht es Ihnen, den gemeinsamen Kontext zwischenzuspeichern, sodass er nicht bei jeder einzelnen Anfrage im Batch neu verarbeitet wird. Dies kann zu weiteren erheblichen Kosteneinsparungen und schnelleren Verarbeitungszeiten führen, indem die Gesamtzahl der verarbeiteten Tokens reduziert wird.

Verwenden integrierter Tools mit dem Gemini API Batch-Modus

Batch-Jobs unterstützen die Nutzung von Tools, einschließlich der integrierten Google Search-Funktionalität. Dies ermöglicht es Ihnen, große Aufgaben auszuführen, die erfordern, dass das Modell in Echtzeit Informationen aus dem Web abruft und verarbeitet. Zum Beispiel könnte ein Batch-Job so konfiguriert werden, dass er Tausende von URLs analysiert und deren Inhalt zusammenfasst.

Google hat mehrere Organisationen hervorgehoben, die diese Funktionalität bereits nutzen:

Reforged Labs verwendet den Gemini API Batch-Modus, um große Mengen von Videoanzeigen zu analysieren und zu kennzeichnen, wodurch Kosten gesenkt und der Workflow beschleunigt werden.
Vals AI nutzt den hohen Durchsatz des Batch-Modus, um Basismodelle mit einer großen Anzahl von Bewertungsanfragen zu benchmarken und dabei die Ratenbegrenzungen synchroner APIs zu umgehen.

Fazit: Der technische Wert des Gemini API Batch-Modus

Der Gemini API Batch-Modus bietet eine technisch robuste und finanziell vorteilhafte Lösung für die groß angelegte, asynchrone KI-Verarbeitung. Durch eine Kostenreduzierung von 50 %, einen vereinfachten dateibasierten Workflow und die Unterstützung erweiterter Funktionen wie Kontext-Caching und Tool-Nutzung beseitigt er die technischen und finanziellen Hürden, die mit Hochdurchsatz-KI-Aufgaben verbunden sind. Er ist ein unverzichtbares Werkzeug für Entwickler und Organisationen, die die volle Leistung der Gemini-Modelle auf riesigen Datensätzen nutzen möchten.

💡

button