Gemini 3.5 Flash Preis: Was kostet es wirklich?

Ashley Innocent

Ashley Innocent

20 May 2026

Gemini 3.5 Flash Preis: Was kostet es wirklich?

Apidog für Unternehmen

On-Premises-Bereitstellung

SSO & RBAC

SOC 2 konform

Apidog Enterprise entdecken

Google hat Gemini 3.5 Flash am 19. Mai 2026 veröffentlicht, und der zentrale Preisanspruch ist kühn: „weniger als die Hälfte der Kosten anderer Spitzenmodelle“ für Agentenaufgaben. Das ist die Marketingaussage. Dieser Leitfaden macht die eigentliche Rechnung.

Sie finden die Raten pro Token, die Limits der kostenlosen Stufe, den Batch-Modus-Rabatt, reale Kostenszenarien für gängige Arbeitslasten und einen direkten Kostenvergleich mit GPT-5.5 und Claude Opus 4.7. Am Ende wissen Sie genau, was der Betrieb von Flash kostet und wo Sie 50 % oder mehr sparen können, ohne viel aufzugeben.

Kurze Zusammenfassung

Kostentyp Rate
Standardeingabe ~1,50 $ / 1 Mio. Tokens
Standardausgabe ~9,00 $ / 1 Mio. Tokens
Batch-Modus Eingabe ~0,75 $ / 1 Mio. Tokens (~50 % Rabatt)
Batch-Modus Ausgabe ~4,50 $ / 1 Mio. Tokens (~50 % Rabatt)
Gecachte Eingabe reduzierter Tarif (variiert)
Kostenlose Stufe (AI Studio) ~1.500 Anfragen/Tag, 1 Mio. Tokens/Min, 15 Anfragen/Min
Vertex AI neues Konto 300 $ Guthaben über 90 Tage

Die Tarife sind aktuell Stand Mai 2026 gemäß Googles Ankündigung und Aggregator-Einträgen. Überprüfen Sie diese immer auf der offiziellen Preisgestaltungsseite, bevor Sie ein Budget festlegen.

Gemini 3.5 Flash Token-Preise

Flash verwendet dasselbe Pay-as-you-go-Modell, das jede Gemini-Variante seit 2.5 verwendet hat: Sie zahlen pro Million Eingabe-Tokens und pro Million Ausgabe-Tokens, unabhängig voneinander.

Stufe Eingabe ($/1 Mio.) Ausgabe ($/1 Mio.)
Standard ~1,50 $ ~9,00 $
Gecachte Eingabe vergünstigt n/a
Batch (asynchron) ~0,75 $ ~4,50 $

Zwei praktische Hinweise:

Hintergrundinformationen zur Funktionsweise des Batch-Modus von Gemini finden Sie unter Gemini API Batch-Modus ist da und 50 % günstiger.

Kostenlose Stufe: Was Sie ohne Bezahlung erhalten

Die kostenlose AI Studio-Stufe wird von Anfang an mit Flash ausgeliefert. Limits beim Start:

Das reicht für die meisten Nebenprojekte, internen Prototypen und kleine Automatisierungen. Wenn Ihre Arbeitslast innerhalb von 1.500 Aufrufen/Tag liegt, zahlen Sie 0 $.

Besonderheiten der kostenlosen Stufe:

Eine vollständige Einrichtungsanleitung finden Sie unter So verwenden Sie Gemini 3.5 Flash kostenlos und So erhalten Sie einen kostenlosen Google Gemini API-Schlüssel.

Batch-Modus: Der 50%-Rabatt, den die meisten Teams verpassen

Wenn Ihre Arbeitslast keine Echtzeitantworten benötigt, halbiert der Batch-Modus die Flash-Kosten ungefähr.

So funktioniert es:

  1. Senden Sie einen Batch-Job mit bis zu 50.000 Prompts gleichzeitig
  2. Google verarbeitet sie innerhalb von 24 Stunden
  3. Sie zahlen ~50 % weniger pro Token, sowohl für Eingabe als auch Ausgabe

Wann der Batch-Modus sinnvoll ist:

Wann nicht:

Die meisten Produktions-Stacks sollten den Batch-Modus für jede Arbeitslast verwenden, die Latenz tolerieren kann. Die Einsparungen summieren sich bei Skalierung schnell. Einrichtungsdetails in unserem Batch-Modus-Leitfaden.

Gecachte Eingabe: ein weiterer Hebel

Wenn Ihre Prompts ein langes statisches Präfix teilen (System-Prompt, großes Referenzdokument, lange Anweisungen), erhalten Sie durch Kontext-Caching einen Rabatt auf den gecachten Teil.

Muster:

Konkrete Einsparungen hängen von der Cache-Trefferquote ab, aber bei RAG-ähnlichen Anwendungen, bei denen dieselben abgerufenen Chunks über Abfragen hinweg zurückkommen, erwarten Sie eine Reduzierung der Eingabekosten um 30–60 %.

Praktische Kostenszenarien

Die Token-Mathematik wird schnell abstrakt. Hier sind fünf konkrete Szenarien zu den Standardtarifen von Flash.

Szenario 1: Kundensupport-Chatbot

Tägliche Kosten:

Führen Sie dieselbe Arbeitslast im Batch-Modus aus (wenn Sie gebündelte Antworten tolerieren können): ~585 $/Monat. Fügen Sie Kontext-Caching für den System-Prompt hinzu: weitere 20–30 % Rabatt.

Szenario 2: Dokumenten-Q&A-SaaS

Tägliche Kosten:

Hier glänzt der 1-Mio.-Kontext von Flash: keine Chunking-Infrastruktur, senden Sie einfach das gesamte Dokument. Im Vergleich zu einem gechunkten RAG mit einem Flaggschiff-Modell würden Sie um ein Vielfaches mehr an API- und Infrastrukturkosten zahlen.

Szenario 3: Langlaufender autonomer Agent

Kosten pro Lauf:

Tagesgesamt: 200 × 0,83 $ = ~165 $/Tag, ~4.950 $/Monat

Zum Vergleich: Dieselbe Arbeitslast auf Opus 4.7 (~15 $/75 $ pro 1 Mio.) kostet etwa 25 $/Lauf oder 5.000 $/Tag. Das ist die Kostenlücke bei Agentenaufgaben, auf die Googles Behauptung abzielt.

Szenario 4: Diagramm-Extraktionspipeline

Tägliche Kosten:

Fügen Sie den Batch-Modus hinzu, und dieselbe Arbeitslast läuft für ~375 $/Monat. CharXiv-Argumentation bei 84,2 % bedeutet, dass die Qualität erhalten bleibt.

Szenario 5: Hochvolumige Inhaltserstellung

Tägliche Kosten:

Verschieben Sie dies in den Batch-Modus, und die monatliche Rechnung sinkt auf ~28.000 $. In diesem Umfang würden Sie auch Routineaufgaben an noch günstigere Modelle wie 3.1 Flash-Lite weiterleiten und Flash für anspruchsvollere Generierungen reservieren wollen.

Kosten im Vergleich zu GPT-5.5 und Opus 4.7

Der Preisvergleich im Überblick:

Modell Eingabe ($/1 Mio.) Ausgabe ($/1 Mio.) Vielfaches im Vergleich zu Flash
Gemini 3.5 Flash ~1,50 $ ~9,00 $ 1× (Basislinie)
GPT-5.5 ~10 $ ~30 $ 6,7× Eingabe, 3,3× Ausgabe
Claude Opus 4.7 ~15 $ ~75 $ 10× Eingabe, 8,3× Ausgabe

Führen Sie Szenario 1 (Kundensupport-Chat) für jedes aus:

Dies ist die Kostenlücke bei Agentenaufgaben, die Googles Marketingstrategie antreibt. Die Flaggschiffe liefern bei den schwierigsten Aufgaben eine marginal bessere Qualität; für alltägliche Arbeitslasten ist Flash zu einem Bruchteil des Preises ausreichend.

Für detailliertere Aufschlüsselungen siehe GPT-5.5 Preise und unseren Drei-Wege-Vergleich.

Kosten im Vergleich zu anderen Gemini-Varianten

Modell Eingabe ($/1 Mio.) Ausgabe ($/1 Mio.) Wann zu verwenden
Gemini 3.1 Flash-Lite ~0,40 $ ~2,00 $ Routinemäßige Arbeiten mit hohem Volumen
Gemini 3 Flash ~0,50 $ ~3,00 $ Letzte Generation, immer noch solide
Gemini 3.1 Pro ~2,00 $ ~12,00 $ Denkintensive Arbeiten vor 3.5 Pro
Gemini 3.5 Flash ~1,50 $ ~9,00 $ Neue Standardeinstellung für die meisten Arbeitslasten
Gemini 3.5 Pro (Juni 2026) noch festzulegen noch festzulegen Schwierigste Denkaufgaben

Flash ist teurer als seine 3.x Flash-Vorgänger, aber glaubwürdig günstiger als die vorherige Pro-Stufe. Für die meisten Teams ist das der richtige Kompromiss: besser als Flash 3.x, kostet weniger als Pro 3.x.

Für die ältere Gemini-Linie siehe 3.1 Flash-Lite, 3.0 API-Preise und 3 Flash.

Vertex AI Preisgestaltung (Produktion)

Wenn Sie Flash über Vertex AI anstelle von AI Studio aufrufen, ist die Token-basierte Preisgestaltung dieselbe. Die Unterschiede liegen in der Abrechnung und den Kontofunktionen:

Für die meisten Produktionsteams ist der Weg: Prototypenentwicklung auf der kostenlosen AI Studio-Stufe, Umstieg auf die kostenpflichtige AI Studio für Skalierung, dann Wechsel zu Vertex AI, wenn Sie Unternehmenskontrollen benötigen. Das Modellverhalten ist bei allen dreien identisch.

Tipps zur Kostenoptimierung

Sechs konkrete Gewohnheiten, die die Flash-Kosten am stärksten senken:

  1. Verwenden Sie den Batch-Modus für alles, was keine Echtzeitantwort benötigt. 50 % Rabatt, kein Qualitätsverlust.
  2. Cachen Sie lange statische Präfixe. System-Prompts, Referenzdokumente, Anweisungen sind alles gute Kandidaten.
  3. Verwenden Sie strukturierte JSON-Ausgabe. Zwingt das Modell, weniger zu schreiben, sowohl schneller als auch günstiger als freiformatierter Text.
  4. Leiten Sie nach Aufgabenkomplexität. Einfache Aufgaben an Flash-Lite; schwierige an Flash; die seltene Killer-Aufgabe an 3.5 Pro, wenn es verfügbar ist.
  5. Eingaben vorab validieren. Keine Tokens für fehlerhafte Anfragen verschwenden. Apidog fängt diese ab, bevor sie die API erreichen.
  6. Kosten pro Prompt verfolgen. Fügen Sie eine Logging-Middleware hinzu, die Eingabe-/Ausgabe-Tokens pro Anfrage aufzeichnet. Kostenüberschreitungen stammen fast immer von einigen Ausreißer-Prompts.

Für den Prompt-Validierungsablauf laden Sie Apidog herunter, erstellen Sie ein Testszenario für Ihren Gemini-Endpunkt und fügen Sie Assertions zur Antwortform hinzu. Dieselbe fehlerhafte Anfrage 200-mal in einer Debug-Sitzung abzubrennen, ist, wie Teams ihre Free-Tier-Kontingente an einem einzigen Nachmittag verschwenden.

Wenn die kostenlose Stufe nicht ausreicht

Drei Signale für ein Upgrade von der kostenlosen auf die kostenpflichtige Flash-Version:

  1. Sie erreichen an mehreren Tagen hintereinander 1.500 Anfragen/Tag. Pay-as-you-go ist günstig genug, dass die Entwicklungszeit, die für das Umgehen von Quoten aufgewendet wird, mehr kostet als das Upgrade.
  2. Sie benötigen einen höheren RPM-Durchsatz. Die kostenlose Stufe ist auf 15 Anfragen pro Minute begrenzt; kostenpflichtige Stufen gehen viel höher.
  3. Sie benötigen Datenresidenz oder Audit-Logs. Wechseln Sie zu Vertex AI mit einem kostenpflichtigen Konto.

Die meisten Teams stellen fest, dass 50–200 $/Monat für die kostenpflichtige Flash-Nutzung viel Jonglieren mit der kostenlosen Stufe ersetzt.

Preisrisiken und worauf zu achten ist

Drei Dinge, die die Berechnung ändern könnten:

Richten Sie Kostenwarnungen am ersten Tag ein. Sowohl AI Studio (auf der Kontingentseite des Projekts) als auch Vertex AI (in Cloud Billing) unterstützen tägliche Budgetobergrenzen. Nutzen Sie diese.

Fazit

Gemini 3.5 Flash ist günstig genug, dass die meisten KI-Produktionsarbeitslasten im Jahr 2026 dort beginnen sollten. Die Standardtarife (1,50 $ / 9 $ pro 1 Mio. Tokens) unterbieten jede andere Option der Spitzenklasse. Der Batch-Modus und das Kontext-Caching drücken die effektiven Kosten noch weiter nach unten.

Für Arbeitslasten, bei denen Flash nicht ausreicht, ist es der richtige Schritt, die Stufen zu mischen: Flash für die Masse, ein Flaggschiff wie GPT-5.5 oder Opus 4.7 für die schwierigsten Aufgaben. Das Routing nach Aufgabenkomplexität ist die effektivste Kostenoptimierung, die Sie vornehmen können.

Um dies in die Praxis umzusetzen:

Das sind zwei Tage Arbeit, die sich normalerweise in einem einzigen Abrechnungszyklus bezahlt machen.

Download

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen