Google hat Gemini 3.5 Flash am 19. Mai 2026 veröffentlicht, und der zentrale Preisanspruch ist kühn: „weniger als die Hälfte der Kosten anderer Spitzenmodelle“ für Agentenaufgaben. Das ist die Marketingaussage. Dieser Leitfaden macht die eigentliche Rechnung.
Sie finden die Raten pro Token, die Limits der kostenlosen Stufe, den Batch-Modus-Rabatt, reale Kostenszenarien für gängige Arbeitslasten und einen direkten Kostenvergleich mit GPT-5.5 und Claude Opus 4.7. Am Ende wissen Sie genau, was der Betrieb von Flash kostet und wo Sie 50 % oder mehr sparen können, ohne viel aufzugeben.

Kurze Zusammenfassung
| Kostentyp | Rate |
|---|---|
| Standardeingabe | ~1,50 $ / 1 Mio. Tokens |
| Standardausgabe | ~9,00 $ / 1 Mio. Tokens |
| Batch-Modus Eingabe | ~0,75 $ / 1 Mio. Tokens (~50 % Rabatt) |
| Batch-Modus Ausgabe | ~4,50 $ / 1 Mio. Tokens (~50 % Rabatt) |
| Gecachte Eingabe | reduzierter Tarif (variiert) |
| Kostenlose Stufe (AI Studio) | ~1.500 Anfragen/Tag, 1 Mio. Tokens/Min, 15 Anfragen/Min |
| Vertex AI neues Konto | 300 $ Guthaben über 90 Tage |
Die Tarife sind aktuell Stand Mai 2026 gemäß Googles Ankündigung und Aggregator-Einträgen. Überprüfen Sie diese immer auf der offiziellen Preisgestaltungsseite, bevor Sie ein Budget festlegen.
Gemini 3.5 Flash Token-Preise
Flash verwendet dasselbe Pay-as-you-go-Modell, das jede Gemini-Variante seit 2.5 verwendet hat: Sie zahlen pro Million Eingabe-Tokens und pro Million Ausgabe-Tokens, unabhängig voneinander.
| Stufe | Eingabe ($/1 Mio.) | Ausgabe ($/1 Mio.) |
|---|---|---|
| Standard | ~1,50 $ | ~9,00 $ |
| Gecachte Eingabe | vergünstigt | n/a |
| Batch (asynchron) | ~0,75 $ | ~4,50 $ |
Zwei praktische Hinweise:
- Tokens sind keine Wörter. Grobe Regel: 1.000 Tokens ≈ 750 englische Wörter. Ein Roman mit 100.000 Wörtern entspricht etwa 133.000 Eingabe-Tokens.
- Die Ausgabe ist etwa 6-mal teurer als die Eingabe. Prompts, die lange Antworten hervorrufen, kosten viel mehr als Prompts, die kurze Antworten erhalten. Strukturierte Ausgabeschemata sparen in der Regel Geld gegenüber freiformatiertem Text, da das Modell weniger schreibt.
Hintergrundinformationen zur Funktionsweise des Batch-Modus von Gemini finden Sie unter Gemini API Batch-Modus ist da und 50 % günstiger.
Kostenlose Stufe: Was Sie ohne Bezahlung erhalten
Die kostenlose AI Studio-Stufe wird von Anfang an mit Flash ausgeliefert. Limits beim Start:
- 1.500 Anfragen pro Tag
- 1 Mio. Tokens pro Minute
- 15 Anfragen pro Minute
Das reicht für die meisten Nebenprojekte, internen Prototypen und kleine Automatisierungen. Wenn Ihre Arbeitslast innerhalb von 1.500 Aufrufen/Tag liegt, zahlen Sie 0 $.
Besonderheiten der kostenlosen Stufe:
- Keine Kreditkarte erforderlich
- Dasselbe
gemini-3.5-flash-Modell wie der kostenpflichtige Endpunkt - Dasselbe SDK-Muster, nur ein anderer Schlüssel
- Prompts können zur Verbesserung der Google-Modelle verwendet werden (Deaktivierung in den AI Studio-Einstellungen möglich)
- Quoten können sich ändern; verlassen Sie sich bei einer Startfrist nicht auf die genauen Zahlen
Eine vollständige Einrichtungsanleitung finden Sie unter So verwenden Sie Gemini 3.5 Flash kostenlos und So erhalten Sie einen kostenlosen Google Gemini API-Schlüssel.
Batch-Modus: Der 50%-Rabatt, den die meisten Teams verpassen
Wenn Ihre Arbeitslast keine Echtzeitantworten benötigt, halbiert der Batch-Modus die Flash-Kosten ungefähr.
So funktioniert es:
- Senden Sie einen Batch-Job mit bis zu 50.000 Prompts gleichzeitig
- Google verarbeitet sie innerhalb von 24 Stunden
- Sie zahlen ~50 % weniger pro Token, sowohl für Eingabe als auch Ausgabe
Wann der Batch-Modus sinnvoll ist:
- Massen-Dokumentenanalyse (Rechtsprüfung, Support-Ticket-Triage, Inhaltsmoderation)
- Nachtbasierte Inhaltserstellung für SaaS-Dashboards
- Embedding-ähnliche Vorberechnung
- Migrationsjobs, bei denen Sie historische Daten neu verarbeiten
Wann nicht:
- Chat-UIs (Benutzer werden keine 24 Stunden warten)
- Live-Agent-Schleifen mit Benutzerinteraktion
- Alles Benutzer-relevante in Echtzeit
Die meisten Produktions-Stacks sollten den Batch-Modus für jede Arbeitslast verwenden, die Latenz tolerieren kann. Die Einsparungen summieren sich bei Skalierung schnell. Einrichtungsdetails in unserem Batch-Modus-Leitfaden.
Gecachte Eingabe: ein weiterer Hebel
Wenn Ihre Prompts ein langes statisches Präfix teilen (System-Prompt, großes Referenzdokument, lange Anweisungen), erhalten Sie durch Kontext-Caching einen Rabatt auf den gecachten Teil.
Muster:
- Ein 100.000 Token Referenzdokument einmal cachen
- Es über Tausende von Abfragen hinweg wiederverwenden
- Den vollen Tarif nur für die neue Frage zahlen, nicht für das gecachte Präfix
Konkrete Einsparungen hängen von der Cache-Trefferquote ab, aber bei RAG-ähnlichen Anwendungen, bei denen dieselben abgerufenen Chunks über Abfragen hinweg zurückkommen, erwarten Sie eine Reduzierung der Eingabekosten um 30–60 %.
Praktische Kostenszenarien
Die Token-Mathematik wird schnell abstrakt. Hier sind fünf konkrete Szenarien zu den Standardtarifen von Flash.
Szenario 1: Kundensupport-Chatbot
- 10.000 Benutzernachrichten pro Tag
- Durchschnittlich 200 Eingabe-Tokens (Benutzernachricht + System-Prompt)
- Durchschnittlich 400 Ausgabe-Tokens (Antwort)
Tägliche Kosten:
- Eingabe: 10.000 × 200 × (1,50 $ / 1 Mio.) = 3,00 $/Tag
- Ausgabe: 10.000 × 400 × (9,00 $ / 1 Mio.) = 36,00 $/Tag
- Gesamt: ~39 $/Tag, ~1.170 $/Monat
Führen Sie dieselbe Arbeitslast im Batch-Modus aus (wenn Sie gebündelte Antworten tolerieren können): ~585 $/Monat. Fügen Sie Kontext-Caching für den System-Prompt hinzu: weitere 20–30 % Rabatt.
Szenario 2: Dokumenten-Q&A-SaaS
- 1.000 Dokumente pro Tag analysiert
- Jedes Dokument durchschnittlich 30.000 Tokens (langes PDF)
- Jede Frage-Antwort-Runde liefert 500 Ausgabe-Tokens
Tägliche Kosten:
- Eingabe: 1.000 × 30.000 × (1,50 $ / 1 Mio.) = 45,00 $/Tag
- Ausgabe: 1.000 × 500 × (9,00 $ / 1 Mio.) = 4,50 $/Tag
- Gesamt: ~50 $/Tag, ~1.500 $/Monat
Hier glänzt der 1-Mio.-Kontext von Flash: keine Chunking-Infrastruktur, senden Sie einfach das gesamte Dokument. Im Vergleich zu einem gechunkten RAG mit einem Flaggschiff-Modell würden Sie um ein Vielfaches mehr an API- und Infrastrukturkosten zahlen.
Szenario 3: Langlaufender autonomer Agent
- Ein Agentenlauf = ~50 Modellrunden
- Jede Runde durchschnittlich 5.000 Eingabe (wachsender Kontext) und 1.000 Ausgabe
- 200 Läufe pro Tag
Kosten pro Lauf:
- Eingabe: 50 × 5.000 × (1,50 $ / 1 Mio.) = 0,375 $
- Ausgabe: 50 × 1.000 × (9,00 $ / 1 Mio.) = 0,45 $
- Pro Lauf: ~0,83 $
Tagesgesamt: 200 × 0,83 $ = ~165 $/Tag, ~4.950 $/Monat
Zum Vergleich: Dieselbe Arbeitslast auf Opus 4.7 (~15 $/75 $ pro 1 Mio.) kostet etwa 25 $/Lauf oder 5.000 $/Tag. Das ist die Kostenlücke bei Agentenaufgaben, auf die Googles Behauptung abzielt.
Szenario 4: Diagramm-Extraktionspipeline
- 5.000 Dashboard-Screenshots pro Tag
- Jede Bildeingabe: Äquivalent von ~1.500 Tokens
- Ausgabe: 300 Tokens strukturiertes JSON
Tägliche Kosten:
- Eingabe: 5.000 × 1.500 × (1,50 $ / 1 Mio.) = 11,25 $/Tag
- Ausgabe: 5.000 × 300 × (9,00 $ / 1 Mio.) = 13,50 $/Tag
- Gesamt: ~25 $/Tag, ~750 $/Monat
Fügen Sie den Batch-Modus hinzu, und dieselbe Arbeitslast läuft für ~375 $/Monat. CharXiv-Argumentation bei 84,2 % bedeutet, dass die Qualität erhalten bleibt.
Szenario 5: Hochvolumige Inhaltserstellung
- 100.000 kurze Artikel pro Tag generiert
- 500 Eingabe-Tokens, 2.000 Ausgabe-Tokens pro Artikel
Tägliche Kosten:
- Eingabe: 100.000 × 500 × (1,50 $ / 1 Mio.) = 75 $/Tag
- Ausgabe: 100.000 × 2.000 × (9,00 $ / 1 Mio.) = 1.800 $/Tag
- Gesamt: ~1.875 $/Tag, ~56.250 $/Monat
Verschieben Sie dies in den Batch-Modus, und die monatliche Rechnung sinkt auf ~28.000 $. In diesem Umfang würden Sie auch Routineaufgaben an noch günstigere Modelle wie 3.1 Flash-Lite weiterleiten und Flash für anspruchsvollere Generierungen reservieren wollen.
Kosten im Vergleich zu GPT-5.5 und Opus 4.7
Der Preisvergleich im Überblick:
| Modell | Eingabe ($/1 Mio.) | Ausgabe ($/1 Mio.) | Vielfaches im Vergleich zu Flash |
|---|---|---|---|
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ | 1× (Basislinie) |
| GPT-5.5 | ~10 $ | ~30 $ | 6,7× Eingabe, 3,3× Ausgabe |
| Claude Opus 4.7 | ~15 $ | ~75 $ | 10× Eingabe, 8,3× Ausgabe |
Führen Sie Szenario 1 (Kundensupport-Chat) für jedes aus:
- Flash: 39 $/Tag
- GPT-5.5: ~140 $/Tag (3,6× mehr)
- Opus 4.7: ~330 $/Tag (8,5× mehr)
Dies ist die Kostenlücke bei Agentenaufgaben, die Googles Marketingstrategie antreibt. Die Flaggschiffe liefern bei den schwierigsten Aufgaben eine marginal bessere Qualität; für alltägliche Arbeitslasten ist Flash zu einem Bruchteil des Preises ausreichend.
Für detailliertere Aufschlüsselungen siehe GPT-5.5 Preise und unseren Drei-Wege-Vergleich.
Kosten im Vergleich zu anderen Gemini-Varianten
| Modell | Eingabe ($/1 Mio.) | Ausgabe ($/1 Mio.) | Wann zu verwenden |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | ~0,40 $ | ~2,00 $ | Routinemäßige Arbeiten mit hohem Volumen |
| Gemini 3 Flash | ~0,50 $ | ~3,00 $ | Letzte Generation, immer noch solide |
| Gemini 3.1 Pro | ~2,00 $ | ~12,00 $ | Denkintensive Arbeiten vor 3.5 Pro |
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ | Neue Standardeinstellung für die meisten Arbeitslasten |
| Gemini 3.5 Pro (Juni 2026) | noch festzulegen | noch festzulegen | Schwierigste Denkaufgaben |
Flash ist teurer als seine 3.x Flash-Vorgänger, aber glaubwürdig günstiger als die vorherige Pro-Stufe. Für die meisten Teams ist das der richtige Kompromiss: besser als Flash 3.x, kostet weniger als Pro 3.x.
Für die ältere Gemini-Linie siehe 3.1 Flash-Lite, 3.0 API-Preise und 3 Flash.
Vertex AI Preisgestaltung (Produktion)
Wenn Sie Flash über Vertex AI anstelle von AI Studio aufrufen, ist die Token-basierte Preisgestaltung dieselbe. Die Unterschiede liegen in der Abrechnung und den Kontofunktionen:
- Dienstkontoberechtigungen anstelle von API-Schlüsseln
- Audit-Logs in Cloud Logging
- Kontrollen zur Datenresidenz
- Keine kostenlose Stufe, aber 300 $ Guthaben für neue Konten decken ~90 Tage moderater Nutzung ab
- Benutzerdefinierte Quoten, die Sie bei Skalierung verhandeln können
Für die meisten Produktionsteams ist der Weg: Prototypenentwicklung auf der kostenlosen AI Studio-Stufe, Umstieg auf die kostenpflichtige AI Studio für Skalierung, dann Wechsel zu Vertex AI, wenn Sie Unternehmenskontrollen benötigen. Das Modellverhalten ist bei allen dreien identisch.
Tipps zur Kostenoptimierung
Sechs konkrete Gewohnheiten, die die Flash-Kosten am stärksten senken:
- Verwenden Sie den Batch-Modus für alles, was keine Echtzeitantwort benötigt. 50 % Rabatt, kein Qualitätsverlust.
- Cachen Sie lange statische Präfixe. System-Prompts, Referenzdokumente, Anweisungen sind alles gute Kandidaten.
- Verwenden Sie strukturierte JSON-Ausgabe. Zwingt das Modell, weniger zu schreiben, sowohl schneller als auch günstiger als freiformatierter Text.
- Leiten Sie nach Aufgabenkomplexität. Einfache Aufgaben an Flash-Lite; schwierige an Flash; die seltene Killer-Aufgabe an 3.5 Pro, wenn es verfügbar ist.
- Eingaben vorab validieren. Keine Tokens für fehlerhafte Anfragen verschwenden. Apidog fängt diese ab, bevor sie die API erreichen.
- Kosten pro Prompt verfolgen. Fügen Sie eine Logging-Middleware hinzu, die Eingabe-/Ausgabe-Tokens pro Anfrage aufzeichnet. Kostenüberschreitungen stammen fast immer von einigen Ausreißer-Prompts.
Für den Prompt-Validierungsablauf laden Sie Apidog herunter, erstellen Sie ein Testszenario für Ihren Gemini-Endpunkt und fügen Sie Assertions zur Antwortform hinzu. Dieselbe fehlerhafte Anfrage 200-mal in einer Debug-Sitzung abzubrennen, ist, wie Teams ihre Free-Tier-Kontingente an einem einzigen Nachmittag verschwenden.
Wenn die kostenlose Stufe nicht ausreicht
Drei Signale für ein Upgrade von der kostenlosen auf die kostenpflichtige Flash-Version:
- Sie erreichen an mehreren Tagen hintereinander 1.500 Anfragen/Tag. Pay-as-you-go ist günstig genug, dass die Entwicklungszeit, die für das Umgehen von Quoten aufgewendet wird, mehr kostet als das Upgrade.
- Sie benötigen einen höheren RPM-Durchsatz. Die kostenlose Stufe ist auf 15 Anfragen pro Minute begrenzt; kostenpflichtige Stufen gehen viel höher.
- Sie benötigen Datenresidenz oder Audit-Logs. Wechseln Sie zu Vertex AI mit einem kostenpflichtigen Konto.
Die meisten Teams stellen fest, dass 50–200 $/Monat für die kostenpflichtige Flash-Nutzung viel Jonglieren mit der kostenlosen Stufe ersetzt.
Preisrisiken und worauf zu achten ist
Drei Dinge, die die Berechnung ändern könnten:
- Quotenstraffung. Google hat historisch die kostenlosen Kontingente mit zunehmendem Alter der Modelle eingeschränkt. Bauen Sie Ihre Architektur nicht auf der exakten Zahl von 1.500/Tag auf.
- Pro-Einführungspreise. Wenn 3.5 Pro im Juni eingeführt wird, können die Flash-Preise je nachdem, wie Google die Stufen positioniert, steigen oder fallen.
- Regionale Aufschläge. Die Vertex AI-Preise variieren je nach Region. US Central ist die günstigste Referenz; erwarten Sie in einigen Regionen Aufschläge von 10–20 %.
Richten Sie Kostenwarnungen am ersten Tag ein. Sowohl AI Studio (auf der Kontingentseite des Projekts) als auch Vertex AI (in Cloud Billing) unterstützen tägliche Budgetobergrenzen. Nutzen Sie diese.
Fazit
Gemini 3.5 Flash ist günstig genug, dass die meisten KI-Produktionsarbeitslasten im Jahr 2026 dort beginnen sollten. Die Standardtarife (1,50 $ / 9 $ pro 1 Mio. Tokens) unterbieten jede andere Option der Spitzenklasse. Der Batch-Modus und das Kontext-Caching drücken die effektiven Kosten noch weiter nach unten.
Für Arbeitslasten, bei denen Flash nicht ausreicht, ist es der richtige Schritt, die Stufen zu mischen: Flash für die Masse, ein Flaggschiff wie GPT-5.5 oder Opus 4.7 für die schwierigsten Aufgaben. Das Routing nach Aufgabenkomplexität ist die effektivste Kostenoptimierung, die Sie vornehmen können.
Um dies in die Praxis umzusetzen:
- Laden Sie Apidog herunter und speichern Sie den Gemini 3.5 Flash Endpunkt als Anfrage
- Erstellen Sie eine kleine Bewertung, die Flash mit Ihrem aktuellen Modell anhand von 20 echten Prompts vergleicht
- Protokollieren Sie die Token-Anzahl; extrapolieren Sie die monatlichen Kosten
- Entscheiden Sie, wo Flash ein teureres Modell ersetzt und wo nicht
Das sind zwei Tage Arbeit, die sich normalerweise in einem einzigen Abrechnungszyklus bezahlt machen.
