Gemini 3.5 Flash Preis: Was kostet es wirklich?

Google hat Gemini 3.5 Flash am 19. Mai 2026 veröffentlicht, und der zentrale Preisanspruch ist kühn: „weniger als die Hälfte der Kosten anderer Spitzenmodelle“ für Agentenaufgaben. Das ist die Marketingaussage. Dieser Leitfaden macht die eigentliche Rechnung.

Sie finden die Raten pro Token, die Limits der kostenlosen Stufe, den Batch-Modus-Rabatt, reale Kostenszenarien für gängige Arbeitslasten und einen direkten Kostenvergleich mit GPT-5.5 und Claude Opus 4.7. Am Ende wissen Sie genau, was der Betrieb von Flash kostet und wo Sie 50 % oder mehr sparen können, ohne viel aufzugeben.

Kurze Zusammenfassung

Kostentyp	Rate
Standardeingabe	~1,50 $ / 1 Mio. Tokens
Standardausgabe	~9,00 $ / 1 Mio. Tokens
Batch-Modus Eingabe	~0,75 $ / 1 Mio. Tokens (~50 % Rabatt)
Batch-Modus Ausgabe	~4,50 $ / 1 Mio. Tokens (~50 % Rabatt)
Gecachte Eingabe	reduzierter Tarif (variiert)
Kostenlose Stufe (AI Studio)	~1.500 Anfragen/Tag, 1 Mio. Tokens/Min, 15 Anfragen/Min
Vertex AI neues Konto	300 $ Guthaben über 90 Tage

Die Tarife sind aktuell Stand Mai 2026 gemäß Googles Ankündigung und Aggregator-Einträgen. Überprüfen Sie diese immer auf der offiziellen Preisgestaltungsseite, bevor Sie ein Budget festlegen.

Gemini 3.5 Flash Token-Preise

Flash verwendet dasselbe Pay-as-you-go-Modell, das jede Gemini-Variante seit 2.5 verwendet hat: Sie zahlen pro Million Eingabe-Tokens und pro Million Ausgabe-Tokens, unabhängig voneinander.

Stufe	Eingabe ($/1 Mio.)	Ausgabe ($/1 Mio.)
Standard	~1,50 $	~9,00 $
Gecachte Eingabe	vergünstigt	n/a
Batch (asynchron)	~0,75 $	~4,50 $

Zwei praktische Hinweise:

Tokens sind keine Wörter. Grobe Regel: 1.000 Tokens ≈ 750 englische Wörter. Ein Roman mit 100.000 Wörtern entspricht etwa 133.000 Eingabe-Tokens.
Die Ausgabe ist etwa 6-mal teurer als die Eingabe. Prompts, die lange Antworten hervorrufen, kosten viel mehr als Prompts, die kurze Antworten erhalten. Strukturierte Ausgabeschemata sparen in der Regel Geld gegenüber freiformatiertem Text, da das Modell weniger schreibt.

Hintergrundinformationen zur Funktionsweise des Batch-Modus von Gemini finden Sie unter Gemini API Batch-Modus ist da und 50 % günstiger.

Kostenlose Stufe: Was Sie ohne Bezahlung erhalten

Die kostenlose AI Studio-Stufe wird von Anfang an mit Flash ausgeliefert. Limits beim Start:

1.500 Anfragen pro Tag
1 Mio. Tokens pro Minute
15 Anfragen pro Minute

Das reicht für die meisten Nebenprojekte, internen Prototypen und kleine Automatisierungen. Wenn Ihre Arbeitslast innerhalb von 1.500 Aufrufen/Tag liegt, zahlen Sie 0 $.

Besonderheiten der kostenlosen Stufe:

Keine Kreditkarte erforderlich
Dasselbe gemini-3.5-flash-Modell wie der kostenpflichtige Endpunkt
Dasselbe SDK-Muster, nur ein anderer Schlüssel
Prompts können zur Verbesserung der Google-Modelle verwendet werden (Deaktivierung in den AI Studio-Einstellungen möglich)
Quoten können sich ändern; verlassen Sie sich bei einer Startfrist nicht auf die genauen Zahlen

Eine vollständige Einrichtungsanleitung finden Sie unter So verwenden Sie Gemini 3.5 Flash kostenlos und So erhalten Sie einen kostenlosen Google Gemini API-Schlüssel.

Batch-Modus: Der 50%-Rabatt, den die meisten Teams verpassen

Wenn Ihre Arbeitslast keine Echtzeitantworten benötigt, halbiert der Batch-Modus die Flash-Kosten ungefähr.

So funktioniert es:

Senden Sie einen Batch-Job mit bis zu 50.000 Prompts gleichzeitig
Google verarbeitet sie innerhalb von 24 Stunden
Sie zahlen ~50 % weniger pro Token, sowohl für Eingabe als auch Ausgabe

Wann der Batch-Modus sinnvoll ist:

Massen-Dokumentenanalyse (Rechtsprüfung, Support-Ticket-Triage, Inhaltsmoderation)
Nachtbasierte Inhaltserstellung für SaaS-Dashboards
Embedding-ähnliche Vorberechnung
Migrationsjobs, bei denen Sie historische Daten neu verarbeiten

Wann nicht:

Chat-UIs (Benutzer werden keine 24 Stunden warten)
Live-Agent-Schleifen mit Benutzerinteraktion
Alles Benutzer-relevante in Echtzeit

Die meisten Produktions-Stacks sollten den Batch-Modus für jede Arbeitslast verwenden, die Latenz tolerieren kann. Die Einsparungen summieren sich bei Skalierung schnell. Einrichtungsdetails in unserem Batch-Modus-Leitfaden.

Gecachte Eingabe: ein weiterer Hebel

Wenn Ihre Prompts ein langes statisches Präfix teilen (System-Prompt, großes Referenzdokument, lange Anweisungen), erhalten Sie durch Kontext-Caching einen Rabatt auf den gecachten Teil.

Muster:

Ein 100.000 Token Referenzdokument einmal cachen
Es über Tausende von Abfragen hinweg wiederverwenden
Den vollen Tarif nur für die neue Frage zahlen, nicht für das gecachte Präfix

Konkrete Einsparungen hängen von der Cache-Trefferquote ab, aber bei RAG-ähnlichen Anwendungen, bei denen dieselben abgerufenen Chunks über Abfragen hinweg zurückkommen, erwarten Sie eine Reduzierung der Eingabekosten um 30–60 %.

Praktische Kostenszenarien

Die Token-Mathematik wird schnell abstrakt. Hier sind fünf konkrete Szenarien zu den Standardtarifen von Flash.

Szenario 1: Kundensupport-Chatbot

10.000 Benutzernachrichten pro Tag
Durchschnittlich 200 Eingabe-Tokens (Benutzernachricht + System-Prompt)
Durchschnittlich 400 Ausgabe-Tokens (Antwort)

Tägliche Kosten:

Eingabe: 10.000 × 200 × (1,50 $ / 1 Mio.) = 3,00 $/Tag
Ausgabe: 10.000 × 400 × (9,00 $ / 1 Mio.) = 36,00 $/Tag
Gesamt: ~39 $/Tag, ~1.170 $/Monat

Führen Sie dieselbe Arbeitslast im Batch-Modus aus (wenn Sie gebündelte Antworten tolerieren können): ~585 $/Monat. Fügen Sie Kontext-Caching für den System-Prompt hinzu: weitere 20–30 % Rabatt.

Szenario 2: Dokumenten-Q&A-SaaS

1.000 Dokumente pro Tag analysiert
Jedes Dokument durchschnittlich 30.000 Tokens (langes PDF)
Jede Frage-Antwort-Runde liefert 500 Ausgabe-Tokens

Tägliche Kosten:

Eingabe: 1.000 × 30.000 × (1,50 $ / 1 Mio.) = 45,00 $/Tag
Ausgabe: 1.000 × 500 × (9,00 $ / 1 Mio.) = 4,50 $/Tag
Gesamt: ~50 $/Tag, ~1.500 $/Monat

Hier glänzt der 1-Mio.-Kontext von Flash: keine Chunking-Infrastruktur, senden Sie einfach das gesamte Dokument. Im Vergleich zu einem gechunkten RAG mit einem Flaggschiff-Modell würden Sie um ein Vielfaches mehr an API- und Infrastrukturkosten zahlen.

Szenario 3: Langlaufender autonomer Agent

Ein Agentenlauf = ~50 Modellrunden
Jede Runde durchschnittlich 5.000 Eingabe (wachsender Kontext) und 1.000 Ausgabe
200 Läufe pro Tag

Kosten pro Lauf:

Eingabe: 50 × 5.000 × (1,50 $ / 1 Mio.) = 0,375 $
Ausgabe: 50 × 1.000 × (9,00 $ / 1 Mio.) = 0,45 $
Pro Lauf: ~0,83 $

Tagesgesamt: 200 × 0,83 $ = ~165 $/Tag, ~4.950 $/Monat

Zum Vergleich: Dieselbe Arbeitslast auf Opus 4.7 (~15 $/75 $ pro 1 Mio.) kostet etwa 25 $/Lauf oder 5.000 $/Tag. Das ist die Kostenlücke bei Agentenaufgaben, auf die Googles Behauptung abzielt.

Szenario 4: Diagramm-Extraktionspipeline

5.000 Dashboard-Screenshots pro Tag
Jede Bildeingabe: Äquivalent von ~1.500 Tokens
Ausgabe: 300 Tokens strukturiertes JSON

Tägliche Kosten:

Eingabe: 5.000 × 1.500 × (1,50 $ / 1 Mio.) = 11,25 $/Tag
Ausgabe: 5.000 × 300 × (9,00 $ / 1 Mio.) = 13,50 $/Tag
Gesamt: ~25 $/Tag, ~750 $/Monat

Fügen Sie den Batch-Modus hinzu, und dieselbe Arbeitslast läuft für ~375 $/Monat. CharXiv-Argumentation bei 84,2 % bedeutet, dass die Qualität erhalten bleibt.

Szenario 5: Hochvolumige Inhaltserstellung

100.000 kurze Artikel pro Tag generiert
500 Eingabe-Tokens, 2.000 Ausgabe-Tokens pro Artikel

Tägliche Kosten:

Eingabe: 100.000 × 500 × (1,50 $ / 1 Mio.) = 75 $/Tag
Ausgabe: 100.000 × 2.000 × (9,00 $ / 1 Mio.) = 1.800 $/Tag
Gesamt: ~1.875 $/Tag, ~56.250 $/Monat

Verschieben Sie dies in den Batch-Modus, und die monatliche Rechnung sinkt auf ~28.000 $. In diesem Umfang würden Sie auch Routineaufgaben an noch günstigere Modelle wie 3.1 Flash-Lite weiterleiten und Flash für anspruchsvollere Generierungen reservieren wollen.

Kosten im Vergleich zu GPT-5.5 und Opus 4.7

Der Preisvergleich im Überblick:

Modell	Eingabe ($/1 Mio.)	Ausgabe ($/1 Mio.)	Vielfaches im Vergleich zu Flash
Gemini 3.5 Flash	~1,50 $	~9,00 $	1× (Basislinie)
GPT-5.5	~10 $	~30 $	6,7× Eingabe, 3,3× Ausgabe
Claude Opus 4.7	~15 $	~75 $	10× Eingabe, 8,3× Ausgabe

Führen Sie Szenario 1 (Kundensupport-Chat) für jedes aus:

Flash: 39 $/Tag
GPT-5.5: ~140 $/Tag (3,6× mehr)
Opus 4.7: ~330 $/Tag (8,5× mehr)

Dies ist die Kostenlücke bei Agentenaufgaben, die Googles Marketingstrategie antreibt. Die Flaggschiffe liefern bei den schwierigsten Aufgaben eine marginal bessere Qualität; für alltägliche Arbeitslasten ist Flash zu einem Bruchteil des Preises ausreichend.

Für detailliertere Aufschlüsselungen siehe GPT-5.5 Preise und unseren Drei-Wege-Vergleich.

Kosten im Vergleich zu anderen Gemini-Varianten

Modell	Eingabe ($/1 Mio.)	Ausgabe ($/1 Mio.)	Wann zu verwenden
Gemini 3.1 Flash-Lite	~0,40 $	~2,00 $	Routinemäßige Arbeiten mit hohem Volumen
Gemini 3 Flash	~0,50 $	~3,00 $	Letzte Generation, immer noch solide
Gemini 3.1 Pro	~2,00 $	~12,00 $	Denkintensive Arbeiten vor 3.5 Pro
Gemini 3.5 Flash	~1,50 $	~9,00 $	Neue Standardeinstellung für die meisten Arbeitslasten
Gemini 3.5 Pro (Juni 2026)	noch festzulegen	noch festzulegen	Schwierigste Denkaufgaben

Flash ist teurer als seine 3.x Flash-Vorgänger, aber glaubwürdig günstiger als die vorherige Pro-Stufe. Für die meisten Teams ist das der richtige Kompromiss: besser als Flash 3.x, kostet weniger als Pro 3.x.

Für die ältere Gemini-Linie siehe 3.1 Flash-Lite, 3.0 API-Preise und 3 Flash.

Vertex AI Preisgestaltung (Produktion)

Wenn Sie Flash über Vertex AI anstelle von AI Studio aufrufen, ist die Token-basierte Preisgestaltung dieselbe. Die Unterschiede liegen in der Abrechnung und den Kontofunktionen:

Dienstkontoberechtigungen anstelle von API-Schlüsseln
Audit-Logs in Cloud Logging
Kontrollen zur Datenresidenz
Keine kostenlose Stufe, aber 300 $ Guthaben für neue Konten decken ~90 Tage moderater Nutzung ab
Benutzerdefinierte Quoten, die Sie bei Skalierung verhandeln können

Für die meisten Produktionsteams ist der Weg: Prototypenentwicklung auf der kostenlosen AI Studio-Stufe, Umstieg auf die kostenpflichtige AI Studio für Skalierung, dann Wechsel zu Vertex AI, wenn Sie Unternehmenskontrollen benötigen. Das Modellverhalten ist bei allen dreien identisch.

Tipps zur Kostenoptimierung

Sechs konkrete Gewohnheiten, die die Flash-Kosten am stärksten senken:

Verwenden Sie den Batch-Modus für alles, was keine Echtzeitantwort benötigt. 50 % Rabatt, kein Qualitätsverlust.
Cachen Sie lange statische Präfixe. System-Prompts, Referenzdokumente, Anweisungen sind alles gute Kandidaten.
Verwenden Sie strukturierte JSON-Ausgabe. Zwingt das Modell, weniger zu schreiben, sowohl schneller als auch günstiger als freiformatierter Text.
Leiten Sie nach Aufgabenkomplexität. Einfache Aufgaben an Flash-Lite; schwierige an Flash; die seltene Killer-Aufgabe an 3.5 Pro, wenn es verfügbar ist.
Eingaben vorab validieren. Keine Tokens für fehlerhafte Anfragen verschwenden. Apidog fängt diese ab, bevor sie die API erreichen.
Kosten pro Prompt verfolgen. Fügen Sie eine Logging-Middleware hinzu, die Eingabe-/Ausgabe-Tokens pro Anfrage aufzeichnet. Kostenüberschreitungen stammen fast immer von einigen Ausreißer-Prompts.

Für den Prompt-Validierungsablauf laden Sie Apidog herunter, erstellen Sie ein Testszenario für Ihren Gemini-Endpunkt und fügen Sie Assertions zur Antwortform hinzu. Dieselbe fehlerhafte Anfrage 200-mal in einer Debug-Sitzung abzubrennen, ist, wie Teams ihre Free-Tier-Kontingente an einem einzigen Nachmittag verschwenden.

Wenn die kostenlose Stufe nicht ausreicht

Drei Signale für ein Upgrade von der kostenlosen auf die kostenpflichtige Flash-Version:

Sie erreichen an mehreren Tagen hintereinander 1.500 Anfragen/Tag. Pay-as-you-go ist günstig genug, dass die Entwicklungszeit, die für das Umgehen von Quoten aufgewendet wird, mehr kostet als das Upgrade.
Sie benötigen einen höheren RPM-Durchsatz. Die kostenlose Stufe ist auf 15 Anfragen pro Minute begrenzt; kostenpflichtige Stufen gehen viel höher.
Sie benötigen Datenresidenz oder Audit-Logs. Wechseln Sie zu Vertex AI mit einem kostenpflichtigen Konto.

Die meisten Teams stellen fest, dass 50–200 $/Monat für die kostenpflichtige Flash-Nutzung viel Jonglieren mit der kostenlosen Stufe ersetzt.

Preisrisiken und worauf zu achten ist

Drei Dinge, die die Berechnung ändern könnten:

Quotenstraffung. Google hat historisch die kostenlosen Kontingente mit zunehmendem Alter der Modelle eingeschränkt. Bauen Sie Ihre Architektur nicht auf der exakten Zahl von 1.500/Tag auf.
Pro-Einführungspreise. Wenn 3.5 Pro im Juni eingeführt wird, können die Flash-Preise je nachdem, wie Google die Stufen positioniert, steigen oder fallen.
Regionale Aufschläge. Die Vertex AI-Preise variieren je nach Region. US Central ist die günstigste Referenz; erwarten Sie in einigen Regionen Aufschläge von 10–20 %.

Richten Sie Kostenwarnungen am ersten Tag ein. Sowohl AI Studio (auf der Kontingentseite des Projekts) als auch Vertex AI (in Cloud Billing) unterstützen tägliche Budgetobergrenzen. Nutzen Sie diese.

Fazit

Gemini 3.5 Flash ist günstig genug, dass die meisten KI-Produktionsarbeitslasten im Jahr 2026 dort beginnen sollten. Die Standardtarife (1,50 $ / 9 $ pro 1 Mio. Tokens) unterbieten jede andere Option der Spitzenklasse. Der Batch-Modus und das Kontext-Caching drücken die effektiven Kosten noch weiter nach unten.

Für Arbeitslasten, bei denen Flash nicht ausreicht, ist es der richtige Schritt, die Stufen zu mischen: Flash für die Masse, ein Flaggschiff wie GPT-5.5 oder Opus 4.7 für die schwierigsten Aufgaben. Das Routing nach Aufgabenkomplexität ist die effektivste Kostenoptimierung, die Sie vornehmen können.

Um dies in die Praxis umzusetzen:

Laden Sie Apidog herunter und speichern Sie den Gemini 3.5 Flash Endpunkt als Anfrage
Erstellen Sie eine kleine Bewertung, die Flash mit Ihrem aktuellen Modell anhand von 20 echten Prompts vergleicht
Protokollieren Sie die Token-Anzahl; extrapolieren Sie die monatlichen Kosten
Entscheiden Sie, wo Flash ein teureres Modell ersetzt und wo nicht

Das sind zwei Tage Arbeit, die sich normalerweise in einem einzigen Abrechnungszyklus bezahlt machen.

Download