Tarifs Gemini 3.5 Flash: Quel est le coût réel?

Google a lancé Gemini 3.5 Flash le 19 mai 2026, et l'affirmation principale concernant le prix est audacieuse : « moins de la moitié du coût des autres modèles de pointe » pour les tâches d'agent. C'est la ligne marketing. Ce guide fait le calcul réel.

Vous trouverez les tarifs par jeton, les plafonds du niveau gratuit, la remise pour le mode batch, des scénarios de coûts réels pour les charges de travail courantes, et une comparaison des coûts côte à côte avec GPT-5.5 et Claude Opus 4.7. À la fin, vous saurez exactement ce que coûte l'exécution de Flash et où vous pouvez économiser 50 % ou plus sans sacrifier grand-chose.

Résumé rapide

Type de coût	Tarif
Entrée standard	~1,50 $ / 1M jetons
Sortie standard	~9,00 $ / 1M jetons
Entrée mode batch	~0,75 $ / 1M jetons (~50 % de réduction)
Sortie mode batch	~4,50 $ / 1M jetons (~50 % de réduction)
Entrée mise en cache	tarif réduit (varie)
Niveau gratuit (AI Studio)	~1 500 requêtes/jour, 1M jetons/min, 15 RPM
Nouveau compte Vertex AI	300 $ de crédit sur 90 jours

Tarifs actuels en mai 2026, selon l'annonce de lancement de Google et les listes d'agrégateurs. Toujours vérifier sur la page de tarification officielle avant d'engager un budget.

Tarifs par jeton de Gemini 3.5 Flash

Flash utilise le même modèle de paiement à l'usage que toutes les variantes de Gemini depuis la 2.5 : vous payez par million de jetons d'entrée et par million de jetons de sortie, indépendamment.

Niveau	Entrée (en $/1M)	Sortie (en $/1M)
Standard	~1,50 $	~9,00 $
Entrée mise en cache	remise	s/o
Batch (asynchrone)	~0,75 $	~4,50 $

Deux notes pratiques :

Les jetons ne sont pas des mots. Règle approximative : 1 000 jetons ≈ 750 mots anglais. Un roman de 100 000 mots représente environ 133 000 jetons d'entrée.
La sortie est environ 6 fois plus chère que l'entrée. Les invites qui génèrent des réponses longues coûtent beaucoup plus cher que les invites qui obtiennent des réponses courtes. Les schémas de sortie structurés permettent généralement d'économiser de l'argent par rapport à la prose libre, car le modèle écrit moins.

Pour plus d'informations sur le fonctionnement du mode batch de Gemini, consultez Le mode batch de l'API Gemini est arrivé et est 50 % moins cher.

Niveau gratuit : ce que vous obtenez sans payer

Le niveau gratuit d'AI Studio est livré avec Flash dès le premier jour. Limites au lancement :

1 500 requêtes par jour
1M de jetons par minute
15 requêtes par minute

C'est suffisant pour la plupart des projets personnels, des prototypes internes et des automatisations à petite échelle. Si votre charge de travail correspond à 1 500 appels/jour, vous payez 0 $.

Spécificités du niveau gratuit :

Pas de carte de crédit requise
Même modèle gemini-3.5-flash que le point de terminaison payant
Même modèle de SDK, juste une clé différente
Les invites peuvent être utilisées pour améliorer les modèles de Google (désactivation dans les paramètres d'AI Studio)
Les quotas peuvent changer ; ne misez pas une date de lancement sur les chiffres exacts

Pour le guide de configuration complet, consultez Comment utiliser Gemini 3.5 Flash gratuitement et Comment obtenir une clé API Google Gemini gratuite.

Mode batch : la remise de 50 % que la plupart des équipes manquent

Si votre charge de travail n'a pas besoin de réponses en temps réel, le mode batch réduit les coûts de Flash d'environ moitié.

Comment ça marche :

Soumettez un job batch avec jusqu'à 50 000 invites à la fois
Google les traite dans les 24 heures
Vous payez environ 50 % moins cher par jeton, à la fois pour l'entrée et la sortie

Quand le mode batch est pertinent :

Analyse de documents en masse (revue juridique, tri de tickets de support, modération de contenu)
Génération de contenu nocturne pour les tableaux de bord SaaS
Précalcul de style embedding
Jobs de migration où vous retraitez des données historiques

Quand ce n'est pas le cas :

Interfaces de chat (les utilisateurs n'attendront pas 24 heures)
Boucles d'agent en direct avec interaction utilisateur
Tout ce qui est en temps réel et fait face à l'utilisateur

La plupart des architectures de production devraient utiliser le mode batch pour toute charge de travail qui peut tolérer une latence. Les économies se multiplient rapidement à grande échelle. Détails de configuration dans notre guide du mode batch.

Entrée mise en cache : un autre levier

Si vos invites partagent un long préfixe statique (invite système, grand document de référence, longues instructions), la mise en cache de contexte vous accorde une remise sur la partie mise en cache.

Modèle :

Mettez en cache un document de référence de 100K jetons une fois
Réutilisez-le sur des milliers de requêtes
Payez le tarif plein uniquement sur la nouvelle question, pas sur le préfixe mis en cache

Les économies concrètes dépendent du taux de succès du cache, mais pour les applications de style RAG où les mêmes fragments récupérés reviennent sur plusieurs requêtes, attendez-vous à une réduction des coûts d'entrée de 30 à 60 %.

Scénarios de coûts réels

Le calcul des jetons devient rapidement abstrait. Voici cinq scénarios concrets aux tarifs standards de Flash.

Scénario 1 : Chatbot de support client

10 000 messages utilisateur par jour
Moyenne de 200 jetons d'entrée (message utilisateur + invite système)
Moyenne de 400 jetons de sortie (réponse)

Coût journalier :

Entrée : 10 000 × 200 × (1,50 $ / 1M) = 3,00 $/jour
Sortie : 10 000 × 400 × (9,00 $ / 1M) = 36,00 $/jour
Total : ~39 $/jour, ~1 170 $/mois

Exécutez la même charge de travail en mode batch (si vous pouvez tolérer des réponses groupées) : ~585 $/mois. Ajoutez la mise en cache de contexte pour l'invite système : encore 20 à 30 % de réduction.

Scénario 2 : SaaS de Questions/Réponses sur documents

1 000 documents analysés par jour
Chaque document en moyenne 30K jetons (PDF long)
Chaque Q&A retourne 500 jetons de sortie

Coût journalier :

Entrée : 1 000 × 30 000 × (1,50 $ / 1M) = 45,00 $/jour
Sortie : 1 000 × 500 × (9,00 $ / 1M) = 4,50 $/jour
Total : ~50 $/jour, ~1 500 $/mois

C'est là que le contexte de 1M de Flash brille : pas d'infrastructure de découpage, il suffit d'envoyer le document entier. Comparé au RAG découpé avec un modèle phare, vous paieriez beaucoup plus en API plus infrastructure.

Scénario 3 : Agent autonome de longue durée

Une exécution d'agent = ~50 tours de modèle
Chaque tour en moyenne 5K d'entrée (contexte croissant) et 1K de sortie
200 exécutions par jour

Coût par exécution :

Entrée : 50 × 5 000 × (1,50 $ / 1M) = 0,375 $
Sortie : 50 × 1 000 × (9,00 $ / 1M) = 0,45 $
Par exécution : ~0,83 $

Total quotidien : 200 × 0,83 $ = ~165 $/jour, ~4 950 $/mois

À titre de comparaison, la même charge de travail sur Opus 4.7 (~15 $/75 $ par 1M) coûte environ 25 $/exécution, soit 5 000 $/jour. C'est l'écart de coût agentique que Google met en avant.

Scénario 4 : Pipeline d'extraction de graphiques

5 000 captures d'écran de tableau de bord par jour
Chaque image d'entrée : équivalent à ~1 500 jetons
Sortie : 300 jetons JSON structurés

Coût journalier :

Entrée : 5 000 × 1 500 × (1,50 $ / 1M) = 11,25 $/jour
Sortie : 5 000 × 300 × (9,00 $ / 1M) = 13,50 $/jour
Total : ~25 $/jour, ~750 $/mois

Ajoutez le mode batch et la même charge de travail coûte environ 375 $/mois. Le raisonnement de CharXiv à 84,2 % signifie que la qualité est maintenue.

Scénario 5 : Génération de contenu à grand volume

100 000 articles courts générés par jour
500 jetons d'entrée, 2 000 jetons de sortie chacun

Coût journalier :

Entrée : 100 000 × 500 × (1,50 $ / 1M) = 75 $/jour
Sortie : 100 000 × 2 000 × (9,00 $ / 1M) = 1 800 $/jour
Total : ~1 875 $/jour, ~56 250 $/mois

Passez cela en mode batch et la facture mensuelle chute à environ 28 000 $. À cette échelle, vous voudriez également tester le routage des pièces de routine vers des modèles encore moins chers comme 3.1 Flash-Lite et réserver Flash pour les générations plus difficiles.

Coût vs GPT-5.5 et Opus 4.7

La comparaison des prix principaux :

Modèle	Entrée (en $/1M)	Sortie (en $/1M)	Multiple vs Flash
Gemini 3.5 Flash	~1,50 $	~9,00 $	1× (référence)
GPT-5.5	~10 $	~30 $	6,7× entrée, 3,3× sortie
Claude Opus 4.7	~15 $	~75 $	10× entrée, 8,3× sortie

Exécutez le Scénario 1 (chat de support client) pour chacun :

Flash : 39 $/jour
GPT-5.5 : ~140 $/jour (3,6× plus)
Opus 4.7 : ~330 $/jour (8,5× plus)

C'est l'écart de coût agentique qui motive la ligne marketing de Google. Les fleurons offrent une qualité marginalement meilleure sur les tâches les plus difficiles ; pour les charges de travail quotidiennes, Flash est suffisant pour une fraction du prix.

Pour des analyses plus approfondies, consultez la tarification de GPT-5.5 et notre comparaison à trois.

Coût vs autres variantes de Gemini

Modèle	Entrée (en $/1M)	Sortie (en $/1M)	Quand l'utiliser
Gemini 3.1 Flash-Lite	~0,40 $	~2,00 $	Travail de routine à grand volume
Gemini 3 Flash	~0,50 $	~3,00 $	Génération précédente, toujours solide
Gemini 3.1 Pro	~2,00 $	~12,00 $	Travail intensif en raisonnement avant 3.5 Pro
Gemini 3.5 Flash	~1,50 $	~9,00 $	Nouveau standard pour la plupart des charges de travail
Gemini 3.5 Pro (Juin 2026)	À déterminer	À déterminer	Tâches de raisonnement les plus difficiles

Flash est plus cher que ses prédécesseurs 3.x Flash, mais de manière crédible moins cher que l'ancien niveau Pro. Pour la plupart des équipes, c'est le bon compromis : meilleur que Flash 3.x, coûte moins cher que Pro 3.x.

Pour l'ancienne ligne Gemini, voir 3.1 Flash-Lite, tarification de l'API 3.0, et 3 Flash.

Tarification Vertex AI (production)

Si vous appelez Flash via Vertex AI au lieu d'AI Studio, la tarification par jeton est la même. Les différences sont les fonctionnalités de facturation et de compte :

Authentification par compte de service au lieu des clés API
Journaux d'audit dans Cloud Logging
Contrôles de la résidence des données
Pas de niveau gratuit, mais un crédit de 300 $ pour un nouveau compte couvre environ 90 jours d'utilisation modérée
Quotas personnalisés que vous pouvez négocier à grande échelle

Pour la plupart des équipes de production, le chemin est le suivant : prototyper sur le niveau gratuit d'AI Studio, passer à la version payante d'AI Studio pour l'échelle, puis migrer vers Vertex AI lorsque vous avez besoin de contrôles d'entreprise. Le comportement du modèle est identique pour les trois.

Conseils d'optimisation des coûts

Six habitudes concrètes qui réduisent le plus les factures Flash :

Utilisez le mode batch pour tout ce qui n'a pas besoin de réponse en temps réel. 50 % de réduction, sans perte de qualité.
Mettez en cache les longs préfixes statiques. Les invites système, les documents de référence, les instructions, sont tous de bons candidats.
Utilisez la sortie JSON structurée. Force le modèle à écrire moins, plus rapidement et moins cher que la prose libre.
Dirigez par complexité de tâche. Tâches faciles vers Flash-Lite ; tâches difficiles vers Flash ; la rare tâche complexe vers 3.5 Pro lorsqu'il sera disponible.
Pré-validez les entrées. Ne brûlez pas de jetons sur des requêtes mal formées. Apidog les détecte avant qu'elles n'atteignent l'API.
Suivez le coût par invite. Ajoutez un middleware de journalisation qui enregistre les jetons d'entrée/sortie par requête. Les dépassements de coût proviennent presque toujours de quelques invites aberrantes.

Pour le flux de validation d'invite, téléchargez Apidog, créez un scénario de test pour votre point de terminaison Gemini et ajoutez des assertions de forme de réponse. Brûler la même requête cassée 200 fois lors d'une session de débogage, c'est ainsi que les équipes gaspillent leurs quotas de niveau gratuit en un seul après-midi.

Quand le niveau gratuit ne suffit pas

Trois signaux pour passer du niveau gratuit à Flash payant :

Vous atteignez 1 500 requêtes/jour plusieurs jours de suite. Le paiement à l'utilisation est suffisamment bon marché pour que le temps de développement passé à contourner les quotas coûte plus cher que la mise à niveau.
Vous avez besoin d'un débit RPM plus élevé. Le niveau gratuit est plafonné à 15 requêtes par minute ; les niveaux payants vont beaucoup plus haut.
Vous avez besoin de la résidence des données ou de journaux d'audit. Passez à Vertex AI sur un compte facturé.

La plupart des équipes constatent que 50 à 200 $ par mois d'utilisation payante de Flash remplace beaucoup de jonglerie avec le niveau gratuit.

Risques de tarification et ce qu'il faut surveiller

Trois choses qui pourraient changer les calculs :

Resserrement des quotas. Google a historiquement réduit les quotas du niveau gratuit à mesure que les modèles vieillissent. Ne basez pas votre architecture sur le chiffre exact de 1 500/jour.
Prix de lancement de Pro. Lorsque 3.5 Pro sera lancé en juin, la tarification de Flash pourrait augmenter ou diminuer en fonction de la manière dont Google positionne les niveaux.
Surcharges régionales. La tarification de Vertex AI varie selon les régions. Le centre des États-Unis est la référence la moins chère ; attendez-vous à des primes de 10 à 20 % dans certaines régions.

Mettez en place des alertes de coût dès le premier jour. AI Studio (dans la page des quotas du projet) et Vertex AI (dans Cloud Billing) prennent en charge les plafonds budgétaires quotidiens. Utilisez-les.

En résumé

Gemini 3.5 Flash est suffisamment abordable pour que la plupart des charges de travail d'IA en production en 2026 devraient commencer par là. Les tarifs standards (1,50 $ / 9 $ par 1M de jetons) sont inférieurs à toutes les autres options de pointe. Le mode batch et la mise en cache de contexte réduisent encore davantage le coût effectif.

Pour les charges de travail où Flash ne suffit pas, la bonne approche consiste à mélanger les niveaux : Flash pour la majeure partie, un modèle phare comme GPT-5.5 ou Opus 4.7 pour les tâches les plus difficiles. Le routage par complexité de tâche est l'optimisation des coûts la plus efficace que vous puissiez faire.

Pour mettre cela en pratique :

Téléchargez Apidog et enregistrez le point de terminaison Gemini 3.5 Flash comme requête
Construisez une petite évaluation comparant Flash à votre modèle actuel sur 20 invites réelles
Enregistrez le nombre de jetons ; extrapolez le coût mensuel
Décidez où Flash remplace un modèle plus cher et où il ne le fait pas

C'est deux jours de travail qui rapportent généralement en un seul cycle de facturation.

bouton