Google a lancé Gemini 3.5 Flash le 19 mai 2026, et l'affirmation principale concernant le prix est audacieuse : « moins de la moitié du coût des autres modèles de pointe » pour les tâches d'agent. C'est la ligne marketing. Ce guide fait le calcul réel.
Vous trouverez les tarifs par jeton, les plafonds du niveau gratuit, la remise pour le mode batch, des scénarios de coûts réels pour les charges de travail courantes, et une comparaison des coûts côte à côte avec GPT-5.5 et Claude Opus 4.7. À la fin, vous saurez exactement ce que coûte l'exécution de Flash et où vous pouvez économiser 50 % ou plus sans sacrifier grand-chose.

Résumé rapide
| Type de coût | Tarif |
|---|---|
| Entrée standard | ~1,50 $ / 1M jetons |
| Sortie standard | ~9,00 $ / 1M jetons |
| Entrée mode batch | ~0,75 $ / 1M jetons (~50 % de réduction) |
| Sortie mode batch | ~4,50 $ / 1M jetons (~50 % de réduction) |
| Entrée mise en cache | tarif réduit (varie) |
| Niveau gratuit (AI Studio) | ~1 500 requêtes/jour, 1M jetons/min, 15 RPM |
| Nouveau compte Vertex AI | 300 $ de crédit sur 90 jours |
Tarifs actuels en mai 2026, selon l'annonce de lancement de Google et les listes d'agrégateurs. Toujours vérifier sur la page de tarification officielle avant d'engager un budget.
Tarifs par jeton de Gemini 3.5 Flash
Flash utilise le même modèle de paiement à l'usage que toutes les variantes de Gemini depuis la 2.5 : vous payez par million de jetons d'entrée et par million de jetons de sortie, indépendamment.
| Niveau | Entrée (en $/1M) | Sortie (en $/1M) |
|---|---|---|
| Standard | ~1,50 $ | ~9,00 $ |
| Entrée mise en cache | remise | s/o |
| Batch (asynchrone) | ~0,75 $ | ~4,50 $ |
Deux notes pratiques :
- Les jetons ne sont pas des mots. Règle approximative : 1 000 jetons ≈ 750 mots anglais. Un roman de 100 000 mots représente environ 133 000 jetons d'entrée.
- La sortie est environ 6 fois plus chère que l'entrée. Les invites qui génèrent des réponses longues coûtent beaucoup plus cher que les invites qui obtiennent des réponses courtes. Les schémas de sortie structurés permettent généralement d'économiser de l'argent par rapport à la prose libre, car le modèle écrit moins.
Pour plus d'informations sur le fonctionnement du mode batch de Gemini, consultez Le mode batch de l'API Gemini est arrivé et est 50 % moins cher.
Niveau gratuit : ce que vous obtenez sans payer
Le niveau gratuit d'AI Studio est livré avec Flash dès le premier jour. Limites au lancement :
- 1 500 requêtes par jour
- 1M de jetons par minute
- 15 requêtes par minute
C'est suffisant pour la plupart des projets personnels, des prototypes internes et des automatisations à petite échelle. Si votre charge de travail correspond à 1 500 appels/jour, vous payez 0 $.
Spécificités du niveau gratuit :
- Pas de carte de crédit requise
- Même modèle
gemini-3.5-flashque le point de terminaison payant - Même modèle de SDK, juste une clé différente
- Les invites peuvent être utilisées pour améliorer les modèles de Google (désactivation dans les paramètres d'AI Studio)
- Les quotas peuvent changer ; ne misez pas une date de lancement sur les chiffres exacts
Pour le guide de configuration complet, consultez Comment utiliser Gemini 3.5 Flash gratuitement et Comment obtenir une clé API Google Gemini gratuite.
Mode batch : la remise de 50 % que la plupart des équipes manquent
Si votre charge de travail n'a pas besoin de réponses en temps réel, le mode batch réduit les coûts de Flash d'environ moitié.
Comment ça marche :
- Soumettez un job batch avec jusqu'à 50 000 invites à la fois
- Google les traite dans les 24 heures
- Vous payez environ 50 % moins cher par jeton, à la fois pour l'entrée et la sortie
Quand le mode batch est pertinent :
- Analyse de documents en masse (revue juridique, tri de tickets de support, modération de contenu)
- Génération de contenu nocturne pour les tableaux de bord SaaS
- Précalcul de style embedding
- Jobs de migration où vous retraitez des données historiques
Quand ce n'est pas le cas :
- Interfaces de chat (les utilisateurs n'attendront pas 24 heures)
- Boucles d'agent en direct avec interaction utilisateur
- Tout ce qui est en temps réel et fait face à l'utilisateur
La plupart des architectures de production devraient utiliser le mode batch pour toute charge de travail qui peut tolérer une latence. Les économies se multiplient rapidement à grande échelle. Détails de configuration dans notre guide du mode batch.
Entrée mise en cache : un autre levier
Si vos invites partagent un long préfixe statique (invite système, grand document de référence, longues instructions), la mise en cache de contexte vous accorde une remise sur la partie mise en cache.
Modèle :
- Mettez en cache un document de référence de 100K jetons une fois
- Réutilisez-le sur des milliers de requêtes
- Payez le tarif plein uniquement sur la nouvelle question, pas sur le préfixe mis en cache
Les économies concrètes dépendent du taux de succès du cache, mais pour les applications de style RAG où les mêmes fragments récupérés reviennent sur plusieurs requêtes, attendez-vous à une réduction des coûts d'entrée de 30 à 60 %.
Scénarios de coûts réels
Le calcul des jetons devient rapidement abstrait. Voici cinq scénarios concrets aux tarifs standards de Flash.
Scénario 1 : Chatbot de support client
- 10 000 messages utilisateur par jour
- Moyenne de 200 jetons d'entrée (message utilisateur + invite système)
- Moyenne de 400 jetons de sortie (réponse)
Coût journalier :
- Entrée : 10 000 × 200 × (1,50 $ / 1M) = 3,00 $/jour
- Sortie : 10 000 × 400 × (9,00 $ / 1M) = 36,00 $/jour
- Total : ~39 $/jour, ~1 170 $/mois
Exécutez la même charge de travail en mode batch (si vous pouvez tolérer des réponses groupées) : ~585 $/mois. Ajoutez la mise en cache de contexte pour l'invite système : encore 20 à 30 % de réduction.
Scénario 2 : SaaS de Questions/Réponses sur documents
- 1 000 documents analysés par jour
- Chaque document en moyenne 30K jetons (PDF long)
- Chaque Q&A retourne 500 jetons de sortie
Coût journalier :
- Entrée : 1 000 × 30 000 × (1,50 $ / 1M) = 45,00 $/jour
- Sortie : 1 000 × 500 × (9,00 $ / 1M) = 4,50 $/jour
- Total : ~50 $/jour, ~1 500 $/mois
C'est là que le contexte de 1M de Flash brille : pas d'infrastructure de découpage, il suffit d'envoyer le document entier. Comparé au RAG découpé avec un modèle phare, vous paieriez beaucoup plus en API plus infrastructure.
Scénario 3 : Agent autonome de longue durée
- Une exécution d'agent = ~50 tours de modèle
- Chaque tour en moyenne 5K d'entrée (contexte croissant) et 1K de sortie
- 200 exécutions par jour
Coût par exécution :
- Entrée : 50 × 5 000 × (1,50 $ / 1M) = 0,375 $
- Sortie : 50 × 1 000 × (9,00 $ / 1M) = 0,45 $
- Par exécution : ~0,83 $
Total quotidien : 200 × 0,83 $ = ~165 $/jour, ~4 950 $/mois
À titre de comparaison, la même charge de travail sur Opus 4.7 (~15 $/75 $ par 1M) coûte environ 25 $/exécution, soit 5 000 $/jour. C'est l'écart de coût agentique que Google met en avant.
Scénario 4 : Pipeline d'extraction de graphiques
- 5 000 captures d'écran de tableau de bord par jour
- Chaque image d'entrée : équivalent à ~1 500 jetons
- Sortie : 300 jetons JSON structurés
Coût journalier :
- Entrée : 5 000 × 1 500 × (1,50 $ / 1M) = 11,25 $/jour
- Sortie : 5 000 × 300 × (9,00 $ / 1M) = 13,50 $/jour
- Total : ~25 $/jour, ~750 $/mois
Ajoutez le mode batch et la même charge de travail coûte environ 375 $/mois. Le raisonnement de CharXiv à 84,2 % signifie que la qualité est maintenue.
Scénario 5 : Génération de contenu à grand volume
- 100 000 articles courts générés par jour
- 500 jetons d'entrée, 2 000 jetons de sortie chacun
Coût journalier :
- Entrée : 100 000 × 500 × (1,50 $ / 1M) = 75 $/jour
- Sortie : 100 000 × 2 000 × (9,00 $ / 1M) = 1 800 $/jour
- Total : ~1 875 $/jour, ~56 250 $/mois
Passez cela en mode batch et la facture mensuelle chute à environ 28 000 $. À cette échelle, vous voudriez également tester le routage des pièces de routine vers des modèles encore moins chers comme 3.1 Flash-Lite et réserver Flash pour les générations plus difficiles.
Coût vs GPT-5.5 et Opus 4.7
La comparaison des prix principaux :
| Modèle | Entrée (en $/1M) | Sortie (en $/1M) | Multiple vs Flash |
|---|---|---|---|
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ | 1× (référence) |
| GPT-5.5 | ~10 $ | ~30 $ | 6,7× entrée, 3,3× sortie |
| Claude Opus 4.7 | ~15 $ | ~75 $ | 10× entrée, 8,3× sortie |
Exécutez le Scénario 1 (chat de support client) pour chacun :
- Flash : 39 $/jour
- GPT-5.5 : ~140 $/jour (3,6× plus)
- Opus 4.7 : ~330 $/jour (8,5× plus)
C'est l'écart de coût agentique qui motive la ligne marketing de Google. Les fleurons offrent une qualité marginalement meilleure sur les tâches les plus difficiles ; pour les charges de travail quotidiennes, Flash est suffisant pour une fraction du prix.
Pour des analyses plus approfondies, consultez la tarification de GPT-5.5 et notre comparaison à trois.
Coût vs autres variantes de Gemini
| Modèle | Entrée (en $/1M) | Sortie (en $/1M) | Quand l'utiliser |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | ~0,40 $ | ~2,00 $ | Travail de routine à grand volume |
| Gemini 3 Flash | ~0,50 $ | ~3,00 $ | Génération précédente, toujours solide |
| Gemini 3.1 Pro | ~2,00 $ | ~12,00 $ | Travail intensif en raisonnement avant 3.5 Pro |
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ | Nouveau standard pour la plupart des charges de travail |
| Gemini 3.5 Pro (Juin 2026) | À déterminer | À déterminer | Tâches de raisonnement les plus difficiles |
Flash est plus cher que ses prédécesseurs 3.x Flash, mais de manière crédible moins cher que l'ancien niveau Pro. Pour la plupart des équipes, c'est le bon compromis : meilleur que Flash 3.x, coûte moins cher que Pro 3.x.
Pour l'ancienne ligne Gemini, voir 3.1 Flash-Lite, tarification de l'API 3.0, et 3 Flash.
Tarification Vertex AI (production)
Si vous appelez Flash via Vertex AI au lieu d'AI Studio, la tarification par jeton est la même. Les différences sont les fonctionnalités de facturation et de compte :
- Authentification par compte de service au lieu des clés API
- Journaux d'audit dans Cloud Logging
- Contrôles de la résidence des données
- Pas de niveau gratuit, mais un crédit de 300 $ pour un nouveau compte couvre environ 90 jours d'utilisation modérée
- Quotas personnalisés que vous pouvez négocier à grande échelle
Pour la plupart des équipes de production, le chemin est le suivant : prototyper sur le niveau gratuit d'AI Studio, passer à la version payante d'AI Studio pour l'échelle, puis migrer vers Vertex AI lorsque vous avez besoin de contrôles d'entreprise. Le comportement du modèle est identique pour les trois.
Conseils d'optimisation des coûts
Six habitudes concrètes qui réduisent le plus les factures Flash :
- Utilisez le mode batch pour tout ce qui n'a pas besoin de réponse en temps réel. 50 % de réduction, sans perte de qualité.
- Mettez en cache les longs préfixes statiques. Les invites système, les documents de référence, les instructions, sont tous de bons candidats.
- Utilisez la sortie JSON structurée. Force le modèle à écrire moins, plus rapidement et moins cher que la prose libre.
- Dirigez par complexité de tâche. Tâches faciles vers Flash-Lite ; tâches difficiles vers Flash ; la rare tâche complexe vers 3.5 Pro lorsqu'il sera disponible.
- Pré-validez les entrées. Ne brûlez pas de jetons sur des requêtes mal formées. Apidog les détecte avant qu'elles n'atteignent l'API.
- Suivez le coût par invite. Ajoutez un middleware de journalisation qui enregistre les jetons d'entrée/sortie par requête. Les dépassements de coût proviennent presque toujours de quelques invites aberrantes.
Pour le flux de validation d'invite, téléchargez Apidog, créez un scénario de test pour votre point de terminaison Gemini et ajoutez des assertions de forme de réponse. Brûler la même requête cassée 200 fois lors d'une session de débogage, c'est ainsi que les équipes gaspillent leurs quotas de niveau gratuit en un seul après-midi.
Quand le niveau gratuit ne suffit pas
Trois signaux pour passer du niveau gratuit à Flash payant :
- Vous atteignez 1 500 requêtes/jour plusieurs jours de suite. Le paiement à l'utilisation est suffisamment bon marché pour que le temps de développement passé à contourner les quotas coûte plus cher que la mise à niveau.
- Vous avez besoin d'un débit RPM plus élevé. Le niveau gratuit est plafonné à 15 requêtes par minute ; les niveaux payants vont beaucoup plus haut.
- Vous avez besoin de la résidence des données ou de journaux d'audit. Passez à Vertex AI sur un compte facturé.
La plupart des équipes constatent que 50 à 200 $ par mois d'utilisation payante de Flash remplace beaucoup de jonglerie avec le niveau gratuit.
Risques de tarification et ce qu'il faut surveiller
Trois choses qui pourraient changer les calculs :
- Resserrement des quotas. Google a historiquement réduit les quotas du niveau gratuit à mesure que les modèles vieillissent. Ne basez pas votre architecture sur le chiffre exact de 1 500/jour.
- Prix de lancement de Pro. Lorsque 3.5 Pro sera lancé en juin, la tarification de Flash pourrait augmenter ou diminuer en fonction de la manière dont Google positionne les niveaux.
- Surcharges régionales. La tarification de Vertex AI varie selon les régions. Le centre des États-Unis est la référence la moins chère ; attendez-vous à des primes de 10 à 20 % dans certaines régions.
Mettez en place des alertes de coût dès le premier jour. AI Studio (dans la page des quotas du projet) et Vertex AI (dans Cloud Billing) prennent en charge les plafonds budgétaires quotidiens. Utilisez-les.
En résumé
Gemini 3.5 Flash est suffisamment abordable pour que la plupart des charges de travail d'IA en production en 2026 devraient commencer par là. Les tarifs standards (1,50 $ / 9 $ par 1M de jetons) sont inférieurs à toutes les autres options de pointe. Le mode batch et la mise en cache de contexte réduisent encore davantage le coût effectif.
Pour les charges de travail où Flash ne suffit pas, la bonne approche consiste à mélanger les niveaux : Flash pour la majeure partie, un modèle phare comme GPT-5.5 ou Opus 4.7 pour les tâches les plus difficiles. Le routage par complexité de tâche est l'optimisation des coûts la plus efficace que vous puissiez faire.
Pour mettre cela en pratique :
- Téléchargez Apidog et enregistrez le point de terminaison Gemini 3.5 Flash comme requête
- Construisez une petite évaluation comparant Flash à votre modèle actuel sur 20 invites réelles
- Enregistrez le nombre de jetons ; extrapolez le coût mensuel
- Décidez où Flash remplace un modèle plus cher et où il ne le fait pas
C'est deux jours de travail qui rapportent généralement en un seul cycle de facturation.
