Tarifs Gemini 3.5 Flash: Quel est le coût réel?

Ashley Innocent

Ashley Innocent

20 May 2026

Tarifs Gemini 3.5 Flash: Quel est le coût réel?

Apidog pour les entreprises

Déploiement sur site

SSO & RBAC

Conforme SOC 2

Explorer Apidog Enterprise

Google a lancé Gemini 3.5 Flash le 19 mai 2026, et l'affirmation principale concernant le prix est audacieuse : « moins de la moitié du coût des autres modèles de pointe » pour les tâches d'agent. C'est la ligne marketing. Ce guide fait le calcul réel.

Vous trouverez les tarifs par jeton, les plafonds du niveau gratuit, la remise pour le mode batch, des scénarios de coûts réels pour les charges de travail courantes, et une comparaison des coûts côte à côte avec GPT-5.5 et Claude Opus 4.7. À la fin, vous saurez exactement ce que coûte l'exécution de Flash et où vous pouvez économiser 50 % ou plus sans sacrifier grand-chose.

Résumé rapide

Type de coût Tarif
Entrée standard ~1,50 $ / 1M jetons
Sortie standard ~9,00 $ / 1M jetons
Entrée mode batch ~0,75 $ / 1M jetons (~50 % de réduction)
Sortie mode batch ~4,50 $ / 1M jetons (~50 % de réduction)
Entrée mise en cache tarif réduit (varie)
Niveau gratuit (AI Studio) ~1 500 requêtes/jour, 1M jetons/min, 15 RPM
Nouveau compte Vertex AI 300 $ de crédit sur 90 jours

Tarifs actuels en mai 2026, selon l'annonce de lancement de Google et les listes d'agrégateurs. Toujours vérifier sur la page de tarification officielle avant d'engager un budget.

Tarifs par jeton de Gemini 3.5 Flash

Flash utilise le même modèle de paiement à l'usage que toutes les variantes de Gemini depuis la 2.5 : vous payez par million de jetons d'entrée et par million de jetons de sortie, indépendamment.

Niveau Entrée (en $/1M) Sortie (en $/1M)
Standard ~1,50 $ ~9,00 $
Entrée mise en cache remise s/o
Batch (asynchrone) ~0,75 $ ~4,50 $

Deux notes pratiques :

Pour plus d'informations sur le fonctionnement du mode batch de Gemini, consultez Le mode batch de l'API Gemini est arrivé et est 50 % moins cher.

Niveau gratuit : ce que vous obtenez sans payer

Le niveau gratuit d'AI Studio est livré avec Flash dès le premier jour. Limites au lancement :

C'est suffisant pour la plupart des projets personnels, des prototypes internes et des automatisations à petite échelle. Si votre charge de travail correspond à 1 500 appels/jour, vous payez 0 $.

Spécificités du niveau gratuit :

Pour le guide de configuration complet, consultez Comment utiliser Gemini 3.5 Flash gratuitement et Comment obtenir une clé API Google Gemini gratuite.

Mode batch : la remise de 50 % que la plupart des équipes manquent

Si votre charge de travail n'a pas besoin de réponses en temps réel, le mode batch réduit les coûts de Flash d'environ moitié.

Comment ça marche :

  1. Soumettez un job batch avec jusqu'à 50 000 invites à la fois
  2. Google les traite dans les 24 heures
  3. Vous payez environ 50 % moins cher par jeton, à la fois pour l'entrée et la sortie

Quand le mode batch est pertinent :

Quand ce n'est pas le cas :

La plupart des architectures de production devraient utiliser le mode batch pour toute charge de travail qui peut tolérer une latence. Les économies se multiplient rapidement à grande échelle. Détails de configuration dans notre guide du mode batch.

Entrée mise en cache : un autre levier

Si vos invites partagent un long préfixe statique (invite système, grand document de référence, longues instructions), la mise en cache de contexte vous accorde une remise sur la partie mise en cache.

Modèle :

Les économies concrètes dépendent du taux de succès du cache, mais pour les applications de style RAG où les mêmes fragments récupérés reviennent sur plusieurs requêtes, attendez-vous à une réduction des coûts d'entrée de 30 à 60 %.

Scénarios de coûts réels

Le calcul des jetons devient rapidement abstrait. Voici cinq scénarios concrets aux tarifs standards de Flash.

Scénario 1 : Chatbot de support client

Coût journalier :

Exécutez la même charge de travail en mode batch (si vous pouvez tolérer des réponses groupées) : ~585 $/mois. Ajoutez la mise en cache de contexte pour l'invite système : encore 20 à 30 % de réduction.

Scénario 2 : SaaS de Questions/Réponses sur documents

Coût journalier :

C'est là que le contexte de 1M de Flash brille : pas d'infrastructure de découpage, il suffit d'envoyer le document entier. Comparé au RAG découpé avec un modèle phare, vous paieriez beaucoup plus en API plus infrastructure.

Scénario 3 : Agent autonome de longue durée

Coût par exécution :

Total quotidien : 200 × 0,83 $ = ~165 $/jour, ~4 950 $/mois

À titre de comparaison, la même charge de travail sur Opus 4.7 (~15 $/75 $ par 1M) coûte environ 25 $/exécution, soit 5 000 $/jour. C'est l'écart de coût agentique que Google met en avant.

Scénario 4 : Pipeline d'extraction de graphiques

Coût journalier :

Ajoutez le mode batch et la même charge de travail coûte environ 375 $/mois. Le raisonnement de CharXiv à 84,2 % signifie que la qualité est maintenue.

Scénario 5 : Génération de contenu à grand volume

Coût journalier :

Passez cela en mode batch et la facture mensuelle chute à environ 28 000 $. À cette échelle, vous voudriez également tester le routage des pièces de routine vers des modèles encore moins chers comme 3.1 Flash-Lite et réserver Flash pour les générations plus difficiles.

Coût vs GPT-5.5 et Opus 4.7

La comparaison des prix principaux :

Modèle Entrée (en $/1M) Sortie (en $/1M) Multiple vs Flash
Gemini 3.5 Flash ~1,50 $ ~9,00 $ 1× (référence)
GPT-5.5 ~10 $ ~30 $ 6,7× entrée, 3,3× sortie
Claude Opus 4.7 ~15 $ ~75 $ 10× entrée, 8,3× sortie

Exécutez le Scénario 1 (chat de support client) pour chacun :

C'est l'écart de coût agentique qui motive la ligne marketing de Google. Les fleurons offrent une qualité marginalement meilleure sur les tâches les plus difficiles ; pour les charges de travail quotidiennes, Flash est suffisant pour une fraction du prix.

Pour des analyses plus approfondies, consultez la tarification de GPT-5.5 et notre comparaison à trois.

Coût vs autres variantes de Gemini

Modèle Entrée (en $/1M) Sortie (en $/1M) Quand l'utiliser
Gemini 3.1 Flash-Lite ~0,40 $ ~2,00 $ Travail de routine à grand volume
Gemini 3 Flash ~0,50 $ ~3,00 $ Génération précédente, toujours solide
Gemini 3.1 Pro ~2,00 $ ~12,00 $ Travail intensif en raisonnement avant 3.5 Pro
Gemini 3.5 Flash ~1,50 $ ~9,00 $ Nouveau standard pour la plupart des charges de travail
Gemini 3.5 Pro (Juin 2026) À déterminer À déterminer Tâches de raisonnement les plus difficiles

Flash est plus cher que ses prédécesseurs 3.x Flash, mais de manière crédible moins cher que l'ancien niveau Pro. Pour la plupart des équipes, c'est le bon compromis : meilleur que Flash 3.x, coûte moins cher que Pro 3.x.

Pour l'ancienne ligne Gemini, voir 3.1 Flash-Lite, tarification de l'API 3.0, et 3 Flash.

Tarification Vertex AI (production)

Si vous appelez Flash via Vertex AI au lieu d'AI Studio, la tarification par jeton est la même. Les différences sont les fonctionnalités de facturation et de compte :

Pour la plupart des équipes de production, le chemin est le suivant : prototyper sur le niveau gratuit d'AI Studio, passer à la version payante d'AI Studio pour l'échelle, puis migrer vers Vertex AI lorsque vous avez besoin de contrôles d'entreprise. Le comportement du modèle est identique pour les trois.

Conseils d'optimisation des coûts

Six habitudes concrètes qui réduisent le plus les factures Flash :

  1. Utilisez le mode batch pour tout ce qui n'a pas besoin de réponse en temps réel. 50 % de réduction, sans perte de qualité.
  2. Mettez en cache les longs préfixes statiques. Les invites système, les documents de référence, les instructions, sont tous de bons candidats.
  3. Utilisez la sortie JSON structurée. Force le modèle à écrire moins, plus rapidement et moins cher que la prose libre.
  4. Dirigez par complexité de tâche. Tâches faciles vers Flash-Lite ; tâches difficiles vers Flash ; la rare tâche complexe vers 3.5 Pro lorsqu'il sera disponible.
  5. Pré-validez les entrées. Ne brûlez pas de jetons sur des requêtes mal formées. Apidog les détecte avant qu'elles n'atteignent l'API.
  6. Suivez le coût par invite. Ajoutez un middleware de journalisation qui enregistre les jetons d'entrée/sortie par requête. Les dépassements de coût proviennent presque toujours de quelques invites aberrantes.

Pour le flux de validation d'invite, téléchargez Apidog, créez un scénario de test pour votre point de terminaison Gemini et ajoutez des assertions de forme de réponse. Brûler la même requête cassée 200 fois lors d'une session de débogage, c'est ainsi que les équipes gaspillent leurs quotas de niveau gratuit en un seul après-midi.

Quand le niveau gratuit ne suffit pas

Trois signaux pour passer du niveau gratuit à Flash payant :

  1. Vous atteignez 1 500 requêtes/jour plusieurs jours de suite. Le paiement à l'utilisation est suffisamment bon marché pour que le temps de développement passé à contourner les quotas coûte plus cher que la mise à niveau.
  2. Vous avez besoin d'un débit RPM plus élevé. Le niveau gratuit est plafonné à 15 requêtes par minute ; les niveaux payants vont beaucoup plus haut.
  3. Vous avez besoin de la résidence des données ou de journaux d'audit. Passez à Vertex AI sur un compte facturé.

La plupart des équipes constatent que 50 à 200 $ par mois d'utilisation payante de Flash remplace beaucoup de jonglerie avec le niveau gratuit.

Risques de tarification et ce qu'il faut surveiller

Trois choses qui pourraient changer les calculs :

Mettez en place des alertes de coût dès le premier jour. AI Studio (dans la page des quotas du projet) et Vertex AI (dans Cloud Billing) prennent en charge les plafonds budgétaires quotidiens. Utilisez-les.

En résumé

Gemini 3.5 Flash est suffisamment abordable pour que la plupart des charges de travail d'IA en production en 2026 devraient commencer par là. Les tarifs standards (1,50 $ / 9 $ par 1M de jetons) sont inférieurs à toutes les autres options de pointe. Le mode batch et la mise en cache de contexte réduisent encore davantage le coût effectif.

Pour les charges de travail où Flash ne suffit pas, la bonne approche consiste à mélanger les niveaux : Flash pour la majeure partie, un modèle phare comme GPT-5.5 ou Opus 4.7 pour les tâches les plus difficiles. Le routage par complexité de tâche est l'optimisation des coûts la plus efficace que vous puissiez faire.

Pour mettre cela en pratique :

C'est deux jours de travail qui rapportent généralement en un seul cycle de facturation.

bouton

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API