L'API Gemini 3.5 Flash a été mise en ligne avec le lancement du modèle le 19 mai 2026. Flash est la seule variante de la famille 3.5 disponible aujourd'hui ; Pro sera disponible en juin. Ce guide vous accompagne dans la configuration complète pour les développeurs de Flash : obtenir une clé, effectuer votre premier appel, gérer les entrées multimodales, le streaming, l'utilisation d'outils, et tester le tout correctement avec Apidog.
Si vous avez déjà utilisé l'API Gemini, le modèle n'a pas changé. La seule nouveauté est la chaîne du nom du modèle : gemini-3.5-flash. Si vous débutez, vous pouvez effectuer des requêtes Flash fonctionnelles en une dizaine de minutes.

Ce que vous obtenez avec l'API Gemini 3.5 Flash
Trois choses importantes dès le premier jour :
gemini-3.5-flash: disponible maintenant, rapide, économique, multimodal- Même point d'accès de style OpenAPI : remplacement direct pour les projets appelant déjà Gemini 3 ou 3.1
- Niveau gratuit sur AI Studio : ~1 500 requêtes/jour sans carte de crédit
Capacités exposées via l'API Flash :
- Contexte d'entrée de 1M de tokens, 64K tokens de sortie
- Entrée texte + image, sortie texte + structurée
- Appel de fonction natif et utilisation d'outils (83,6% MCP Atlas)
- Réponses en streaming (~4 fois plus rapides en tokens de sortie/seconde que les autres modèles de pointe)
- Score de récupération de contexte long en tête du tableau MRCR v2 de Google
- Raisonnement sur les graphiques et les documents (84,2% CharXiv)
Pour les détails de tarification, y compris les tarifs par token et les remises en mode batch, consultez notre guide de tarification de Gemini 3.5 Flash.
Étape 1 : Obtenez votre clé API Gemini 3.5 Flash
Deux chemins, selon que vous souhaitez des quotas gratuits ou une mise à l'échelle payante.
Voie A, Google AI Studio (niveau gratuit)
- Rendez-vous sur aistudio.google.com
- Connectez-vous avec un compte Google
- Cliquez sur Obtenir une clé API dans le menu de gauche
- Choisissez un projet existant ou en créez un
- Cliquez sur Créer une clé API, puis copiez-la
C'est le même processus que celui décrit dans notre guide de la clé API Gemini gratuite. La clé fonctionne immédiatement avec gemini-3.5-flash et le quota quotidien gratuit.

Voie B, Vertex AI (production)
Pour les charges de travail de production avec facturation et journaux d'audit :
- Activez l'API Vertex AI dans la Google Cloud Console
- Créez un compte de service avec
aiplatform.user - Téléchargez les identifiants JSON
- Authentifiez-vous via
gcloud auth application-default loginou le fichier JSON
Vertex achemine Flash via un modèle de SDK légèrement différent. La plupart des équipes commencent avec AI Studio et migrent lorsqu'elles ont besoin de contrôles organisationnels.
Étape 2 : Installez le SDK
Le SDK officiel Google GenAI est disponible pour Python, Node.js, Go et Java. Choisissez votre langage :
# Python
pip install -U google-genai
# Node.js
npm install @google/genai
# Go
go get google.golang.org/genai
Vous n'avez pas besoin du SDK si vous appelez directement le point d'accès REST, voir l'exemple curl ci-dessous.
Étape 3 : Effectuez votre premier appel Flash
Python
import os
from google import genai
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."
)
print(response.text)
Node.js
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });
const response = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs.",
});
console.log(response.text);
curl
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [{"text": "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."}]
}]
}'
C'est le chemin idéal pour Flash. À partir de là, vous ajoutez les fonctionnalités dont vous avez réellement besoin.
Réponses en streaming
La sortie de Flash est rapide. Le streaming rend cette vitesse visible pour vos utilisateurs.
Python
stream = client.models.generate_content_stream(
model="gemini-3.5-flash",
contents="Write a 5-step tutorial on writing a REST API client in Go."
)
for chunk in stream:
print(chunk.text, end="", flush=True)
Node.js
const stream = await ai.models.generateContentStream({
model: "gemini-3.5-flash",
contents: "Write a 5-step tutorial on writing a REST API client in Go.",
});
for await (const chunk of stream) {
process.stdout.write(chunk.text);
}
Le point d'accès passe de :generateContent à :streamGenerateContent pour les appels REST bruts.
Entrée multimodale avec Flash
Gemini 3.5 Flash accepte les images en plus du texte. Le score de raisonnement CharXiv de 84,2 % est réel, la compréhension des graphiques fonctionne réellement sur ce modèle.
Python (image depuis le disque)
import os
from google import genai
from google.genai import types
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
with open("dashboard.png", "rb") as f:
image_bytes = f.read()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
"Extract every metric in this dashboard as a JSON object."
]
)
print(response.text)
Types MIME pris en charge : image/png, image/jpeg, image/webp, image/heic, image/heif. Les PDF et les vidéos fonctionnent également via types.Part.from_uri().
Appel de fonction et utilisation d'outils avec Flash
L'appel d'outils est ce qui différencie Flash de ses prédécesseurs. Le score MCP Atlas de 83,6 % signifie que Flash choisit le bon outil de manière plus fiable que la génération 3.1.
Python
from google.genai import types
weather_tool = types.Tool(
function_declarations=[{
"name": "get_current_weather",
"description": "Get the current weather for a city.",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "City name"},
"unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
},
"required": ["city"]
}
}]
)
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="What's the weather in Singapore right now?",
config=types.GenerateContentConfig(tools=[weather_tool])
)
for part in response.candidates[0].content.parts:
if part.function_call:
print(f"Call: {part.function_call.name}")
print(f"Args: {dict(part.function_call.args)}")
Flash renvoie un objet function_call avec le nom et les arguments. Vous exécutez la fonction localement, renvoyez le résultat et continuez la conversation. Ce modèle correspond à ce que les équipes utilisent déjà avec l'API Gemini 3 Flash.
Sortie structurée (mode JSON)
Forcez la sortie JSON de Flash en définissant le type MIME et le schéma de réponse :
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="List 3 popular API testing tools with their pricing.",
config=types.GenerateContentConfig(
response_mime_type="application/json",
response_schema={
"type": "array",
"items": {
"type": "object",
"properties": {
"name": {"type": "string"},
"price_per_month": {"type": "number"},
"free_tier": {"type": "boolean"}
},
"required": ["name", "free_tier"]
}
}
)
)
import json
data = json.loads(response.text)
JSON validé à chaque appel. Pas d'analyse regex, pas de boucles de réessai.
Tarification (à partir de mai 2026)
Tarifs à la consommation pour gemini-3.5-flash :
| Niveau | Entrée | Sortie |
|---|---|---|
| Standard | ~1,50 $ / 1M de tokens | ~9,00 $ / 1M de tokens |
| Entrée mise en cache | tarif réduit | s.o. |
| Mode batch | ~50% de réduction | ~50% de réduction |
Pour les charges de travail par lots, le mode batch de l'API Gemini vous offre une réduction de 50 % sur les tâches qui ne nécessitent pas une latence en temps réel. Cela vaut la peine de vérifier avant de vous engager à grande échelle.
Pour le calcul complet de la tarification, y compris les scénarios de coûts réels pour les charges de travail SaaS quotidiennes et les boucles d'agents, consultez notre ventilation de la tarification Flash. Pour la référence officielle de Google, consultez la tarification de l'API Gemini Developer.
Test de votre intégration Gemini 3.5 Flash avec Apidog
Un appel SDK fonctionnel n'est que la première étape. Les intégrations de production doivent gérer les aspects complexes : les fragments en streaming, la validation des appels d'outils, les charges utiles multimodales, les réessais en cas d'erreur, les limites de débit. C'est là qu'une configuration de test appropriée est rentable.

Apidog gère l'ensemble de la surface de l'API Gemini Flash dans un seul espace de travail :
- Enregistrer le point d'accès Flash comme requête : collez l'URL complète, attachez votre
x-goog-api-key, cliquez sur Envoyer - Rejouer sur différentes versions de modèle : échangez
gemini-3.5-flashcontre l'anciengemini-3-flashsur la même requête, comparez les sorties - Streamer les réponses en ligne : Apidog affiche les fragments streamés au fur et à mesure qu'ils arrivent, avec les temps par fragment
- Valider la sortie du schéma JSON : les assertions détectent les dérives lorsque vous modifiez les invites
- Simuler le point d'accès Flash : générez une réponse simulée pour tester votre code en aval sans épuiser votre quota d'API
- Construire des scénarios de test pour les boucles d'agents : enchaînez plusieurs appels Flash avec validation des appels d'outils entre les étapes
Pour commencer, téléchargez Apidog, créez une nouvelle requête pointant vers le point d'accès Flash et importez l'extrait curl du début de cet article. L'ensemble de la configuration prend environ deux minutes.
Gestion des erreurs et limites de débit
Le modèle d'erreur de Flash est simple. Les codes importants :
- 400 : mauvaise requête (le plus souvent un tableau
contentsmal formé ou un type MIME non pris en charge) - 401 : mauvaise clé API
- 403 : quota épuisé ou modèle non activé
- 429 : limite de débit atteinte (attendre et réessayer)
- 500/503 : côté serveur, réessayer avec une temporisation exponentielle
Enveloppez vos appels Flash avec une boucle de réessai :
import time
from google import genai
def call_with_retry(client, model, prompt, max_retries=3):
for attempt in range(max_retries):
try:
return client.models.generate_content(model=model, contents=prompt)
except Exception as e:
if attempt == max_retries - 1:
raise
time.sleep(2 ** attempt)
Les quotas du niveau gratuit sont réinitialisés quotidiennement (15 requêtes par minute, ~1 500 par jour sur Flash). Les quotas du niveau de production sont réinitialisés par minute et par jour. Pour les tâches à haut débit, vérifiez le chemin du mode batch ou utilisez une solution de repli échelonnée vers Gemini 3 Flash lorsque vous atteignez les limites.
Migration de Gemini 3.1 vers 3.5 Flash
La plupart des projets n'ont besoin de changer qu'une seule chaîne : le nom du modèle.
# Avant
model="gemini-3.1-pro" # ou gemini-3.1-flash
# Après
model="gemini-3.5-flash"
Ce que vous devriez vérifier après l'échange :
- Les schémas d'outils correspondent toujours, c'est le cas pour la plupart des appels, mais réexécutez votre évaluation
- Vitesse de sortie, votre interface utilisateur de streaming pourrait avoir besoin d'être régulée car Flash diffuse ~4 fois plus rapidement
- Budgets de tokens, mêmes plafonds de 1M / 64K, mais le modèle est plus dense, donc une invite donnée peut utiliser moins de tokens de sortie
- Modèles de refus, les garde-fous de sécurité sont plus stricts ; attendez-vous à des rejets différents sur les cas limites
Pour un guide de migration plus détaillé, notre guide de l'API Gemini 3.1 Pro couvre le modèle SDK ; tout est transférable.
Modèles Flash courants
Analyse de documents à contexte long
with open("large_report.pdf", "rb") as f:
pdf_bytes = f.read()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
"Summarize the financial outlook from this report in 5 bullet points."
]
)
Le contexte de 1M de tokens de Flash gère les PDF entiers sans découpage.
Boucle d'agent avec appels d'outils
conversation = [{"role": "user", "parts": [{"text": "Book me a flight to Tokyo"}]}]
while True:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=conversation,
config=types.GenerateContentConfig(tools=[flight_search_tool, booking_tool])
)
part = response.candidates[0].content.parts[0]
if not part.function_call:
print(part.text)
break
result = execute_tool(part.function_call)
conversation.append({"role": "model", "parts": [part]})
conversation.append({"role": "user", "parts": [{"function_response": result}]})
C'est le modèle de boucle que le score Terminal-Bench 2.1 de Flash (76,2 %) mesure. Les agents réels fonctionnent.
FAQ
Existe-t-il un niveau gratuit pour l'API Gemini 3.5 Flash ? Oui, via Google AI Studio avec des quotas quotidiens (~1 500 requêtes/jour). Aucune carte de crédit requise.
Flash prend-il en charge les points d'accès compatibles OpenAI ? Oui. Google expose un adaptateur compatible OpenAI à l'adresse /v1beta/openai/. Vous pouvez y diriger n'importe quel SDK OpenAI en définissant base_url et en utilisant votre clé Gemini. Le nom du modèle reste gemini-3.5-flash.
Puis-je utiliser Flash avec LangChain ou LlamaIndex ? Oui, les deux ont des intégrations Gemini natives. Passez model="gemini-3.5-flash" dans leurs wrappers respectifs.
Quand Gemini 3.5 Pro sera-t-il disponible ? Juin 2026 selon l'annonce de lancement de Google. D'ici là, Flash est la seule variante 3.5 disponible.
Quelle est la taille d'image maximale pour Flash ? Recommandé : 3072×3072. Les images plus grandes sont rééchantillonnées. Pour les travaux intensifs en OCR, consultez le flux de travail OCR de Gemini 2.0 Flash, les mêmes modèles s'appliquent.
Comment tester les points d'accès de streaming dans Apidog ? Ouvrez la requête, définissez :streamGenerateContent comme suffixe du point d'accès, et Apidog affichera les fragments SSE au fur et à mesure qu'ils arrivent. Utile pour déboguer les réponses incomplètes.
Où puis-je consulter les journaux de l'API ? Dans AI Studio sous « Activité », ou dans Vertex AI sous « Explorateur de journaux » pour les déploiements en production.
Quoi construire en premier
Une courte liste de projets de démarrage qui méritent d'être lancés dès la première semaine avec Flash :
- Robot Q&A PDF : déposez un PDF dans la fenêtre de contexte de 1M de tokens, posez des questions, obtenez des réponses citées
- Pipeline graphique-vers-JSON : alimentez des captures d'écran de tableau de bord, extrayez des données structurées
- Agent de support client : appel de fonction vers votre CRM, fonctionne sans surveillance
- Assistant de révision de code : contexte de différences multi-fichiers, sortie structurée avec des évaluations de gravité
- Agent de recherche interne : combinez un contexte de 1M de tokens avec des appels d'outils vers des API internes
Pour chacun, le même processus de test s'applique : construisez l'invite, enveloppez-la dans votre appel SDK, validez la forme de la réponse avec Apidog, et déployez.
