Comment utiliser l'API Gemini 3.5 Flash ?

L'API Gemini 3.5 Flash a été mise en ligne avec le lancement du modèle le 19 mai 2026. Flash est la seule variante de la famille 3.5 disponible aujourd'hui ; Pro sera disponible en juin. Ce guide vous accompagne dans la configuration complète pour les développeurs de Flash : obtenir une clé, effectuer votre premier appel, gérer les entrées multimodales, le streaming, l'utilisation d'outils, et tester le tout correctement avec Apidog.

Si vous avez déjà utilisé l'API Gemini, le modèle n'a pas changé. La seule nouveauté est la chaîne du nom du modèle : gemini-3.5-flash. Si vous débutez, vous pouvez effectuer des requêtes Flash fonctionnelles en une dizaine de minutes.

Ce que vous obtenez avec l'API Gemini 3.5 Flash

Trois choses importantes dès le premier jour :

gemini-3.5-flash : disponible maintenant, rapide, économique, multimodal
Même point d'accès de style OpenAPI : remplacement direct pour les projets appelant déjà Gemini 3 ou 3.1
Niveau gratuit sur AI Studio : ~1 500 requêtes/jour sans carte de crédit

Capacités exposées via l'API Flash :

Contexte d'entrée de 1M de tokens, 64K tokens de sortie
Entrée texte + image, sortie texte + structurée
Appel de fonction natif et utilisation d'outils (83,6% MCP Atlas)
Réponses en streaming (~4 fois plus rapides en tokens de sortie/seconde que les autres modèles de pointe)
Score de récupération de contexte long en tête du tableau MRCR v2 de Google
Raisonnement sur les graphiques et les documents (84,2% CharXiv)

Pour les détails de tarification, y compris les tarifs par token et les remises en mode batch, consultez notre guide de tarification de Gemini 3.5 Flash.

Étape 1 : Obtenez votre clé API Gemini 3.5 Flash

Deux chemins, selon que vous souhaitez des quotas gratuits ou une mise à l'échelle payante.

Voie A, Google AI Studio (niveau gratuit)

Rendez-vous sur aistudio.google.com
Connectez-vous avec un compte Google
Cliquez sur Obtenir une clé API dans le menu de gauche
Choisissez un projet existant ou en créez un
Cliquez sur Créer une clé API, puis copiez-la

C'est le même processus que celui décrit dans notre guide de la clé API Gemini gratuite. La clé fonctionne immédiatement avec gemini-3.5-flash et le quota quotidien gratuit.

Voie B, Vertex AI (production)

Pour les charges de travail de production avec facturation et journaux d'audit :

Activez l'API Vertex AI dans la Google Cloud Console
Créez un compte de service avec aiplatform.user
Téléchargez les identifiants JSON
Authentifiez-vous via gcloud auth application-default login ou le fichier JSON

Vertex achemine Flash via un modèle de SDK légèrement différent. La plupart des équipes commencent avec AI Studio et migrent lorsqu'elles ont besoin de contrôles organisationnels.

Étape 2 : Installez le SDK

Le SDK officiel Google GenAI est disponible pour Python, Node.js, Go et Java. Choisissez votre langage :

# Python
pip install -U google-genai

# Node.js
npm install @google/genai

# Go
go get google.golang.org/genai

Vous n'avez pas besoin du SDK si vous appelez directement le point d'accès REST, voir l'exemple curl ci-dessous.

Étape 3 : Effectuez votre premier appel Flash

Python

import os
from google import genai

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."
)

print(response.text)

Node.js

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs.",
});

console.log(response.text);

curl

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [{"text": "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."}]
    }]
  }'

C'est le chemin idéal pour Flash. À partir de là, vous ajoutez les fonctionnalités dont vous avez réellement besoin.

Réponses en streaming

La sortie de Flash est rapide. Le streaming rend cette vitesse visible pour vos utilisateurs.

Python

stream = client.models.generate_content_stream(
    model="gemini-3.5-flash",
    contents="Write a 5-step tutorial on writing a REST API client in Go."
)

for chunk in stream:
    print(chunk.text, end="", flush=True)

Node.js

const stream = await ai.models.generateContentStream({
  model: "gemini-3.5-flash",
  contents: "Write a 5-step tutorial on writing a REST API client in Go.",
});

for await (const chunk of stream) {
  process.stdout.write(chunk.text);
}

Le point d'accès passe de :generateContent à :streamGenerateContent pour les appels REST bruts.

Entrée multimodale avec Flash

Gemini 3.5 Flash accepte les images en plus du texte. Le score de raisonnement CharXiv de 84,2 % est réel, la compréhension des graphiques fonctionne réellement sur ce modèle.

Python (image depuis le disque)

import os
from google import genai
from google.genai import types

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

with open("dashboard.png", "rb") as f:
    image_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
        "Extract every metric in this dashboard as a JSON object."
    ]
)

print(response.text)

Types MIME pris en charge : image/png, image/jpeg, image/webp, image/heic, image/heif. Les PDF et les vidéos fonctionnent également via types.Part.from_uri().

Appel de fonction et utilisation d'outils avec Flash

L'appel d'outils est ce qui différencie Flash de ses prédécesseurs. Le score MCP Atlas de 83,6 % signifie que Flash choisit le bon outil de manière plus fiable que la génération 3.1.

Python

from google.genai import types

weather_tool = types.Tool(
    function_declarations=[{
        "name": "get_current_weather",
        "description": "Get the current weather for a city.",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "City name"},
                "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
            },
            "required": ["city"]
        }
    }]
)

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="What's the weather in Singapore right now?",
    config=types.GenerateContentConfig(tools=[weather_tool])
)

for part in response.candidates[0].content.parts:
    if part.function_call:
        print(f"Call: {part.function_call.name}")
        print(f"Args: {dict(part.function_call.args)}")

Flash renvoie un objet function_call avec le nom et les arguments. Vous exécutez la fonction localement, renvoyez le résultat et continuez la conversation. Ce modèle correspond à ce que les équipes utilisent déjà avec l'API Gemini 3 Flash.

Sortie structurée (mode JSON)

Forcez la sortie JSON de Flash en définissant le type MIME et le schéma de réponse :

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="List 3 popular API testing tools with their pricing.",
    config=types.GenerateContentConfig(
        response_mime_type="application/json",
        response_schema={
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "name": {"type": "string"},
                    "price_per_month": {"type": "number"},
                    "free_tier": {"type": "boolean"}
                },
                "required": ["name", "free_tier"]
            }
        }
    )
)

import json
data = json.loads(response.text)

JSON validé à chaque appel. Pas d'analyse regex, pas de boucles de réessai.

Tarification (à partir de mai 2026)

Tarifs à la consommation pour gemini-3.5-flash :

Niveau	Entrée	Sortie
Standard	~1,50 $ / 1M de tokens	~9,00 $ / 1M de tokens
Entrée mise en cache	tarif réduit	s.o.
Mode batch	~50% de réduction	~50% de réduction

Pour les charges de travail par lots, le mode batch de l'API Gemini vous offre une réduction de 50 % sur les tâches qui ne nécessitent pas une latence en temps réel. Cela vaut la peine de vérifier avant de vous engager à grande échelle.

Pour le calcul complet de la tarification, y compris les scénarios de coûts réels pour les charges de travail SaaS quotidiennes et les boucles d'agents, consultez notre ventilation de la tarification Flash. Pour la référence officielle de Google, consultez la tarification de l'API Gemini Developer.

Test de votre intégration Gemini 3.5 Flash avec Apidog

Un appel SDK fonctionnel n'est que la première étape. Les intégrations de production doivent gérer les aspects complexes : les fragments en streaming, la validation des appels d'outils, les charges utiles multimodales, les réessais en cas d'erreur, les limites de débit. C'est là qu'une configuration de test appropriée est rentable.

Apidog gère l'ensemble de la surface de l'API Gemini Flash dans un seul espace de travail :

Enregistrer le point d'accès Flash comme requête : collez l'URL complète, attachez votre x-goog-api-key, cliquez sur Envoyer
Rejouer sur différentes versions de modèle : échangez gemini-3.5-flash contre l'ancien gemini-3-flash sur la même requête, comparez les sorties
Streamer les réponses en ligne : Apidog affiche les fragments streamés au fur et à mesure qu'ils arrivent, avec les temps par fragment
Valider la sortie du schéma JSON : les assertions détectent les dérives lorsque vous modifiez les invites
Simuler le point d'accès Flash : générez une réponse simulée pour tester votre code en aval sans épuiser votre quota d'API
Construire des scénarios de test pour les boucles d'agents : enchaînez plusieurs appels Flash avec validation des appels d'outils entre les étapes

Pour commencer, téléchargez Apidog, créez une nouvelle requête pointant vers le point d'accès Flash et importez l'extrait curl du début de cet article. L'ensemble de la configuration prend environ deux minutes.

Gestion des erreurs et limites de débit

Le modèle d'erreur de Flash est simple. Les codes importants :

400 : mauvaise requête (le plus souvent un tableau contents mal formé ou un type MIME non pris en charge)
401 : mauvaise clé API
403 : quota épuisé ou modèle non activé
429 : limite de débit atteinte (attendre et réessayer)
500/503 : côté serveur, réessayer avec une temporisation exponentielle

Enveloppez vos appels Flash avec une boucle de réessai :

import time
from google import genai

def call_with_retry(client, model, prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            return client.models.generate_content(model=model, contents=prompt)
        except Exception as e:
            if attempt == max_retries - 1:
                raise
            time.sleep(2 ** attempt)

Les quotas du niveau gratuit sont réinitialisés quotidiennement (15 requêtes par minute, ~1 500 par jour sur Flash). Les quotas du niveau de production sont réinitialisés par minute et par jour. Pour les tâches à haut débit, vérifiez le chemin du mode batch ou utilisez une solution de repli échelonnée vers Gemini 3 Flash lorsque vous atteignez les limites.

Migration de Gemini 3.1 vers 3.5 Flash

La plupart des projets n'ont besoin de changer qu'une seule chaîne : le nom du modèle.

# Avant
model="gemini-3.1-pro"  # ou gemini-3.1-flash

# Après
model="gemini-3.5-flash"

Ce que vous devriez vérifier après l'échange :

Les schémas d'outils correspondent toujours, c'est le cas pour la plupart des appels, mais réexécutez votre évaluation
Vitesse de sortie, votre interface utilisateur de streaming pourrait avoir besoin d'être régulée car Flash diffuse ~4 fois plus rapidement
Budgets de tokens, mêmes plafonds de 1M / 64K, mais le modèle est plus dense, donc une invite donnée peut utiliser moins de tokens de sortie
Modèles de refus, les garde-fous de sécurité sont plus stricts ; attendez-vous à des rejets différents sur les cas limites

Pour un guide de migration plus détaillé, notre guide de l'API Gemini 3.1 Pro couvre le modèle SDK ; tout est transférable.

Modèles Flash courants

Analyse de documents à contexte long

with open("large_report.pdf", "rb") as f:
    pdf_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
        "Summarize the financial outlook from this report in 5 bullet points."
    ]
)

Le contexte de 1M de tokens de Flash gère les PDF entiers sans découpage.

Boucle d'agent avec appels d'outils

conversation = [{"role": "user", "parts": [{"text": "Book me a flight to Tokyo"}]}]

while True:
    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents=conversation,
        config=types.GenerateContentConfig(tools=[flight_search_tool, booking_tool])
    )

    part = response.candidates[0].content.parts[0]
    if not part.function_call:
        print(part.text)
        break

    result = execute_tool(part.function_call)
    conversation.append({"role": "model", "parts": [part]})
    conversation.append({"role": "user", "parts": [{"function_response": result}]})

C'est le modèle de boucle que le score Terminal-Bench 2.1 de Flash (76,2 %) mesure. Les agents réels fonctionnent.

FAQ

Existe-t-il un niveau gratuit pour l'API Gemini 3.5 Flash ? Oui, via Google AI Studio avec des quotas quotidiens (~1 500 requêtes/jour). Aucune carte de crédit requise.

Flash prend-il en charge les points d'accès compatibles OpenAI ? Oui. Google expose un adaptateur compatible OpenAI à l'adresse /v1beta/openai/. Vous pouvez y diriger n'importe quel SDK OpenAI en définissant base_url et en utilisant votre clé Gemini. Le nom du modèle reste gemini-3.5-flash.

Puis-je utiliser Flash avec LangChain ou LlamaIndex ? Oui, les deux ont des intégrations Gemini natives. Passez model="gemini-3.5-flash" dans leurs wrappers respectifs.

Quand Gemini 3.5 Pro sera-t-il disponible ? Juin 2026 selon l'annonce de lancement de Google. D'ici là, Flash est la seule variante 3.5 disponible.

Quelle est la taille d'image maximale pour Flash ? Recommandé : 3072×3072. Les images plus grandes sont rééchantillonnées. Pour les travaux intensifs en OCR, consultez le flux de travail OCR de Gemini 2.0 Flash, les mêmes modèles s'appliquent.

Comment tester les points d'accès de streaming dans Apidog ? Ouvrez la requête, définissez :streamGenerateContent comme suffixe du point d'accès, et Apidog affichera les fragments SSE au fur et à mesure qu'ils arrivent. Utile pour déboguer les réponses incomplètes.

Où puis-je consulter les journaux de l'API ? Dans AI Studio sous « Activité », ou dans Vertex AI sous « Explorateur de journaux » pour les déploiements en production.

Quoi construire en premier

Une courte liste de projets de démarrage qui méritent d'être lancés dès la première semaine avec Flash :

Robot Q&A PDF : déposez un PDF dans la fenêtre de contexte de 1M de tokens, posez des questions, obtenez des réponses citées
Pipeline graphique-vers-JSON : alimentez des captures d'écran de tableau de bord, extrayez des données structurées
Agent de support client : appel de fonction vers votre CRM, fonctionne sans surveillance
Assistant de révision de code : contexte de différences multi-fichiers, sortie structurée avec des évaluations de gravité
Agent de recherche interne : combinez un contexte de 1M de tokens avec des appels d'outils vers des API internes

Pour chacun, le même processus de test s'applique : construisez l'invite, enveloppez-la dans votre appel SDK, validez la forme de la réponse avec Apidog, et déployez.

télécharger l'application