Comment utiliser l'API Gemini 3.5 Flash ?

Ashley Innocent

Ashley Innocent

20 May 2026

Comment utiliser l'API Gemini 3.5 Flash ?

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

L'API Gemini 3.5 Flash a été mise en ligne avec le lancement du modèle le 19 mai 2026. Flash est la seule variante de la famille 3.5 disponible aujourd'hui ; Pro sera disponible en juin. Ce guide vous accompagne dans la configuration complète pour les développeurs de Flash : obtenir une clé, effectuer votre premier appel, gérer les entrées multimodales, le streaming, l'utilisation d'outils, et tester le tout correctement avec Apidog.

Si vous avez déjà utilisé l'API Gemini, le modèle n'a pas changé. La seule nouveauté est la chaîne du nom du modèle : gemini-3.5-flash. Si vous débutez, vous pouvez effectuer des requêtes Flash fonctionnelles en une dizaine de minutes.

Ce que vous obtenez avec l'API Gemini 3.5 Flash

Trois choses importantes dès le premier jour :

Capacités exposées via l'API Flash :

Pour les détails de tarification, y compris les tarifs par token et les remises en mode batch, consultez notre guide de tarification de Gemini 3.5 Flash.

Étape 1 : Obtenez votre clé API Gemini 3.5 Flash

Deux chemins, selon que vous souhaitez des quotas gratuits ou une mise à l'échelle payante.

Voie A, Google AI Studio (niveau gratuit)

  1. Rendez-vous sur aistudio.google.com
  2. Connectez-vous avec un compte Google
  3. Cliquez sur Obtenir une clé API dans le menu de gauche
  4. Choisissez un projet existant ou en créez un
  5. Cliquez sur Créer une clé API, puis copiez-la

C'est le même processus que celui décrit dans notre guide de la clé API Gemini gratuite. La clé fonctionne immédiatement avec gemini-3.5-flash et le quota quotidien gratuit.

Voie B, Vertex AI (production)

Pour les charges de travail de production avec facturation et journaux d'audit :

  1. Activez l'API Vertex AI dans la Google Cloud Console
  2. Créez un compte de service avec aiplatform.user
  3. Téléchargez les identifiants JSON
  4. Authentifiez-vous via gcloud auth application-default login ou le fichier JSON

Vertex achemine Flash via un modèle de SDK légèrement différent. La plupart des équipes commencent avec AI Studio et migrent lorsqu'elles ont besoin de contrôles organisationnels.

Étape 2 : Installez le SDK

Le SDK officiel Google GenAI est disponible pour Python, Node.js, Go et Java. Choisissez votre langage :

# Python
pip install -U google-genai

# Node.js
npm install @google/genai

# Go
go get google.golang.org/genai

Vous n'avez pas besoin du SDK si vous appelez directement le point d'accès REST, voir l'exemple curl ci-dessous.

Étape 3 : Effectuez votre premier appel Flash

Python

import os
from google import genai

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."
)

print(response.text)

Node.js

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs.",
});

console.log(response.text);

curl

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [{"text": "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."}]
    }]
  }'

C'est le chemin idéal pour Flash. À partir de là, vous ajoutez les fonctionnalités dont vous avez réellement besoin.

Réponses en streaming

La sortie de Flash est rapide. Le streaming rend cette vitesse visible pour vos utilisateurs.

Python

stream = client.models.generate_content_stream(
    model="gemini-3.5-flash",
    contents="Write a 5-step tutorial on writing a REST API client in Go."
)

for chunk in stream:
    print(chunk.text, end="", flush=True)

Node.js

const stream = await ai.models.generateContentStream({
  model: "gemini-3.5-flash",
  contents: "Write a 5-step tutorial on writing a REST API client in Go.",
});

for await (const chunk of stream) {
  process.stdout.write(chunk.text);
}

Le point d'accès passe de :generateContent à :streamGenerateContent pour les appels REST bruts.

Entrée multimodale avec Flash

Gemini 3.5 Flash accepte les images en plus du texte. Le score de raisonnement CharXiv de 84,2 % est réel, la compréhension des graphiques fonctionne réellement sur ce modèle.

Python (image depuis le disque)

import os
from google import genai
from google.genai import types

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

with open("dashboard.png", "rb") as f:
    image_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
        "Extract every metric in this dashboard as a JSON object."
    ]
)

print(response.text)

Types MIME pris en charge : image/png, image/jpeg, image/webp, image/heic, image/heif. Les PDF et les vidéos fonctionnent également via types.Part.from_uri().

Appel de fonction et utilisation d'outils avec Flash

L'appel d'outils est ce qui différencie Flash de ses prédécesseurs. Le score MCP Atlas de 83,6 % signifie que Flash choisit le bon outil de manière plus fiable que la génération 3.1.

Python

from google.genai import types

weather_tool = types.Tool(
    function_declarations=[{
        "name": "get_current_weather",
        "description": "Get the current weather for a city.",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "City name"},
                "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
            },
            "required": ["city"]
        }
    }]
)

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="What's the weather in Singapore right now?",
    config=types.GenerateContentConfig(tools=[weather_tool])
)

for part in response.candidates[0].content.parts:
    if part.function_call:
        print(f"Call: {part.function_call.name}")
        print(f"Args: {dict(part.function_call.args)}")

Flash renvoie un objet function_call avec le nom et les arguments. Vous exécutez la fonction localement, renvoyez le résultat et continuez la conversation. Ce modèle correspond à ce que les équipes utilisent déjà avec l'API Gemini 3 Flash.

Sortie structurée (mode JSON)

Forcez la sortie JSON de Flash en définissant le type MIME et le schéma de réponse :

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="List 3 popular API testing tools with their pricing.",
    config=types.GenerateContentConfig(
        response_mime_type="application/json",
        response_schema={
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "name": {"type": "string"},
                    "price_per_month": {"type": "number"},
                    "free_tier": {"type": "boolean"}
                },
                "required": ["name", "free_tier"]
            }
        }
    )
)

import json
data = json.loads(response.text)

JSON validé à chaque appel. Pas d'analyse regex, pas de boucles de réessai.

Tarification (à partir de mai 2026)

Tarifs à la consommation pour gemini-3.5-flash :

Niveau Entrée Sortie
Standard ~1,50 $ / 1M de tokens ~9,00 $ / 1M de tokens
Entrée mise en cache tarif réduit s.o.
Mode batch ~50% de réduction ~50% de réduction

Pour les charges de travail par lots, le mode batch de l'API Gemini vous offre une réduction de 50 % sur les tâches qui ne nécessitent pas une latence en temps réel. Cela vaut la peine de vérifier avant de vous engager à grande échelle.

Pour le calcul complet de la tarification, y compris les scénarios de coûts réels pour les charges de travail SaaS quotidiennes et les boucles d'agents, consultez notre ventilation de la tarification Flash. Pour la référence officielle de Google, consultez la tarification de l'API Gemini Developer.

Test de votre intégration Gemini 3.5 Flash avec Apidog

Un appel SDK fonctionnel n'est que la première étape. Les intégrations de production doivent gérer les aspects complexes : les fragments en streaming, la validation des appels d'outils, les charges utiles multimodales, les réessais en cas d'erreur, les limites de débit. C'est là qu'une configuration de test appropriée est rentable.

Apidog gère l'ensemble de la surface de l'API Gemini Flash dans un seul espace de travail :

Pour commencer, téléchargez Apidog, créez une nouvelle requête pointant vers le point d'accès Flash et importez l'extrait curl du début de cet article. L'ensemble de la configuration prend environ deux minutes.

Gestion des erreurs et limites de débit

Le modèle d'erreur de Flash est simple. Les codes importants :

Enveloppez vos appels Flash avec une boucle de réessai :

import time
from google import genai

def call_with_retry(client, model, prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            return client.models.generate_content(model=model, contents=prompt)
        except Exception as e:
            if attempt == max_retries - 1:
                raise
            time.sleep(2 ** attempt)

Les quotas du niveau gratuit sont réinitialisés quotidiennement (15 requêtes par minute, ~1 500 par jour sur Flash). Les quotas du niveau de production sont réinitialisés par minute et par jour. Pour les tâches à haut débit, vérifiez le chemin du mode batch ou utilisez une solution de repli échelonnée vers Gemini 3 Flash lorsque vous atteignez les limites.

Migration de Gemini 3.1 vers 3.5 Flash

La plupart des projets n'ont besoin de changer qu'une seule chaîne : le nom du modèle.

# Avant
model="gemini-3.1-pro"  # ou gemini-3.1-flash

# Après
model="gemini-3.5-flash"

Ce que vous devriez vérifier après l'échange :

  1. Les schémas d'outils correspondent toujours, c'est le cas pour la plupart des appels, mais réexécutez votre évaluation
  2. Vitesse de sortie, votre interface utilisateur de streaming pourrait avoir besoin d'être régulée car Flash diffuse ~4 fois plus rapidement
  3. Budgets de tokens, mêmes plafonds de 1M / 64K, mais le modèle est plus dense, donc une invite donnée peut utiliser moins de tokens de sortie
  4. Modèles de refus, les garde-fous de sécurité sont plus stricts ; attendez-vous à des rejets différents sur les cas limites

Pour un guide de migration plus détaillé, notre guide de l'API Gemini 3.1 Pro couvre le modèle SDK ; tout est transférable.

Modèles Flash courants

Analyse de documents à contexte long

with open("large_report.pdf", "rb") as f:
    pdf_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
        "Summarize the financial outlook from this report in 5 bullet points."
    ]
)

Le contexte de 1M de tokens de Flash gère les PDF entiers sans découpage.

Boucle d'agent avec appels d'outils

conversation = [{"role": "user", "parts": [{"text": "Book me a flight to Tokyo"}]}]

while True:
    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents=conversation,
        config=types.GenerateContentConfig(tools=[flight_search_tool, booking_tool])
    )

    part = response.candidates[0].content.parts[0]
    if not part.function_call:
        print(part.text)
        break

    result = execute_tool(part.function_call)
    conversation.append({"role": "model", "parts": [part]})
    conversation.append({"role": "user", "parts": [{"function_response": result}]})

C'est le modèle de boucle que le score Terminal-Bench 2.1 de Flash (76,2 %) mesure. Les agents réels fonctionnent.

FAQ

Existe-t-il un niveau gratuit pour l'API Gemini 3.5 Flash ? Oui, via Google AI Studio avec des quotas quotidiens (~1 500 requêtes/jour). Aucune carte de crédit requise.

Flash prend-il en charge les points d'accès compatibles OpenAI ? Oui. Google expose un adaptateur compatible OpenAI à l'adresse /v1beta/openai/. Vous pouvez y diriger n'importe quel SDK OpenAI en définissant base_url et en utilisant votre clé Gemini. Le nom du modèle reste gemini-3.5-flash.

Puis-je utiliser Flash avec LangChain ou LlamaIndex ? Oui, les deux ont des intégrations Gemini natives. Passez model="gemini-3.5-flash" dans leurs wrappers respectifs.

Quand Gemini 3.5 Pro sera-t-il disponible ? Juin 2026 selon l'annonce de lancement de Google. D'ici là, Flash est la seule variante 3.5 disponible.

Quelle est la taille d'image maximale pour Flash ? Recommandé : 3072×3072. Les images plus grandes sont rééchantillonnées. Pour les travaux intensifs en OCR, consultez le flux de travail OCR de Gemini 2.0 Flash, les mêmes modèles s'appliquent.

Comment tester les points d'accès de streaming dans Apidog ? Ouvrez la requête, définissez :streamGenerateContent comme suffixe du point d'accès, et Apidog affichera les fragments SSE au fur et à mesure qu'ils arrivent. Utile pour déboguer les réponses incomplètes.

Où puis-je consulter les journaux de l'API ? Dans AI Studio sous « Activité », ou dans Vertex AI sous « Explorateur de journaux » pour les déploiements en production.

Quoi construire en premier

Une courte liste de projets de démarrage qui méritent d'être lancés dès la première semaine avec Flash :

Pour chacun, le même processus de test s'applique : construisez l'invite, enveloppez-la dans votre appel SDK, validez la forme de la réponse avec Apidog, et déployez.

télécharger l'application

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API