Google Gemini 3.1 Flash Lite a été lancé le 3 mars 2026, et c'est le modèle le plus rapide et le plus abordable de la gamme Gemini. À 0,25 $ par million de jetons d'entrée et 1,50 $ par million de jetons de sortie, il est conçu pour les développeurs qui ont besoin d'IA à grande échelle sans exploser leur budget.
Ce guide vous montre exactement comment y accéder, configurer votre clé API et commencer à faire des requêtes. Vous aurez un code fonctionnel en moins de 10 minutes.
En bref
Configuration rapide :
- Rendez-vous sur Google AI Studio
- Créez un projet et générez une clé API
- Installez le SDK :
pip install google-generativeai - Effectuez votre première requête avec le modèle
gemini-3.1-flash-lite - Testez dans Apidog pour un débogage et une collaboration d'équipe plus faciles
Tarification : 0,25 $/1M de jetons d'entrée, 1,50 $/1M de jetons de sortie
Vitesse : 2,5 fois plus rapide que Gemini 2.5 Flash
Tier gratuit : 1 million de jetons d'entrée gratuits pendant la préversion
Qu'est-ce que Gemini 3.1 Flash Lite ?
Gemini 3.1 Flash Lite est le nouveau modèle d'IA de Google conçu pour les applications à volume élevé. Il est 2,5 fois plus rapide que Gemini 2.5 Flash avec une vitesse de sortie 45 % plus rapide, tout en obtenant un score de 86,9 % sur les benchmarks GPQA Diamond et de 76,8 % sur les benchmarks MMMU Pro.

Le modèle inclut des niveaux de réflexion que vous pouvez ajuster par requête. Diminuez-les pour les tâches simples, augmentez-les pour les raisonnements complexes. Cette flexibilité vous permet d'optimiser les coûts tout en gérant diverses charges de travail.
Il est disponible via Google AI Studio pour les développeurs individuels et Vertex AI pour les entreprises.
Prérequis
Avant de commencer, assurez-vous d'avoir :
- Un compte Google
- Python 3.7+ ou Node.js 14+ installé
- Une compréhension de base des API REST
- (Facultatif) Apidog installé pour le test d'API
Étape 1 : Créer un compte Google AI Studio
Google AI Studio est le moyen le plus rapide d'accéder aux modèles Gemini pour le développement.
- Rendez-vous sur aistudio.google.com
- Connectez-vous avec votre compte Google
- Acceptez les conditions d'utilisation
- Vous arriverez sur le tableau de bord AI Studio
L'interface affiche les modèles disponibles, votre utilisation de l'API et des modèles de démarrage rapide. Flash Lite apparaît dans le menu déroulant des modèles sous le nom gemini-3.1-flash-lite.

Étape 2 : Générer votre clé API
Les clés API vous permettent d'authentifier les requêtes auprès de l'API Gemini.
- Cliquez sur Obtenir une clé API dans le coin supérieur droit
- Sélectionnez Créer une clé API dans un nouveau projet (ou choisissez un projet existant)
- Google crée un nouveau projet Cloud et génère votre clé
- Copiez la clé API - elle ressemble à
AIzaSyXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX - Stockez-la en toute sécurité - vous ne la verrez plus

Conseil de sécurité : Ne jamais valider les clés API dans le contrôle de version. Utilisez des variables d'environnement ou des outils de gestion de secrets.
Étape 3 : Installer le SDK
Google fournit des SDK officiels pour Python et Node.js.
Python
pip install google-generativeai
Node.js
npm install @google/generative-ai
Le SDK gère l'authentification, le formatage des requêtes et l'analyse des réponses. Vous pouvez également utiliser l'API REST directement si vous préférez.
Étape 4 : Effectuer votre première requête
Envoyons une simple invite à Flash Lite.
Exemple Python
import google.generativeai as genai
import os
# Configure API key
genai.configure(api_key=os.environ.get('GOOGLE_API_KEY'))
# Initialize the model
model = genai.GenerativeModel('gemini-3.1-flash-lite')
# Generate content
response = model.generate_content('Explain REST APIs in one sentence.')
print(response.text)
Exemple Node.js
const { GoogleGenerativeAI } = require("@google/generative-ai");
// Initialize with API key
const genAI = new GoogleGenerativeAI(process.env.GOOGLE_API_KEY);
async function run() {
// Get the model
const model = genAI.getGenerativeModel({ model: "gemini-3.1-flash-lite" });
// Generate content
const result = await model.generateContent("Explain REST APIs in one sentence.");
const response = await result.response;
const text = response.text();
console.log(text);
}
run();
Exemple cURL (API REST)
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.1-flash-lite:generateContent?key=YOUR_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"contents": [{
"parts": [{
"text": "Explain REST APIs in one sentence."
}]
}]
}'
Exécutez n'importe lequel de ces exemples et vous obtiendrez une réponse en quelques secondes. Le modèle renvoie un texte clair et concis qui répond à votre invite.
Étape 5 : Tester avec Apidog
Apidog facilite le test d'API grâce à une interface visuelle, la collaboration d'équipe et la documentation automatique.

Pourquoi utiliser Apidog pour l'API Gemini ?
- Constructeur de requêtes visuel - Pas besoin d'écrire des commandes cURL
- Variables d'environnement - Basculez facilement entre les clés API de développement/production
- Validation des réponses - Détectez les erreurs avant qu'elles n'atteignent la production
- Partage d'équipe - Partagez des collections d'API avec votre équipe
- Documentation automatique - Générez des documents à partir de vos requêtes
Vous verrez la réponse dans le panneau de droite avec la coloration syntaxique, le temps de réponse et le code d'état.
Enregistrer comme variable d'environnement
- Allez dans Environnements dans Apidog
- Créez un nouvel environnement (par exemple, "Gemini Dev")
- Ajoutez la variable :
GOOGLE_API_KEY= votre clé API réelle - Utilisez
{{GOOGLE_API_KEY}}dans vos requêtes
Vous pouvez maintenant changer d'environnement sans modifier vos requêtes. Parfait pour gérer les clés de développement, de staging et de production.
Comprendre le format de la requête
L'API Gemini utilise une structure JSON spécifique.
Structure de requête de base
{
"contents": [{
"parts": [{
"text": "Your prompt here"
}]
}]
}
Avec les niveaux de réflexion
{
"contents": [{
"parts": [{
"text": "Generate API documentation for a user authentication endpoint"
}]
}],
"generationConfig": {
"thinkingLevel": "high"
}
}
Niveaux de réflexion : low (faible), medium (moyen), high (élevé)
- Faible : Réponses rapides et simples
- Moyen : Raisonnement équilibré
- Élevé : Analyse approfondie, tâches complexes
Avec les instructions système
{
"systemInstruction": {
"parts": [{
"text": "You are an API documentation expert. Write clear, concise docs."
}]
},
"contents": [{
"parts": [{
"text": "Document this endpoint: POST /api/users"
}]
}]
}
Les instructions système guident le comportement du modèle pour toutes les requêtes d'une conversation.
Format de la réponse
L'API renvoie du JSON avec cette structure :
{
"candidates": [{
"content": {
"parts": [{
"text": "REST APIs are interfaces that let applications communicate over HTTP using standard methods like GET, POST, PUT, and DELETE."
}],
"role": "model"
},
"finishReason": "STOP",
"index": 0,
"safetyRatings": [...]
}],
"usageMetadata": {
"promptTokenCount": 8,
"candidatesTokenCount": 25,
"totalTokenCount": 33
}
}
Champs clés :
candidates[0].content.parts[0].text- La réponse généréeusageMetadata- Nombre de jetons pour la facturationfinishReason- Pourquoi la génération s'est arrêtée (STOP, MAX_TOKENS, SAFETY)
Cas d'utilisation courants
1. Génération de documentation API
import google.generativeai as genai
genai.configure(api_key=os.environ.get('GOOGLE_API_KEY'))
model = genai.GenerativeModel('gemini-3.1-flash-lite')
endpoint_spec = """
POST /api/v1/users
Creates a new user account
Body: { "email": string, "password": string, "name": string }
"""
response = model.generate_content(
f"Generate comprehensive API documentation for this endpoint:\n{endpoint_spec}",
generation_config={"thinkingLevel": "medium"}
)
print(response.text)
2. Validation des requêtes
def validate_api_request(request_body):
model = genai.GenerativeModel('gemini-3.1-flash-lite')
prompt = f"""
Validate this API request body and list any issues:
{request_body}
Check for:
- Missing required fields
- Invalid data types
- Security concerns
"""
response = model.generate_content(prompt)
return response.text
# Example usage
request = '{"email": "test@example.com", "password": "123"}'
validation_result = validate_api_request(request)
print(validation_result)
3. Génération de messages d'erreur
def generate_user_friendly_error(error_code, technical_message):
model = genai.GenerativeModel('gemini-3.1-flash-lite')
prompt = f"""
Convert this technical error into a user-friendly message:
Error Code: {error_code}
Technical: {technical_message}
Make it clear, actionable, and non-technical.
"""
response = model.generate_content(
prompt,
generation_config={"thinkingLevel": "low"}
)
return response.text
# Example
friendly_error = generate_user_friendly_error(
"AUTH_TOKEN_EXPIRED",
"JWT token validation failed: exp claim is in the past"
)
print(friendly_error)
Limites de débit et quotas
Flash Lite a des limites généreuses pendant la préversion :
Tier gratuit :
- 1 million de jetons d'entrée gratuits
- 15 requêtes par minute
- 1 500 requêtes par jour
Tier payant :
- 0,25 $ par 1M de jetons d'entrée
- 1,50 $ par 1M de jetons de sortie
- 60 requêtes par minute
- Aucune limite quotidienne
Surveillez votre utilisation dans Google AI Studio sous Utilisation et facturation.
Gestion des erreurs
Gérez les erreurs courantes avec élégance :
import google.generativeai as genai
from google.api_core import exceptions
genai.configure(api_key=os.environ.get('GOOGLE_API_KEY'))
model = genai.GenerativeModel('gemini-3.1-flash-lite')
def safe_generate(prompt):
try:
response = model.generate_content(prompt)
return response.text
except exceptions.ResourceExhausted:
return "Limite de débit dépassée. Réessayez dans une minute."
except exceptions.InvalidArgument as e:
return f"Requête invalide : {str(e)}"
except exceptions.PermissionDenied:
return "Clé API invalide ou expirée."
except Exception as e:
return f"Erreur inattendue : {str(e)}"
result = safe_generate("Explain APIs")
print(result)
Erreurs courantes :
400 Bad Request- JSON invalide ou champs obligatoires manquants401 Unauthorized- Clé API invalide429 Too Many Requests- Limite de débit dépassée500 Internal Server Error- Les serveurs de Google ont rencontré un problème
Dépannage
"Clé API non valide"
Vérifiez ceci :
- La clé API est copiée correctement (sans espaces supplémentaires)
- La clé API est activée dans la Google Cloud Console
- La facturation est activée sur votre projet
- Le nom de la variable d'environnement correct est utilisé
"Modèle introuvable"
Assurez-vous d'utiliser le nom exact du modèle :
# Correct
model = genai.GenerativeModel('gemini-3.1-flash-lite')
# Incorrect
model = genai.GenerativeModel('gemini-flash-lite')
model = genai.GenerativeModel('gemini-3.1-flash')
"Limite de débit dépassée"
Vous avez atteint la limite de requêtes par minute. Solutions :
- Ajoutez une logique de réessai avec backoff exponentiel
- Regroupez plusieurs invites en une seule requête
- Passez au tier payant pour des limites plus élevées
- Implémentez une file d'attente de requêtes
Réponses lentes
Flash Lite est rapide, mais si vous constatez des retards :
- Vérifiez votre connexion réseau
- Utilisez des niveaux de réflexion inférieurs pour les tâches simples
- Réduisez la longueur de l'invite
- Envisagez la diffusion en continu des réponses pour les sorties longues
Avancé : Diffusion des réponses (Streaming)
Pour les sorties longues, diffusez les jetons au fur et à mesure de leur génération :
import google.generativeai as genai
genai.configure(api_key=os.environ.get('GOOGLE_API_KEY'))
model = genai.GenerativeModel('gemini-3.1-flash-lite')
prompt = "Write a detailed explanation of REST API authentication methods"
response = model.generate_content(prompt, stream=True)
for chunk in response:
print(chunk.text, end='', flush=True)
Le streaming améliore la performance perçue. Les utilisateurs voient la sortie immédiatement au lieu d'attendre la réponse complète.
Conseils pour l'optimisation des coûts
1. Regrouper les requêtes similaires par lots
# Coûteux : 3 requêtes distinctes
response1 = model.generate_content("Explain GET")
response2 = model.generate_content("Explain POST")
response3 = model.generate_content("Explain PUT")
# Moins cher : 1 requête combinée
combined_prompt = """
Explain these HTTP methods:
1. GET
2. POST
3. PUT
"""
response = model.generate_content(combined_prompt)
2. Utiliser des niveaux de réflexion inférieurs
# Pour une classification simple
response = model.generate_content(
"Is this email spam? 'Buy now!'",
generation_config={"thinkingLevel": "low"}
)
# Pour une analyse complexe
response = model.generate_content(
"Analyze this API design and suggest improvements...",
generation_config={"thinkingLevel": "high"}
)
3. Implémenter la mise en cache
Mettez en cache les réponses pour les requêtes répétées. Un simple cache en mémoire peut réduire les coûts de 50 %+ pour les requêtes courantes.
4. Raccourcir les invites
Supprimez le contexte inutile :
# Verbeux (plus de jetons)
prompt = "I would like you to please explain to me what REST APIs are and how they work in detail"
# Concis (moins de jetons)
prompt = "Explain REST APIs"
Considérations de sécurité
1. Protégez votre clé API
- Stockez-la dans des variables d'environnement ou des gestionnaires de secrets
- Faites pivoter les clés régulièrement
- Utilisez des clés distinctes pour le développement, le staging et la production
- Ne jamais enregistrer les clés API dans les journaux
2. Validez les entrées utilisateur
def safe_prompt(user_input):
# Supprime les tentatives d'injection potentielles
cleaned = user_input.replace("Ignore previous instructions", "")
cleaned = cleaned[:1000] # Limite la longueur
return f"User question: {cleaned}"
3. Filtrez les données sensibles
N'envoyez pas d'informations sensibles à l'API :
import re
def sanitize_for_ai(text):
# Supprime les adresses e-mail
text = re.sub(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', '[EMAIL]', text)
# Supprime les numéros de téléphone
text = re.sub(r'\b\d{3}[-.]?\d{3}[-.]?\d{4}\b', '[PHONE]', text)
# Supprime les numéros de carte de crédit
text = re.sub(r'\b\d{4}[-\s]?\d{4}[-\s]?\d{4}[-\s]?\d{4}\b', '[CARD]', text)
return text
4. Implémentez la limitation de débit
Protégez votre clé API contre les abus :
from collections import defaultdict
import time
class RateLimiter:
def __init__(self, max_requests=10, window=60):
self.max_requests = max_requests
self.window = window
self.requests = defaultdict(list)
def allow_request(self, user_id):
now = time.time()
# Supprime les anciennes requêtes
self.requests[user_id] = [
req_time for req_time in self.requests[user_id]
if now - req_time < self.window
]
if len(self.requests[user_id]) < self.max_requests:
self.requests[user_id].append(now)
return True
return False
limiter = RateLimiter(max_requests=10, window=60)
def generate_with_limit(user_id, prompt):
if not limiter.allow_request(user_id):
return "Limite de débit dépassée. Réessayez plus tard."
model = genai.GenerativeModel('gemini-3.1-flash-lite')
response = model.generate_content(prompt)
return response.text
Comparaison de Flash Lite avec d'autres modèles Gemini
| Caractéristique | Flash Lite | Flash | Pro |
|---|---|---|---|
| Prix entrée | 0,25 $/1M | 0,50 $/1M | 1,25 $/1M |
| Prix sortie | 1,50 $/1M | 3,00 $/1M | 7,50 $/1M |
| Vitesse | 2,5X plus rapide | Rapide | Standard |
| Fenêtre contextuelle | 32K jetons | 1M jetons | 2M jetons |
| Idéal pour | Fort volume, sensible au coût | Équilibré | Raisonnement complexe |
Choisissez Flash Lite quand :
- Vous avez besoin de réponses rapides
- Le coût est un facteur important
- Les requêtes sont inférieures à 32K jetons
- Les exigences de qualité sont modérées
Choisissez Flash quand :
- Vous avez besoin de grandes fenêtres contextuelles
- La qualité est plus importante que le coût
Choisissez Pro quand :
- Vous avez besoin d'une capacité de raisonnement maximale
- Le coût n'est pas une préoccupation
- Vous travaillez avec de très grands documents
Intégration avec les workflows Apidog
Les utilisateurs d'Apidog peuvent intégrer Flash Lite dans leur workflow de développement API :
1. Génération automatique de cas de test
Utilisez Flash Lite pour générer des cas de test à partir de vos spécifications d'API :
def generate_test_cases(endpoint_spec):
model = genai.GenerativeModel('gemini-3.1-flash-lite')
prompt = f"""
Generate comprehensive test cases for this API endpoint:
{json.dumps(endpoint_spec, indent=2)}
Include:
- Happy path tests
- Edge cases
- Error scenarios
- Boundary conditions
Format as JSON array of test cases.
"""
response = model.generate_content(prompt)
return json.loads(response.text)
2. Validation des réponses API
Vérifiez si les réponses correspondent aux schémas attendus :
def validate_response(response_data, expected_schema):
model = genai.GenerativeModel('gemini-3.1-flash-lite')
prompt = f"""
Validate this API response against the schema:
Response: {json.dumps(response_data, indent=2)}
Schema: {json.dumps(expected_schema, indent=2)}
List any mismatches or issues.
"""
response = model.generate_content(
prompt,
generation_config={"thinkingLevel": "low"}
)
return response.text
3. Générer des données de maquette
Créez des données de test réalistes :
def generate_mock_data(schema, count=10):
model = genai.GenerativeModel('gemini-3.1-flash-lite')
prompt = f"""
Generate {count} realistic mock data entries matching this schema:
{json.dumps(schema, indent=2)}
Return as JSON array.
"""
response = model.generate_content(prompt)
return json.loads(response.text)
FAQ
Gemini 3.1 Flash Lite est-il gratuit ?
Les 1 million de premiers jetons d'entrée sont gratuits pendant la préversion. Après cela, vous payez 0,25 $ par million de jetons d'entrée et 1,50 $ par million de jetons de sortie.
Quelle est la vitesse de Flash Lite par rapport aux autres modèles ?
Flash Lite est 2,5 fois plus rapide que Gemini 2.5 Flash pour le temps de premier jeton et 45 % plus rapide pour la vitesse de sortie. C'est l'un des modèles les plus rapides disponibles.
Puis-je utiliser Flash Lite en production ?
Oui. Bien qu'il soit étiqueté comme "préversion", le modèle est suffisamment stable pour une utilisation en production. Les premiers adoptants comme Latitude, Cartwheel et Whering l'utilisent déjà à grande échelle.
Quelle est la taille de la fenêtre contextuelle ?
Flash Lite prend en charge jusqu'à 32 000 jetons de contexte. C'est suffisant pour la plupart des cas d'utilisation d'API, mais plus petit que Flash (1M de jetons) ou Pro (2M de jetons).
Comment fonctionnent les niveaux de réflexion ?
Les niveaux de réflexion contrôlent la quantité de traitement que le modèle applique. "Low" (faible) est rapide et simple. "High" (élevé) est plus lent mais plus approfondi. Utilisez "low" pour la classification, "high" pour un raisonnement complexe.
Puis-je utiliser Flash Lite avec Apidog ?
Oui. Apidog fonctionne avec n'importe quelle API REST, y compris Gemini. Configurez vos requêtes dans Apidog pour faciliter les tests, la collaboration d'équipe et la documentation.
Que se passe-t-il si je dépasse les limites de débit ?
Vous obtiendrez une erreur 429. Implémentez une logique de réessai avec backoff exponentiel ou passez au tier payant pour des limites plus élevées (60 requêtes/minute contre 15).
Mes données sont-elles utilisées pour entraîner le modèle ?
Selon la politique de Google, les requêtes API ne sont pas utilisées pour entraîner les modèles. Vos données restent privées.
Puis-je affiner Flash Lite ?
Pas encore. L'affinement est disponible pour certains modèles Gemini, mais pas pour Flash Lite au lancement. Utilisez plutôt les instructions système pour guider le comportement.
Comment Flash Lite se compare-t-il à GPT-4 Turbo ?
Flash Lite est plus rapide et moins cher, mais GPT-4 Turbo offre un raisonnement plus puissant pour les tâches complexes. Pour les charges de travail API à volume élevé, Flash Lite l'emporte sur les coûts et la vitesse.
Prochaines étapes
Vous avez maintenant tout ce dont vous avez besoin pour commencer à utiliser Gemini 3.1 Flash Lite :
- Obtenez votre clé API sur Google AI Studio
- Installez le SDK et exécutez votre première requête
- Testez dans Apidog pour un développement plus facile
- Implémentez la gestion des erreurs et la logique de réessai
- Surveillez l'utilisation pour optimiser les coûts
Le modèle est prêt pour la production. La tarification rend l'IA accessible à grande échelle. La vitesse maintient vos utilisateurs satisfaits.
Commencez à construire.
