En bref : Google a lancé Gemma 4 en avril 2026, une famille de quatre modèles ouverts sous licence Apache 2.0 qui surpasse des modèles 20 fois plus grands sur les benchmarks standards. Vous pouvez appeler l'API Gemma 4 via Google AI Studio, Vertex AI, ou l'exécuter localement avec Ollama et vLLM. Associez-le à Smart Mock d'Apidog pour générer automatiquement des réponses API réalistes à partir de vos schémas OpenAPI sans écrire une seule règle de mock.
Introduction
La plupart des modèles d'IA open-source vous obligent à choisir : capacité brute ou déployabilité. Soit vous obtenez un modèle trop grand pour fonctionner sur votre ordinateur portable, soit un petit modèle qui ne peut pas gérer le raisonnement en plusieurs étapes. Gemma 4 brise ce compromis.
Gemma 4 est la famille de modèles ouverts la plus performante de Google DeepMind à ce jour. Le modèle 31B Dense se classe 3e parmi tous les modèles ouverts sur le classement d'Arena AI, battant des concurrents 20 fois plus grands. Le 26B Mixture of Experts (MoE) occupe la 6e place. Les deux fonctionnent sur un seul GPU de 80 Go. Les modèles légers E2B et E4B fonctionnent complètement hors ligne sur les téléphones et les appareils périphériques.
Pour les développeurs d'API, cela est plus important qu'il n'y paraît. Gemma 4 prend en charge nativement l'appel de fonctions, la sortie JSON structurée et des fenêtres de contexte de 256K. Cela en fait un choix pratique pour construire des outils d'API basés sur l'IA, de la génération de données de test à l'écriture de mocks en passant par l'analyse des réponses API.
Qu'est-ce que Gemma 4 et quoi de neuf
Gemma 4 est la quatrième génération de modèles de langage ouverts de Google DeepMind. Le nom « Gemma » vient du mot latin pour pierre précieuse. La série a commencé début 2024, et depuis son lancement, les développeurs ont téléchargé les modèles Gemma plus de 400 millions de fois. La communauté a construit plus de 100 000 variantes, formant ce que Google appelle le « Gemmaverse ».

Gemma 4 est lancé sous une licence Apache 2.0, un changement significatif par rapport aux générations précédentes qui utilisaient une politique d'utilisation personnalisée. Cela signifie que vous pouvez utiliser, modifier et distribuer Gemma 4 commercialement sans restriction. C'est un changement important pour les entreprises et les startups qui ont besoin d'un contrôle total sur leur infrastructure d'IA.
L'amélioration majeure de Gemma 4 est ce que Google appelle l'« intelligence par paramètre ». Le modèle 31B Dense offre des capacités de pointe à une fraction du coût de calcul de modèles comme GPT-4 ou Claude 3 Sonnet. Sur le classement de texte d'Arena AI (en avril 2026), Gemma 4 31B surpasse des modèles de plus de 600B de paramètres.

Voici ce qui est véritablement nouveau par rapport à Gemma 3 :
Entrée multimodale native. Les quatre modèles Gemma 4 traitent nativement les images et la vidéo. Les modèles edge E2B et E4B ajoutent une entrée audio native pour la reconnaissance vocale. Cela ne faisait pas partie des capacités de base de Gemma 3.
Fenêtres de contexte plus longues. Les modèles E2B et E4B supportent 128K tokens. Les modèles 26B et 31B s'étendent à 256K tokens. C'est suffisant pour passer un répertoire de code entier dans une seule requête.
Prise en charge du workflow d'agents. Gemma 4 inclut l'appel de fonctions natif, le mode de sortie JSON structuré et les instructions système. Ces trois fonctionnalités réunies rendent pratique la création d'agents capables d'appeler des API externes, d'analyser les réponses et d'enchaîner les actions.
Raisonnement avancé. Le modèle 31B montre des améliorations significatives en matière de benchmarks en mathématiques et de suivi d'instructions en plusieurs étapes par rapport à Gemma 3. Cela est important pour la génération de tests d'API, où le modèle doit comprendre les relations entre les endpoints et les schémas de données.
Prise en charge de plus de 140 langues. Gemma 4 a été entraîné nativement sur plus de 140 langues, et non adapté de l'anglais. Cela le rend utilisable pour des produits API mondiaux dès le départ.
Licence Apache 2.0. Comme mentionné, cela supprime toute ambiguïté juridique pour un usage commercial. Vous possédez vos modèles, vos données et vos déploiements.
Variantes et capacités des modèles Gemma 4
Google a lancé Gemma 4 en quatre tailles, chacune ciblant un niveau de matériel spécifique :
| Modèle | Paramètres | Paramètres actifs (inférence) | Contexte | Idéal pour |
|---|---|---|---|---|
| E2B | 2B effectifs | ~2B | 128K | Mobile, IoT, périphérie hors ligne |
| E4B | 4B effectifs | ~4B | 128K | Téléphones, Raspberry Pi, Jetson Orin |
| 26B MoE | 26B au total | ~3.8B actifs | 256K | Tâches de serveur sensibles à la latence |
| 31B Dense | 31B | 31B | 256K | Qualité maximale, recherche, affinage |
Les modèles E2B et E4B utilisent une architecture Mixture of Experts qui n'active qu'une fraction des paramètres totaux par token. Cela préserve la durée de vie de la batterie et la RAM sur les appareils contraints. Google les a construits en collaboration avec Qualcomm et MediaTek, et ils fonctionnent complètement hors ligne sur Android via la préversion d'AICore Developer.
Le modèle 26B MoE n'active que 3.8B paramètres pendant l'inférence malgré ses 26B paramètres totaux. C'est l'option la plus rapide pour un déploiement côté serveur où vous souhaitez une faible latence sans sacrifier beaucoup de qualité.
Le modèle 31B Dense est le leader en termes de qualité. C'est celui que vous choisiriez pour l'affinage sur des tâches spécifiques à un domaine, ou pour tout cas d'utilisation où la qualité de la sortie est plus importante que la vitesse. Les quatre variantes sont livrées sous forme de modèles entraînés sur des instructions (IT) et de modèles de base.
Pour les cas d'utilisation d'API, le 26B MoE offre le meilleur équilibre vitesse/qualité. Le 31B Dense est le bon choix lorsque vous avez besoin d'une sortie JSON structurée pour des réponses API complexes ou lorsque vous générez des scénarios de test avec une logique en plusieurs étapes.
Tous les modèles supportent l'appel de fonctions et le mode de sortie JSON, qui sont les deux capacités que vous utiliserez le plus lors de la construction d'outils d'API avec Gemma 4.
Configuration de l'API Gemma 4 : étape par étape
Vous avez trois principales façons d'appeler Gemma 4 : Google AI Studio (le plus rapide), Vertex AI (entreprise), ou le déploiement local avec Ollama ou vLLM. Voici comment configurer chacun.
Option 1 : Google AI Studio (recommandé pour le prototypage)
Allez sur Google AI Studio et créez un compte gratuit. À partir de là, générez une clé API.
Installez le SDK Google Generative AI :
pip install google-genai
Effectuez votre premier appel :
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemma-4-31b-it")
response = model.generate_content(
"Generate a JSON object for a user account with id, email, and created_at fields."
)
print(response.text)
Pour une sortie JSON structurée, utilisez le paramètre response_mime_type :
import google.generativeai as genai
import json
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel(
"gemma-4-31b-it",
generation_config={"response_mime_type": "application/json"}
)
prompt = """
Generate 3 sample user objects for an e-commerce API.
Each user should have: id (integer), email (string), username (string),
created_at (ISO 8601 timestamp), and subscription_tier (free|pro|enterprise).
Return as a JSON array.
"""
response = model.generate_content(prompt)
users = json.loads(response.text)
print(json.dumps(users, indent=2))
Option 2 : Déploiement local avec Ollama
Ollama vous permet d'exécuter Gemma 4 entièrement sur votre machine. Installez Ollama depuis ollama.com, puis téléchargez le modèle :
ollama pull gemma4
Démarrez le serveur de modèle :
ollama serve
Appelez-le avec le format d'API compatible OpenAI :
import requests
import json
response = requests.post(
"http://localhost:11434/api/chat",
json={
"model": "gemma4",
"messages": [
{
"role": "user",
"content": "Generate a valid JSON response for a REST API /products endpoint. Include id, name, price, and stock fields."
}
],
"stream": False
}
)
result = response.json()
print(result["message"]["content"])
Option 3 : Appel de fonction pour l'orchestration d'API
Gemma 4 prend en charge l'appel de fonctions natif. Cela vous permet de définir des outils que le modèle peut appeler pendant une conversation :
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
# Define a tool that Gemma can call
tools = [
{
"function_declarations": [
{
"name": "get_api_schema",
"description": "Retrieve the OpenAPI schema for a given endpoint path",
"parameters": {
"type": "object",
"properties": {
"endpoint_path": {
"type": "string",
"description": "The API endpoint path, e.g. /users/{id}"
},
"method": {
"type": "string",
"enum": ["GET", "POST", "PUT", "DELETE", "PATCH"]
}
},
"required": ["endpoint_path", "method"]
}
}
]
}
]
model = genai.GenerativeModel("gemma-4-31b-it", tools=tools)
response = model.generate_content(
"I need to test the GET /users/{id} endpoint. What schema should the response follow?"
)
# Check if the model wants to call a function
if response.candidates[0].content.parts[0].function_call:
fc = response.candidates[0].content.parts[0].function_call
print(f"Model called function: {fc.name}")
print(f"With args: {dict(fc.args)}")
Ce modèle d'appel de fonctions est ce qui rend Gemma 4 utile pour la construction de pipelines de test d'API basés sur des agents.
Construire des mocks d'API basés sur l'IA avec Gemma 4
L'une des applications les plus pratiques de Gemma 4 pour les développeurs d'API est la génération de données de mock. Lorsque vous construisez un frontend avant l'existence du backend, ou que vous testez des cas limites difficiles à déclencher en production, vous avez besoin de réponses de mock réalistes.
Voici comment utiliser Gemma 4 pour générer des données de mock à partir d'un schéma OpenAPI :
import google.generativeai as genai
import json
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel(
"gemma-4-31b-it",
generation_config={"response_mime_type": "application/json"}
)
# Your OpenAPI schema for the response
schema = {
"type": "object",
"properties": {
"id": {"type": "integer"},
"order_number": {"type": "string", "pattern": "^ORD-[0-9]{6}$"},
"status": {"type": "string", "enum": ["pending", "shipped", "delivered", "cancelled"]},
"total": {"type": "number", "minimum": 0},
"items": {
"type": "array",
"items": {
"type": "object",
"properties": {
"product_id": {"type": "integer"},
"quantity": {"type": "integer", "minimum": 1},
"unit_price": {"type": "number"}
}
}
},
"created_at": {"type": "string", "format": "date-time"}
}
}
prompt = f"""
Generate 5 realistic mock responses for an order management API.
Each response must conform exactly to this JSON Schema:
{json.dumps(schema, indent=2)}
Make the data realistic: use realistic prices, product IDs, and varied statuses.
Return as a JSON array of 5 order objects.
"""
response = model.generate_content(prompt)
mock_orders = json.loads(response.text)
print(json.dumps(mock_orders, indent=2))
La clé ici est que Gemma 4 comprend les contraintes du schéma JSON. Il respecte les valeurs d'énumération, les motifs de chaîne et les plages numériques. Vous obtenez des données de mock qui correspondent réellement à votre contrat d'API, et non des chaînes aléatoires.
Vous pouvez étendre ce modèle pour générer des données de mock pour n'importe quel endpoint d'API. Fournissez le schéma de réponse de votre spécification OpenAPI, et Gemma 4 produira des données de test conformes au schéma.
Pour un mocking plus avancé, combinez Gemma 4 avec une logique de réponse conditionnelle. Si une requête contient un ID utilisateur spécifique, renvoyez une réponse d'erreur. Sinon, renvoyez des données de succès. C'est là que la fenêtre de contexte de 256K de Gemma 4 aide : vous pouvez inclure votre spécification OpenAPI entière dans la requête et lui demander de générer des réponses de mock pour plusieurs endpoints à la fois.
Un flux de travail pratique : exportez votre collection Apidog en tant que spécification OpenAPI, collez-la dans une requête, et demandez à Gemma 4 de générer 10 cas de test réalistes par endpoint. Vous obtenez un jeu de données de mock complet en quelques secondes plutôt qu'en plusieurs heures.
Tester les réponses de l'API Gemma 4 avec Apidog
Une fois que Gemma 4 génère des données ou agit comme partie de votre pipeline d'API, vous devez vérifier que les réponses correspondent à votre schéma. C'est là que la fonctionnalité Scénarios de Test d'Apidog intervient.

Voici le flux de travail spécifique :
Étape 1 : Importez votre endpoint d'API Gemma 4 dans Apidog.
Dans Apidog, accédez à votre projet et créez un nouvel endpoint. Définissez l'URL vers l'API wrapper que vous avez construite autour de Gemma 4 (ou pointez directement vers l'endpoint de Google AI Studio). Définissez le schéma de réponse attendu dans l'interface Apidog.
Étape 2 : Utilisez Smart Mock pour prototyper les réponses attendues.
Avant d'exécuter des tests en direct sur Gemma 4, utilisez Smart Mock d'Apidog pour générer des réponses de référence à partir de votre schéma. Smart Mock lit votre spécification de réponse et produit des données réalistes basées sur les noms et types de propriétés. Un champ nommé email obtient automatiquement une adresse e-mail valide. Un champ nommé created_at obtient un horodatage correctement formaté.

Smart Mock utilise trois niveaux de priorité : d'abord les valeurs personnalisées des champs de mock, puis la correspondance des noms de propriétés (où il déduit le type de données à partir des noms de champs), puis les valeurs par défaut du schéma JSON. Cette hiérarchie signifie que vous pouvez remplacer des champs spécifiques tout en laissant le moteur gérer le reste.
Étape 3 : Créez un scénario de test pour votre pipeline Gemma 4.
Allez dans le module Tests d'Apidog et créez un nouveau Scénario de Test. Ajoutez votre appel d'API Gemma 4 comme première étape. Ajoutez ensuite des étapes d'assertion pour valider la réponse.
Le mode d'orchestration des Scénarios de Test d'Apidog vous permet d'enchaîner plusieurs requêtes. Pour un test d'intégration d'API Gemma 4, votre scénario pourrait ressembler à ceci :
- Appelez votre endpoint d'authentification pour obtenir un token
- Envoyez une requête à Gemma 4 avec le token d'authentification
- Extrayez le JSON généré du corps de la réponse
- Validez le JSON extrait par rapport à vos assertions de schéma
- Passez les données validées à un endpoint POST en aval
Étape 4 : Configurez les assertions.
Dans l'étape d'assertion, vous pouvez vérifier les codes de statut, les en-têtes de réponse et les champs JSON. Pour les réponses de Gemma 4, vous affirmeriez généralement que le champ candidates[0].content.parts[0].text existe et que son contenu analysé correspond à votre schéma attendu.
Utilisez le processeur Extract Variable d'Apidog pour extraire la sortie de Gemma 4 dans une variable. Utilisez ensuite cette variable dans les étapes de requête suivantes. Cela vous permet d'enchaîner les données générées par Gemma 4 à travers un flux de travail de test en plusieurs étapes.
Étape 5 : Exécutez avec des tests basés sur les données.
Apidog prend en charge les fichiers de données de test CSV et JSON. Vous pouvez définir 50 variations de requêtes différentes dans un fichier CSV, les importer dans votre Scénario de Test et exécuter les 50 variations en un seul clic. C'est ainsi que vous testez que votre intégration Gemma 4 gère correctement diverses entrées.
Le flux de travail complet, de la définition du schéma à l'exécution des tests, prend environ 15 minutes à configurer. Après cela, vous pouvez l'exécuter à chaque commit via l'interface de ligne de commande d'Apidog dans votre pipeline CI/CD.
Cas d'utilisation concrets
Génération de données de test API. Les équipes QA passent un temps considérable à écrire des fixtures de test. Avec le mode de sortie JSON de Gemma 4 et votre schéma OpenAPI, vous pouvez générer des centaines d'enregistrements de test réalistes en quelques minutes. Fournissez le schéma, spécifiez les cas limites que vous souhaitez couvrir, et laissez le modèle produire les données.
Mocking API intelligent. Les mocks traditionnels renvoient des données statiques. Avec Gemma 4 derrière votre serveur de mock, vous pouvez renvoyer des réponses contextuellement appropriées. Un mock pour une API de recherche de produits pourrait renvoyer différents ensembles de produits basés sur la requête de recherche, même sans coder en dur chaque cas.
Génération de documentation API. La fenêtre de contexte de 256K de Gemma 4 vous permet d'intégrer l'intégralité de votre base de code dans une requête. Demandez-lui de générer de la documentation OpenAPI pour les endpoints non documentés. Le support de l'appel de fonctions signifie que vous pouvez construire un agent qui lit vos fichiers de routes et écrit automatiquement les spécifications d'API.
Validation du schéma de réponse. Lorsque vous consommez des API tierces, vous voulez valider que les réponses correspondent à vos attentes. Utilisez Gemma 4 pour analyser les réponses API et signaler les violations de schéma. Il peut détecter les champs manquants, les types incorrects et les énumérations incohérentes mieux qu'un simple validateur de schéma JSON.
Écriture automatisée de tests de régression. Donnez à Gemma 4 votre spécification d'API et une liste de rapports de bugs. Demandez-lui d'écrire des cas de test qui auraient détecté chaque bug. Parce qu'il comprend les relations de schéma, il peut écrire des tests non triviaux qui vérifient les transitions d'état et les dépendances de champ.
Gemma 4 vs autres modèles ouverts pour l'utilisation d'API
Comment Gemma 4 se compare-t-il aux autres modèles ouverts lorsque votre objectif est de construire des outils d'API ?
| Modèle | Paramètres | Contexte | Sortie JSON | Appel de fonction | Licence |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | 256K | Natif | Natif | Apache 2.0 |
| Gemma 4 26B MoE | 26B (3.8B actifs) | 256K | Natif | Natif | Apache 2.0 |
| Llama 3.3 70B | 70B | 128K | Via requête | Via requête | Communauté Llama |
| Mistral 7B | 7B | 32K | Via requête | Limité | Apache 2.0 |
| Qwen 2.5 72B | 72B | 128K | Natif | Natif | Apache 2.0 |
Pour les cas d'utilisation d'API, les fonctionnalités critiques sont le mode de sortie JSON natif, la prise en charge de l'appel de fonctions et la longueur du contexte. Gemma 4 31B et 26B possèdent les trois.
Llama 3.3 70B est le principal concurrent. C'est un modèle puissant, mais il nécessite deux fois plus de calcul que Gemma 4 31B pour fonctionner. Sur le classement d'Arena AI, Gemma 4 31B se classe au-dessus de Llama 3.3 70B malgré sa taille deux fois moindre. Si vous exécutez l'inférence à grande échelle, cette différence de besoins en GPU se traduit directement par des coûts d'infrastructure.
Mistral 7B est beaucoup plus petit et plus rapide, mais sa fenêtre de contexte de 32K limite son utilité pour les grandes spécifications d'API. Il lui manque également le mode JSON natif et l'appel de fonctions fiable.
Qwen 2.5 72B est une alternative compétente, en particulier pour les applications multilingues. Ses fonctionnalités d'outillage API sont comparables à celles de Gemma 4, mais il nécessite un matériel nettement plus important.
La licence Apache 2.0 de Gemma 4 est un avantage sous-estimé. Llama utilise la licence communautaire Llama, qui comporte des restrictions sur certaines utilisations commerciales. Si vous construisez un produit basé sur un modèle ouvert, la clarté juridique de l'Apache 2.0 est importante.
Pour la plupart des cas d'utilisation d'outils d'API : commencez avec Gemma 4 26B MoE pour les tâches sensibles à la latence, ou Gemma 4 31B pour une sortie de la plus haute qualité.
Conclusion
Gemma 4 offre aux développeurs une alternative ouverte crédible aux API d'IA propriétaires pour la création d'outils d'API. La licence Apache 2.0 supprime les frictions juridiques qui rendaient les modèles ouverts précédents compliqués à distribuer commercialement. L'appel de fonctions natif et le mode de sortie JSON rendent son intégration dans les flux de travail d'API pratique sans nécessiter d'ingénierie d'invite étendue.
Les quatre tailles de modèles couvrent chaque niveau de matériel, des téléphones aux stations de travail. Le modèle 26B MoE est l'option phare pour la plupart des cas d'utilisation de développement d'API : il offre une qualité quasi-de pointe à une fraction du coût d'inférence.
Associez Gemma 4 à Apidog pour boucler la boucle entre les données générées par l'IA et la validation d'API. Utilisez Gemma 4 pour générer des données de test et des réponses de mock. Utilisez Smart Mock d'Apidog pour prototyper des schémas et ses Scénarios de Test pour valider que la sortie de l'IA respecte votre contrat d'API. Ensemble, ils forment un flux de travail pratique pour la création et le test d'API basées sur l'IA.
FAQ
Qu'est-ce que Gemma 4 ?Gemma 4 est la dernière famille de modèles de langage ouverts de Google DeepMind, lancée en avril 2026. Elle est disponible en quatre tailles (E2B, E4B, 26B MoE, 31B Dense) et est sous licence Apache 2.0. Le modèle 31B se classe actuellement 3e parmi tous les modèles ouverts sur le classement de texte d'Arena AI.
Est-ce que Gemma 4 est gratuit ?Les poids du modèle sont téléchargeables et utilisables gratuitement sous la licence Apache 2.0. Vous payez pour le calcul lorsque vous l'exécutez vous-même. Si vous utilisez Google AI Studio, il existe un niveau gratuit avec des limites de débit. Vertex AI facture les tarifs de calcul standard de Google Cloud.
Gemma 4 peut-il produire du JSON structuré ?Oui. Gemma 4 prend en charge un paramètre natif response_mime_type: "application/json" via le SDK Google Generative AI. Cela force le modèle à renvoyer du JSON valide à chaque fois, ce qui est essentiel pour les intégrations d'API où vous analysez la sortie par programmation.
Comment Gemma 4 se compare-t-il à GPT-4o pour le développement d'API ?GPT-4o est un modèle propriétaire sans option de déploiement local et avec des coûts d'API plus élevés. Gemma 4 31B est gratuit à déployer localement, et ses scores de benchmark sont compétitifs avec GPT-4o sur les tâches de raisonnement. Pour les équipes qui ont besoin de confidentialité des données ou de contrôle des coûts, Gemma 4 mérite une évaluation sérieuse.
Puis-je affiner Gemma 4 avec mes propres données d'API ?Oui. Google prend en charge l'affinage de Gemma 4 via Google AI Studio, Vertex AI et des outils tiers comme Hugging Face TRL. L'affinage sur des schémas d'API spécifiques à un domaine et des modèles de réponse peut améliorer considérablement la qualité de la sortie pour des cas d'utilisation spécialisés.
Quel matériel est nécessaire pour exécuter Gemma 4 localement ?Les modèles 31B et 26B tiennent sur un seul NVIDIA H100 de 80 Go en bfloat16. Les versions quantifiées fonctionnent sur des GPU grand public avec 16 à 24 Go de VRAM. Les modèles E4B et E2B fonctionnent sur les téléphones et les appareils périphériques, y compris Raspberry Pi et NVIDIA Jetson.
Gemma 4 prend-il en charge l'appel de fonctions ?Oui, tous les modèles Gemma 4 prennent en charge l'appel de fonctions natif. Vous définissez des outils comme des objets JSON avec un nom, une description et un schéma de paramètres. Le modèle décide quand appeler un outil et transmet des arguments structurés sur lesquels vous pouvez agir dans le code.
Comment tester automatiquement les réponses de l'API Gemma 4 ?Utilisez les Scénarios de Test d'Apidog pour construire un flux de travail de test en chaîne. Importez votre endpoint d'API Gemma 4, configurez les étapes de requête et ajoutez des assertions pour valider la structure de la réponse. Vous pouvez exécuter le scénario localement, via la CLI, ou automatiquement dans votre pipeline CI/CD à chaque push de code.
