Gemma 4 12B est un modèle à poids ouverts et sous licence Apache 2.0, donc « gratuit » ici signifie réellement gratuit. Il n'y a pas de frais d'API ni d'abonnement. Vous téléchargez le modèle et l'exécutez sur votre propre machine, ou l'essayez dans un onglet de navigateur. Le seul coût est le matériel que vous possédez déjà.
Une chose à savoir d'emblée : le 12B est conçu pour une utilisation locale et embarquée. Ses grands frères, les 31B et 26B, sont ceux que Google héberge gratuitement pour le chat dans AI Studio. L'argument principal du 12B est qu'il fonctionne sur un ordinateur portable de 16 Go, donc les chemins gratuits ci-dessous visent à l'installer rapidement sur votre matériel. Nouveau sur ce modèle ? Commencez par qu'est-ce que Gemma 4 12B pour les spécifications.

Voici six méthodes fonctionnelles, d'une démo de navigateur de 60 secondes à une API locale complète sur laquelle vous pouvez vous appuyer.
Résumé rapide
| Méthode | Ce que vous obtenez | Idéal pour |
|---|---|---|
| Hugging Face Space | Chat navigateur, zéro installation | Pour l'essayer en une minute |
| Ollama | Modèle local + API compatible OpenAI | Développeurs, une seule commande |
| LM Studio | Application de bureau locale avec interface graphique | Pas de terminal nécessaire |
| llama.cpp | Serveur API local léger | Configurations avancées et à faible surcharge |
| HF Transformers | Python, contrôle total, GPU Colab gratuit | Notebooks et affinage |
| Google AI Edge | Sur appareil, mobile | Téléphones et matériel edge |
Méthode 1 : L'essayer dans votre navigateur (sans installation)
Le moyen le plus rapide de voir Gemma 4 12B est l'espace de démonstration officiel sur Hugging Face. Pas de téléchargement, pas de compte, pas de GPU.

- Ouvrez l'espace de démonstration Gemma 4 12B
- Saisissez une invite, ou téléchargez une image ou un extrait audio
- Lisez la réponse
C'est la bonne approche pour une vérification rapide. Vous pouvez également tester l'aspect multimodal, car l'espace accepte les entrées image et audio. Lorsque vous êtes prêt à construire quelque chose de réel, passez à l'une des méthodes locales ci-dessous.
Méthode 2 : Ollama (le choix par défaut des développeurs)
Ollama est le moyen le plus simple d'exécuter Gemma 4 12B localement et d'obtenir une API fonctionnelle. Une installation, un pull, c'est fait.

Installer Ollama
Sur macOS ou Linux :
curl -fsSL https://ollama.com/install.sh | sh
Sous Windows, téléchargez l'installateur depuis ollama.com et exécutez-le.
Télécharger et exécuter le modèle
ollama pull gemma4:12b
ollama run gemma4:12b
La première commande télécharge le modèle (une version 4 bits Q4_K_M par défaut, d'environ 8 Go). La seconde vous place dans un chat interactif. Tapez /bye pour quitter.
Utiliser l'API locale
C'est la partie qui intéresse les développeurs. Ollama fournit une API REST compatible OpenAI à l'adresse http://localhost:11434. Pas de clé, pas de cloud, pas de limite de débit.
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:12b",
"messages": [
{"role": "user", "content": "Explain how transformers work in two sentences."}
]
}'
Étant donné que le point d'accès correspond au format OpenAI, tout SDK ou outil qui supporte OpenAI fonctionne en pointant l'URL de base vers localhost:11434/v1. Cela inclut les éditeurs, les frameworks d'agents et les clients API. Pour un modèle de configuration IDE, l'approche reflète notre tutoriel DeepSeek V4 dans Cursor ; remplacez la chaîne du modèle par gemma4:12b.
Commandes utiles :
ollama listaffiche les modèles téléchargésollama psaffiche ce qui est en cours d'exécutionollama show gemma4:12baffiche les détails du modèle
Méthode 3 : LM Studio (pas de terminal)
Si vous préférez ne pas toucher à la ligne de commande, LM Studio est une application de bureau pour Windows, macOS et Linux.
- Téléchargez et installez LM Studio
- Recherchez Gemma 4 12B dans le catalogue de modèles
- Choisissez une quantification adaptée à votre RAM et téléchargez-la
- Ouvrez l'onglet de discussion et commencez à générer des invites
LM Studio exécute également un serveur local avec un point d'accès compatible OpenAI, généralement sur le port 1234, vous offrant ainsi une API sans écrire de code. C'est le chemin le plus convivial pour les concepteurs, les rédacteurs et toute personne préférant une fenêtre de discussion à un fichier de configuration.
Méthode 4 : llama.cpp (léger et rapide)
llama.cpp exécute des modèles GGUF avec peu de surcharge et propose son propre serveur compatible OpenAI.
Installez-le :
# macOS
brew install llama.cpp
# Windows
winget install llama.cpp
Ensuite, démarrez un serveur pointant vers la version officielle GGUF. Parcourez la collection ggml-org/gemma-4 sur Hugging Face pour trouver le nom exact du dépôt 12B, puis passez-le à llama-server :
llama-server -hf ggml-org/gemma-4-12B-it-GGUF
Cela expose une API compatible OpenAI à l'adresse http://localhost:8080/v1. Cette méthode est la meilleure lorsque vous souhaitez des dépendances minimales ou que vous utilisez un matériel modeste. C'est également le moteur de plusieurs autres outils, donc l'apprendre est un investissement rentable.
Méthode 5 : Hugging Face Transformers (contrôle total)
Pour les notebooks, les scripts ou l'affinage, exécutez le modèle avec Transformers en Python. Si vous n'avez pas de GPU local, un notebook Google Colab gratuit vous en fournit un.
Installez les bibliothèques :
pip install transformers torch accelerate torchvision
# ajoutez librosa pour l'entrée audio et vidéo
pip install librosa
Ensuite, chargez le modèle affiné par instructions et générez :
from transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Write a short joke about saving RAM."},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=False,
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
print(processor.parse_response(response))
Définissez enable_thinking=True pour activer le mode de raisonnement étape par étape. Pour alimenter une image ou un fichier audio, ajoutez une liste de contenu avec {"type": "image", ...} avant le texte et {"type": "audio", ...} après. Les poids sont également sur Kaggle si vous préférez cette source. Les modèles de code complets se trouvent dans le guide du développeur.
Méthode 6 : Google AI Edge (sur appareil et mobile)
Pour exécuter Gemma 4 12B sur un téléphone ou un appareil edge, Google propose la pile AI Edge. L'application Google AI Edge Gallery et l'interface de ligne de commande LiteRT-LM exécutent toutes deux le 12B sur l'appareil.
Pour un serveur local avec LiteRT-LM :
litert-lm import \
--from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve
C'est la voie à suivre pour les assistants mobiles hors ligne et les applications embarquées où les données ne quittent jamais l'appareil.
Testez votre API locale Gemma 4 12B avec Apidog
Une fois que Gemma 4 12B fonctionne via Ollama ou llama.cpp, vous disposez d'une véritable API HTTP sur votre machine. Avant de l'intégrer à une application, il est utile de la tester avec un client API approprié afin de connaître la forme exacte des requêtes et des réponses. Apidog est conçu pour cela.

Voici une configuration propre :
- Téléchargez Apidog et créez un nouveau projet HTTP
- Ajoutez une requête
POSTàhttp://localhost:11434/v1/chat/completions - Définissez le corps en JSON et collez un exemple de charge utile :
{
"model": "gemma4:12b",
"messages": [
{"role": "user", "content": "Return a JSON object with two fields: city and country."}
],
"stream": false
}
- Enregistrez l'URL de base comme variable d'environnement afin de pouvoir basculer entre Ollama (
:11434) et llama.cpp (:8080) en un seul clic - Ajoutez une assertion de réponse pour confirmer que le modèle renvoie un JSON valide dans le champ
content - Basculez
"stream": trueet regardez Apidog afficher les jetons en continu, ce qui vous permettra de confirmer que le streaming fonctionne avant de construire une interface utilisateur autour de celui-ci
Le bénéfice : vous détectez une invite malformée ou un nom de champ erroné dans Apidog, et non pas trois couches plus bas dans le code de votre application. Si vous comparez les clients, consultez notre récapitulatif des outils de test d'API en ligne gratuits et des meilleures alternatives à Postman. Le même flux de test fonctionne pour tout point d'accès compatible OpenAI, de sorte que ces habitudes s'appliquent directement aux flux de travail de type comment tester les API avec Postman.
Quelle quantification choisir ?
Gemma 4 12B s'adapte à différentes machines en fonction de son niveau de compression :
| Version | Mémoire nécessaire | Compromis |
|---|---|---|
| Pleine précision | ~16Go | Meilleure qualité |
| 8 bits | ~14Go | Qualité quasi-optimale |
| 4 bits (Q4_K_M) | ~8Go | Légère baisse de qualité, fonctionne largement |
Ollama utilise par défaut la version 4 bits, c'est pourquoi il fonctionne sur un GPU de 8 Go ou un MacBook de 16 Go de mémoire unifiée. Si vous avez la marge de manœuvre, la version 8 bits offre une amélioration de la qualité pour quelques gigaoctets supplémentaires.
Quelle méthode gratuite choisir ?
Un arbre de décision rapide :
- Juste curieux ? La démo Hugging Face Space
- Vous développez un logiciel ? Ollama, pour l'API locale en une seule commande
- Pas de terminal ? LM Studio
- Matériel ou dépendances minimales ? llama.cpp
- Notebooks ou affinage ? Transformers, avec Colab gratuit pour le GPU
- Téléphone ou appareil edge ? Google AI Edge
La plupart des développeurs optent pour Ollama pour une utilisation quotidienne et conservent Transformers pour les tâches plus lourdes.
Conseils pour tirer le meilleur parti de Gemma locale et gratuite
- Adaptez la quantification à votre RAM. Un modèle qui échange des données sur le disque fonctionne lentement. La version 4 bits est le choix par défaut sûr.
- Utilisez le mode de réflexion pour les problèmes complexes. Définissez
enable_thinking=Truepour les maths et le raisonnement en plusieurs étapes, désactivez-le pour un chat rapide afin de gagner du temps. - Gardez les invites dans la fenêtre de 256K. C'est large, mais les longues transcriptions et bases de code s'accumulent.
- Validez d'abord les requêtes dans Apidog. Confirmez la structure JSON avant que votre application n'en dépende.
- Comparez avec d'autres modèles gratuits. Le même schéma local fonctionne pour les chemins d'accès de Qwen 3.7, MiniMax M3 et Claude Opus 4.8.
FAQ
Gemma 4 12B est-il vraiment gratuit ? Oui. Il s'agit d'un modèle à poids ouverts sous licence Apache 2.0, téléchargeable et exécutable gratuitement, y compris à des fins commerciales. Vous ne payez que le matériel ou le cloud sur lequel vous l'exécutez.
Ai-je besoin d'un GPU ? Non, mais cela aide. La version 4 bits fonctionne sur un GPU de 8 Go ou un Mac avec 16 Go de mémoire unifiée. Sur CPU uniquement, cela fonctionne mais tourne lentement.
Puis-je utiliser Gemma 4 12B dans Google AI Studio ? Pas actuellement. AI Studio héberge les modèles 31B et 26B pour un chat gratuit via navigateur. Le 12B est conçu pour une utilisation locale et sur appareil, vous l'exécutez donc vous-même avec les méthodes ci-dessus.
L'API locale nécessite-t-elle une clé API ? Non. Ollama et llama.cpp servent le modèle sur localhost sans clé. Si un outil requiert un champ de clé, insérez n'importe quelle chaîne de caractères ; le serveur local l'ignorera.
Puis-je l'appeler depuis mon code OpenAI existant ? Oui. Ollama et llama.cpp exposent tous deux des points d'accès compatibles OpenAI. Pointez votre URL de base vers http://localhost:11434/v1 (Ollama) ou http://localhost:8080/v1 (llama.cpp) et conservez votre code.
Comment exécuter les fonctionnalités d'image et d'audio ? Utilisez Transformers, LM Studio ou les applications AI Edge, qui prennent en charge les entrées multimodales. Ajoutez le contenu de l'image avant votre invite textuelle et le contenu audio après.
Lequel est le plus rapide, Ollama ou llama.cpp ? Ils utilisent le même moteur sous-jacent. llama.cpp a moins de surcharge et plus d'options de réglage ; Ollama est plus facile à configurer. Pour la plupart des gens, la différence est minime.
