Google a lancé Gemma 4 12B le 3 juin 2026. C'est un modèle à poids ouverts avec 11,95 milliards de paramètres qui lit du texte, des images, de l'audio et de la vidéo, et il tient sur un ordinateur portable avec 16 Go de mémoire. Le détail principal : c'est le premier modèle de taille moyenne avec entrée audio native, et il y parvient sans encodeur visuel ou audio séparé.
C'est cette dernière partie qui le rend différent. La plupart des modèles multimodaux fixent un encodeur visuel et un encodeur audio à un modèle linguistique. Gemma 4 12B supprime les deux et alimente le modèle directement avec des patchs d'image bruts et des formes d'onde audio. Vous obtenez un seul fichier de 12 milliards qui gère quatre types d'entrée, fonctionne hors ligne et est distribué sous une licence Apache 2.0 que vous pouvez utiliser commercialement.
Voici ce qu'est le modèle, où il se situe dans la famille Gemma 4, et ce que vous pouvez construire avec. Si vous voulez l'exécuter dès aujourd'hui, consultez le guide complémentaire sur comment utiliser Gemma 4 12B gratuitement.
Gemma 4 12B en un coup d'œil
| Spécification | Valeur |
|---|---|
| Lancé le | 3 juin 2026 |
| Paramètres | 11,95 milliards (dense) |
| Entrées | Texte, image, audio, vidéo |
| Sortie | Texte |
| Fenêtre contextuelle | 256K jetons |
| Architecture | Multimodale unifiée sans encodeur |
| Licence | Apache 2.0 |
| Fonctionne sur | 16 Go de VRAM ou de mémoire unifiée (environ 8 Go en 4-bit) |
| Variantes | google/gemma-4-12B (base), google/gemma-4-12B-it (réglé pour l'instruction) |
La réponse courte
Gemma 4 12B est un modèle ouvert dense de 12 milliards de paramètres de Google DeepMind qui accepte le texte, les images, l'audio et la vidéo en entrée et renvoie du texte. Il est optimisé pour fonctionner localement sur du matériel grand public, avec une fenêtre contextuelle de 256K jetons, un appel d'outils natif et un mode de raisonnement pas à pas optionnel.

Il se situe au milieu de la gamme Gemma 4. Google le décrit comme le pont entre le modèle E4B adapté aux appareils périphériques et le plus grand modèle MoE (Mixture-of-Experts) de 26 milliards de paramètres, avec une qualité qui approche celle du 26 milliards sur plusieurs benchmarks pour moins de la moitié de l'encombrement mémoire.
Où le 12B se situe dans la famille Gemma 4
Gemma 4 n'a pas été lancé d'un seul coup. Les modèles E2B, E4B, 26B et 31B sont arrivés le 31 mars 2026. Le 12B est le membre le plus récent, ajouté le 3 juin. Voici la gamme complète :
| Modèle | Taille | Contexte | Notes |
|---|---|---|---|
| Gemma 4 E2B | 2,3 milliards effectifs (5,1 milliards bruts) | 128K | Sur appareil, entrée audio |
| Gemma 4 E4B | 4,5 milliards effectifs (8 milliards bruts) | 128K | Compact, entrée audio |
| Gemma 4 12B | 11,95 milliards dense | 256K | Sans encodeur, entrée audio |
| Gemma 4 26B A4B | 4 milliards actifs / 26 milliards totaux (MoE) | 256K | Mélange d'experts |
| Gemma 4 31B | 31 milliards dense | 256K | Performance de pointe |
Le 12B est le seul modèle de la famille construit sur une architecture sans encodeur. Les autres conservent un encodeur visuel traditionnel (et un encodeur audio conformer sur les deux plus petits). Cela fait du 12B la démonstration la plus claire de la direction prise par Google en matière d'IA multimodale sur appareil.
Pour situer ces modèles par rapport à d'autres modèles ouverts, consultez notre comparaison de MiniMax M3, DeepSeek V4 et Qwen 3.7 et la plus large guerre des prix des modèles à poids ouverts.
Ce que signifie réellement "sans encodeur"
Les modèles multimodaux standard fonctionnent en deux étapes. Un encodeur visuel transforme une image en embeddings, un encodeur audio transforme le son en embeddings, puis un projecteur les mappe dans l'espace du modèle linguistique. Ce sont trois composants à charger, à ajuster et à maintenir en mémoire.
Gemma 4 12B supprime les encodeurs. Selon la description de Google :
- Vision : un module d'embedding léger (une simple multiplication matricielle plus des embeddings positionnels et une normalisation) projette les patchs d'image bruts directement dans l'espace d'embedding du modèle.
- Audio : l'encodeur audio a disparu. L'audio brut est projeté dans le même espace dimensionnel que les jetons de texte, de sorte que le son et les mots partagent un même chemin.
Les entrées visuelles et audio s'écoulent directement dans le cœur du modèle linguistique. Un seul modèle, un seul ensemble de poids, chaque modalité traitée comme des jetons.
Deux autres choix architecturaux maintiennent son efficacité sur du petit matériel :
- Embeddings par couche (PLE) : chaque couche de décodeur reçoit un petit embedding dédié qui mélange une recherche d'identité de jeton avec une projection contextuelle. Cela réduit le coût des paramètres tout en permettant aux couches de se spécialiser.
- Cache KV partagé : les dernières couches réutilisent les tenseurs clé-valeur des couches précédentes au lieu de calculer les leurs. Cela réduit la mémoire lors des exécutions à contexte long et sur appareil avec peu de perte de qualité.
Google fournit également un drafter de prédiction multi-jetons (MTP) pour le décodage spéculatif, qui peut accélérer l'inférence de bout en bout jusqu'à environ 3x sans altérer la qualité de la sortie.
Audio natif et multimodalité complète
De nombreux modèles ouverts lisent des images. Gemma 4 12B est le premier de taille moyenne à prendre l'audio nativement, dans le même modèle qui gère le texte et la vision. Cela ouvre une classe de travail différente :
- Reconnaissance automatique de la parole et transcription
- Diarisation du locuteur (qui a parlé quand)
- Réponse aux questions audio sur des sons non-vocaux
- Compréhension vidéo, avec audio, pas seulement des images
- Tâches d'image : légendage, détection d'objets et d'interfaces utilisateur, raisonnement visuel
L'ordre des entrées compte lorsque vous mélangez les modalités. Le modèle de chat s'attend à ce que le contenu de l'image précède l'invite de texte et que l'audio la suive. Le modèle renvoie du texte dans tous les cas.
Comment Gemma 4 12B fonctionne
Voici les scores publiés pour le gemma-4-12B-it réglé pour l'instruction, tirés de la fiche du modèle Hugging Face :
| Benchmark | Gemma 4 12B-it |
|---|---|
| MMLU Pro (raisonnement) | 77,2 % |
| AIME 2026 (math, sans outils) | 77,5 % |
| GPQA Diamond (science) | 78,8 % |
| LiveCodeBench v6 (codage) | 72,0 % |
| Codeforces (ELO) | 1659 |
| MMMU Pro (vision) | 69,1 % |
| MATH-Vision | 79,7 % |
| MRCR v2, 128K, 8 aiguilles (contexte long) | 43,4 % |
Pour replacer cela dans le contexte familial, voici comment le 12B se situe entre ses voisins sur quelques tests phares :
| Benchmark | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69,4 % | 77,2 % | 82,6 % | 85,2 % |
| AIME 2026 | 42,5 % | 77,5 % | 88,3 % | 89,2 % |
| GPQA Diamond | 58,6 % | 78,8 % | 82,3 % | 84,3 % |
| LiveCodeBench v6 | 52,0 % | 72,0 % | 77,1 % | 80,0 % |
Le schéma est clair. Le 12B se situe bien au-dessus de l'E4B de classe 4B et à portée du 26B MoE, ce qui est le compromis que Google propose : la plupart de la qualité du modèle plus grand, sur une machine que vous possédez déjà.
Quoi de neuf par rapport à Gemma 3
Si vous avez utilisé Gemma 3, quatre choses se distinguent :
- Audio natif. Gemma 3 était texte et vision. Le 12B ajoute le son et la vidéo avec audio dans le modèle de base.
- La conception sans encodeur. Pas d'encodeur visuel ou audio à charger en complément.
- 256K de contexte. Quatre fois la marge pour les documents longs, les transcriptions et le code multi-fichiers.
- Apache 2.0. Les versions précédentes de Gemma utilisaient une licence Gemma personnalisée avec des restrictions d'utilisation. Gemma 4 passe à la licence standard Apache 2.0, plus simple pour une utilisation commerciale et la redistribution.
Ce que vous pouvez construire avec
Le 12B est destiné aux travaux qui s'exécutent sur l'appareil, pas dans le cloud :
- Assistants hors ligne qui voient votre écran et entendent votre micro sans envoyer de données
- Outils de réunion et d'appel qui transcrivent, diarient et résument localement
- Pipelines de documents et de médias qui mélangent des PDF, des captures d'écran et de l'audio dans une seule invite
- Workflows agentiques : il prend en charge l'appel de fonctions et l'utilisation d'outils, il peut donc planifier et agir
- Aide au codage à un niveau LiveCodeBench de 72,0 %, utilisable pour l'autocomplétion locale et les refactorisations
Étant donné qu'il expose une interface de chat standard via des exécuteurs comme Ollama et llama.cpp, vous pouvez lui pointer des outils existants. Lorsque vous connectez un modèle local à une application, vous voulez toujours confirmer la forme de la requête et de la réponse. Un outil comme Apidog vous permet d'enregistrer le point de terminaison local, d'envoyer des exemples d'invites et de vérifier le JSON avant de construire dessus. Vous pouvez télécharger Apidog gratuitement et le pointer vers le serveur local en une minute. Plus d'informations à ce sujet dans le guide d'utilisation gratuite.
Licence et ce qu'Apache 2.0 vous offre
Gemma 4 12B est publié sous licence Apache 2.0. En termes simples :
- Vous pouvez l'utiliser commercialement.
- Vous pouvez le modifier, l'affiner et le redistribuer.
- Vous pouvez l'exécuter dans des produits propriétaires (closed-source).
- Vous conservez vos résultats.
C'est un réel changement par rapport à la licence Gemma précédente, qui comportait les propres conditions d'utilisation de Google. Apache 2.0 est la même licence permissive que celle de nombreuses infrastructures open source, l'examen juridique a donc tendance à être rapide.
Matériel nécessaire
La cible de Google est une machine de 16 Go, VRAM ou mémoire unifiée de style Apple. La quantification réduit cela :
- Qualité maximale : environ 16 Go
- 8-bit : environ 14 Go
- 4-bit (Q4_K_M) : environ 8 Go, la valeur par défaut dans Ollama
Cela rend le 12B accessible à une carte graphique de jeu grand public, à un MacBook de 16 Go ou à une station de travail de milieu de gamme. Les modèles plus petits E2B et E4B sont encore moins gourmands si votre matériel est limité.
Limitations à connaître
Google est direct quant aux compromis dans la fiche du modèle :
- Il peut produire des faits incorrects ou dépassés ; vérifiez toute information importante.
- Il peut refléter les biais de ses données d'entraînement.
- Il gère le sarcasme, la nuance et le langage figuré de manière inégale.
- Le raisonnement de bon sens a des limites, comme tout modèle de cette taille.
- La qualité de la sortie dépend de la clarté de l'invite et du contexte que vous lui donnez.
Ce sont les mises en garde habituelles pour un modèle ouvert de 12 milliards de paramètres. Il ne remplacera pas un modèle cloud de pointe pour le raisonnement le plus difficile, mais ce n'est pas là son but. Le but est une IA multimodale capable qui s'exécute là où vos données se trouvent déjà.
FAQ
Gemma 4 12B est-il gratuit ? Oui. Les poids sont ouverts sous Apache 2.0 et téléchargeables gratuitement depuis Hugging Face et Kaggle. Vous ne payez que le matériel ou le cloud sur lequel vous l'exécutez. Voir comment utiliser Gemma 4 12B gratuitement.
Gemma 4 12B peut-il vraiment comprendre l'audio ? Oui. Il prend l'audio brut en entrée et peut transcrire la parole, identifier les locuteurs et répondre à des questions sur le son. C'est le premier modèle de taille moyenne à le faire nativement plutôt que via un modèle de parole séparé.
Quelle est la différence entre gemma-4-12B et gemma-4-12B-it ? Le modèle de base est uniquement pré-entraîné. La version -it est réglée pour l'instruction pour le chat, l'utilisation d'outils et le suivi des directives. La plupart des gens veulent la version -it.
Comment le 12B diffère-t-il des 26B et 31B ? Le 12B est dense et sans encodeur, optimisé pour les machines de 16 Go. Le 26B est un modèle MoE (Mixture-of-Experts) (4B actifs, 26B au total), et le 31B est un modèle dense plus grand pour une qualité de pointe. Les deux modèles plus grands obtiennent des scores plus élevés sur les benchmarks mais nécessitent plus de mémoire.
Gemma 4 12B prend-il en charge l'appel d'outils ? Oui. Il prend en charge l'appel de fonctions textuelles et multimodales, ainsi qu'un mode de réflexion optionnel pour un raisonnement pas à pas, ce qui le rend utilisable pour les workflows agentiques.
Comment se compare-t-il à Gemini 3.5 ? Des usages différents. Gemini 3.5 est le modèle de pointe hébergé par Google ; voir qu'est-ce que Gemini 3.5. Gemma 4 12B est un modèle ouvert que vous exécutez vous-même. Vous échangez une certaine qualité de pointe contre la confidentialité, l'utilisation hors ligne et un coût nul par jeton.
