Qu'est-ce que Gemma 4 12B ?

Gemma 4 12B expliqué : Le modèle ouvert de Google de juin 2026 avec audio natif, architecture multimodale sans encodeur, contexte de 256K, Apache 2.0, fonctionne sur un ordinateur portable de 16 Go.

Ashley Innocent

Ashley Innocent

4 June 2026

Qu'est-ce que Gemma 4 12B ?

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

Google a lancé Gemma 4 12B le 3 juin 2026. C'est un modèle à poids ouverts avec 11,95 milliards de paramètres qui lit du texte, des images, de l'audio et de la vidéo, et il tient sur un ordinateur portable avec 16 Go de mémoire. Le détail principal : c'est le premier modèle de taille moyenne avec entrée audio native, et il y parvient sans encodeur visuel ou audio séparé.

C'est cette dernière partie qui le rend différent. La plupart des modèles multimodaux fixent un encodeur visuel et un encodeur audio à un modèle linguistique. Gemma 4 12B supprime les deux et alimente le modèle directement avec des patchs d'image bruts et des formes d'onde audio. Vous obtenez un seul fichier de 12 milliards qui gère quatre types d'entrée, fonctionne hors ligne et est distribué sous une licence Apache 2.0 que vous pouvez utiliser commercialement.

button

Voici ce qu'est le modèle, où il se situe dans la famille Gemma 4, et ce que vous pouvez construire avec. Si vous voulez l'exécuter dès aujourd'hui, consultez le guide complémentaire sur comment utiliser Gemma 4 12B gratuitement.

Gemma 4 12B en un coup d'œil

Spécification Valeur
Lancé le 3 juin 2026
Paramètres 11,95 milliards (dense)
Entrées Texte, image, audio, vidéo
Sortie Texte
Fenêtre contextuelle 256K jetons
Architecture Multimodale unifiée sans encodeur
Licence Apache 2.0
Fonctionne sur 16 Go de VRAM ou de mémoire unifiée (environ 8 Go en 4-bit)
Variantes google/gemma-4-12B (base), google/gemma-4-12B-it (réglé pour l'instruction)

La réponse courte

Gemma 4 12B est un modèle ouvert dense de 12 milliards de paramètres de Google DeepMind qui accepte le texte, les images, l'audio et la vidéo en entrée et renvoie du texte. Il est optimisé pour fonctionner localement sur du matériel grand public, avec une fenêtre contextuelle de 256K jetons, un appel d'outils natif et un mode de raisonnement pas à pas optionnel.

Il se situe au milieu de la gamme Gemma 4. Google le décrit comme le pont entre le modèle E4B adapté aux appareils périphériques et le plus grand modèle MoE (Mixture-of-Experts) de 26 milliards de paramètres, avec une qualité qui approche celle du 26 milliards sur plusieurs benchmarks pour moins de la moitié de l'encombrement mémoire.

Où le 12B se situe dans la famille Gemma 4

Gemma 4 n'a pas été lancé d'un seul coup. Les modèles E2B, E4B, 26B et 31B sont arrivés le 31 mars 2026. Le 12B est le membre le plus récent, ajouté le 3 juin. Voici la gamme complète :

Modèle Taille Contexte Notes
Gemma 4 E2B 2,3 milliards effectifs (5,1 milliards bruts) 128K Sur appareil, entrée audio
Gemma 4 E4B 4,5 milliards effectifs (8 milliards bruts) 128K Compact, entrée audio
Gemma 4 12B 11,95 milliards dense 256K Sans encodeur, entrée audio
Gemma 4 26B A4B 4 milliards actifs / 26 milliards totaux (MoE) 256K Mélange d'experts
Gemma 4 31B 31 milliards dense 256K Performance de pointe

Le 12B est le seul modèle de la famille construit sur une architecture sans encodeur. Les autres conservent un encodeur visuel traditionnel (et un encodeur audio conformer sur les deux plus petits). Cela fait du 12B la démonstration la plus claire de la direction prise par Google en matière d'IA multimodale sur appareil.

Pour situer ces modèles par rapport à d'autres modèles ouverts, consultez notre comparaison de MiniMax M3, DeepSeek V4 et Qwen 3.7 et la plus large guerre des prix des modèles à poids ouverts.

Ce que signifie réellement "sans encodeur"

Les modèles multimodaux standard fonctionnent en deux étapes. Un encodeur visuel transforme une image en embeddings, un encodeur audio transforme le son en embeddings, puis un projecteur les mappe dans l'espace du modèle linguistique. Ce sont trois composants à charger, à ajuster et à maintenir en mémoire.

Gemma 4 12B supprime les encodeurs. Selon la description de Google :

Les entrées visuelles et audio s'écoulent directement dans le cœur du modèle linguistique. Un seul modèle, un seul ensemble de poids, chaque modalité traitée comme des jetons.

Deux autres choix architecturaux maintiennent son efficacité sur du petit matériel :

Google fournit également un drafter de prédiction multi-jetons (MTP) pour le décodage spéculatif, qui peut accélérer l'inférence de bout en bout jusqu'à environ 3x sans altérer la qualité de la sortie.

Audio natif et multimodalité complète

De nombreux modèles ouverts lisent des images. Gemma 4 12B est le premier de taille moyenne à prendre l'audio nativement, dans le même modèle qui gère le texte et la vision. Cela ouvre une classe de travail différente :

L'ordre des entrées compte lorsque vous mélangez les modalités. Le modèle de chat s'attend à ce que le contenu de l'image précède l'invite de texte et que l'audio la suive. Le modèle renvoie du texte dans tous les cas.

Comment Gemma 4 12B fonctionne

Voici les scores publiés pour le gemma-4-12B-it réglé pour l'instruction, tirés de la fiche du modèle Hugging Face :

Benchmark Gemma 4 12B-it
MMLU Pro (raisonnement) 77,2 %
AIME 2026 (math, sans outils) 77,5 %
GPQA Diamond (science) 78,8 %
LiveCodeBench v6 (codage) 72,0 %
Codeforces (ELO) 1659
MMMU Pro (vision) 69,1 %
MATH-Vision 79,7 %
MRCR v2, 128K, 8 aiguilles (contexte long) 43,4 %

Pour replacer cela dans le contexte familial, voici comment le 12B se situe entre ses voisins sur quelques tests phares :

Benchmark E4B 12B 26B A4B 31B
MMLU Pro 69,4 % 77,2 % 82,6 % 85,2 %
AIME 2026 42,5 % 77,5 % 88,3 % 89,2 %
GPQA Diamond 58,6 % 78,8 % 82,3 % 84,3 %
LiveCodeBench v6 52,0 % 72,0 % 77,1 % 80,0 %

Le schéma est clair. Le 12B se situe bien au-dessus de l'E4B de classe 4B et à portée du 26B MoE, ce qui est le compromis que Google propose : la plupart de la qualité du modèle plus grand, sur une machine que vous possédez déjà.

Quoi de neuf par rapport à Gemma 3

Si vous avez utilisé Gemma 3, quatre choses se distinguent :

  1. Audio natif. Gemma 3 était texte et vision. Le 12B ajoute le son et la vidéo avec audio dans le modèle de base.
  2. La conception sans encodeur. Pas d'encodeur visuel ou audio à charger en complément.
  3. 256K de contexte. Quatre fois la marge pour les documents longs, les transcriptions et le code multi-fichiers.
  4. Apache 2.0. Les versions précédentes de Gemma utilisaient une licence Gemma personnalisée avec des restrictions d'utilisation. Gemma 4 passe à la licence standard Apache 2.0, plus simple pour une utilisation commerciale et la redistribution.

Ce que vous pouvez construire avec

Le 12B est destiné aux travaux qui s'exécutent sur l'appareil, pas dans le cloud :

Étant donné qu'il expose une interface de chat standard via des exécuteurs comme Ollama et llama.cpp, vous pouvez lui pointer des outils existants. Lorsque vous connectez un modèle local à une application, vous voulez toujours confirmer la forme de la requête et de la réponse. Un outil comme Apidog vous permet d'enregistrer le point de terminaison local, d'envoyer des exemples d'invites et de vérifier le JSON avant de construire dessus. Vous pouvez télécharger Apidog gratuitement et le pointer vers le serveur local en une minute. Plus d'informations à ce sujet dans le guide d'utilisation gratuite.

Licence et ce qu'Apache 2.0 vous offre

Gemma 4 12B est publié sous licence Apache 2.0. En termes simples :

C'est un réel changement par rapport à la licence Gemma précédente, qui comportait les propres conditions d'utilisation de Google. Apache 2.0 est la même licence permissive que celle de nombreuses infrastructures open source, l'examen juridique a donc tendance à être rapide.

Matériel nécessaire

La cible de Google est une machine de 16 Go, VRAM ou mémoire unifiée de style Apple. La quantification réduit cela :

Cela rend le 12B accessible à une carte graphique de jeu grand public, à un MacBook de 16 Go ou à une station de travail de milieu de gamme. Les modèles plus petits E2B et E4B sont encore moins gourmands si votre matériel est limité.

Limitations à connaître

Google est direct quant aux compromis dans la fiche du modèle :

Ce sont les mises en garde habituelles pour un modèle ouvert de 12 milliards de paramètres. Il ne remplacera pas un modèle cloud de pointe pour le raisonnement le plus difficile, mais ce n'est pas là son but. Le but est une IA multimodale capable qui s'exécute là où vos données se trouvent déjà.

FAQ

Gemma 4 12B est-il gratuit ? Oui. Les poids sont ouverts sous Apache 2.0 et téléchargeables gratuitement depuis Hugging Face et Kaggle. Vous ne payez que le matériel ou le cloud sur lequel vous l'exécutez. Voir comment utiliser Gemma 4 12B gratuitement.

Gemma 4 12B peut-il vraiment comprendre l'audio ? Oui. Il prend l'audio brut en entrée et peut transcrire la parole, identifier les locuteurs et répondre à des questions sur le son. C'est le premier modèle de taille moyenne à le faire nativement plutôt que via un modèle de parole séparé.

Quelle est la différence entre gemma-4-12B et gemma-4-12B-it ? Le modèle de base est uniquement pré-entraîné. La version -it est réglée pour l'instruction pour le chat, l'utilisation d'outils et le suivi des directives. La plupart des gens veulent la version -it.

Comment le 12B diffère-t-il des 26B et 31B ? Le 12B est dense et sans encodeur, optimisé pour les machines de 16 Go. Le 26B est un modèle MoE (Mixture-of-Experts) (4B actifs, 26B au total), et le 31B est un modèle dense plus grand pour une qualité de pointe. Les deux modèles plus grands obtiennent des scores plus élevés sur les benchmarks mais nécessitent plus de mémoire.

Gemma 4 12B prend-il en charge l'appel d'outils ? Oui. Il prend en charge l'appel de fonctions textuelles et multimodales, ainsi qu'un mode de réflexion optionnel pour un raisonnement pas à pas, ce qui le rend utilisable pour les workflows agentiques.

Comment se compare-t-il à Gemini 3.5 ? Des usages différents. Gemini 3.5 est le modèle de pointe hébergé par Google ; voir qu'est-ce que Gemini 3.5. Gemma 4 12B est un modèle ouvert que vous exécutez vous-même. Vous échangez une certaine qualité de pointe contre la confidentialité, l'utilisation hors ligne et un coût nul par jeton.

button

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API

Qu'est-ce que Gemma 4 12B ?