O Google lançou o Gemma 4 12B em 3 de junho de 2026. É um modelo de pesos abertos com 11,95 bilhões de parâmetros que lê texto, imagens, áudio e vídeo, e cabe em um laptop com 16GB de memória. O destaque principal: é o primeiro modelo de tamanho médio com entrada de áudio nativa, e faz isso sem um codificador de visão ou áudio separado.
Essa última parte é o que o torna diferente. A maioria dos modelos multimodais acopla um codificador de visão e um codificador de áudio a um modelo de linguagem. O Gemma 4 12B dispensa ambos e alimenta o modelo diretamente com patches de imagem brutos e formas de onda de áudio. Você obtém um único arquivo de 12B que lida com quatro tipos de entrada, funciona offline e é distribuído sob uma licença Apache 2.0 que pode ser usada comercialmente.
Veja o que o modelo é, onde ele se encaixa na família Gemma 4 e o que você pode construir com ele. Se você quiser executá-lo hoje, pule para o guia complementar sobre como usar o Gemma 4 12B gratuitamente.
Gemma 4 12B em um relance
| Especificação | Valor |
|---|---|
| Lançado | 3 de junho de 2026 |
| Parâmetros | 11.95B (denso) |
| Entradas | Texto, imagem, áudio, vídeo |
| Saída | Texto |
| Janela de contexto | 256K tokens |
| Arquitetura | Multimodal unificada sem codificador |
| Licença | Apache 2.0 |
| Executa em | 16GB VRAM ou memória unificada (cerca de 8GB em 4-bit) |
| Variantes | google/gemma-4-12B (base), google/gemma-4-12B-it (ajustado por instrução) |
A resposta curta
Gemma 4 12B é um modelo aberto denso de 12 bilhões de parâmetros do Google DeepMind que recebe texto, imagens, áudio e vídeo como entrada e retorna texto. Ele é ajustado para rodar localmente em hardware de consumidor, com uma janela de contexto de 256K tokens, chamada de ferramenta nativa e um modo opcional de raciocínio passo a passo.

Ele se posiciona no meio da linha Gemma 4. O Google o descreve como a ponte entre o modelo E4B, amigável para dispositivos de borda, e o modelo maior de 26B Mixture-of-Experts, com uma qualidade que se aproxima do 26B em vários benchmarks com menos da metade do consumo de memória.
Onde o 12B se encaixa na família Gemma 4
O Gemma 4 não foi lançado de uma vez. Os modelos E2B, E4B, 26B e 31B chegaram em 31 de março de 2026. O 12B é o membro mais novo, adicionado em 3 de junho. Aqui está a linha completa:
| Modelo | Tamanho | Contexto | Notas |
|---|---|---|---|
| Gemma 4 E2B | 2.3B efetivo (5.1B bruto) | 128K | Em dispositivo, entrada de áudio |
| Gemma 4 E4B | 4.5B efetivo (8B bruto) | 128K | Compacto, entrada de áudio |
| Gemma 4 12B | 11.95B denso | 256K | Sem codificador, entrada de áudio |
| Gemma 4 26B A4B | 4B ativo / 26B total (MoE) | 256K | Mistura de especialistas |
| Gemma 4 31B | 31B denso | 256K | Desempenho de ponta |
O 12B é o único modelo da família construído com o design sem codificador. Os outros mantêm um codificador de visão tradicional (e um codificador de áudio conformer nos dois menores). Isso torna o 12B a demonstração mais clara de onde o Google está levando a IA multimodal em dispositivos.
Para contextualizar como estes se comparam a outros modelos abertos, veja nossa comparação entre MiniMax M3, DeepSeek V4 e Qwen 3.7 e a guerra de preços de modelos de pesos abertos mais ampla.
O que "sem codificador" realmente significa
Os modelos multimodais padrão funcionam em duas etapas. Um codificador de visão transforma uma imagem em embeddings, um codificador de áudio transforma o som em embeddings, e então um projetor mapeia esses embeddings para o espaço do modelo de linguagem. São três componentes para carregar, ajustar e manter na memória.
O Gemma 4 12B remove os codificadores. De acordo com o documento do Google:
- Visão: um módulo de embedding leve (uma única multiplicação de matriz mais embeddings posicionais e normalização) projeta patches de imagem brutos diretamente no espaço de embedding do modelo.
- Áudio: o codificador de áudio foi removido. O áudio bruto é projetado no mesmo espaço dimensional dos tokens de texto, então som e palavras compartilham um único caminho.
Mais duas escolhas de arquitetura o mantêm eficiente em hardware pequeno:
- Embeddings por camada (PLE): cada camada do decodificador recebe um pequeno embedding dedicado que mistura uma pesquisa de identidade de token com uma projeção sensível ao contexto. Isso reduz o custo de parâmetros enquanto permite que as camadas se especializem.
- Cache KV compartilhado: as últimas várias camadas reutilizam tensores de chave-valor de camadas anteriores em vez de computar os seus próprios. Isso reduz a memória durante execuções de contexto longo e em dispositivo com pouco custo de qualidade.
O Google também inclui um rascunhador de Previsão de Múltiplos Tokens (MTP) para decodificação especulativa, que pode acelerar a inferência de ponta a ponta em até aproximadamente 3x sem alteração na qualidade da saída.
Áudio nativo e multimodalidade completa
Muitos modelos abertos leem imagens. O Gemma 4 12B é o primeiro de tamanho médio a aceitar áudio nativamente, no mesmo modelo que lida com texto e visão. Isso abre uma classe diferente de trabalho:
- Reconhecimento automático de fala e transcrição
- Diarização de locutor (quem falou quando)
- Respostas a perguntas de áudio sobre sons não verbais
- Compreensão de vídeo, com áudio, não apenas frames
- Tarefas de imagem: legendagem, detecção de objetos e UI, raciocínio visual
A ordem de entrada importa ao misturar modalidades. O template de chat espera o conteúdo da imagem antes do prompt de texto e o áudio depois. O modelo retorna texto em todos os casos.
Como o Gemma 4 12B se desempenha
Estas são as pontuações publicadas para o gemma-4-12B-it ajustado por instrução, do card do modelo no Hugging Face:
| Benchmark | Gemma 4 12B-it |
|---|---|
| MMLU Pro (raciocínio) | 77.2% |
| AIME 2026 (matemática, sem ferramentas) | 77.5% |
| GPQA Diamond (ciência) | 78.8% |
| LiveCodeBench v6 (codificação) | 72.0% |
| Codeforces (ELO) | 1659 |
| MMMU Pro (visão) | 69.1% |
| MATH-Vision | 79.7% |
| MRCR v2, 128K, 8-agulhas (contexto longo) | 43.4% |
Para contextualizar na família, veja como o 12B se posiciona entre seus vizinhos em alguns testes principais:
| Benchmark | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
O padrão é claro. O 12B está bem acima do E4B da classe 4B e ao alcance do 26B MoE, que é a proposta do Google: a maior parte da qualidade do modelo maior, em uma máquina que você já possui.
O que há de novo em relação ao Gemma 3
Se você usou o Gemma 3, quatro coisas se destacam:
- Áudio nativo. O Gemma 3 era texto e visão. O 12B adiciona som e vídeo com áudio no modelo base.
- O design sem codificador. Sem codificador de visão ou áudio acoplado para carregar.
- Contexto de 256K. Quatro vezes mais espaço para documentos longos, transcrições e código multifile.
- Apache 2.0. Lançamentos anteriores do Gemma usavam uma licença Gemma personalizada com restrições de uso. O Gemma 4 muda para a Apache 2.0 padrão, que é mais simples para uso comercial e redistribuição.
O que você pode construir com ele
O 12B é voltado para trabalhos que rodam no dispositivo, não na nuvem:
- Assistentes offline que veem sua tela e ouvem seu microfone sem enviar dados para fora
- Ferramentas de reunião e chamada que transcrevem, diarizam e resumem localmente
- Pipelines de documentos e mídia que misturam PDFs, capturas de tela e áudio em um único prompt
- Fluxos de trabalho agenticos: ele suporta chamada de função e uso de ferramentas, então pode planejar e agir
- Ajuda de codificação em um nível LiveCodeBench de 72.0%, utilizável para autocompletar e refatorar localmente
Como ele expõe uma interface de chat padrão através de executores como Ollama e llama.cpp, você pode apontar ferramentas existentes para ele. Ao conectar um modelo local a um aplicativo, você ainda deseja confirmar o formato da requisição e da resposta. Uma ferramenta como o Apidog permite que você salve o endpoint local, envie prompts de exemplo e verifique o JSON antes de construir sobre ele. Você pode baixar o Apidog gratuitamente e apontá-lo para o servidor local em um minuto. Mais sobre isso no guia de uso gratuito.
Licença e o que a Apache 2.0 oferece
O Gemma 4 12B é lançado sob a licença Apache 2.0. Em termos simples:
- Você pode usá-lo comercialmente.
- Você pode modificá-lo, ajustá-lo e redistribuí-lo.
- Você pode executá-lo em produtos de código fechado.
- Você mantém suas saídas.
Esta é uma mudança real em relação à licença Gemma anterior, que carregava os próprios termos de política de uso do Google. A Apache 2.0 é a mesma licença permissiva por trás de uma longa lista de infraestruturas abertas, então a revisão legal tende a ser rápida.
Hardware necessário
O objetivo do Google é uma máquina de 16GB, VRAM ou memória unificada estilo Apple. A quantização reduz isso:
- Qualidade total: cerca de 16GB
- 8-bit: aproximadamente 14GB
- 4-bit (Q4_K_M): cerca de 8GB, o padrão no Ollama
Isso coloca o 12B ao alcance de uma GPU de jogos comum, um MacBook de 16GB ou uma estação de trabalho de médio porte. Os modelos menores E2B e E4B exigem ainda menos se seu hardware for limitado.
Limitações a serem consideradas
O Google é direto sobre as compensações na descrição do modelo:
- Ele pode produzir fatos incorretos ou desatualizados; verifique qualquer informação importante.
- Pode refletir vieses em seus dados de treinamento.
- Lida com sarcasmo, nuances e linguagem figurada de forma inconsistente.
- O raciocínio de senso comum tem limites, como qualquer modelo desse tamanho.
- A qualidade da saída depende da clareza do prompt e do contexto que você fornece.
Estas são as ressalvas normais para um modelo aberto de 12B. Ele não substituirá um modelo de nuvem de ponta para os raciocínios mais difíceis, mas esse não é o objetivo. O objetivo é uma IA multimodal capaz que funciona onde seus dados já residem.
Perguntas Frequentes
O Gemma 4 12B é gratuito? Sim. Os pesos são abertos sob a licença Apache 2.0 e gratuitos para download no Hugging Face e Kaggle. Você só paga pelo hardware ou pela nuvem onde o executa. Veja como usar o Gemma 4 12B gratuitamente.
O Gemma 4 12B realmente consegue entender áudio? Sim. Ele recebe áudio bruto como entrada e pode transcrever fala, identificar locutores e responder a perguntas sobre sons. É o primeiro modelo de tamanho médio a fazer isso nativamente, em vez de através de um modelo de fala separado.
Qual a diferença entre gemma-4-12B e gemma-4-12B-it? O modelo base é apenas pré-treinado. A versão -it é ajustada por instrução para chat, uso de ferramentas e seguir direções. A maioria das pessoas prefere a versão -it.
Como o 12B difere dos 26B e 31B? O 12B é denso e sem codificador, ajustado para máquinas de 16GB. O 26B é um modelo Mixture-of-Experts (4B ativo, 26B total), e o 31B é um modelo denso maior para qualidade de ponta. Ambos os modelos maiores obtêm pontuações mais altas em benchmarks, mas precisam de mais memória.
O Gemma 4 12B suporta chamada de ferramentas? Sim. Ele suporta chamada de função de texto e multimodal, além de um modo de pensamento opcional para raciocínio passo a passo, o que o torna utilizável para fluxos de trabalho agenticos.
Como ele se compara ao Gemini 3.5? Trabalhos diferentes. O Gemini 3.5 é o modelo de ponta hospedado do Google; veja o que é o Gemini 3.5. O Gemma 4 12B é um modelo aberto que você executa por conta própria. Você troca um pouco da qualidade de pico por privacidade, uso offline e custo zero por token.
