O que é Gemma 4 12B

Gemma 4 12B explicado: o modelo aberto do Google de junho de 2026 com áudio nativo, arquitetura multimodal sem encoder, contexto de 256K, Apache 2.0, funciona em um laptop de 16 GB.

Ashley Innocent

Ashley Innocent

4 junho 2026

O que é Gemma 4 12B

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

O Google lançou o Gemma 4 12B em 3 de junho de 2026. É um modelo de pesos abertos com 11,95 bilhões de parâmetros que lê texto, imagens, áudio e vídeo, e cabe em um laptop com 16GB de memória. O destaque principal: é o primeiro modelo de tamanho médio com entrada de áudio nativa, e faz isso sem um codificador de visão ou áudio separado.

Essa última parte é o que o torna diferente. A maioria dos modelos multimodais acopla um codificador de visão e um codificador de áudio a um modelo de linguagem. O Gemma 4 12B dispensa ambos e alimenta o modelo diretamente com patches de imagem brutos e formas de onda de áudio. Você obtém um único arquivo de 12B que lida com quatro tipos de entrada, funciona offline e é distribuído sob uma licença Apache 2.0 que pode ser usada comercialmente.

button

Veja o que o modelo é, onde ele se encaixa na família Gemma 4 e o que você pode construir com ele. Se você quiser executá-lo hoje, pule para o guia complementar sobre como usar o Gemma 4 12B gratuitamente.

Gemma 4 12B em um relance

Especificação Valor
Lançado 3 de junho de 2026
Parâmetros 11.95B (denso)
Entradas Texto, imagem, áudio, vídeo
Saída Texto
Janela de contexto 256K tokens
Arquitetura Multimodal unificada sem codificador
Licença Apache 2.0
Executa em 16GB VRAM ou memória unificada (cerca de 8GB em 4-bit)
Variantes google/gemma-4-12B (base), google/gemma-4-12B-it (ajustado por instrução)

A resposta curta

Gemma 4 12B é um modelo aberto denso de 12 bilhões de parâmetros do Google DeepMind que recebe texto, imagens, áudio e vídeo como entrada e retorna texto. Ele é ajustado para rodar localmente em hardware de consumidor, com uma janela de contexto de 256K tokens, chamada de ferramenta nativa e um modo opcional de raciocínio passo a passo.

Ele se posiciona no meio da linha Gemma 4. O Google o descreve como a ponte entre o modelo E4B, amigável para dispositivos de borda, e o modelo maior de 26B Mixture-of-Experts, com uma qualidade que se aproxima do 26B em vários benchmarks com menos da metade do consumo de memória.

Onde o 12B se encaixa na família Gemma 4

O Gemma 4 não foi lançado de uma vez. Os modelos E2B, E4B, 26B e 31B chegaram em 31 de março de 2026. O 12B é o membro mais novo, adicionado em 3 de junho. Aqui está a linha completa:

Modelo Tamanho Contexto Notas
Gemma 4 E2B 2.3B efetivo (5.1B bruto) 128K Em dispositivo, entrada de áudio
Gemma 4 E4B 4.5B efetivo (8B bruto) 128K Compacto, entrada de áudio
Gemma 4 12B 11.95B denso 256K Sem codificador, entrada de áudio
Gemma 4 26B A4B 4B ativo / 26B total (MoE) 256K Mistura de especialistas
Gemma 4 31B 31B denso 256K Desempenho de ponta

O 12B é o único modelo da família construído com o design sem codificador. Os outros mantêm um codificador de visão tradicional (e um codificador de áudio conformer nos dois menores). Isso torna o 12B a demonstração mais clara de onde o Google está levando a IA multimodal em dispositivos.

Para contextualizar como estes se comparam a outros modelos abertos, veja nossa comparação entre MiniMax M3, DeepSeek V4 e Qwen 3.7 e a guerra de preços de modelos de pesos abertos mais ampla.

O que "sem codificador" realmente significa

Os modelos multimodais padrão funcionam em duas etapas. Um codificador de visão transforma uma imagem em embeddings, um codificador de áudio transforma o som em embeddings, e então um projetor mapeia esses embeddings para o espaço do modelo de linguagem. São três componentes para carregar, ajustar e manter na memória.

O Gemma 4 12B remove os codificadores. De acordo com o documento do Google:

Mais duas escolhas de arquitetura o mantêm eficiente em hardware pequeno:

O Google também inclui um rascunhador de Previsão de Múltiplos Tokens (MTP) para decodificação especulativa, que pode acelerar a inferência de ponta a ponta em até aproximadamente 3x sem alteração na qualidade da saída.

Áudio nativo e multimodalidade completa

Muitos modelos abertos leem imagens. O Gemma 4 12B é o primeiro de tamanho médio a aceitar áudio nativamente, no mesmo modelo que lida com texto e visão. Isso abre uma classe diferente de trabalho:

A ordem de entrada importa ao misturar modalidades. O template de chat espera o conteúdo da imagem antes do prompt de texto e o áudio depois. O modelo retorna texto em todos os casos.

Como o Gemma 4 12B se desempenha

Estas são as pontuações publicadas para o gemma-4-12B-it ajustado por instrução, do card do modelo no Hugging Face:

Benchmark Gemma 4 12B-it
MMLU Pro (raciocínio) 77.2%
AIME 2026 (matemática, sem ferramentas) 77.5%
GPQA Diamond (ciência) 78.8%
LiveCodeBench v6 (codificação) 72.0%
Codeforces (ELO) 1659
MMMU Pro (visão) 69.1%
MATH-Vision 79.7%
MRCR v2, 128K, 8-agulhas (contexto longo) 43.4%

Para contextualizar na família, veja como o 12B se posiciona entre seus vizinhos em alguns testes principais:

Benchmark E4B 12B 26B A4B 31B
MMLU Pro 69.4% 77.2% 82.6% 85.2%
AIME 2026 42.5% 77.5% 88.3% 89.2%
GPQA Diamond 58.6% 78.8% 82.3% 84.3%
LiveCodeBench v6 52.0% 72.0% 77.1% 80.0%

O padrão é claro. O 12B está bem acima do E4B da classe 4B e ao alcance do 26B MoE, que é a proposta do Google: a maior parte da qualidade do modelo maior, em uma máquina que você já possui.

O que há de novo em relação ao Gemma 3

Se você usou o Gemma 3, quatro coisas se destacam:

  1. Áudio nativo. O Gemma 3 era texto e visão. O 12B adiciona som e vídeo com áudio no modelo base.
  2. O design sem codificador. Sem codificador de visão ou áudio acoplado para carregar.
  3. Contexto de 256K. Quatro vezes mais espaço para documentos longos, transcrições e código multifile.
  4. Apache 2.0. Lançamentos anteriores do Gemma usavam uma licença Gemma personalizada com restrições de uso. O Gemma 4 muda para a Apache 2.0 padrão, que é mais simples para uso comercial e redistribuição.

O que você pode construir com ele

O 12B é voltado para trabalhos que rodam no dispositivo, não na nuvem:

Como ele expõe uma interface de chat padrão através de executores como Ollama e llama.cpp, você pode apontar ferramentas existentes para ele. Ao conectar um modelo local a um aplicativo, você ainda deseja confirmar o formato da requisição e da resposta. Uma ferramenta como o Apidog permite que você salve o endpoint local, envie prompts de exemplo e verifique o JSON antes de construir sobre ele. Você pode baixar o Apidog gratuitamente e apontá-lo para o servidor local em um minuto. Mais sobre isso no guia de uso gratuito.

Licença e o que a Apache 2.0 oferece

O Gemma 4 12B é lançado sob a licença Apache 2.0. Em termos simples:

Esta é uma mudança real em relação à licença Gemma anterior, que carregava os próprios termos de política de uso do Google. A Apache 2.0 é a mesma licença permissiva por trás de uma longa lista de infraestruturas abertas, então a revisão legal tende a ser rápida.

Hardware necessário

O objetivo do Google é uma máquina de 16GB, VRAM ou memória unificada estilo Apple. A quantização reduz isso:

Isso coloca o 12B ao alcance de uma GPU de jogos comum, um MacBook de 16GB ou uma estação de trabalho de médio porte. Os modelos menores E2B e E4B exigem ainda menos se seu hardware for limitado.

Limitações a serem consideradas

O Google é direto sobre as compensações na descrição do modelo:

Estas são as ressalvas normais para um modelo aberto de 12B. Ele não substituirá um modelo de nuvem de ponta para os raciocínios mais difíceis, mas esse não é o objetivo. O objetivo é uma IA multimodal capaz que funciona onde seus dados já residem.

Perguntas Frequentes

O Gemma 4 12B é gratuito? Sim. Os pesos são abertos sob a licença Apache 2.0 e gratuitos para download no Hugging Face e Kaggle. Você só paga pelo hardware ou pela nuvem onde o executa. Veja como usar o Gemma 4 12B gratuitamente.

O Gemma 4 12B realmente consegue entender áudio? Sim. Ele recebe áudio bruto como entrada e pode transcrever fala, identificar locutores e responder a perguntas sobre sons. É o primeiro modelo de tamanho médio a fazer isso nativamente, em vez de através de um modelo de fala separado.

Qual a diferença entre gemma-4-12B e gemma-4-12B-it? O modelo base é apenas pré-treinado. A versão -it é ajustada por instrução para chat, uso de ferramentas e seguir direções. A maioria das pessoas prefere a versão -it.

Como o 12B difere dos 26B e 31B? O 12B é denso e sem codificador, ajustado para máquinas de 16GB. O 26B é um modelo Mixture-of-Experts (4B ativo, 26B total), e o 31B é um modelo denso maior para qualidade de ponta. Ambos os modelos maiores obtêm pontuações mais altas em benchmarks, mas precisam de mais memória.

O Gemma 4 12B suporta chamada de ferramentas? Sim. Ele suporta chamada de função de texto e multimodal, além de um modo de pensamento opcional para raciocínio passo a passo, o que o torna utilizável para fluxos de trabalho agenticos.

Como ele se compara ao Gemini 3.5? Trabalhos diferentes. O Gemini 3.5 é o modelo de ponta hospedado do Google; veja o que é o Gemini 3.5. O Gemma 4 12B é um modelo aberto que você executa por conta própria. Você troca um pouco da qualidade de pico por privacidade, uso offline e custo zero por token.

button

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs