Gemma 4 12B tem pesos abertos e licença Apache 2.0, então "grátis" aqui significa realmente grátis. Não há cobrança de API e nenhuma assinatura. Você baixa o modelo e o executa em sua própria máquina, ou o experimenta em uma aba do navegador. O único custo é o hardware que você já possui.
Uma coisa a saber de antemão: o 12B é construído para uso local e em dispositivos. Seus irmãos maiores, o 31B e o 26B, são os que o Google hospeda para chat gratuito no AI Studio. A principal característica do 12B é que ele roda em um laptop de 16GB, então os caminhos gratuitos abaixo são sobre como colocá-lo em seu hardware rapidamente. Novo no modelo? Comece com o que é Gemma 4 12B para as especificações.

Aqui estão seis métodos de trabalho, desde uma demonstração no navegador de 60 segundos até uma API local completa que você pode desenvolver.
Resumo Rápido
| Método | O que você obtém | Melhor para |
|---|---|---|
| Hugging Face Space | Chat no navegador, zero instalação | Experimentar em um minuto |
| Ollama | Modelo local + API compatível com OpenAI | Desenvolvedores, um comando |
| LM Studio | Aplicativo desktop local com GUI | Não é necessário terminal |
| llama.cpp | Servidor API local leve | Configurações avançadas e de baixo overhead |
| HF Transformers | Python, controle total, GPU Colab gratuita | Notebooks e fine-tuning |
| Google AI Edge | Em dispositivo, móvel | Celulares e hardware de borda |
Método 1: Experimente no seu navegador (sem instalação)
A maneira mais rápida de ver o Gemma 4 12B é no Space de demonstração oficial no Hugging Face. Sem download, sem conta, sem GPU.

- Abra o Space de demonstração do Gemma 4 12B
- Digite um prompt, ou faça upload de uma imagem ou clipe de áudio
- Leia a resposta
Este é o caminho certo para uma verificação rápida. Você também pode testar o lado multimodal, já que o Space aceita entrada de imagem e áudio. Quando estiver pronto para construir algo real, passe para um dos métodos locais abaixo.
Método 2: Ollama (o padrão para desenvolvedores)
Ollama é a maneira mais simples de executar o Gemma 4 12B localmente e obter uma API funcional. Uma instalação, um pull, pronto.

Instalar Ollama
No macOS ou Linux:
curl -fsSL https://ollama.com/install.sh | sh
No Windows, baixe o instalador de ollama.com e execute-o.
Baixar e executar o modelo
ollama pull gemma4:12b
ollama run gemma4:12b
O primeiro comando baixa o modelo (uma build Q4_K_M de 4 bits por padrão, cerca de 8GB). O segundo te coloca em um chat interativo. Digite /bye para sair.
Usar a API local
Esta é a parte que interessa aos desenvolvedores. Ollama serve uma API REST compatível com OpenAI em http://localhost:11434. Sem chave, sem nuvem, sem limite de taxa.
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:12b",
"messages": [
{"role": "user", "content": "Explique como os transformers funcionam em duas frases."}
]
}'
Como o endpoint corresponde ao formato OpenAI, qualquer SDK ou ferramenta que "fale" OpenAI funciona ao apontar a URL base para localhost:11434/v1. Isso inclui editores, frameworks de agentes e clientes de API. Para um padrão de configuração de IDE, a abordagem espelha nosso tutorial de DeepSeek V4 no Cursor; troque a string do modelo por gemma4:12b.
Comandos úteis:
ollama listmostra os modelos baixadosollama psmostra o que está em execuçãoollama show gemma4:12bimprime os detalhes do modelo
Método 3: LM Studio (sem terminal)
Se você preferir não tocar em uma linha de comando, LM Studio é um aplicativo desktop para Windows, macOS e Linux.
- Baixe e instale o LM Studio
- Procure por Gemma 4 12B no catálogo de modelos
- Escolha uma quantização que se ajuste à sua RAM e baixe-a
- Abra a aba de chat e comece a interagir
O LM Studio também executa um servidor local com um endpoint compatível com OpenAI, geralmente na porta 1234, então você obtém uma API sem escrever nenhum código. É o caminho mais amigável para designers, escritores e qualquer pessoa que prefira uma janela de chat em vez de um arquivo de configuração.
Método 4: llama.cpp (leve e rápido)
llama.cpp executa modelos GGUF com pouco overhead e fornece seu próprio servidor compatível com OpenAI.
Instale-o:
# macOS
brew install llama.cpp
# Windows
winget install llama.cpp
Em seguida, inicie um servidor apontado para a build GGUF oficial. Navegue pela coleção ggml-org/gemma-4 no Hugging Face para o nome exato do repositório 12B, e então passe-o para llama-server:
llama-server -hf ggml-org/gemma-4-12B-it-GGUF
Isso expõe uma API compatível com OpenAI em http://localhost:8080/v1. Este caminho é o melhor quando você deseja dependências mínimas ou está executando em hardware modesto. É também o motor por trás de várias outras ferramentas, então aprendê-lo vale a pena.
Método 5: Hugging Face Transformers (controle total)
Para notebooks, scripts ou fine-tuning, execute o modelo com Transformers em Python. Se você não tiver uma GPU local, um notebook gratuito do Google Colab oferece uma.
Instale as bibliotecas:
pip install transformers torch accelerate torchvision
# adicione librosa para entrada de áudio e vídeo
pip install librosa
Em seguida, carregue o modelo com instruções ajustadas e gere:
from transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
messages = [
{"role": "system", "content": "Você é um assistente útil."},
{"role": "user", "content": "Escreva uma piada curta sobre como economizar RAM."},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=False,
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
print(processor.parse_response(response))
Defina enable_thinking=True para ativar o modo de raciocínio passo a passo. Para alimentar uma imagem ou arquivo de áudio, adicione uma lista de conteúdo com {"type": "image", ...} antes do texto e {"type": "audio", ...} depois. Os pesos também estão no Kaggle, se você preferir essa fonte. Padrões de código completos estão no guia do desenvolvedor.
Método 6: Google AI Edge (em dispositivo e móvel)
Para executar o Gemma 4 12B em um telefone ou dispositivo de borda, o Google oferece a stack AI Edge. O aplicativo Google AI Edge Gallery e a CLI LiteRT-LM executam o 12B no dispositivo.
Para um servidor local com LiteRT-LM:
litert-lm import \
--from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve
Este é o caminho para assistentes móveis offline e aplicativos embarcados onde os dados nunca saem do dispositivo.
Teste sua API Gemma 4 12B local com Apidog
Uma vez que o Gemma 4 12B esteja rodando via Ollama ou llama.cpp, você terá uma API HTTP real em sua máquina. Antes de conectá-la a um aplicativo, é útil testá-la em um cliente de API adequado para que você conheça o formato exato da requisição e da resposta. Apidog é feito para isso.

Aqui está uma configuração limpa:
- Baixe o Apidog e crie um novo projeto HTTP
- Adicione uma requisição
POSTparahttp://localhost:11434/v1/chat/completions - Defina o corpo como JSON e cole um payload de exemplo:
{
"model": "gemma4:12b",
"messages": [
{"role": "user", "content": "Retorne um objeto JSON com dois campos: cidade e país."}
],
"stream": false
}
- Salve a URL base como uma variável de ambiente para que você possa alternar entre Ollama (
:11434) e llama.cpp (:8080) com um clique - Adicione uma asserção de resposta para confirmar que o modelo retorna JSON válido no campo
content - Alterne
"stream": truee veja o Apidog renderizar os tokens transmitidos, que é como você confirmará que o streaming funciona antes de construir uma UI em torno disso
A recompensa: você detecta um prompt malformado ou um nome de campo errado no Apidog, não três camadas profundas no código da sua aplicação. Se você estiver comparando clientes, veja nosso resumo das ferramentas gratuitas de teste de API online e as melhores alternativas ao Postman. O mesmo fluxo de teste funciona para qualquer endpoint compatível com OpenAI, então os hábitos se transferem diretamente para como testar APIs com fluxos de trabalho estilo Postman.
Qual quantização você deve escolher?
O Gemma 4 12B se encaixa em diferentes máquinas dependendo de quão agressivamente ele é comprimido:
| Build | Memória necessária | Compromisso |
|---|---|---|
| Precisão total | ~16GB | Melhor qualidade |
| 8-bit | ~14GB | Qualidade quase total |
| 4-bit (Q4_K_M) | ~8GB | Leve queda na qualidade, roda amplamente |
O Ollama usa por padrão a build de 4 bits, por isso ele roda em uma GPU de 8GB ou um MacBook com memória unificada de 16GB. Se você tiver capacidade, a build de 8 bits oferece um aumento de qualidade por alguns gigabytes extras.
Qual método gratuito você deve escolher?
Uma árvore de decisão rápida:
- Apenas curioso? A demo do Hugging Face Space
- Desenvolvendo software? Ollama, pela API local de um comando
- Sem terminal? LM Studio
- Hardware ou dependências mínimas? llama.cpp
- Notebooks ou fine-tuning? Transformers, com Colab gratuito para a GPU
- Telefone ou dispositivo de borda? Google AI Edge
A maioria dos desenvolvedores opta por Ollama para uso diário e mantém o Transformers para trabalhos mais pesados.
Dicas para tirar o máximo proveito do Gemma local gratuito
- Combine a quantização com sua RAM. Um modelo que troca para o disco roda lentamente. A build de 4 bits é o padrão seguro.
- Use o modo de pensamento para problemas difíceis. Defina
enable_thinking=Truepara matemática e raciocínio multi-passo, deixe desativado para chat rápido para economizar tempo. - Mantenha os prompts dentro da janela de 256K. É grande, mas transcrições longas e bases de código se acumulam.
- Valide as requisições no Apidog primeiro. Confirme o formato JSON antes que seu aplicativo dependa dele.
- Compare com outros modelos gratuitos. O mesmo padrão local funciona para Qwen 3.7, MiniMax M3 e Claude Opus 4.8.
FAQ
Gemma 4 12B é realmente grátis? Sim. Ele tem pesos abertos Apache 2.0, é gratuito para baixar e executar, inclusive comercialmente. Você paga apenas pelo hardware ou nuvem onde o executa.
Preciso de uma GPU? Não, mas ajuda. A build de 4 bits roda em uma GPU de 8GB ou em um Mac com memória unificada de 16GB. Somente na CPU, ele funciona, mas lentamente.
Posso usar o Gemma 4 12B no Google AI Studio? Atualmente não. O AI Studio hospeda os modelos 31B e 26B para chat gratuito no navegador. O 12B é construído para uso local e em dispositivos, então você o executa por conta própria com os métodos acima.
A API local precisa de uma chave de API? Não. Ollama e llama.cpp servem o modelo no localhost sem chave. Se uma ferramenta exigir um campo de chave, coloque qualquer string de placeholder; o servidor local a ignorará.
Posso chamá-lo do meu código OpenAI existente? Sim. Tanto Ollama quanto llama.cpp expõem endpoints compatíveis com OpenAI. Aponte sua URL base para http://localhost:11434/v1 (Ollama) ou http://localhost:8080/v1 (llama.cpp) e mantenha seu código.
Como executo os recursos de imagem e áudio? Use Transformers, LM Studio ou os aplicativos AI Edge, que suportam entrada multimodal. Adicione conteúdo de imagem antes do seu prompt de texto e conteúdo de áudio depois dele.
Qual é mais rápido, Ollama ou llama.cpp? Eles usam o mesmo motor subjacente. llama.cpp tem menos overhead e mais flags de ajuste; Ollama é mais fácil de configurar. Para a maioria das pessoas, a diferença é pequena.
