Como Usar o Gemma 4 12B Grátis: 6 Métodos que Funcionam em 2026

Use Gemma 4 12B gratuitamente em 2026: Hugging Face demo, Ollama, LM Studio, llama.cpp, Transformers e Google AI Edge. Comandos funcionais mais como testar a API local.

Ashley Innocent

Ashley Innocent

4 junho 2026

Como Usar o Gemma 4 12B Grátis: 6 Métodos que Funcionam em 2026

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

Gemma 4 12B tem pesos abertos e licença Apache 2.0, então "grátis" aqui significa realmente grátis. Não há cobrança de API e nenhuma assinatura. Você baixa o modelo e o executa em sua própria máquina, ou o experimenta em uma aba do navegador. O único custo é o hardware que você já possui.

Uma coisa a saber de antemão: o 12B é construído para uso local e em dispositivos. Seus irmãos maiores, o 31B e o 26B, são os que o Google hospeda para chat gratuito no AI Studio. A principal característica do 12B é que ele roda em um laptop de 16GB, então os caminhos gratuitos abaixo são sobre como colocá-lo em seu hardware rapidamente. Novo no modelo? Comece com o que é Gemma 4 12B para as especificações.

Gemma 4 12B sendo executado em um laptop

Aqui estão seis métodos de trabalho, desde uma demonstração no navegador de 60 segundos até uma API local completa que você pode desenvolver.

Resumo Rápido

Método O que você obtém Melhor para
Hugging Face Space Chat no navegador, zero instalação Experimentar em um minuto
Ollama Modelo local + API compatível com OpenAI Desenvolvedores, um comando
LM Studio Aplicativo desktop local com GUI Não é necessário terminal
llama.cpp Servidor API local leve Configurações avançadas e de baixo overhead
HF Transformers Python, controle total, GPU Colab gratuita Notebooks e fine-tuning
Google AI Edge Em dispositivo, móvel Celulares e hardware de borda

Método 1: Experimente no seu navegador (sem instalação)

A maneira mais rápida de ver o Gemma 4 12B é no Space de demonstração oficial no Hugging Face. Sem download, sem conta, sem GPU.

Captura de tela da demo do Gemma 4 12B no Hugging Face Spaces
  1. Abra o Space de demonstração do Gemma 4 12B
  2. Digite um prompt, ou faça upload de uma imagem ou clipe de áudio
  3. Leia a resposta

Este é o caminho certo para uma verificação rápida. Você também pode testar o lado multimodal, já que o Space aceita entrada de imagem e áudio. Quando estiver pronto para construir algo real, passe para um dos métodos locais abaixo.

Método 2: Ollama (o padrão para desenvolvedores)

Ollama é a maneira mais simples de executar o Gemma 4 12B localmente e obter uma API funcional. Uma instalação, um pull, pronto.

Captura de tela de Ollama mostrando o Gemma 4 12B em execução no terminal

Instalar Ollama

No macOS ou Linux:

curl -fsSL https://ollama.com/install.sh | sh

No Windows, baixe o instalador de ollama.com e execute-o.

Baixar e executar o modelo

ollama pull gemma4:12b
ollama run gemma4:12b

O primeiro comando baixa o modelo (uma build Q4_K_M de 4 bits por padrão, cerca de 8GB). O segundo te coloca em um chat interativo. Digite /bye para sair.

Usar a API local

Esta é a parte que interessa aos desenvolvedores. Ollama serve uma API REST compatível com OpenAI em http://localhost:11434. Sem chave, sem nuvem, sem limite de taxa.

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {"role": "user", "content": "Explique como os transformers funcionam em duas frases."}
    ]
  }'

Como o endpoint corresponde ao formato OpenAI, qualquer SDK ou ferramenta que "fale" OpenAI funciona ao apontar a URL base para localhost:11434/v1. Isso inclui editores, frameworks de agentes e clientes de API. Para um padrão de configuração de IDE, a abordagem espelha nosso tutorial de DeepSeek V4 no Cursor; troque a string do modelo por gemma4:12b.

Comandos úteis:

Método 3: LM Studio (sem terminal)

Se você preferir não tocar em uma linha de comando, LM Studio é um aplicativo desktop para Windows, macOS e Linux.

  1. Baixe e instale o LM Studio
  2. Procure por Gemma 4 12B no catálogo de modelos
  3. Escolha uma quantização que se ajuste à sua RAM e baixe-a
  4. Abra a aba de chat e comece a interagir

O LM Studio também executa um servidor local com um endpoint compatível com OpenAI, geralmente na porta 1234, então você obtém uma API sem escrever nenhum código. É o caminho mais amigável para designers, escritores e qualquer pessoa que prefira uma janela de chat em vez de um arquivo de configuração.

Método 4: llama.cpp (leve e rápido)

llama.cpp executa modelos GGUF com pouco overhead e fornece seu próprio servidor compatível com OpenAI.

Instale-o:

# macOS
brew install llama.cpp

# Windows
winget install llama.cpp

Em seguida, inicie um servidor apontado para a build GGUF oficial. Navegue pela coleção ggml-org/gemma-4 no Hugging Face para o nome exato do repositório 12B, e então passe-o para llama-server:

llama-server -hf ggml-org/gemma-4-12B-it-GGUF

Isso expõe uma API compatível com OpenAI em http://localhost:8080/v1. Este caminho é o melhor quando você deseja dependências mínimas ou está executando em hardware modesto. É também o motor por trás de várias outras ferramentas, então aprendê-lo vale a pena.

Método 5: Hugging Face Transformers (controle total)

Para notebooks, scripts ou fine-tuning, execute o modelo com Transformers em Python. Se você não tiver uma GPU local, um notebook gratuito do Google Colab oferece uma.

Instale as bibliotecas:

pip install transformers torch accelerate torchvision
# adicione librosa para entrada de áudio e vídeo
pip install librosa

Em seguida, carregue o modelo com instruções ajustadas e gere:

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "Você é um assistente útil."},
    {"role": "user", "content": "Escreva uma piada curta sobre como economizar RAM."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
print(processor.parse_response(response))

Defina enable_thinking=True para ativar o modo de raciocínio passo a passo. Para alimentar uma imagem ou arquivo de áudio, adicione uma lista de conteúdo com {"type": "image", ...} antes do texto e {"type": "audio", ...} depois. Os pesos também estão no Kaggle, se você preferir essa fonte. Padrões de código completos estão no guia do desenvolvedor.

Método 6: Google AI Edge (em dispositivo e móvel)

Para executar o Gemma 4 12B em um telefone ou dispositivo de borda, o Google oferece a stack AI Edge. O aplicativo Google AI Edge Gallery e a CLI LiteRT-LM executam o 12B no dispositivo.

Para um servidor local com LiteRT-LM:

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve

Este é o caminho para assistentes móveis offline e aplicativos embarcados onde os dados nunca saem do dispositivo.

Teste sua API Gemma 4 12B local com Apidog

Uma vez que o Gemma 4 12B esteja rodando via Ollama ou llama.cpp, você terá uma API HTTP real em sua máquina. Antes de conectá-la a um aplicativo, é útil testá-la em um cliente de API adequado para que você conheça o formato exato da requisição e da resposta. Apidog é feito para isso.

Captura de tela do Apidog mostrando como testar um endpoint de API local

Aqui está uma configuração limpa:

  1. Baixe o Apidog e crie um novo projeto HTTP
  2. Adicione uma requisição POST para http://localhost:11434/v1/chat/completions
  3. Defina o corpo como JSON e cole um payload de exemplo:
{
  "model": "gemma4:12b",
  "messages": [
    {"role": "user", "content": "Retorne um objeto JSON com dois campos: cidade e país."}
  ],
  "stream": false
}
  1. Salve a URL base como uma variável de ambiente para que você possa alternar entre Ollama (:11434) e llama.cpp (:8080) com um clique
  2. Adicione uma asserção de resposta para confirmar que o modelo retorna JSON válido no campo content
  3. Alterne "stream": true e veja o Apidog renderizar os tokens transmitidos, que é como você confirmará que o streaming funciona antes de construir uma UI em torno disso

A recompensa: você detecta um prompt malformado ou um nome de campo errado no Apidog, não três camadas profundas no código da sua aplicação. Se você estiver comparando clientes, veja nosso resumo das ferramentas gratuitas de teste de API online e as melhores alternativas ao Postman. O mesmo fluxo de teste funciona para qualquer endpoint compatível com OpenAI, então os hábitos se transferem diretamente para como testar APIs com fluxos de trabalho estilo Postman.

Qual quantização você deve escolher?

O Gemma 4 12B se encaixa em diferentes máquinas dependendo de quão agressivamente ele é comprimido:

Build Memória necessária Compromisso
Precisão total ~16GB Melhor qualidade
8-bit ~14GB Qualidade quase total
4-bit (Q4_K_M) ~8GB Leve queda na qualidade, roda amplamente

O Ollama usa por padrão a build de 4 bits, por isso ele roda em uma GPU de 8GB ou um MacBook com memória unificada de 16GB. Se você tiver capacidade, a build de 8 bits oferece um aumento de qualidade por alguns gigabytes extras.

Qual método gratuito você deve escolher?

Uma árvore de decisão rápida:

A maioria dos desenvolvedores opta por Ollama para uso diário e mantém o Transformers para trabalhos mais pesados.

Dicas para tirar o máximo proveito do Gemma local gratuito

FAQ

Gemma 4 12B é realmente grátis? Sim. Ele tem pesos abertos Apache 2.0, é gratuito para baixar e executar, inclusive comercialmente. Você paga apenas pelo hardware ou nuvem onde o executa.

Preciso de uma GPU? Não, mas ajuda. A build de 4 bits roda em uma GPU de 8GB ou em um Mac com memória unificada de 16GB. Somente na CPU, ele funciona, mas lentamente.

Posso usar o Gemma 4 12B no Google AI Studio? Atualmente não. O AI Studio hospeda os modelos 31B e 26B para chat gratuito no navegador. O 12B é construído para uso local e em dispositivos, então você o executa por conta própria com os métodos acima.

A API local precisa de uma chave de API? Não. Ollama e llama.cpp servem o modelo no localhost sem chave. Se uma ferramenta exigir um campo de chave, coloque qualquer string de placeholder; o servidor local a ignorará.

Posso chamá-lo do meu código OpenAI existente? Sim. Tanto Ollama quanto llama.cpp expõem endpoints compatíveis com OpenAI. Aponte sua URL base para http://localhost:11434/v1 (Ollama) ou http://localhost:8080/v1 (llama.cpp) e mantenha seu código.

Como executo os recursos de imagem e áudio? Use Transformers, LM Studio ou os aplicativos AI Edge, que suportam entrada multimodal. Adicione conteúdo de imagem antes do seu prompt de texto e conteúdo de áudio depois dele.

Qual é mais rápido, Ollama ou llama.cpp? Eles usam o mesmo motor subjacente. llama.cpp tem menos overhead e mais flags de ajuste; Ollama é mais fácil de configurar. Para a maioria das pessoas, a diferença é pequena.

button

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs