Como Executar Gemma 4 como Backend de API

TL;DR: O Google lançou o Gemma 4 em abril de 2026, uma família de quatro modelos abertos licenciados sob Apache 2.0 que supera modelos 20 vezes maiores em benchmarks padrão. Você pode chamar a API do Gemma 4 através do Google AI Studio, Vertex AI ou executá-lo localmente com Ollama e vLLM. Emparelhe-o com o Smart Mock do Apidog para gerar automaticamente respostas de API realistas a partir dos seus esquemas OpenAPI sem escrever uma única regra de mock.

Introdução

A maioria dos modelos de IA de código aberto faz você escolher: capacidade bruta ou capacidade de implantação. Você obtém um modelo muito grande para rodar no seu laptop, ou um modelo pequeno que não consegue lidar com raciocínio multi-etapa. O Gemma 4 quebra essa compensação.

Gemma 4 é a família de modelos abertos mais capaz do Google DeepMind até hoje. O modelo 31B Dense ocupa a 3ª posição entre todos os modelos abertos na tabela de classificação do Arena AI, superando concorrentes 20 vezes maiores. O 26B Mixture of Experts (MoE) ocupa a 6ª posição. Ambos rodam em uma única GPU de 80GB. Os modelos leves E2B e E4B rodam completamente offline em telefones e dispositivos de borda.

Para desenvolvedores de API, isso importa mais do que pode parecer. O Gemma 4 suporta nativamente chamada de função, saída JSON estruturada e janelas de contexto de 256K. Isso o torna uma escolha prática para construir ferramentas de API alimentadas por IA, desde a geração de dados de teste até a criação de mocks e a análise de respostas de API.

💡

Se você está construindo com o Gemma 4 e precisa validar essas respostas geradas por IA contra sua especificação OpenAPI, o motor Smart Mock do Apidog pode gerar automaticamente respostas mock conformes ao esquema a partir da sua definição de API. Você não precisa escrever regras de mock individuais; o Smart Mock lê seu esquema e produz dados contextualmente apropriados instantaneamente. Baixe o Apidog gratuitamente e conecte-o ao seu fluxo de trabalho da API Gemma 4.

button

O que é o Gemma 4 e quais são as novidades

Gemma 4 é a quarta geração de modelos de linguagem abertos do Google DeepMind. O nome "Gemma" vem da palavra latina para pedra preciosa. A série começou no início de 2024 e, desde o lançamento, desenvolvedores baixaram modelos Gemma mais de 400 milhões de vezes. A comunidade construiu mais de 100.000 variantes, formando o que o Google chama de "Gemmaverse".

O Gemma 4 é lançado sob uma licença Apache 2.0, uma mudança significativa em relação às gerações anteriores que usavam uma política de uso personalizada. Isso significa que você pode usar, modificar e distribuir o Gemma 4 comercialmente sem restrições. Essa é uma mudança importante para empresas e startups que precisam de controle total sobre sua infraestrutura de IA.

A principal melhoria no Gemma 4 é o que o Google chama de "inteligência por parâmetro". O modelo 31B Dense oferece capacidades de ponta a uma fração do custo computacional de modelos como GPT-4 ou Claude 3 Sonnet. Na tabela de classificação de texto do Arena AI (em abril de 2026), o Gemma 4 31B supera modelos com mais de 600B parâmetros.

Aqui estão as novidades genuínas em comparação com o Gemma 3:

Entrada multimodal nativa. Todos os quatro modelos Gemma 4 processam imagens e vídeo nativamente. Os modelos de borda E2B e E4B adicionam entrada de áudio nativa para reconhecimento de fala. Isso não fazia parte da capacidade base do Gemma 3.

Janelas de contexto mais longas. Os modelos E2B e E4B suportam 128K tokens. Os modelos 26B e 31B se estendem a 256K tokens. Isso é suficiente para passar um repositório de código inteiro em um único prompt.

Suporte a fluxo de trabalho agêntico. O Gemma 4 inclui chamada de função nativa, modo de saída JSON estruturada e instruções de sistema. Essas três características juntas tornam prático construir agentes que chamam APIs externas, analisam respostas e encadeiam ações.

Raciocínio avançado. O modelo 31B mostra melhorias significativas em benchmarks de matemática e seguimento de instruções multi-etapa em comparação com o Gemma 3. Isso é importante para a geração de testes de API, onde você precisa que o modelo entenda as relações entre endpoints e esquemas de dados.

Suporte a mais de 140 idiomas. O Gemma 4 foi treinado nativamente em mais de 140 idiomas, não adaptado do inglês. Isso o torna utilizável para produtos de API globais prontos para uso.

Licenciamento Apache 2.0. Como mencionado, isso remove a ambiguidade legal para uso comercial. Você é proprietário dos seus modelos, dos seus dados e das suas implantações.

Variantes e capacidades do modelo Gemma 4

O Google lançou o Gemma 4 em quatro tamanhos, cada um visando uma categoria de hardware específica:

Modelo	Parâmetros	Parâmetros ativos (inferência)	Contexto	Melhor para
E2B	2B efetivos	~2B	128K	Móvel, IoT, borda offline
E4B	4B efetivos	~4B	128K	Celulares, Raspberry Pi, Jetson Orin
26B MoE	26B total	~3.8B ativos	256K	Tarefas de servidor sensíveis à latência
31B Dense	31B	31B	256K	Maior qualidade, pesquisa, fine-tuning

Os modelos E2B e E4B usam uma arquitetura Mixture of Experts que ativa apenas uma fração dos parâmetros totais por token. Isso preserva a vida útil da bateria e a RAM em dispositivos com recursos limitados. O Google os construiu em colaboração com a Qualcomm e a MediaTek, e eles rodam completamente offline no Android via AICore Developer Preview.

O modelo 26B MoE ativa apenas 3.8B parâmetros durante a inferência, apesar de ter 26B parâmetros totais. É a opção mais rápida para implantação no lado do servidor, onde você deseja baixa latência sem sacrificar muita qualidade.

O modelo 31B Dense é o líder em qualidade. É o que você escolheria para fine-tuning em tarefas específicas de domínio, ou para qualquer caso de uso onde a qualidade da saída importa mais do que a velocidade. Todas as quatro variantes são fornecidas nas formas com ajuste de instrução (IT) e base.

Para casos de uso de API, o 26B MoE atinge o melhor equilíbrio entre velocidade e qualidade. O 31B Dense é a escolha certa quando você precisa de saída JSON estruturada para respostas complexas de API ou quando está gerando cenários de teste com lógica multi-etapa.

Todos os modelos suportam chamada de função e modo de saída JSON, que são as duas capacidades que você mais usará ao construir ferramentas de API com o Gemma 4.

Configurando a API do Gemma 4: passo a passo

Você tem três caminhos principais para chamar o Gemma 4: Google AI Studio (mais rápido), Vertex AI (empresarial) ou implantação local com Ollama ou vLLM. Veja como configurar cada um.

Opção 1: Google AI Studio (recomendado para prototipagem)

Vá para Google AI Studio e crie uma conta gratuita. A partir daí, gere uma chave de API.

pip install google-genai

Faça sua primeira chamada:

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel("gemma-4-31b-it")

response = model.generate_content(
    "Generate a JSON object for a user account with id, email, and created_at fields."
)

print(response.text)

Para saída JSON estruturada, use o parâmetro response_mime_type:

import google.generativeai as genai
import json

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel(
    "gemma-4-31b-it",
    generation_config={"response_mime_type": "application/json"}
)

prompt = """
Generate 3 sample user objects for an e-commerce API. 
Each user should have: id (integer), email (string), username (string), 
created_at (ISO 8601 timestamp), and subscription_tier (free|pro|enterprise).
Return as a JSON array.
"""

response = model.generate_content(prompt)
users = json.loads(response.text)
print(json.dumps(users, indent=2))

Opção 2: Implantação local com Ollama

O Ollama permite que você execute o Gemma 4 completamente na sua máquina. Instale o Ollama em ollama.com, então baixe o modelo:

ollama pull gemma4

Execute o servidor do modelo:

ollama serve

Chame-o com o formato de API compatível com OpenAI:

import requests
import json

response = requests.post(
    "http://localhost:11434/api/chat",
    json={
        "model": "gemma4",
        "messages": [
            {
                "role": "user",
                "content": "Generate a valid JSON response for a REST API /products endpoint. Include id, name, price, and stock fields."
            }
        ],
        "stream": False
    }
)

result = response.json()
print(result["message"]["content"])

Opção 3: Chamada de função para orquestração de API

O Gemma 4 suporta chamada de função nativa. Isso permite que você defina ferramentas que o modelo pode chamar durante uma conversa:

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

# Define a tool that Gemma can call
tools = [
    {
        "function_declarations": [
            {
                "name": "get_api_schema",
                "description": "Retrieve the OpenAPI schema for a given endpoint path",
                "parameters": {
                    "type": "object",
                    "properties": {
                        "endpoint_path": {
                            "type": "string",
                            "description": "The API endpoint path, e.g. /users/{id}"
                        },
                        "method": {
                            "type": "string",
                            "enum": ["GET", "POST", "PUT", "DELETE", "PATCH"]
                        }
                    },
                    "required": ["endpoint_path", "method"]
                }
            }
        ]
    }
]

model = genai.GenerativeModel("gemma-4-31b-it", tools=tools)

response = model.generate_content(
    "I need to test the GET /users/{id} endpoint. What schema should the response follow?"
)

# Check if the model wants to call a function
if response.candidates[0].content.parts[0].function_call:
    fc = response.candidates[0].content.parts[0].function_call
    print(f"Model called function: {fc.name}")
    print(f"With args: {dict(fc.args)}")

Este padrão de chamada de função é o que torna o Gemma 4 útil para construir pipelines de teste de API agênticos.

Construindo mocks de API alimentados por IA com o Gemma 4

Uma das aplicações mais práticas do Gemma 4 para desenvolvedores de API é a geração de dados mock. Quando você está construindo um frontend antes que o backend exista, ou testando casos de borda difíceis de acionar em produção, você precisa de respostas mock realistas.

Veja como usar o Gemma 4 para gerar dados mock a partir de um esquema OpenAPI:

import google.generativeai as genai
import json

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel(
    "gemma-4-31b-it",
    generation_config={"response_mime_type": "application/json"}
)

# Your OpenAPI schema for the response
schema = {
    "type": "object",
    "properties": {
        "id": {"type": "integer"},
        "order_number": {"type": "string", "pattern": "^ORD-[0-9]{6}$"},
        "status": {"type": "string", "enum": ["pending", "shipped", "delivered", "cancelled"]},
        "total": {"type": "number", "minimum": 0},
        "items": {
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "product_id": {"type": "integer"},
                    "quantity": {"type": "integer", "minimum": 1},
                    "unit_price": {"type": "number"}
                }
            }
        },
        "created_at": {"type": "string", "format": "date-time"}
    }
}

prompt = f"""
Generate 5 realistic mock responses for an order management API.
Each response must conform exactly to this JSON Schema:
{json.dumps(schema, indent=2)}

Make the data realistic: use realistic prices, product IDs, and varied statuses.
Return as a JSON array of 5 order objects.
"""

response = model.generate_content(prompt)
mock_orders = json.loads(response.text)
print(json.dumps(mock_orders, indent=2))
```

A chave aqui é que o Gemma 4 entende as restrições do JSON Schema. Ele respeita os valores de enum, padrões de string e intervalos numéricos. Você obtém dados mock que correspondem genuinamente ao seu contrato de API, não strings aleatórias.

Você pode estender esse padrão para gerar dados mock para qualquer endpoint de API. Forneça o esquema de resposta da sua especificação OpenAPI, e o Gemma 4 produzirá dados de teste conformes ao esquema.

Para mocks mais avançados, combine o Gemma 4 com lógica de resposta condicional. Se uma requisição contiver um ID de usuário específico, retorne uma resposta de erro. Caso contrário, retorne dados de sucesso. É aqui que a janela de contexto de 256K do Gemma 4 ajuda: você pode incluir sua especificação OpenAPI inteira no prompt e pedir para ele gerar respostas mock para vários endpoints de uma só vez.

Um fluxo de trabalho prático: exporte sua coleção Apidog como uma especificação OpenAPI, cole-a em um prompt e peça ao Gemma 4 para gerar 10 casos de teste realistas por endpoint. Você obtém um conjunto de dados mock completo em segundos, em vez de horas.

`Testando respostas da API Gemma 4 com Apidog`

Depois que você tiver o Gemma 4 gerando dados ou atuando como parte do seu pipeline de API, você precisará verificar se as respostas correspondem ao seu esquema. É aqui que o recurso Test Scenarios do Apidog se encaixa.

Aqui está o fluxo de trabalho específico:

Passo 1: Importe seu endpoint da API Gemma 4 para o Apidog.

No Apidog, vá para o seu projeto e crie um novo endpoint. Defina a URL para qualquer API wrapper que você construiu em torno do Gemma 4 (ou aponte diretamente para o endpoint do Google AI Studio). Defina o esquema de resposta esperado na interface do Apidog.

Passo 2: Use o Smart Mock para prototipar respostas esperadas.

Antes de executar testes ao vivo contra o Gemma 4, use o Smart Mock do Apidog para gerar respostas base a partir do seu esquema. O Smart Mock lê sua especificação de resposta e produz dados realistas com base em nomes e tipos de propriedades. Um campo chamado email automaticamente recebe um endereço de e-mail válido. Um campo chamado created_at recebe um timestamp formatado corretamente.

O Smart Mock usa três camadas de prioridade: valores de campos mock personalizados primeiro, depois correspondência de nomes de propriedades (onde ele infere o tipo de dado a partir dos nomes dos campos), e então os padrões do JSON Schema. Essa hierarquia significa que você pode sobrescrever campos específicos enquanto permite que o motor lide com o restante.

Passo 3: Crie um Cenário de Teste para o seu pipeline Gemma 4.

Vá para o módulo de Testes no Apidog e crie um novo Cenário de Teste. Adicione sua chamada de API Gemma 4 como o primeiro passo. Em seguida, adicione passos de asserção para validar a resposta.

O modo de orquestração de Cenários de Teste do Apidog permite encadear múltiplas requisições. Para um teste de integração de API Gemma 4, seu cenário pode ser assim:

Chame seu endpoint de autenticação para obter um token
Envie um prompt para o Gemma 4 com o token de autenticação
Extraia o JSON gerado do corpo da resposta
Valide o JSON extraído contra suas asserções de esquema
Passe os dados validados para um endpoint POST subsequente

Passo 4: Configure as asserções.

No passo de asserção, você pode verificar códigos de status, cabeçalhos de resposta e campos JSON. Para respostas do Gemma 4, você tipicamente assertaria que o campo candidates[0].content.parts[0].text existe e que seu conteúdo parseado corresponde ao seu esquema esperado.

Use o processador Extract Variable do Apidog para puxar a saída do Gemma 4 para uma variável. Em seguida, use essa variável em etapas de requisição subsequentes. Isso permite encadear dados gerados pelo Gemma 4 através de um fluxo de trabalho de teste multi-etapa.

Passo 5: Execute com testes orientados a dados.

O Apidog suporta arquivos de dados de teste CSV e JSON. Você pode definir 50 variações de prompt diferentes em um CSV, importá-lo para o seu Cenário de Teste e executar todas as 50 variações com um clique. É assim que você testa se sua integração Gemma 4 lida corretamente com diversas entradas.

O fluxo de trabalho completo, da definição do esquema à execução do teste, leva cerca de 15 minutos para ser configurado. Depois disso, você pode executá-lo em cada commit via Apidog CLI em seu pipeline de CI/CD.

`Casos de uso no mundo real`

Geração de dados de teste de API. As equipes de QA gastam um tempo significativo escrevendo fixtures de teste. Com o modo de saída JSON do Gemma 4 e seu esquema OpenAPI, você pode gerar centenas de registros de teste realistas em minutos. Forneça o esquema, especifique os casos de borda que deseja cobrir e deixe o modelo produzir os dados.

Mocking inteligente de API. Mocks tradicionais retornam dados estáticos. Com o Gemma 4 por trás do seu servidor mock, você pode retornar respostas contextualmente apropriadas. Um mock para uma API de busca de produtos poderia retornar diferentes conjuntos de produtos com base na consulta de busca, mesmo sem codificar cada caso.

Geração de documentação de API. A janela de contexto de 256K do Gemma 4 permite que você alimente todo o seu codebase em um prompt. Peça para ele gerar documentação OpenAPI para endpoints não documentados. O suporte a chamada de função significa que você pode construir um agente que lê seus arquivos de rota e escreve automaticamente as especificações da API.

Validação de esquema de resposta. Ao consumir APIs de terceiros, você deseja validar que as respostas correspondem às suas expectativas. Use o Gemma 4 para analisar as respostas da API e sinalizar violações de esquema. Ele pode identificar campos ausentes, tipos incorretos e enums inconsistentes melhor do que um simples validador de JSON Schema.

Escrita automatizada de testes de regressão. Forneça ao Gemma 4 sua especificação de API e uma lista de relatórios de bugs. Peça para ele escrever casos de teste que teriam detectado cada bug. Como ele entende as relações do esquema, ele pode escrever testes não triviais que verificam transições de estado e dependências de campo.

`Gemma 4 vs. outros modelos abertos para uso em API`

Como o Gemma 4 se compara a outros modelos abertos quando seu objetivo é construir ferramentas de API?

Modelo	Parâmetros	Contexto	Saída JSON	Chamada de função	Licença
Gemma 4 31B	31B	256K	Nativa	Nativa	Apache 2.0
Gemma 4 26B MoE	26B (3.8B ativos)	256K	Nativa	Nativa	Apache 2.0
Llama 3.3 70B	70B	128K	Via prompt	Via prompt	Llama Community
Mistral 7B	7B	32K	Via prompt	Limitada	Apache 2.0
Qwen 2.5 72B	72B	128K	Nativa	Nativa	Apache 2.0

Para casos de uso de API, as características críticas são o modo de saída JSON nativo, suporte a chamada de função e comprimento de contexto. O Gemma 4 31B e 26B possuem todas as três.

O Llama 3.3 70B é o principal concorrente. É um modelo forte, mas requer o dobro da capacidade computacional do Gemma 4 31B para rodar. Na tabela de classificação do Arena AI, o Gemma 4 31B ocupa uma posição superior ao Llama 3.3 70B, apesar de ter metade do tamanho. Se você está executando inferência em escala, essa diferença nos requisitos de GPU se traduz diretamente em custo de infraestrutura.

O Mistral 7B é muito menor e mais rápido, mas sua janela de contexto de 32K limita sua utilidade para grandes especificações de API. Ele também carece de modo JSON nativo e de chamada de função confiável.

O Qwen 2.5 72B é uma alternativa capaz, particularmente para aplicações multilingues. Seus recursos de ferramentas de API são comparáveis aos do Gemma 4, mas ele requer hardware significativamente mais.

A licença Apache 2.0 no Gemma 4 é uma vantagem subestimada. O Llama usa a Llama Community License, que possui restrições em certos usos comerciais. Se você está construindo um produto em cima de um modelo aberto, a clareza legal do Apache 2.0 é importante.

Para a maioria dos casos de uso de ferramentas de API: comece com o Gemma 4 26B MoE para tarefas sensíveis à latência, ou Gemma 4 31B para saída de maior qualidade.

`Conclusão`

O Gemma 4 oferece aos desenvolvedores uma alternativa aberta credível às APIs de IA proprietárias para a construção de ferramentas de API. A licença Apache 2.0 remove o atrito legal que tornava os modelos abertos anteriores complicados de serem comercializados. A chamada de função nativa e o modo de saída JSON tornam-no prático para integração em fluxos de trabalho de API sem uma engenharia de prompt extensiva.

Os quatro tamanhos de modelo cobrem todas as categorias de hardware, de telefones a estações de trabalho. O modelo 26B MoE é a opção de destaque para a maioria dos casos de uso de desenvolvimento de API: ele oferece qualidade quase de ponta a uma fração do custo de inferência.

Emparelhe o Gemma 4 com o Apidog para fechar o ciclo entre dados gerados por IA e validação de API. Use o Gemma 4 para gerar dados de teste e respostas mock. Use o Smart Mock do Apidog para prototipar esquemas e seus Cenários de Teste para validar se a saída da IA atende ao seu contrato de API. Juntos, eles formam um fluxo de trabalho prático para construir e testar APIs alimentadas por IA.

button
        
        
    
FAQ
O que é o Gemma 4?O Gemma 4 é a mais recente família de modelos de linguagem abertos do Google DeepMind, lançada em abril de 2026. Ele vem em quatro tamanhos (E2B, E4B, 26B MoE, 31B Dense) e é licenciado sob Apache 2.0. O modelo 31B atualmente ocupa a 3ª posição entre todos os modelos abertos na tabela de classificação de texto do Arena AI.
O Gemma 4 é gratuito para usar?Os pesos do modelo são gratuitos para baixar e usar sob a licença Apache 2.0. Você paga pelo uso computacional quando o executa por conta própria. Se você usa o Google AI Studio, há um nível gratuito com limites de taxa. O Vertex AI cobra as taxas padrão de computação do Google Cloud.
O Gemma 4 pode gerar JSON estruturado?Sim. O Gemma 4 suporta um parâmetro nativo response_mime_type: "application/json" através do Google Generative AI SDK. Isso força o modelo a retornar JSON válido todas as vezes, o que é essencial para integrações de API onde você está analisando a saída programaticamente.
Como o Gemma 4 se compara ao GPT-4o para desenvolvimento de API?GPT-4o é um modelo proprietário sem opção de implantação local e com custos de API mais altos. O Gemma 4 31B é gratuito para implantação local, e seus resultados de benchmark são competitivos com o GPT-4o em tarefas de raciocínio. Para equipes que precisam de privacidade de dados ou controle de custos, o Gemma 4 merece uma avaliação séria.
Posso fazer fine-tuning do Gemma 4 nos meus próprios dados de API?Sim. O Google oferece suporte para fine-tuning do Gemma 4 através do Google AI Studio, Vertex AI e ferramentas de terceiros como Hugging Face TRL. O fine-tuning em esquemas de API específicos de domínio e padrões de resposta pode melhorar significativamente a qualidade da saída para casos de uso especializados.
Que hardware preciso para rodar o Gemma 4 localmente?Os modelos 31B e 26B cabem em uma única NVIDIA H100 de 80GB em bfloat16. Versões quantizadas rodam em GPUs de consumidor com 16-24GB de VRAM. Os modelos E4B e E2B rodam em telefones e dispositivos de borda, incluindo Raspberry Pi e NVIDIA Jetson.
O Gemma 4 suporta chamada de função?Sim, todos os modelos Gemma 4 suportam chamada de função nativa. Você define ferramentas como objetos JSON com um nome, descrição e esquema de parâmetros. O modelo decide quando chamar uma ferramenta e passa argumentos estruturados nos quais você pode atuar no código.
Como testo as respostas da API Gemma 4 automaticamente?Use os Cenários de Teste do Apidog para construir um fluxo de trabalho de teste encadeado. Importe seu endpoint da API Gemma 4, configure as etapas de requisição e adicione asserções para validar a estrutura da resposta. Você pode executar o cenário localmente, via CLI, ou automaticamente em seu pipeline de CI/CD a cada push de código.