O Google lançou o Gemini 3.5 Flash em 19 de maio de 2026, e a principal afirmação de preço é ousada: "menos da metade do custo de outros modelos de ponta" para tarefas agentivas. Essa é a linha de marketing. Este guia faz as contas reais.
Você encontrará as taxas por token, os limites da camada gratuita, o desconto do modo em lote, cenários de custo reais para cargas de trabalho comuns e uma comparação lado a lado de custos com GPT-5.5 e Claude Opus 4.7. Ao final, você saberá exatamente quanto custa para rodar o Flash e onde você pode economizar 50% ou mais sem abrir mão de muito.

Resumo rápido
| Tipo de custo | Taxa |
|---|---|
| Entrada padrão | ~$1.50 / 1M tokens |
| Saída padrão | ~$9.00 / 1M tokens |
| Entrada modo em lote | ~$0.75 / 1M tokens (~50% de desconto) |
| Saída modo em lote | ~$4.50 / 1M tokens (~50% de desconto) |
| Entrada em cache | taxa reduzida (varia) |
| Camada gratuita (AI Studio) | ~1.500 requisições/dia, 1M tokens/min, 15 RPM |
| Nova conta Vertex AI | Crédito de $300 por 90 dias |
Taxas atuais em maio de 2026, de acordo com o anúncio de lançamento do Google e listas de agregadores. Sempre verifique na página oficial de preços antes de comprometer o orçamento.
Gemini 3.5 Flash: taxas por token
O Flash usa o mesmo modelo de pagamento conforme o uso que todas as variantes do Gemini têm usado desde o 2.5: você paga por milhão de tokens de entrada e por milhão de tokens de saída, independentemente.
| Camada | Entrada ($/1M) | Saída ($/1M) |
|---|---|---|
| Padrão | ~$1.50 | ~$9.00 |
| Entrada em cache | com desconto | n/a |
| Lote (assíncrono) | ~$0.75 | ~$4.50 |
Duas notas práticas:
- Tokens não são palavras. Regra aproximada: 1.000 tokens ≈ 750 palavras em inglês. Um romance de 100.000 palavras tem cerca de 133K tokens de entrada.
- A saída é aproximadamente 6x mais cara que a entrada. Prompts que geram respostas longas custam muito mais do que prompts que obtêm respostas curtas. Esquemas de saída estruturada geralmente economizam dinheiro em comparação com prosa de forma livre, porque o modelo escreve menos.
Para informações sobre como funciona o modo em lote do Gemini, veja O modo em lote da API Gemini chegou e é 50% mais barato.
Camada gratuita: o que você obtém sem pagar
A camada gratuita do AI Studio é lançada com o Flash desde o primeiro dia. Limites no lançamento:
- 1.500 requisições por dia
- 1M tokens por minuto
- 15 requisições por minuto
Isso é suficiente para a maioria dos projetos paralelos, protótipos internos e automação em pequena escala. Se sua carga de trabalho se encaixa em 1.500 chamadas/dia, você paga $0.
Especificações da camada gratuita:
- Não é necessário cartão de crédito
- Mesmo modelo
gemini-3.5-flashdo endpoint pago - Mesmo padrão SDK, apenas uma chave diferente
- Os prompts podem ser usados para melhorar os modelos do Google (opte por sair nas configurações do AI Studio)
- As cotas podem mudar; não aposte um prazo de lançamento nos números exatos
Para o passo a passo completo da configuração, veja Como usar o Gemini 3.5 Flash gratuitamente e Como obter uma chave de API gratuita do Google Gemini.
Modo em lote: o desconto de 50% que a maioria das equipes perde
Se sua carga de trabalho não precisa de respostas em tempo real, o modo em lote reduz os custos do Flash em aproximadamente metade.
Como funciona:
- Envie um trabalho em lote com até 50.000 prompts de uma vez
- O Google os processa em 24 horas
- Você paga ~50% menos por token, tanto de entrada quanto de saída
Quando o modo em lote faz sentido:
- Análise de documentos em massa (revisão legal, triagem de tickets de suporte, moderação de conteúdo)
- Geração de conteúdo noturna para painéis SaaS
- Pré-computação estilo embedding
- Trabalhos de migração onde você está reprocessando dados históricos
Quando não faz sentido:
- UIs de chat (usuários não esperarão 24 horas)
- Loops de agentes ao vivo com interação do usuário
- Qualquer coisa voltada para o usuário em tempo real
A maioria das pilhas de produção deve usar o modo em lote para qualquer carga de trabalho que possa tolerar latência. As economias se multiplicam rapidamente em escala. Detalhes de configuração em nosso guia de modo em lote.
Entrada em cache: outra alavanca
Se seus prompts compartilham um prefixo estático longo (prompt do sistema, documento de referência grande, instruções longas), o cache de contexto oferece um desconto na parte em cache.
Padrão:
- Armazene em cache um documento de referência de 100K tokens uma vez
- Reutilize-o em milhares de consultas
- Pague a taxa total apenas na nova pergunta, não no prefixo em cache
As economias concretas dependem da taxa de acertos do cache, mas para aplicativos estilo RAG onde os mesmos trechos recuperados retornam em várias consultas, espere uma redução de 30 a 60% no custo de entrada.
Cenários de custo reais
A matemática dos tokens se torna abstrata rapidamente. Aqui estão cinco cenários concretos com as taxas padrão do Flash.
Cenário 1: Chatbot de suporte ao cliente
- 10.000 mensagens de usuário por dia
- Média de 200 tokens de entrada (mensagem do usuário + prompt do sistema)
- Média de 400 tokens de saída (resposta)
Custo diário:
- Entrada: 10.000 × 200 × ($1.50 / 1M) = $3.00/dia
- Saída: 10.000 × 400 × ($9.00 / 1M) = $36.00/dia
- Total: ~$39/dia, ~$1.170/mês
Execute a mesma carga de trabalho através do modo em lote (se você puder tolerar respostas em lote): ~$585/mês. Adicione cache de contexto para o prompt do sistema: mais 20–30% de desconto.
Cenário 2: SaaS de Perguntas e Respostas sobre Documentos
- 1.000 documentos analisados por dia
- Cada documento tem em média 30K tokens (PDF longo)
- Cada Q&A retorna 500 tokens de saída
Custo diário:
- Entrada: 1.000 × 30.000 × ($1.50 / 1M) = $45.00/dia
- Saída: 1.000 × 500 × ($9.00 / 1M) = $4.50/dia
- Total: ~$50/dia, ~$1.500/mês
É aqui que o contexto de 1M do Flash se destaca: sem infraestrutura de fragmentação, basta enviar o documento inteiro. Comparado ao RAG fragmentado com um modelo principal, você pagaria múltiplos a mais na API e infraestrutura.
Cenário 3: Agente autônomo de longa duração
- Uma execução do agente = ~50 turnos do modelo
- Cada turno tem em média 5K de entrada (contexto crescente) e 1K de saída
- 200 execuções por dia
Custo por execução:
- Entrada: 50 × 5.000 × ($1.50 / 1M) = $0.375
- Saída: 50 × 1.000 × ($9.00 / 1M) = $0.45
- Por execução: ~$0.83
Total diário: 200 × $0.83 = ~$165/dia, ~$4.950/mês
Para comparação, a mesma carga de trabalho no Opus 4.7 (~$15/$75 por 1M) custa aproximadamente $25/execução, ou $5.000/dia. Essa é a lacuna de custo agentiva que a afirmação do Google aponta.
Cenário 4: Pipeline de extração de gráficos
- 5.000 capturas de tela de painéis por dia
- Cada imagem de entrada: equivalente a ~1.500 tokens
- Saída: 300 tokens de JSON estruturado
Custo diário:
- Entrada: 5.000 × 1.500 × ($1.50 / 1M) = $11.25/dia
- Saída: 5.000 × 300 × ($9.00 / 1M) = $13.50/dia
- Total: ~$25/dia, ~$750/mês
Adicione o modo em lote e a mesma carga de trabalho custa ~$375/mês. O raciocínio CharXiv em 84,2% significa que a qualidade se mantém.
Cenário 5: Geração de conteúdo de alto volume
- 100.000 artigos curtos gerados por dia
- 500 tokens de entrada, 2.000 tokens de saída cada
Custo diário:
- Entrada: 100.000 × 500 × ($1.50 / 1M) = $75/dia
- Saída: 100.000 × 2.000 × ($9.00 / 1M) = $1.800/dia
- Total: ~$1.875/dia, ~$56.250/mês
Mova isso para o modo em lote e a conta mensal cai para ~$28K. Nesta escala, você também gostaria de testar o roteamento de partes rotineiras para modelos ainda mais baratos, como o 3.1 Flash-Lite, e reservar o Flash para gerações mais difíceis.
Custo vs GPT-5.5 e Opus 4.7
A comparação de preços principal:
| Modelo | Entrada ($/1M) | Saída ($/1M) | Múltiplo vs Flash |
|---|---|---|---|
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 1× (linha de base) |
| GPT-5.5 | ~$10 | ~$30 | 6.7× entrada, 3.3× saída |
| Claude Opus 4.7 | ~$15 | ~$75 | 10× entrada, 8.3× saída |
Execute o Cenário 1 (chat de suporte ao cliente) através de cada um:
- Flash: $39/dia
- GPT-5.5: ~$140/dia (3.6× mais)
- Opus 4.7: ~$330/dia (8.5× mais)
Esta é a lacuna de custo agentiva que impulsiona a linha de marketing do Google. Os modelos principais retornam uma qualidade marginalmente melhor nas tarefas mais difíceis; para cargas de trabalho diárias, o Flash é suficiente por uma fração do preço.
Para análises mais aprofundadas, veja preços do GPT-5.5 e nossa comparação tripla.
Custo vs outras variantes do Gemini
| Modelo | Entrada ($/1M) | Saída ($/1M) | Quando usar |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | ~$0.40 | ~$2.00 | Trabalhos rotineiros de alto volume |
| Gemini 3 Flash | ~$0.50 | ~$3.00 | Geração anterior, ainda sólida |
| Gemini 3.1 Pro | ~$2.00 | ~$12.00 | Trabalho intensivo em raciocínio antes do 3.5 Pro |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | Novo padrão para a maioria das cargas de trabalho |
| Gemini 3.5 Pro (junho de 2026) | A definir | A definir | Tarefas de raciocínio mais difíceis |
O Flash é mais caro do que seus antecessores Flash 3.x, mas credivelmente mais barato do que o nível Pro anterior. Para a maioria das equipes, essa é a troca certa: melhor que o Flash 3.x, custa menos que o Pro 3.x.
Para a linha Gemini mais antiga, veja 3.1 Flash-Lite, preços da API 3.0 e 3 Flash.
Preços do Vertex AI (produção)
Se você chamar o Flash através do Vertex AI em vez do AI Studio, o preço por token é o mesmo. As diferenças são faturamento e recursos da conta:
- Autenticação de conta de serviço em vez de chaves de API
- Logs de auditoria no Cloud Logging
- Controles de residência de dados
- Nenhuma camada gratuita, mas o crédito de $300 para novas contas cobre ~90 dias de uso moderado
- Cotas personalizadas que você pode negociar em escala
Para a maioria das equipes de produção, o caminho é: prototipar na camada gratuita do AI Studio, mudar para o AI Studio pago para escala e, em seguida, mudar para o Vertex AI quando precisar de controles empresariais. O comportamento do modelo é idêntico em todos os três.
Dicas de otimização de custos
Seis hábitos concretos que mais reduzem as contas do Flash:
- Execute o modo em lote para qualquer coisa que não precise de resposta em tempo real. 50% de desconto, sem perda de qualidade.
- Armazene em cache prefixos estáticos longos. Prompts de sistema, documentos de referência, instruções, todos bons candidatos.
- Use saída JSON estruturada. Força o modelo a escrever menos, sendo mais rápido e mais barato do que a prosa de forma livre.
- Roteie pela complexidade da tarefa. Tarefas fáceis para Flash-Lite; tarefas difíceis para Flash; a rara tarefa super difícil para 3.5 Pro quando for lançado.
- Pré-valide as entradas. Não queime tokens em requisições malformadas. O Apidog as intercepta antes que cheguem à API.
- Monitore o custo por prompt. Adicione um middleware de log que registre tokens de entrada/saída por requisição. Gastos excessivos quase sempre vêm de alguns prompts atípicos.
Para o fluxo de validação de prompts, baixe o Apidog, crie um cenário de teste para seu endpoint Gemini e adicione asserções de formato de resposta. Queimar a mesma requisição quebrada 200 vezes em uma sessão de depuração é como as equipes desperdiçam suas cotas da camada gratuita em uma única tarde.
Quando a camada gratuita não é suficiente
Três sinais para atualizar da camada gratuita para o Flash pago:
- Você está atingindo 1.500 requisições/dia por vários dias seguidos. O pagamento conforme o uso é barato o suficiente para que o tempo de desenvolvimento gasto evitando cotas custe mais do que a atualização.
- Você precisa de maior throughput de RPM. A camada gratuita limita a 15 requisições por minuto; as camadas pagas permitem muito mais.
- Você precisa de residência de dados ou logs de auditoria. Mova para o Vertex AI em uma conta faturada.
A maioria das equipes descobre que $50–200/mês em uso pago do Flash substitui muito malabarismo com a camada gratuita.
Riscos de preço e o que observar
Três coisas que podem mudar a matemática:
- Aperto de cotas. O Google historicamente restringiu as cotas da camada gratuita à medida que os modelos envelhecem. Não construa sua arquitetura baseada no número exato de 1.500/dia.
- Preços de lançamento do Pro. Quando o 3.5 Pro for lançado em junho, o preço do Flash pode subir ou descer dependendo de como o Google posiciona as camadas.
- Sobretaxas regionais. Os preços do Vertex AI variam por região. O Centro dos EUA é a referência mais barata; espere prêmios de 10 a 20% em algumas regiões.
Configure alertas de custo desde o primeiro dia. Tanto o AI Studio (na página de cotas do projeto) quanto o Vertex AI (no Cloud Billing) suportam limites de orçamento diários. Use-os.
Conclusão
O Gemini 3.5 Flash é barato o suficiente para que a maioria das cargas de trabalho de IA de produção em 2026 deva começar por ele. As taxas padrão ($1.50 / $9 por 1M de tokens) superam todas as outras opções de classe de ponta. O modo em lote e o cache de contexto reduzem ainda mais o custo efetivo.
Para as cargas de trabalho onde o Flash não é suficiente, a medida certa é misturar as camadas: Flash para o grosso, um modelo principal como GPT-5.5 ou Opus 4.7 para as tarefas mais difíceis. O roteamento por complexidade da tarefa é a otimização de custo de maior alavancagem que você pode fazer.
Para colocar isso em prática:
- Baixe o Apidog e salve o endpoint Gemini 3.5 Flash como uma requisição
- Crie uma pequena avaliação comparando o Flash com seu modelo atual em 20 prompts reais
- Registre as contagens de tokens; extrapole o custo mensal
- Decida onde o Flash substitui um modelo mais caro e onde não
São dois dias de trabalho que geralmente se pagam em um único ciclo de faturamento.
