Preço Gemini 3.5 Flash: Quanto Custa de Verdade?

O Google lançou o Gemini 3.5 Flash em 19 de maio de 2026, e a principal afirmação de preço é ousada: "menos da metade do custo de outros modelos de ponta" para tarefas agentivas. Essa é a linha de marketing. Este guia faz as contas reais.

Você encontrará as taxas por token, os limites da camada gratuita, o desconto do modo em lote, cenários de custo reais para cargas de trabalho comuns e uma comparação lado a lado de custos com GPT-5.5 e Claude Opus 4.7. Ao final, você saberá exatamente quanto custa para rodar o Flash e onde você pode economizar 50% ou mais sem abrir mão de muito.

Resumo rápido

Tipo de custo	Taxa
Entrada padrão	~$1.50 / 1M tokens
Saída padrão	~$9.00 / 1M tokens
Entrada modo em lote	~$0.75 / 1M tokens (~50% de desconto)
Saída modo em lote	~$4.50 / 1M tokens (~50% de desconto)
Entrada em cache	taxa reduzida (varia)
Camada gratuita (AI Studio)	~1.500 requisições/dia, 1M tokens/min, 15 RPM
Nova conta Vertex AI	Crédito de $300 por 90 dias

Taxas atuais em maio de 2026, de acordo com o anúncio de lançamento do Google e listas de agregadores. Sempre verifique na página oficial de preços antes de comprometer o orçamento.

Gemini 3.5 Flash: taxas por token

O Flash usa o mesmo modelo de pagamento conforme o uso que todas as variantes do Gemini têm usado desde o 2.5: você paga por milhão de tokens de entrada e por milhão de tokens de saída, independentemente.

Camada	Entrada ($/1M)	Saída ($/1M)
Padrão	~$1.50	~$9.00
Entrada em cache	com desconto	n/a
Lote (assíncrono)	~$0.75	~$4.50

Duas notas práticas:

Tokens não são palavras. Regra aproximada: 1.000 tokens ≈ 750 palavras em inglês. Um romance de 100.000 palavras tem cerca de 133K tokens de entrada.
A saída é aproximadamente 6x mais cara que a entrada. Prompts que geram respostas longas custam muito mais do que prompts que obtêm respostas curtas. Esquemas de saída estruturada geralmente economizam dinheiro em comparação com prosa de forma livre, porque o modelo escreve menos.

Para informações sobre como funciona o modo em lote do Gemini, veja O modo em lote da API Gemini chegou e é 50% mais barato.

Camada gratuita: o que você obtém sem pagar

A camada gratuita do AI Studio é lançada com o Flash desde o primeiro dia. Limites no lançamento:

1.500 requisições por dia
1M tokens por minuto
15 requisições por minuto

Isso é suficiente para a maioria dos projetos paralelos, protótipos internos e automação em pequena escala. Se sua carga de trabalho se encaixa em 1.500 chamadas/dia, você paga $0.

Especificações da camada gratuita:

Não é necessário cartão de crédito
Mesmo modelo gemini-3.5-flash do endpoint pago
Mesmo padrão SDK, apenas uma chave diferente
Os prompts podem ser usados para melhorar os modelos do Google (opte por sair nas configurações do AI Studio)
As cotas podem mudar; não aposte um prazo de lançamento nos números exatos

Para o passo a passo completo da configuração, veja Como usar o Gemini 3.5 Flash gratuitamente e Como obter uma chave de API gratuita do Google Gemini.

Modo em lote: o desconto de 50% que a maioria das equipes perde

Se sua carga de trabalho não precisa de respostas em tempo real, o modo em lote reduz os custos do Flash em aproximadamente metade.

Como funciona:

Envie um trabalho em lote com até 50.000 prompts de uma vez
O Google os processa em 24 horas
Você paga ~50% menos por token, tanto de entrada quanto de saída

Quando o modo em lote faz sentido:

Análise de documentos em massa (revisão legal, triagem de tickets de suporte, moderação de conteúdo)
Geração de conteúdo noturna para painéis SaaS
Pré-computação estilo embedding
Trabalhos de migração onde você está reprocessando dados históricos

Quando não faz sentido:

UIs de chat (usuários não esperarão 24 horas)
Loops de agentes ao vivo com interação do usuário
Qualquer coisa voltada para o usuário em tempo real

A maioria das pilhas de produção deve usar o modo em lote para qualquer carga de trabalho que possa tolerar latência. As economias se multiplicam rapidamente em escala. Detalhes de configuração em nosso guia de modo em lote.

Entrada em cache: outra alavanca

Se seus prompts compartilham um prefixo estático longo (prompt do sistema, documento de referência grande, instruções longas), o cache de contexto oferece um desconto na parte em cache.

Padrão:

Armazene em cache um documento de referência de 100K tokens uma vez
Reutilize-o em milhares de consultas
Pague a taxa total apenas na nova pergunta, não no prefixo em cache

As economias concretas dependem da taxa de acertos do cache, mas para aplicativos estilo RAG onde os mesmos trechos recuperados retornam em várias consultas, espere uma redução de 30 a 60% no custo de entrada.

Cenários de custo reais

A matemática dos tokens se torna abstrata rapidamente. Aqui estão cinco cenários concretos com as taxas padrão do Flash.

Cenário 1: Chatbot de suporte ao cliente

10.000 mensagens de usuário por dia
Média de 200 tokens de entrada (mensagem do usuário + prompt do sistema)
Média de 400 tokens de saída (resposta)

Custo diário:

Entrada: 10.000 × 200 × ($1.50 / 1M) = $3.00/dia
Saída: 10.000 × 400 × ($9.00 / 1M) = $36.00/dia
Total: ~$39/dia, ~$1.170/mês

Execute a mesma carga de trabalho através do modo em lote (se você puder tolerar respostas em lote): ~$585/mês. Adicione cache de contexto para o prompt do sistema: mais 20–30% de desconto.

Cenário 2: SaaS de Perguntas e Respostas sobre Documentos

1.000 documentos analisados por dia
Cada documento tem em média 30K tokens (PDF longo)
Cada Q&A retorna 500 tokens de saída

Custo diário:

Entrada: 1.000 × 30.000 × ($1.50 / 1M) = $45.00/dia
Saída: 1.000 × 500 × ($9.00 / 1M) = $4.50/dia
Total: ~$50/dia, ~$1.500/mês

É aqui que o contexto de 1M do Flash se destaca: sem infraestrutura de fragmentação, basta enviar o documento inteiro. Comparado ao RAG fragmentado com um modelo principal, você pagaria múltiplos a mais na API e infraestrutura.

Cenário 3: Agente autônomo de longa duração

Uma execução do agente = ~50 turnos do modelo
Cada turno tem em média 5K de entrada (contexto crescente) e 1K de saída
200 execuções por dia

Custo por execução:

Entrada: 50 × 5.000 × ($1.50 / 1M) = $0.375
Saída: 50 × 1.000 × ($9.00 / 1M) = $0.45
Por execução: ~$0.83

Total diário: 200 × $0.83 = ~$165/dia, ~$4.950/mês

Para comparação, a mesma carga de trabalho no Opus 4.7 (~$15/$75 por 1M) custa aproximadamente $25/execução, ou $5.000/dia. Essa é a lacuna de custo agentiva que a afirmação do Google aponta.

Cenário 4: Pipeline de extração de gráficos

5.000 capturas de tela de painéis por dia
Cada imagem de entrada: equivalente a ~1.500 tokens
Saída: 300 tokens de JSON estruturado

Custo diário:

Entrada: 5.000 × 1.500 × ($1.50 / 1M) = $11.25/dia
Saída: 5.000 × 300 × ($9.00 / 1M) = $13.50/dia
Total: ~$25/dia, ~$750/mês

Adicione o modo em lote e a mesma carga de trabalho custa ~$375/mês. O raciocínio CharXiv em 84,2% significa que a qualidade se mantém.

Cenário 5: Geração de conteúdo de alto volume

100.000 artigos curtos gerados por dia
500 tokens de entrada, 2.000 tokens de saída cada

Custo diário:

Entrada: 100.000 × 500 × ($1.50 / 1M) = $75/dia
Saída: 100.000 × 2.000 × ($9.00 / 1M) = $1.800/dia
Total: ~$1.875/dia, ~$56.250/mês

Mova isso para o modo em lote e a conta mensal cai para ~$28K. Nesta escala, você também gostaria de testar o roteamento de partes rotineiras para modelos ainda mais baratos, como o 3.1 Flash-Lite, e reservar o Flash para gerações mais difíceis.

Custo vs GPT-5.5 e Opus 4.7

A comparação de preços principal:

Modelo	Entrada ($/1M)	Saída ($/1M)	Múltiplo vs Flash
Gemini 3.5 Flash	~$1.50	~$9.00	1× (linha de base)
GPT-5.5	~$10	~$30	6.7× entrada, 3.3× saída
Claude Opus 4.7	~$15	~$75	10× entrada, 8.3× saída

Execute o Cenário 1 (chat de suporte ao cliente) através de cada um:

Flash: $39/dia
GPT-5.5: ~$140/dia (3.6× mais)
Opus 4.7: ~$330/dia (8.5× mais)

Esta é a lacuna de custo agentiva que impulsiona a linha de marketing do Google. Os modelos principais retornam uma qualidade marginalmente melhor nas tarefas mais difíceis; para cargas de trabalho diárias, o Flash é suficiente por uma fração do preço.

Para análises mais aprofundadas, veja preços do GPT-5.5 e nossa comparação tripla.

Custo vs outras variantes do Gemini

Modelo	Entrada ($/1M)	Saída ($/1M)	Quando usar
Gemini 3.1 Flash-Lite	~$0.40	~$2.00	Trabalhos rotineiros de alto volume
Gemini 3 Flash	~$0.50	~$3.00	Geração anterior, ainda sólida
Gemini 3.1 Pro	~$2.00	~$12.00	Trabalho intensivo em raciocínio antes do 3.5 Pro
Gemini 3.5 Flash	~$1.50	~$9.00	Novo padrão para a maioria das cargas de trabalho
Gemini 3.5 Pro (junho de 2026)	A definir	A definir	Tarefas de raciocínio mais difíceis

O Flash é mais caro do que seus antecessores Flash 3.x, mas credivelmente mais barato do que o nível Pro anterior. Para a maioria das equipes, essa é a troca certa: melhor que o Flash 3.x, custa menos que o Pro 3.x.

Para a linha Gemini mais antiga, veja 3.1 Flash-Lite, preços da API 3.0 e 3 Flash.

Preços do Vertex AI (produção)

Se você chamar o Flash através do Vertex AI em vez do AI Studio, o preço por token é o mesmo. As diferenças são faturamento e recursos da conta:

Autenticação de conta de serviço em vez de chaves de API
Logs de auditoria no Cloud Logging
Controles de residência de dados
Nenhuma camada gratuita, mas o crédito de $300 para novas contas cobre ~90 dias de uso moderado
Cotas personalizadas que você pode negociar em escala

Para a maioria das equipes de produção, o caminho é: prototipar na camada gratuita do AI Studio, mudar para o AI Studio pago para escala e, em seguida, mudar para o Vertex AI quando precisar de controles empresariais. O comportamento do modelo é idêntico em todos os três.

Dicas de otimização de custos

Seis hábitos concretos que mais reduzem as contas do Flash:

Execute o modo em lote para qualquer coisa que não precise de resposta em tempo real. 50% de desconto, sem perda de qualidade.
Armazene em cache prefixos estáticos longos. Prompts de sistema, documentos de referência, instruções, todos bons candidatos.
Use saída JSON estruturada. Força o modelo a escrever menos, sendo mais rápido e mais barato do que a prosa de forma livre.
Roteie pela complexidade da tarefa. Tarefas fáceis para Flash-Lite; tarefas difíceis para Flash; a rara tarefa super difícil para 3.5 Pro quando for lançado.
Pré-valide as entradas. Não queime tokens em requisições malformadas. O Apidog as intercepta antes que cheguem à API.
Monitore o custo por prompt. Adicione um middleware de log que registre tokens de entrada/saída por requisição. Gastos excessivos quase sempre vêm de alguns prompts atípicos.

Para o fluxo de validação de prompts, baixe o Apidog, crie um cenário de teste para seu endpoint Gemini e adicione asserções de formato de resposta. Queimar a mesma requisição quebrada 200 vezes em uma sessão de depuração é como as equipes desperdiçam suas cotas da camada gratuita em uma única tarde.

Quando a camada gratuita não é suficiente

Três sinais para atualizar da camada gratuita para o Flash pago:

Você está atingindo 1.500 requisições/dia por vários dias seguidos. O pagamento conforme o uso é barato o suficiente para que o tempo de desenvolvimento gasto evitando cotas custe mais do que a atualização.
Você precisa de maior throughput de RPM. A camada gratuita limita a 15 requisições por minuto; as camadas pagas permitem muito mais.
Você precisa de residência de dados ou logs de auditoria. Mova para o Vertex AI em uma conta faturada.

A maioria das equipes descobre que $50–200/mês em uso pago do Flash substitui muito malabarismo com a camada gratuita.

Riscos de preço e o que observar

Três coisas que podem mudar a matemática:

Aperto de cotas. O Google historicamente restringiu as cotas da camada gratuita à medida que os modelos envelhecem. Não construa sua arquitetura baseada no número exato de 1.500/dia.
Preços de lançamento do Pro. Quando o 3.5 Pro for lançado em junho, o preço do Flash pode subir ou descer dependendo de como o Google posiciona as camadas.
Sobretaxas regionais. Os preços do Vertex AI variam por região. O Centro dos EUA é a referência mais barata; espere prêmios de 10 a 20% em algumas regiões.

Configure alertas de custo desde o primeiro dia. Tanto o AI Studio (na página de cotas do projeto) quanto o Vertex AI (no Cloud Billing) suportam limites de orçamento diários. Use-os.

Conclusão

O Gemini 3.5 Flash é barato o suficiente para que a maioria das cargas de trabalho de IA de produção em 2026 deva começar por ele. As taxas padrão ($1.50 / $9 por 1M de tokens) superam todas as outras opções de classe de ponta. O modo em lote e o cache de contexto reduzem ainda mais o custo efetivo.

Para as cargas de trabalho onde o Flash não é suficiente, a medida certa é misturar as camadas: Flash para o grosso, um modelo principal como GPT-5.5 ou Opus 4.7 para as tarefas mais difíceis. O roteamento por complexidade da tarefa é a otimização de custo de maior alavancagem que você pode fazer.

Para colocar isso em prática:

Baixe o Apidog e salve o endpoint Gemini 3.5 Flash como uma requisição
Crie uma pequena avaliação comparando o Flash com seu modelo atual em 20 prompts reais
Registre as contagens de tokens; extrapole o custo mensal
Decida onde o Flash substitui um modelo mais caro e onde não

São dois dias de trabalho que geralmente se pagam em um único ciclo de faturamento.

botão