Preço Gemini 3.5 Flash: Quanto Custa de Verdade?

Ashley Innocent

Ashley Innocent

20 maio 2026

Preço Gemini 3.5 Flash: Quanto Custa de Verdade?

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

O Google lançou o Gemini 3.5 Flash em 19 de maio de 2026, e a principal afirmação de preço é ousada: "menos da metade do custo de outros modelos de ponta" para tarefas agentivas. Essa é a linha de marketing. Este guia faz as contas reais.

Você encontrará as taxas por token, os limites da camada gratuita, o desconto do modo em lote, cenários de custo reais para cargas de trabalho comuns e uma comparação lado a lado de custos com GPT-5.5 e Claude Opus 4.7. Ao final, você saberá exatamente quanto custa para rodar o Flash e onde você pode economizar 50% ou mais sem abrir mão de muito.

Resumo rápido

Tipo de custo Taxa
Entrada padrão ~$1.50 / 1M tokens
Saída padrão ~$9.00 / 1M tokens
Entrada modo em lote ~$0.75 / 1M tokens (~50% de desconto)
Saída modo em lote ~$4.50 / 1M tokens (~50% de desconto)
Entrada em cache taxa reduzida (varia)
Camada gratuita (AI Studio) ~1.500 requisições/dia, 1M tokens/min, 15 RPM
Nova conta Vertex AI Crédito de $300 por 90 dias

Taxas atuais em maio de 2026, de acordo com o anúncio de lançamento do Google e listas de agregadores. Sempre verifique na página oficial de preços antes de comprometer o orçamento.

Gemini 3.5 Flash: taxas por token

O Flash usa o mesmo modelo de pagamento conforme o uso que todas as variantes do Gemini têm usado desde o 2.5: você paga por milhão de tokens de entrada e por milhão de tokens de saída, independentemente.

Camada Entrada ($/1M) Saída ($/1M)
Padrão ~$1.50 ~$9.00
Entrada em cache com desconto n/a
Lote (assíncrono) ~$0.75 ~$4.50

Duas notas práticas:

Para informações sobre como funciona o modo em lote do Gemini, veja O modo em lote da API Gemini chegou e é 50% mais barato.

Camada gratuita: o que você obtém sem pagar

A camada gratuita do AI Studio é lançada com o Flash desde o primeiro dia. Limites no lançamento:

Isso é suficiente para a maioria dos projetos paralelos, protótipos internos e automação em pequena escala. Se sua carga de trabalho se encaixa em 1.500 chamadas/dia, você paga $0.

Especificações da camada gratuita:

Para o passo a passo completo da configuração, veja Como usar o Gemini 3.5 Flash gratuitamente e Como obter uma chave de API gratuita do Google Gemini.

Modo em lote: o desconto de 50% que a maioria das equipes perde

Se sua carga de trabalho não precisa de respostas em tempo real, o modo em lote reduz os custos do Flash em aproximadamente metade.

Como funciona:

  1. Envie um trabalho em lote com até 50.000 prompts de uma vez
  2. O Google os processa em 24 horas
  3. Você paga ~50% menos por token, tanto de entrada quanto de saída

Quando o modo em lote faz sentido:

Quando não faz sentido:

A maioria das pilhas de produção deve usar o modo em lote para qualquer carga de trabalho que possa tolerar latência. As economias se multiplicam rapidamente em escala. Detalhes de configuração em nosso guia de modo em lote.

Entrada em cache: outra alavanca

Se seus prompts compartilham um prefixo estático longo (prompt do sistema, documento de referência grande, instruções longas), o cache de contexto oferece um desconto na parte em cache.

Padrão:

As economias concretas dependem da taxa de acertos do cache, mas para aplicativos estilo RAG onde os mesmos trechos recuperados retornam em várias consultas, espere uma redução de 30 a 60% no custo de entrada.

Cenários de custo reais

A matemática dos tokens se torna abstrata rapidamente. Aqui estão cinco cenários concretos com as taxas padrão do Flash.

Cenário 1: Chatbot de suporte ao cliente

Custo diário:

Execute a mesma carga de trabalho através do modo em lote (se você puder tolerar respostas em lote): ~$585/mês. Adicione cache de contexto para o prompt do sistema: mais 20–30% de desconto.

Cenário 2: SaaS de Perguntas e Respostas sobre Documentos

Custo diário:

É aqui que o contexto de 1M do Flash se destaca: sem infraestrutura de fragmentação, basta enviar o documento inteiro. Comparado ao RAG fragmentado com um modelo principal, você pagaria múltiplos a mais na API e infraestrutura.

Cenário 3: Agente autônomo de longa duração

Custo por execução:

Total diário: 200 × $0.83 = ~$165/dia, ~$4.950/mês

Para comparação, a mesma carga de trabalho no Opus 4.7 (~$15/$75 por 1M) custa aproximadamente $25/execução, ou $5.000/dia. Essa é a lacuna de custo agentiva que a afirmação do Google aponta.

Cenário 4: Pipeline de extração de gráficos

Custo diário:

Adicione o modo em lote e a mesma carga de trabalho custa ~$375/mês. O raciocínio CharXiv em 84,2% significa que a qualidade se mantém.

Cenário 5: Geração de conteúdo de alto volume

Custo diário:

Mova isso para o modo em lote e a conta mensal cai para ~$28K. Nesta escala, você também gostaria de testar o roteamento de partes rotineiras para modelos ainda mais baratos, como o 3.1 Flash-Lite, e reservar o Flash para gerações mais difíceis.

Custo vs GPT-5.5 e Opus 4.7

A comparação de preços principal:

Modelo Entrada ($/1M) Saída ($/1M) Múltiplo vs Flash
Gemini 3.5 Flash ~$1.50 ~$9.00 1× (linha de base)
GPT-5.5 ~$10 ~$30 6.7× entrada, 3.3× saída
Claude Opus 4.7 ~$15 ~$75 10× entrada, 8.3× saída

Execute o Cenário 1 (chat de suporte ao cliente) através de cada um:

Esta é a lacuna de custo agentiva que impulsiona a linha de marketing do Google. Os modelos principais retornam uma qualidade marginalmente melhor nas tarefas mais difíceis; para cargas de trabalho diárias, o Flash é suficiente por uma fração do preço.

Para análises mais aprofundadas, veja preços do GPT-5.5 e nossa comparação tripla.

Custo vs outras variantes do Gemini

Modelo Entrada ($/1M) Saída ($/1M) Quando usar
Gemini 3.1 Flash-Lite ~$0.40 ~$2.00 Trabalhos rotineiros de alto volume
Gemini 3 Flash ~$0.50 ~$3.00 Geração anterior, ainda sólida
Gemini 3.1 Pro ~$2.00 ~$12.00 Trabalho intensivo em raciocínio antes do 3.5 Pro
Gemini 3.5 Flash ~$1.50 ~$9.00 Novo padrão para a maioria das cargas de trabalho
Gemini 3.5 Pro (junho de 2026) A definir A definir Tarefas de raciocínio mais difíceis

O Flash é mais caro do que seus antecessores Flash 3.x, mas credivelmente mais barato do que o nível Pro anterior. Para a maioria das equipes, essa é a troca certa: melhor que o Flash 3.x, custa menos que o Pro 3.x.

Para a linha Gemini mais antiga, veja 3.1 Flash-Lite, preços da API 3.0 e 3 Flash.

Preços do Vertex AI (produção)

Se você chamar o Flash através do Vertex AI em vez do AI Studio, o preço por token é o mesmo. As diferenças são faturamento e recursos da conta:

Para a maioria das equipes de produção, o caminho é: prototipar na camada gratuita do AI Studio, mudar para o AI Studio pago para escala e, em seguida, mudar para o Vertex AI quando precisar de controles empresariais. O comportamento do modelo é idêntico em todos os três.

Dicas de otimização de custos

Seis hábitos concretos que mais reduzem as contas do Flash:

  1. Execute o modo em lote para qualquer coisa que não precise de resposta em tempo real. 50% de desconto, sem perda de qualidade.
  2. Armazene em cache prefixos estáticos longos. Prompts de sistema, documentos de referência, instruções, todos bons candidatos.
  3. Use saída JSON estruturada. Força o modelo a escrever menos, sendo mais rápido e mais barato do que a prosa de forma livre.
  4. Roteie pela complexidade da tarefa. Tarefas fáceis para Flash-Lite; tarefas difíceis para Flash; a rara tarefa super difícil para 3.5 Pro quando for lançado.
  5. Pré-valide as entradas. Não queime tokens em requisições malformadas. O Apidog as intercepta antes que cheguem à API.
  6. Monitore o custo por prompt. Adicione um middleware de log que registre tokens de entrada/saída por requisição. Gastos excessivos quase sempre vêm de alguns prompts atípicos.

Para o fluxo de validação de prompts, baixe o Apidog, crie um cenário de teste para seu endpoint Gemini e adicione asserções de formato de resposta. Queimar a mesma requisição quebrada 200 vezes em uma sessão de depuração é como as equipes desperdiçam suas cotas da camada gratuita em uma única tarde.

Quando a camada gratuita não é suficiente

Três sinais para atualizar da camada gratuita para o Flash pago:

  1. Você está atingindo 1.500 requisições/dia por vários dias seguidos. O pagamento conforme o uso é barato o suficiente para que o tempo de desenvolvimento gasto evitando cotas custe mais do que a atualização.
  2. Você precisa de maior throughput de RPM. A camada gratuita limita a 15 requisições por minuto; as camadas pagas permitem muito mais.
  3. Você precisa de residência de dados ou logs de auditoria. Mova para o Vertex AI em uma conta faturada.

A maioria das equipes descobre que $50–200/mês em uso pago do Flash substitui muito malabarismo com a camada gratuita.

Riscos de preço e o que observar

Três coisas que podem mudar a matemática:

Configure alertas de custo desde o primeiro dia. Tanto o AI Studio (na página de cotas do projeto) quanto o Vertex AI (no Cloud Billing) suportam limites de orçamento diários. Use-os.

Conclusão

O Gemini 3.5 Flash é barato o suficiente para que a maioria das cargas de trabalho de IA de produção em 2026 deva começar por ele. As taxas padrão ($1.50 / $9 por 1M de tokens) superam todas as outras opções de classe de ponta. O modo em lote e o cache de contexto reduzem ainda mais o custo efetivo.

Para as cargas de trabalho onde o Flash não é suficiente, a medida certa é misturar as camadas: Flash para o grosso, um modelo principal como GPT-5.5 ou Opus 4.7 para as tarefas mais difíceis. O roteamento por complexidade da tarefa é a otimização de custo de maior alavancagem que você pode fazer.

Para colocar isso em prática:

São dois dias de trabalho que geralmente se pagam em um único ciclo de faturamento.

botão

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs