Claude Opus 4.8 custa US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída no modo padrão. Essa é a mesma taxa do Opus 4.7, então, se você já está orçando para o 4.7, nada muda ao fazer o upgrade. A parte interessante está em tudo que envolve esse número principal: um modo mais rápido, um seletor de gastos de tokens, caching e descontos por lote que impactam sua fatura real muito mais do que a taxa base.
Este guia detalha o que você realmente paga, com exemplos práticos. Para uma visão geral do modelo, consulte o que é Claude Opus 4.8. Para começar a construir, consulte o guia da API.
Tabela de preços
| Modo | Entrada (por 1M de tokens) | Saída (por 1M de tokens) | Velocidade |
|---|---|---|---|
| Padrão | US$ 5 | US$ 25 | linha de base |
| Rápido | US$ 10 | US$ 50 | 2.5x mais rápido na saída |
Duas coisas se destacam. Primeiro, os tokens de saída custam cinco vezes mais que os tokens de entrada, então o comprimento das respostas de Claude impulsiona sua fatura, não o tamanho de seus prompts. Segundo, o modo rápido dobra a taxa para uma saída 2.5x mais rápida. A Anthropic observa que o modo rápido é cerca de três vezes mais barato do que o equivalente em modelos anteriores, então o prêmio pela velocidade caiu de geração para geração.
Você pode confirmar as taxas atuais na documentação de preços da Anthropic.
Para que serve o modo rápido
O modo padrão é o padrão e a escolha certa para a maioria das cargas de trabalho. O modo rápido existe para os casos em que a latência é o produto: assistentes de codificação ao vivo, agentes interativos, qualquer coisa em que um usuário esteja observando o cursor. Você paga o dobro por token para uma saída que é transmitida 2.5x mais rápido.
A decisão é simples. Se um humano está esperando pela resposta em tempo real, o modo rápido pode valer a pena. Se o trabalho é executado em segundo plano, um loop de agente, um trabalho em lote, uma tarefa agendada, mantenha o modo padrão e economize dinheiro.
Como o esforço muda sua fatura
Essa é a alavanca que a maioria das equipes perde. O parâmetro `effort` do Opus 4.8 controla quantos tokens o modelo gasta em toda a resposta, incluindo chamadas de ferramentas. Como a saída é a metade cara, diminuir o esforço em trabalhos que não exigem raciocínio profundo reduz o custo diretamente.
Os cinco níveis, do mais barato ao mais caro em termos de tokens:
- `low`: respostas concisas, menos chamadas de ferramentas, menor gasto
- `medium`: equilibrado
- `high`: o padrão, completo
- `xhigh`: raciocínio profundo, mais chamadas de ferramentas, recomendado para codificação
- `max`: sem restrições, maior gasto
Uma tarefa de classificação com esforço `low` pode usar um décimo dos tokens de saída que usaria com esforço `high`. O mesmo modelo, a mesma taxa, uma fração da fatura. O guia de esforço da Anthropic cobre onde cada nível mantém a qualidade. A conclusão: combine o esforço com a tarefa em vez de pagar por `high` em todos os lugares.
Cenários de custo práticos
Todos os valores usam preços padrão (US$ 5 de entrada, US$ 25 de saída por milhão de tokens). Eles são ilustrativos; sua contagem real de tokens pode variar.
Cenário 1: uma interação de chatbot. 1.000 tokens de entrada, 500 tokens de saída.
- Entrada: 1.000 / 1.000.000 x US$ 5 = US$ 0,005
- Saída: 500 / 1.000.000 x US$ 25 = US$ 0,0125
- Total: cerca de US$ 0,018 por interação
Com esforço `low`, a saída diminui, reduzindo o custo por interação para menos de um centavo.
Cenário 2: uma tarefa de codificação agêntica. 50.000 tokens de entrada de contexto de repositório, 8.000 tokens de saída em `xhigh`.
- Entrada: 50.000 / 1.000.000 x US$ 5 = US$ 0,25
- Saída: 8.000 / 1.000.000 x US$ 25 = US$ 0,20
- Total: cerca de US$ 0,45 por tarefa
Se esse contexto de 50K se repetir em várias chamadas, o cache de prompt reduz o custo de entrada para aproximadamente US$ 0,025, cortando o total para cerca de US$ 0,23.
Cenário 3: um trabalho em lote noturno. 1.000.000 tokens de entrada, 200.000 tokens de saída, executados via Batch API com 50% de desconto.
- Entrada: 1.000.000 / 1.000.000 x US$ 5 x 0,5 = US$ 2,50
- Saída: 200.000 / 1.000.000 x US$ 25 x 0,5 = US$ 2,50
- Total: cerca de US$ 5,00 para todo o lote
Para comparação de preços com modelos mais baratos, consulte a análise de preços do Gemini 3.5 Flash e o custo da API Xiaomi MiMo v2.5.
Cache de prompt: a maior economia individual
Se você envia o mesmo prompt de sistema, documento ou base de código em cada chamada, você está pagando o preço total de entrada por tokens que o modelo já viu. O cache de prompt resolve isso. As leituras de entrada em cache são cobradas a uma fração da taxa de entrada normal, aproximadamente um décimo, após a gravação inicial do cache.
Agentes de longo contexto economizam mais. Um prompt de sistema de 50K tokens cobrado a preço total em cada chamada é caro; em cache, a porção repetida custa quase nada. A primeira chamada escreve o cache, todas as chamadas seguintes o leem barato.
Batch API e grandes saídas
A Batch API executa trabalhos com desconto quando você não precisa de uma resposta em tempo real. Envie um conjunto de requisições, obtenha os resultados dentro da janela de lote, pague menos por token. Ela também aumenta o limite de saída: o Opus 4.8 suporta até 300K tokens de saída através da Batch API com o cabeçalho beta `output-300k-2026-03-24`, versus 128K no endpoint síncrono.
Use-a para avaliações, sumarização em massa, rotulagem de dados e qualquer pipeline onde minutos de latência não importam.
Preços do Opus entre gerações
O Opus 4.8 mantém o preço. A história é o quanto o preço caiu duas gerações atrás:
| Modelo | Entrada (por 1M) | Saída (por 1M) |
|---|---|---|
| Opus 4.1 | US$ 15 | US$ 75 |
| Opus 4.5 | US$ 5 | US$ 25 |
| Opus 4.6 | US$ 5 | US$ 25 |
| Opus 4.7 | US$ 5 | US$ 25 |
| Opus 4.8 | US$ 5 | US$ 25 |
O Opus caiu de US$ 15/US$ 75 para US$ 5/US$ 25 na geração 4.5 e permaneceu lá desde então, enquanto o modelo por trás do preço continua melhorando. Você está obtendo a qualidade do 4.8 com a taxa do 4.5. Para uma comparação direta contra os carros-chefes de outros fornecedores, consulte Opus 4.8 vs GPT-5.5 vs Gemini 3.5.
Uma lista de verificação de otimização de custos
Antes de escalar o Opus 4.8, revise esta lista:
- Defina o esforço por tarefa. Não pague `high` por classificação ou `xhigh` por uma consulta.
- Faça cache de contexto repetido. Prompts de sistema, documentos e bases de código devem ser armazenados em cache.
- Agrupe o não urgente. Mova avaliações e trabalhos em massa para a Batch API.
- Limite `max_tokens` de forma sensata. Isso limita o custo da pior hipótese de saída por chamada.
- Mantenha o modo padrão a menos que um humano esteja esperando em tempo real.
- Observe os níveis de uso. Limites de taxa e gastos aumentam juntos; a mudança nos limites semanais do Claude Code é um lembrete para acompanhar a cota.
Rastreie seus gastos reais com Apidog
O custo estimado e o custo real divergem rapidamente uma vez que você está em produção, porque as respostas reais variam em comprimento e contagem de chamadas de ferramentas. A maneira de ser honesto é inspecionar o objeto `usage` que cada resposta da Messages API retorna, que informa as contagens de tokens de entrada e saída por chamada.

Apidog torna isso visível:
- Envie uma solicitação real do Opus 4.8 e leia o bloco `usage` na resposta
- Compare as contagens de tokens entre os níveis de `effort` no mesmo prompt para ver diretamente a diferença de custo
- Salve as solicitações para cada carga de trabalho e execute-as novamente conforme seus prompts mudam
- Simule o endpoint para que você possa construir e testar sem gastar um token
Baixe o Apidog, aponte uma requisição para o endpoint de Mensagens e execute o mesmo prompt em `low`, `high` e `xhigh`. As contagens de tokens informam exatamente o que cada nível de esforço custa antes de você se comprometer com ele em produção.
FAQ
Quanto custa o Claude Opus 4.8? US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída no modo padrão. O modo rápido custa US$ 10 e US$ 50 para saída 2.5x mais rápida.
O Opus 4.8 é mais caro que o Opus 4.7? Não. As taxas por token são idênticas, então a atualização do 4.7 não muda sua fatura.
Qual a diferença entre o preço do modo padrão e o do modo rápido? O modo rápido dobra a taxa por token em troca de uma saída que é transmitida cerca de 2.5x mais rápido. Use-o apenas quando a latência for importante para um usuário esperando.
Como faço para reduzir meus custos com o Opus 4.8? Diminua o nível de `effort` em tarefas mais simples, armazene em cache o conteúdo repetido do prompt, agrupe trabalhos não urgentes e mantenha `max_tokens` justo. Os tokens de saída são o principal fator de custo.
O cache de prompt realmente economiza dinheiro? Sim. Após a primeira chamada gravar o cache, a entrada repetida é lida a aproximadamente um décimo da taxa de entrada normal. Agentes de longo contexto economizam mais.
Quantos tokens de saída o Opus 4.8 pode produzir? Até 128K na API de Mensagens síncrona, e até 300K através da Batch API com o cabeçalho beta `output-300k-2026-03-24`.
Onde vejo o uso de tokens por chamada? No objeto `usage` de cada resposta da Messages API. Ferramentas como Apidog o exibem para que você possa comparar o custo entre os níveis de esforço.
