DeepSeek publicou os preços do V4 no mesmo dia em que os modelos foram lançados, 23 de abril de 2026, e os valores redefiniram o patamar para a IA de ponta. O V4-Flash opera a $0.14 por milhão de tokens de entrada e $0.28 por milhão de tokens de saída. O V4-Pro opera a $1.74 de entrada e $3.48 de saída. Ambos possuem uma janela de contexto de 1M de tokens e até 384K tokens de saída. Ambos também oferecem um desconto agressivo por acerto de cache que reduz os custos de entrada em 80% a 90% em prompts repetidos.
Este guia abrange a tabela completa de preços, como o cache de contexto altera o custo real por chamada, uma comparação honesta com GPT-5.5 e Claude Opus, e quatro maneiras de manter os gastos previsíveis dentro do Apidog.
Para a visão geral do produto, veja o que é DeepSeek V4. Para o guia do desenvolvedor, veja como usar a API DeepSeek V4. Para caminhos de custo zero, veja como usar o DeepSeek V4 gratuitamente.
Resumo
- V4-Flash: $0.14 / M de entrada (cache miss), $0.028 / M de entrada (cache hit), $0.28 / M de saída.
- V4-Pro: $1.74 / M de entrada (cache miss), $0.145 / M de entrada (cache hit), $3.48 / M de saída.
- Janela de contexto: 1M de tokens de entrada, 384K de tokens de saída, em ambas as variantes.
- Desconto por acerto de cache: aproximadamente 80% de desconto no Flash, 92% de desconto no Pro em prefixos repetidos.
deepseek-chatedeepseek-reasonerserão descontinuados em 24 de julho de 2026; a cobrança mapeia para V4-Flash.- Com as taxas de cache miss, o V4-Pro é ~2.9x mais barato que o GPT-5.5 na entrada e ~8.6x mais barato na saída.
A tabela de preços completa
| Modelo | Entrada (cache miss) | Entrada (cache hit) | Saída | Contexto |
|---|---|---|---|---|
deepseek-v4-flash |
$0.14 / M | $0.028 / M | $0.28 / M | 1M / 384K |
deepseek-v4-pro |
$1.74 / M | $0.145 / M | $3.48 / M | 1M / 384K |
deepseek-chat (descontinuado em 24/07/2026) |
mapeia para V4-Flash sem raciocínio | — | — | — |
deepseek-reasoner (descontinuado em 24/07/2026) |
mapeia para V4-Flash com raciocínio | — | — | — |
Três detalhes importam mais do que os números brutos.
Primeiro, os preços são os mesmos, independentemente de você estar no modo de raciocínio ou não. O ID do modelo define a taxa; o modo de raciocínio apenas altera quantos tokens você gasta a essa taxa.
Segundo, a precificação por acerto de cache é automática. Cada solicitação com um prefixo repetido na mesma conta se beneficia; você não precisa optar por isso ou configurar nada. Os prefixos devem ter pelo menos 1.024 tokens de comprimento e devem corresponder byte a byte.
Terceiro, os IDs mais antigos deepseek-chat e deepseek-reasoner agora são cobrados como aliases do V4-Flash. Se você não migrou, já está recebendo a qualidade do V4-Flash pelos preços do V4-Flash; o prazo de descontinuação do ID é 24 de julho de 2026.
Cache de contexto em linguagem simples
O cache é a maior alavanca de custo no DeepSeek V4. O padrão é simples: qualquer coisa que se repete entre chamadas, especialmente prompts de sistema longos, esquemas de ferramentas de agente e contexto RAG, é cobrada por uma fração da taxa de entrada total na segunda e nas chamadas subsequentes.
Um exemplo concreto. Você executa um agente com um prompt de sistema de 20.000 tokens que nunca muda, e então faz 100 perguntas diferentes de usuário, de 200 tokens cada.
Sem cache:
- Entrada: 100 chamadas × 20.200 tokens × $1.74 / M = $3.52
- Saída: 100 chamadas × 500 tokens × $3.48 / M = $0.17
- Total: $3.69
Com cache (primeira chamada falha, próximas 99 acertam):
- Entrada da primeira chamada: 20.200 × $1.74 / M = $0.035
- Próximos 99 prefixos com acerto de cache: 99 × 20.000 × $0.145 / M = $0.287
- Próximos 99 turnos de usuário com cache miss: 99 × 200 × $1.74 / M = $0.034
- Saída: 100 × 500 × $3.48 / M = $0.174
- Total: $0.53
Aproximadamente 7x mais barato em uma carga de trabalho idêntica. O efeito do cache é ainda mais dramático no V4-Flash, onde a taxa bruta já é baixa.
Como se compara ao GPT-5.5 e Claude
A comparação que a maioria das equipes realmente se importa:
| Modelo | Entrada (padrão) | Entrada (em cache) | Saída | Contexto |
|---|---|---|---|---|
| DeepSeek V4-Flash | $0.14 / M | $0.028 / M | $0.28 / M | 1M |
| DeepSeek V4-Pro | $1.74 / M | $0.145 / M | $3.48 / M | 1M |
| GPT-5.5 | $5 / M | $1.25 / M | $30 / M | 1M |
| GPT-5.5 Pro | $30 / M | — | $180 / M | 1M |
| Claude Opus 4.6 | $15 / M | $1.50 / M | $75 / M | 200K |
Três interpretações desta tabela.
- Em tokens de saída, o V4-Pro é aproximadamente 8.6x mais barato que o GPT-5.5 e 21x mais barato que o Claude Opus 4.6. A saída é onde a maioria das cargas de trabalho de agente gasta seu orçamento; a diferença se agrava.
- Em entrada em cache, o V4-Pro é aproximadamente 10x mais barato que o GPT-5.5 em cache e 10x mais barato que o Claude em cache. Prompts de sistema longos, esquemas de ferramentas e contexto RAG repetido são os mais impactados aqui.
- Na proporção bruta de benchmark, o V4-Pro iguala ou supera o GPT-5.5 no LiveCodeBench (93.5 contra o nível superior) e no Codeforces (3206 contra 3168), custando uma pequena fração. Essa é a essência da proposta de valor dos pesos abertos. Veja o que é DeepSeek V4 para a tabela completa de benchmarks.
As ressalvas honestas: Claude ainda supera o V4-Pro em benchmarks de recuperação de contexto longo, e o Gemini 3.1 Pro ainda lidera o MMLU-Pro. Se sua carga de trabalho depende da recuperação "agulha no palheiro" em um milhão de tokens, a economia por token pode não compensar a diferença de qualidade.
Modelagem de custos para cargas de trabalho comuns
Quatro cargas de trabalho cobrem a maioria dos casos de uso em produção. Veja o que cada uma custa no V4-Pro (linha de base de cache miss; as economias de cache hit se acumulam no topo).
1. Loop de codificação de agente (50K contexto, 2K saída, 20 chamadas por tarefa)
- Entrada: 50.000 × 20 × $1.74 / M = $1.74
- Saída: 2.000 × 20 × $3.48 / M = $0.14
- Custo por tarefa: ~$1.88
Compare com o GPT-5.5 a aproximadamente $6.20 por tarefa com a mesma configuração.
2. Perguntas e Respostas de documentos longos (500K contexto, 1K saída)
- Entrada: 500.000 × $1.74 / M = $0.87
- Saída: 1.000 × $3.48 / M = $0.003
- Custo por chamada: ~$0.87
Compare com o GPT-5.5 a aproximadamente $2.53 por chamada.
3. Classificação de alto volume (2K contexto, 200 saída, 10.000 chamadas)
Use V4-Flash aqui; o V4-Pro é um exagero.
- Entrada: 2.000 × 10.000 × $0.14 / M = $2.80
- Saída: 200 × 10.000 × $0.28 / M = $0.56
- Custo da execução: ~$3.36
Compare com o GPT-5.5 a aproximadamente $110 para a mesma execução.
4. Chatbot com prompt repetido (10K prompt de sistema, 500 tokens de usuário, 1K saída, 1.000 sessões)
- Entrada da primeira chamada: 10.500 × $1.74 / M = $0.018
- Entrada com acerto de cache: 999 × 10.000 × $0.145 / M = $1.45
- Turnos de usuário com cache miss: 999 × 500 × $1.74 / M = $0.87
- Saída: 1.000 × 1.000 × $3.48 / M = $3.48
- Custo da execução da sessão: ~$5.82
Compare com o GPT-5.5 com cache a aproximadamente $26.35 na mesma carga de trabalho.
Custos ocultos a serem observados
O preço de tabela não é a história completa. Quatro itens de linha afetam as equipes após o primeiro mês:
- Inflação de tokens no modo de raciocínio.
thinking_maxconsome de 3x a 10x mais tokens de saída do quenon-thinkingno mesmo prompt. Esses tokens de raciocínio são cobrados pela taxa de saída. Controle o Think Max por trás de um flag. - Crescimento silencioso do contexto. Loops de agente frequentemente realimentam a conversa inteira em cada turno. Com contextos de 1M de tokens, isso cresce rapidamente. Trunque ou resuma agressivamente.
- Tempestades de tentativas. Um loop com bugs que tenta novamente a cada resposta 500 pode dobrar sua conta em uma hora. Adicione backoff exponencial e um limite rígido de tentativas por solicitação.
- Rotatividade de desenvolvimento. Iterar em um prompt via curl reexecuta o contexto completo toda vez. Usar Apidog reduz isso a quase zero, porque a substituição de variáveis torna os ajustes de prompt gratuitos para tentar novamente sem redigitar o payload completo.
Acompanhe os custos no Apidog
O fluxo de trabalho que a maioria das equipes adota quando as contas ficam sérias:
- Baixe o Apidog e armazene
DEEPSEEK_API_KEYcomo uma variável secreta por ambiente. - Salve uma única requisição POST para
https://api.deepseek.com/v1/chat/completions. - No painel de resposta, fixe
usage.prompt_tokens,usage.completion_tokenseusage.reasoning_tokens. Cada chamada exibe o cálculo do custo na mesma tela que a saída. - Parametrize
modelethinking_modepara que você possa fazer testes A/B entre V4-Flash vs V4-Pro, e Non-Think vs Think Max, sem duplicar requisições. - Espelhe a mesma coleção para GPT-5.5 (o guia da API GPT-5.5 correspondente documenta a configuração). Uma janela, ambos os provedores, custos visíveis.
Esse fluxo de trabalho detecta aproximadamente 80% das surpresas de custo que aparecem nas faturas de fim de mês.
Quatro regras para manter os gastos previsíveis
- Padrão para V4-Flash. Mude para V4-Pro apenas quando tiver medido uma lacuna de qualidade que impacta a receita.
- Padrão para Non-Think. Escale para Think High em tarefas difíceis. Reserve Think Max para trabalhos críticos de correção.
- Limite
max_tokens. O teto de 384K de saída é uma segurança, não um objetivo. A maioria das respostas em produção se encaixa em 2K. - Envie telemetria de uso. Registre
prompt_tokens,completion_tokensereasoning_tokensem cada chamada. Alerte sobre picos de tokens de raciocínio; eles sinalizam prompts que entraram no território do Think Max por acidente.
FAQ
Existe um nível gratuito?Não há um nível de API sem uso gratuito, mas novas contas ocasionalmente recebem um pequeno crédito de teste. Para caminhos de custo zero fora da API, veja como usar o DeepSeek V4 gratuitamente.
Como funciona a precificação por acerto de cache?Prefixos de 1.024 tokens ou mais que se repetem entre solicitações dentro da mesma conta são cobrados pela taxa de acerto de cache. A primeira chamada paga a taxa de cache miss; as chamadas subsequentes com prefixo idêntico pagam a taxa com desconto. O cache é automático.
Os modos de raciocínio custam mais?A taxa por token é a mesma. Os modos de raciocínio consomem mais tokens porque o modelo escreve rastros de raciocínio. Acompanhe reasoning_tokens no objeto usage para medir o custo real.
O preço é estável?DeepSeek altera os preços periodicamente. As taxas do V3.2 se mantiveram durante a maior parte de 2025; os preços do V4 não têm uma data final publicada. Verifique a página de preços ao vivo antes de orçar.
V4-Pro e V4-Flash são cobrados pela mesma taxa de saída?Não. A saída do V4-Pro é de $3.48 / M; a saída do V4-Flash é de $0.28 / M. A proporção de 12.4x é a maior razão para usar o V4-Flash como padrão.
O endpoint no formato Anthropic altera os preços?Não. https://api.deepseek.com/anthropic usa as mesmas taxas que o endpoint no formato OpenAI. O formato não afeta a cobrança.
