A DeepSeek transformou o desconto temporário mais agressivo nos preços de LLMs de 2026 no novo normal. Em 22 de maio, a equipe anunciou que a oferta de 75% de desconto no DeepSeek-V4-Pro, originalmente programada para expirar em 31 de maio de 2026 às 15:59 UTC, não seria revertida. A tarifa promocional se torna o preço de tabela permanente. A entrada de tokens cai para US$ 0,435 por milhão de tokens, a saída para US$ 0,87 e os acertos de cache para US$ 0,003625. Abaixo, detalhamos o que mudou, o que permaneceu igual e o que todo desenvolvedor de API deve reconsiderar esta semana.
TL;DR
- O preço da API DeepSeek-V4-Pro agora é permanente a 1/4 do preço de tabela original: US$ 0,435/MTok de entrada, US$ 0,87/MTok de saída, US$ 0,003625/MTok para acerto de cache.
- O desconto promocional de 75% que estava programado para terminar em 31 de maio de 2026 agora é a tarifa regular. Sem reversão. Sem expiração surpresa.
- O V4-Pro agora é aproximadamente 34x mais barato que o GPT-5.5 na saída, enquanto atinge cerca de 95% do GPT-5.5 na maioria dos benchmarks de codificação e raciocínio.
- O preço de acerto de cache de US$ 0,003625/MTok, um corte de 90% além do corte principal, é o detalhe subestimado. Prompts de sistema longos agora são quase gratuitos no prefixo.
- Se você precificou seus recursos de IA em relação ao GPT-5.5 ou Claude Opus 4.7 no último trimestre, a matemática da construção mudou esta semana.
Por que isso importa agora
O preço de LLMs geralmente se move em uma direção: para baixo, lentamente, com ressalvas. A DeepSeek pulou as ressalvas. A equipe realizou uma promoção agressiva durante maio, observou o aumento do tráfego de desenvolvedores e decidiu fixar o preço em vez de deixá-lo voltar ao normal. Isso é um sinal estrutural sobre para onde a economia dos modelos de ponta chineses está indo, não um truque pontual.
Se você está lançando qualquer produto que chama um LLM em um caminho crítico (preenchimento automático, chat com recuperação aumentada, revisão de código, loops de agente), a diferença entre US$ 3,48 e US$ 0,87 por milhão de tokens de saída aparece na sua fatura este mês. Enviando 50 milhões de tokens de saída por dia, uma carga realista para qualquer agente com usuários não triviais, o novo preço reduz sua conta mensal de LLM de aproximadamente US$ 5.200 para US$ 1.300. Isso equivale a uma contratação de vendas ou um ano de créditos de GPU.
Construindo sobre o DeepSeek? O Apidog permite gerar, testar e monitorar chamadas de API V4-Pro em um único espaço de trabalho, incluindo streaming, chamadas de ferramentas e validação de esquema JSON. Baixe o Apidog e você poderá clonar as solicitações deste artigo em menos de um minuto.
No restante desta postagem, você verá a folha de preços completa, uma comparação direta com GPT-5.5 e Claude Opus 4.7, a matemática de acerto de cache que a maioria dos artigos ignora, três cenários de contas reais e uma estrutura de decisão de cinco etapas para saber se deve migrar hoje.
O que mudou: o anúncio decodificado
O aviso oficial de preços da DeepSeek é curto, mas cada linha move um número. Três fatos que valem a pena destacar:
- O desconto de 75% é permanente. A promoção que vai até 31 de maio de 2026 às 15:59 UTC deveria reverter para o preço de tabela de lançamento em 1º de junho. Não vai. A tarifa promocional é a nova tarifa de tabela, retroativa ao lançamento e indefinidamente.
- O corte se aplica apenas ao V4-Pro. O DeepSeek-V4-Flash, a US$ 0,14 / US$ 0,28 por milhão de tokens, já era barato. O V4-Pro, o modelo de nível de ponta, foi o que caiu. Veja O que é DeepSeek V4 para a divisão Flash vs Pro.
- O preço de acerto de cache foi reduzido para 1/10 do lançamento, efetivo em 26 de abril de 2026 às 12:15 UTC. Esta é uma mudança separada do corte principal de 75%, e os dois se somam. O resultado: acertos de cache a US$ 0,003625/MTok, o preço de cache de modelo de ponta de primeira parte mais baixo do mercado em 2026.
Lidos em conjunto, o anúncio diz: a DeepSeek está disposta a absorver a margem bruta no modelo principal para manter a atenção do desenvolvedor. A mudança no acerto de cache diz: eles querem que você construa agentes e ferramentas de contexto longo especificamente no V4-Pro. Ambos os movimentos apontam para a mesma estratégia. Ganhe a carga de trabalho de inferência agora, monetize a plataforma depois.
A nova folha de preços permanente
Preços por 1 milhão de tokens, USD, efetivos imediatamente e permanentes:
| Tipo de token | Preço de tabela antigo | Novo preço permanente | Corte |
|---|---|---|---|
| Entrada (cache miss) | $1.74 | $0.435 | 75% |
| Entrada (cache hit) | $0.0145 | $0.003625 | 75% |
| Saída | $3.48 | $0.87 | 75% |
Alguns pontos que a tabela não deixa claro:
- A queda na saída é a que mais afeta sua fatura, porque os tokens de saída dominam qualquer loop de agente onde o modelo raciocina ou escreve código.
- A linha de acerto de cache parece minúscula porque os números absolutos são minúsculos. A proporção é onde a economia reside. A proporção de erro de cache de entrada para acerto de cache de entrada é de aproximadamente 120:1. Um prompt de sistema bem projetado que acerta o cache 90% do tempo paga quase nada pela entrada, o que é a chave para qualquer agente com um scaffolding estável.
- Essas taxas se aplicam apenas à API. O chat web da DeepSeek permanece gratuito para indivíduos.
Para um contexto histórico mais profundo sobre as camadas de preços do V4 e as compensações entre Flash e Pro, consulte nossa referência DeepSeek V4 API Pricing.
Como o V4-Pro agora se compara ao GPT-5.5, Claude Opus 4.7 e Gemini 3.5 Flash
A comparação interessante não é com o antigo V4-Pro. É com o restante das opções de ponta.
| Modelo | Entrada ($/MTok) | Saída ($/MTok) | SWE-bench Pro |
|---|---|---|---|
| DeepSeek-V4-Pro (novo) | $0.435 | $0.87 | 55.4% |
| GPT-5.5 | $5.00 | $30.00 | 58.6% |
| Claude Opus 4.7 | $3.00 | $15.00 | ~62% |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | ~48% |
| DeepSeek-V4-Flash | $0.14 | $0.28 | ~42% |
Dois números para lembrar. Em tokens de saída, o item que aumenta sua conta, o DeepSeek-V4-Pro é 34x mais barato que o GPT-5.5 e 17x mais barato que o Claude Opus 4.7. Em benchmarks, o V4-Pro se posiciona entre 3 e 7 pontos percentuais do GPT-5.5 na maioria das avaliações públicas de codificação e raciocínio, de acordo com a comparação do DataCamp.
Se sua carga de trabalho tolera latência e a qualidade é aceitável nessa pequena faixa, a migração é um problema matemático com uma única resposta. Para cargas de trabalho onde os últimos 5 pontos de pontuação de benchmark importam (confiabilidade da ferramenta do agente, planejamento de longo horizonte, matemática difícil), o V4-Pro ainda é mais barato para usar como modelo de rascunho por trás de um padrão de decodificação especulativa ou crítico.
Para análises mais aprofundadas, consulte DeepSeek V4 vs Claude Opus 4.5 para codificação e GLM-5 vs DeepSeek V3 vs GPT-5: velocidade, custo e comparação prática para desenvolvedores.
O ângulo de acerto de cache que a maioria dos artigos ignora
Todos citam o número de US$ 0,87 de saída. Poucos explicam o que o preço de entrada de US$ 0,003625 de acerto de cache faz no design do sistema.
O cache de prompt da DeepSeek é acionado quando o prefixo de sua solicitação é idêntico byte a byte a uma solicitação anterior recente, dentro de uma janela de aproximadamente 30 minutos. Para agentes de chat e pipelines de recuperação, o prefixo geralmente é seu prompt do sistema mais definições de ferramentas mais o scaffolding de instrução. Isso geralmente são de 4.000 a 10.000 tokens que não mudam entre as interações.
Exemplo concreto. Suponha que seu assistente use um prompt de sistema de 6.000 tokens e lide com 100.000 interações de chat por dia, com uma mensagem média de usuário de 200 tokens de entrada e uma resposta média de 800 tokens de saída.
- Sem acertos de cache: 100.000 interações × 6.200 tokens de entrada × US$ 0,435 / 1.000.000 = US$ 269,70 por dia apenas em entrada.
- Com 90% desses tokens de prompt do sistema atingindo o cache: as mesmas 100.000 interações pagam 200 × US$ 0,435 mais 6.000 × (0,9 × US$ 0,003625 + 0,1 × US$ 0,435) por milhão de tokens. Isso chega a cerca de US$ 32 por dia. Uma redução de 88% no custo de entrada.
Isso não é um erro de arredondamento. É a diferença entre o modelo ser um item sustentável e um de luxo. Para mais informações sobre como o cache de prefixo funciona em diferentes provedores, nossa análise aprofundada de cache de prompt explica a mecânica.
Três padrões para obter acertos de cache em agentes reais:
- Fixe o prefixo. Mantenha o prompt do sistema, esquemas de ferramentas e exemplos few-shot em um único bloco no início de cada solicitação. Não intercale texto específico da sessão no prefixo.
- Classifique ou faça hash do contexto dinâmico. Se você anexar chunks recuperados, classifique-os de forma estável ou faça hash da solicitação e direcione hashes idênticos para o mesmo nó. Pequenas mudanças na "impressão digital" matam o cache.
- Execute uma chamada de aquecimento. Ao iniciar o agente, envie uma solicitação com o prefixo completo para que ele seja inserido no cache do provedor antes que o tráfego do usuário chegue.
O que você deve fazer esta semana
A decisão de migração não é binária. Depende do tipo de carga de trabalho de LLM que você está executando. Uma estrutura de cinco etapas:
1. Meça sua proporção atual de saída:entrada. Se você está gastando 80% do seu orçamento de tokens em saída (qualquer agente, gerador de código ou ferramenta de conteúdo), a economia com o V4-Pro é grande. Se você está gastando 80% em entrada (RAG sobre documentos longos), a economia é menor, mas ainda real uma vez que os acertos de cache ocorrem.
2. Execute uma avaliação de 100 amostras em sua carga de trabalho real. Não confie em benchmarks públicos. Puxe 100 rastreamentos do seu tráfego de produção, execute-os contra o V4-Pro e seu modelo atual com prompts idênticos, e pontue com seu próprio avaliador. A maioria das equipes considera o V4-Pro "bom o suficiente" para 70% a 85% de seu tráfego.
3. Faça a correspondência de padrões por rota. Direcione 70% a 85% para o V4-Pro e mantenha seu modelo premium para os casos mais difíceis. Esta única mudança oferece mais de 70% da economia de custos com regressão de qualidade quase zero.
4. Bloqueie os prefixos do cache. Audite seus prompts de sistema. Qualquer coisa que varie por solicitação (timestamps, IDs de usuário, IDs de sessão) pertence à mensagem do usuário, não ao prompt do sistema. Mova-o.
5. Configure testes de regressão antes de lançar. É aqui que o Apidog se destaca. Registre respostas "golden" do seu modelo atual, depois reproduza as mesmas solicitações contra o V4-Pro e compare as saídas. A validação de esquema JSON do Apidog detecta desvios nas formas de chamada de ferramenta antes que cheguem à produção. Baixe o Apidog, importe sua coleção compatível com OpenAI, mude a URL base para https://api.deepseek.com, e você pode executar um teste de fumaça lado a lado em menos de dez minutos.
Para um passo a passo prático da forma do endpoint V4-Pro, consulte Como usar a API DeepSeek V4.
Como o V4-Pro se compara a outras quedas de preço de 2026
A DeepSeek não é o único laboratório a cortar preços. O mercado de LLM de 2026 está em uma fase clara de compressão de margens:
- OpenAI O3 caiu 80% no início deste ano. Consulte nossa análise de preços do O3 para a matemática.
- Kimi K2 teve seus preços agressivamente reajustados para competir com a camada V3 da DeepSeek. Os preços da API Kimi K2 cobrem os detalhes.
- Anthropic Claude manteve o preço do Opus, mas introduziu camadas Haiku e Sonnet mais baratas. O detalhamento completo dos custos da API Claude mostra onde cada camada se encaixa.
O corte do V4-Pro é o mais agressivo do ano porque visa a faixa de capacidade de ponta, não a camada de orçamento. É por isso que este anúncio redefiniu o mercado e os outros não.
A matemática da construção mudou
A DeepSeek não reduziu o preço. Eles redesenharam a curva. A capacidade de ponta com preços de saída abaixo de um dólar é agora o padrão, não a exceção, e o resto do mercado responderá. Se você estava adiando um recurso de LLM por motivos de custo, o orçamento de 2026 que você precificou no último trimestre provavelmente superestima suas necessidades em 4x.
Três próximos passos:
- Audite suas três principais cargas de trabalho de LLM em relação à estrutura acima e escolha uma para migrar esta semana.
- Bloqueie seus prefixos de cache. Essa é a vitória fácil, independentemente do modelo que você usa.
- Configure uma suíte de regressão Apidog para que o próximo corte de preço, e haverá um, leve horas para ser avaliado em vez de semanas.
A bandeira promocional foi retirada. O desconto não.
