Corte de Preço Permanente de 75% do DeepSeek V4-Pro: O Que Significa Para Desenvolvedores (2026)

Ashley Innocent

Ashley Innocent

25 maio 2026

Corte de Preço Permanente de 75% do DeepSeek V4-Pro: O Que Significa Para Desenvolvedores (2026)

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

A DeepSeek transformou o desconto temporário mais agressivo nos preços de LLMs de 2026 no novo normal. Em 22 de maio, a equipe anunciou que a oferta de 75% de desconto no DeepSeek-V4-Pro, originalmente programada para expirar em 31 de maio de 2026 às 15:59 UTC, não seria revertida. A tarifa promocional se torna o preço de tabela permanente. A entrada de tokens cai para US$ 0,435 por milhão de tokens, a saída para US$ 0,87 e os acertos de cache para US$ 0,003625. Abaixo, detalhamos o que mudou, o que permaneceu igual e o que todo desenvolvedor de API deve reconsiderar esta semana.

TL;DR

Por que isso importa agora

O preço de LLMs geralmente se move em uma direção: para baixo, lentamente, com ressalvas. A DeepSeek pulou as ressalvas. A equipe realizou uma promoção agressiva durante maio, observou o aumento do tráfego de desenvolvedores e decidiu fixar o preço em vez de deixá-lo voltar ao normal. Isso é um sinal estrutural sobre para onde a economia dos modelos de ponta chineses está indo, não um truque pontual.

Se você está lançando qualquer produto que chama um LLM em um caminho crítico (preenchimento automático, chat com recuperação aumentada, revisão de código, loops de agente), a diferença entre US$ 3,48 e US$ 0,87 por milhão de tokens de saída aparece na sua fatura este mês. Enviando 50 milhões de tokens de saída por dia, uma carga realista para qualquer agente com usuários não triviais, o novo preço reduz sua conta mensal de LLM de aproximadamente US$ 5.200 para US$ 1.300. Isso equivale a uma contratação de vendas ou um ano de créditos de GPU.

Construindo sobre o DeepSeek? O Apidog permite gerar, testar e monitorar chamadas de API V4-Pro em um único espaço de trabalho, incluindo streaming, chamadas de ferramentas e validação de esquema JSON. Baixe o Apidog e você poderá clonar as solicitações deste artigo em menos de um minuto.

button

No restante desta postagem, você verá a folha de preços completa, uma comparação direta com GPT-5.5 e Claude Opus 4.7, a matemática de acerto de cache que a maioria dos artigos ignora, três cenários de contas reais e uma estrutura de decisão de cinco etapas para saber se deve migrar hoje.

O que mudou: o anúncio decodificado

O aviso oficial de preços da DeepSeek é curto, mas cada linha move um número. Três fatos que valem a pena destacar:

  1. O desconto de 75% é permanente. A promoção que vai até 31 de maio de 2026 às 15:59 UTC deveria reverter para o preço de tabela de lançamento em 1º de junho. Não vai. A tarifa promocional é a nova tarifa de tabela, retroativa ao lançamento e indefinidamente.
  2. O corte se aplica apenas ao V4-Pro. O DeepSeek-V4-Flash, a US$ 0,14 / US$ 0,28 por milhão de tokens, já era barato. O V4-Pro, o modelo de nível de ponta, foi o que caiu. Veja O que é DeepSeek V4 para a divisão Flash vs Pro.
  3. O preço de acerto de cache foi reduzido para 1/10 do lançamento, efetivo em 26 de abril de 2026 às 12:15 UTC. Esta é uma mudança separada do corte principal de 75%, e os dois se somam. O resultado: acertos de cache a US$ 0,003625/MTok, o preço de cache de modelo de ponta de primeira parte mais baixo do mercado em 2026.

Lidos em conjunto, o anúncio diz: a DeepSeek está disposta a absorver a margem bruta no modelo principal para manter a atenção do desenvolvedor. A mudança no acerto de cache diz: eles querem que você construa agentes e ferramentas de contexto longo especificamente no V4-Pro. Ambos os movimentos apontam para a mesma estratégia. Ganhe a carga de trabalho de inferência agora, monetize a plataforma depois.

A nova folha de preços permanente

Preços por 1 milhão de tokens, USD, efetivos imediatamente e permanentes:

Tipo de token Preço de tabela antigo Novo preço permanente Corte
Entrada (cache miss) $1.74 $0.435 75%
Entrada (cache hit) $0.0145 $0.003625 75%
Saída $3.48 $0.87 75%

Alguns pontos que a tabela não deixa claro:

Para um contexto histórico mais profundo sobre as camadas de preços do V4 e as compensações entre Flash e Pro, consulte nossa referência DeepSeek V4 API Pricing.

Como o V4-Pro agora se compara ao GPT-5.5, Claude Opus 4.7 e Gemini 3.5 Flash

A comparação interessante não é com o antigo V4-Pro. É com o restante das opções de ponta.

Modelo Entrada ($/MTok) Saída ($/MTok) SWE-bench Pro
DeepSeek-V4-Pro (novo) $0.435 $0.87 55.4%
GPT-5.5 $5.00 $30.00 58.6%
Claude Opus 4.7 $3.00 $15.00 ~62%
Gemini 3.5 Flash ~$1.50 ~$9.00 ~48%
DeepSeek-V4-Flash $0.14 $0.28 ~42%

Dois números para lembrar. Em tokens de saída, o item que aumenta sua conta, o DeepSeek-V4-Pro é 34x mais barato que o GPT-5.5 e 17x mais barato que o Claude Opus 4.7. Em benchmarks, o V4-Pro se posiciona entre 3 e 7 pontos percentuais do GPT-5.5 na maioria das avaliações públicas de codificação e raciocínio, de acordo com a comparação do DataCamp.

Se sua carga de trabalho tolera latência e a qualidade é aceitável nessa pequena faixa, a migração é um problema matemático com uma única resposta. Para cargas de trabalho onde os últimos 5 pontos de pontuação de benchmark importam (confiabilidade da ferramenta do agente, planejamento de longo horizonte, matemática difícil), o V4-Pro ainda é mais barato para usar como modelo de rascunho por trás de um padrão de decodificação especulativa ou crítico.

Para análises mais aprofundadas, consulte DeepSeek V4 vs Claude Opus 4.5 para codificação e GLM-5 vs DeepSeek V3 vs GPT-5: velocidade, custo e comparação prática para desenvolvedores.

O ângulo de acerto de cache que a maioria dos artigos ignora

Todos citam o número de US$ 0,87 de saída. Poucos explicam o que o preço de entrada de US$ 0,003625 de acerto de cache faz no design do sistema.

O cache de prompt da DeepSeek é acionado quando o prefixo de sua solicitação é idêntico byte a byte a uma solicitação anterior recente, dentro de uma janela de aproximadamente 30 minutos. Para agentes de chat e pipelines de recuperação, o prefixo geralmente é seu prompt do sistema mais definições de ferramentas mais o scaffolding de instrução. Isso geralmente são de 4.000 a 10.000 tokens que não mudam entre as interações.

Exemplo concreto. Suponha que seu assistente use um prompt de sistema de 6.000 tokens e lide com 100.000 interações de chat por dia, com uma mensagem média de usuário de 200 tokens de entrada e uma resposta média de 800 tokens de saída.

Isso não é um erro de arredondamento. É a diferença entre o modelo ser um item sustentável e um de luxo. Para mais informações sobre como o cache de prefixo funciona em diferentes provedores, nossa análise aprofundada de cache de prompt explica a mecânica.

Três padrões para obter acertos de cache em agentes reais:

O que você deve fazer esta semana

A decisão de migração não é binária. Depende do tipo de carga de trabalho de LLM que você está executando. Uma estrutura de cinco etapas:

1. Meça sua proporção atual de saída:entrada. Se você está gastando 80% do seu orçamento de tokens em saída (qualquer agente, gerador de código ou ferramenta de conteúdo), a economia com o V4-Pro é grande. Se você está gastando 80% em entrada (RAG sobre documentos longos), a economia é menor, mas ainda real uma vez que os acertos de cache ocorrem.

2. Execute uma avaliação de 100 amostras em sua carga de trabalho real. Não confie em benchmarks públicos. Puxe 100 rastreamentos do seu tráfego de produção, execute-os contra o V4-Pro e seu modelo atual com prompts idênticos, e pontue com seu próprio avaliador. A maioria das equipes considera o V4-Pro "bom o suficiente" para 70% a 85% de seu tráfego.

3. Faça a correspondência de padrões por rota. Direcione 70% a 85% para o V4-Pro e mantenha seu modelo premium para os casos mais difíceis. Esta única mudança oferece mais de 70% da economia de custos com regressão de qualidade quase zero.

4. Bloqueie os prefixos do cache. Audite seus prompts de sistema. Qualquer coisa que varie por solicitação (timestamps, IDs de usuário, IDs de sessão) pertence à mensagem do usuário, não ao prompt do sistema. Mova-o.

5. Configure testes de regressão antes de lançar. É aqui que o Apidog se destaca. Registre respostas "golden" do seu modelo atual, depois reproduza as mesmas solicitações contra o V4-Pro e compare as saídas. A validação de esquema JSON do Apidog detecta desvios nas formas de chamada de ferramenta antes que cheguem à produção. Baixe o Apidog, importe sua coleção compatível com OpenAI, mude a URL base para https://api.deepseek.com, e você pode executar um teste de fumaça lado a lado em menos de dez minutos.

Para um passo a passo prático da forma do endpoint V4-Pro, consulte Como usar a API DeepSeek V4.

Como o V4-Pro se compara a outras quedas de preço de 2026

A DeepSeek não é o único laboratório a cortar preços. O mercado de LLM de 2026 está em uma fase clara de compressão de margens:

O corte do V4-Pro é o mais agressivo do ano porque visa a faixa de capacidade de ponta, não a camada de orçamento. É por isso que este anúncio redefiniu o mercado e os outros não.

A matemática da construção mudou

A DeepSeek não reduziu o preço. Eles redesenharam a curva. A capacidade de ponta com preços de saída abaixo de um dólar é agora o padrão, não a exceção, e o resto do mercado responderá. Se você estava adiando um recurso de LLM por motivos de custo, o orçamento de 2026 que você precificou no último trimestre provavelmente superestima suas necessidades em 4x.

Três próximos passos:

A bandeira promocional foi retirada. O desconto não.

button

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs