DeepSeek V4 foi lançado em 23 de abril de 2026 com quatro checkpoints, uma API ao vivo e pesos licenciados pelo MIT no Hugging Face. Essa combinação significa que não há uma única "maneira certa" de usá-lo; o melhor caminho depende se você deseja acesso instantâneo, chamadas de API de produção ou implantação on-premise. Este guia detalha todas as três opções, com as vantagens e desvantagens, as pegadinhas e um fluxo de trabalho de prompt pronto para produção que você pode reutilizar.
Se você deseja apenas a visão geral do produto, leia o que é DeepSeek V4 primeiro. Para o passo a passo puro da API, consulte o guia da API DeepSeek V4. Para o caminho de custo zero, veja como usar o DeepSeek V4 gratuitamente. Quando estiver pronto para testar requisições reais, pegue o Apidog e pré-monte a coleção.
TL;DR
- Caminho mais rápido: chat.deepseek.com. Chat web gratuito, V4-Pro padrão, três modos de raciocínio.
- Caminho de produção:
https://api.deepseek.com/v1/chat/completionscom os IDs de modelodeepseek-v4-prooudeepseek-v4-flash. - Caminho auto-hospedado: puxe os pesos do Hugging Face, execute os scripts
/inferenceno repositório. - Escolha Não-Pensar para roteamento e classificação, Pensar Alto para código e análise, Pensar Máximo somente quando a precisão for mais importante que o custo.
- Recomendação de amostragem do DeepSeek:
temperature=1.0, top_p=1.0. Não questione. - Use o Apidog como cliente de API; o formato compatível com OpenAI significa que uma requisição salva é reproduzida em DeepSeek, OpenAI e Anthropic.

Escolha o caminho certo para sua carga de trabalho
Existem quatro caminhos realistas. Cada um se destaca em algo diferente.
| Caminho | Custo | Tempo de Configuração | Melhor para |
|---|---|---|---|
| chat.deepseek.com | Grátis | 30 segundos | Testes rápidos, trabalho ad-hoc |
| API DeepSeek | Cobrança por token | 5 minutos | Produção, agentes, trabalhos em lote |
| V4-Flash auto-hospedado | Apenas custo de hardware | Algumas horas | Conformidade on-premise, inferência offline |
| V4-Pro auto-hospedado | Apenas custo de cluster | Um dia | Pesquisa, fine-tunes personalizados |
| OpenRouter / agregador | Cobrança por token | 2 minutos | Fallback multi-provedor |
Caminho 1: Usar V4 no chat web
A maneira mais rápida de formar uma opinião sobre o V4 é a interface de chat oficial.
- Vá para chat.deepseek.com.
- Faça login com e-mail, Google ou WeChat.
- V4-Pro é o modelo padrão. O botão na parte superior do compositor alterna entre Não-Pensar, Pensar Alto e Pensar Máximo.
- Comece a digitar.

O chat web suporta upload de arquivos, pesquisa na web e o contexto completo de 1M de tokens. Os limites de taxa são aplicados no nível da conta; o uso intenso pode atrasar as respostas, mas raramente bloqueia completamente.
Boas tarefas para a UI web: colar um rastreamento de erro para diagnosticar, fazer upload de um PDF de 200 páginas para resumo, comparar com o mesmo prompt que você executa no GPT-5.5 ou Claude. Más tarefas: qualquer coisa que você queira automatizar ou reproduzir.
Caminho 2: Usar a API DeepSeek
Este é o caminho que a maioria das equipes seguirá. A API está ativa, o formato da requisição é compatível com OpenAI, e os IDs dos modelos são os mesmos que o DeepSeek manterá após a depreciação de deepseek-chat em julho de 2026.
Obter uma chave
- Inscreva-se em platform.deepseek.com.
- Adicione um método de pagamento. Os créditos começam em $2.
- Crie uma chave de API em API Keys e copie-a uma vez; você não verá o segredo novamente.
Exporte a chave para que todo cliente a reconheça:
export DEEPSEEK_API_KEY="sk-..."
A requisição mínima viável
O DeepSeek expõe duas URLs base. A superfície compatível com OpenAI é a que deve ser usada por padrão.
curl https://api.deepseek.com/v1/chat/completions \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "user", "content": "Refatore esta função Python para assíncrona. Responda apenas com o código."}
],
"thinking_mode": "thinking"
}'
Troque deepseek-v4-pro por deepseek-v4-flash se desejar a variante mais barata. Troque thinking por non-thinking se desejar o caminho mais rápido.
Cliente Python
O SDK oficial do openai funciona com uma única substituição de URL base. Essa é a vantagem discreta dos endpoints compatíveis com OpenAI; todas as bibliotecas wrapper, incluindo LangChain, LlamaIndex e DSPy, funcionam sem alterações.
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/v1",
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": "Você é um engenheiro sênior conciso."},
{"role": "user", "content": "Explique a pilha de atenção híbrida CSA+HCA."},
],
extra_body={"thinking_mode": "thinking_max"},
temperature=1.0,
top_p=1.0,
)
print(response.choices[0].message.content)
Cliente Node
O mesmo padrão no Node:
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com/v1",
});
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [{ role: "user", content: "Escreva um fizzbuzz em Rust." }],
temperature: 1.0,
top_p: 1.0,
});
console.log(response.choices[0].message.content);
Detalhes completos do endpoint, tabelas de parâmetros e tratamento de erros estão no guia da API DeepSeek V4.
Caminho 3: Iterar com Apidog
Curl é bom para uma única chamada. Depois disso, cada nova execução gasta créditos e polui seu terminal. O Apidog resolve ambos os problemas.
- Baixe o Apidog para Mac, Windows ou Linux.
- Crie um novo projeto de API, adicione uma requisição POST apontada para
https://api.deepseek.com/v1/chat/completions. - Adicione
Authorization: Bearer {{DEEPSEEK_API_KEY}}como um cabeçalho e armazene a chave em variáveis de ambiente, não no corpo da requisição. - Cole seu primeiro corpo JSON e salve. Cada ajuste a partir daqui é um clique para reproduzir.
- Use o visualizador de resposta integrado para comparar rastros de raciocínio entre execuções Non-Think e Think Max no mesmo prompt.
A mesma coleção pode conter uma requisição OpenAI GPT-5.5, uma requisição Claude e uma requisição DeepSeek V4 lado a lado. Isso torna os testes A/B entre provedores triviais e mantém sua fatura visível em uma única janela. Para equipes que já usam Apidog com outras APIs de IA, o fluxo de trabalho se alinha um a um; a coleção GPT-5.5 API salva se torna uma coleção V4 com uma única alteração de URL base.
Caminho 4: Auto-hospedar V4-Flash
Se requisitos de conformidade, de lacuna de ar (air-gap) ou de economia de unidade o afastam das APIs hospedadas, a licença MIT significa que você possui este caminho completamente.
Hardware
- V4-Flash (13B ativos, 284B total): 2 a 4 placas H100 / H200 / MI300X em FP8. Quantizado para INT4, cabe em uma única placa de 80GB com lotes apertados.
- V4-Pro (49B ativos, 1.6T total): território de cluster genuíno. 16 a 32 H100s é o piso realista para inferência em produção.
Obtenha os pesos
# Instale o CLI uma vez
pip install -U "huggingface_hub[cli]"
# Faça login se o repositório for fechado (V4 é público, mas o login ajuda com limites de taxa)
huggingface-cli login
# Puxe o V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
Espere que o download demore um pouco. V4-Flash tem aproximadamente 500GB em FP8; V4-Pro está na faixa de multi-terabytes.
Executar inferência
A pasta /inference no repositório do modelo contém código de referência. Para testes rápidos, vLLM e SGLang publicaram branches de suporte V4 dentro de um dia do lançamento.
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto
Assim que o vLLM estiver pronto, aponte qualquer cliente compatível com OpenAI para http://localhost:8000/v1. A mesma coleção do Apidog, com uma URL base diferente.
Prompting V4 de forma eficaz
V4 responde a prompts de forma diferente do GPT-5.5 ou Claude. Três padrões que funcionam:
- Peça explicitamente o modo de raciocínio que você deseja. Defina
thinking_modepara corresponder à tarefa. Não dependa do modelo para escolher. - Use prompts de sistema para persona, não para o formato da tarefa. O V4-Pro segue bem os prompts de sistema para tom e restrição; é menos confiável quando você tenta encaixar toda a especificação da tarefa na mensagem do sistema. Coloque a tarefa na mensagem do usuário.
- Dê a tarefas de código um ambiente de teste. A pontuação de 93.5 no LiveCodeBench veio de avaliações com casos de teste claros. Suas tarefas de código se beneficiarão do mesmo; cole o teste com falha e o modelo escreverá um código que o fará passar com mais frequência do que se você pedisse "uma função que faz X".
Para trabalhos de contexto longo (centenas de milhares de tokens), mantenha o material mais relevante perto do início e do final da janela de entrada. A atenção híbrida do V4 é eficiente, mas o viés de recenticidade e primazia ainda aparecem.
Controle de custos
Mesmo com os baixos preços por token do V4, um agente descontrolado pode esgotar um orçamento rapidamente. Três salvaguardas:
- Use V4-Flash como padrão. Use V4-Pro apenas quando você tiver medido uma lacuna de qualidade que importa.
- Use Non-Think como padrão. Aumente para Think High para tarefas difíceis; reserve Think Max para trabalhos críticos de correção.
- Limite
max_tokens. O contexto de 1M é um limite superior, não um objetivo. A maioria das respostas cabe em 2.000 tokens de saída.
Dentro do Apidog, defina variáveis com escopo de ambiente para DEEPSEEK_API_KEY para que as execuções de teste atinjam uma conta de faturamento separada da produção. O Apidog também registra a contagem de tokens em cada resposta, que é a maneira mais simples de identificar um prompt que ficou muito longo.
Migrando do DeepSeek V3 ou outros modelos
Três caminhos de migração cobrem a maioria das equipes:
- De
deepseek-chat/deepseek-reasoner: troque o ID do modelo paradeepseek-v4-prooudeepseek-v4-flash. Os IDs antigos serão descontinuados em 24 de julho de 2026. Faça esta migração antes disso. - De OpenAI GPT-5.x: altere a URL base para
https://api.deepseek.com/v1, altere o ID do modelo, deixe todo o resto inalterado. Veja o guia da API GPT-5.5 correspondente para o formato de requisição paralelo. - De Anthropic Claude: aponte para
https://api.deepseek.com/anthropicpara manter o formato de mensagem Anthropic, ou reformule para o formato OpenAI e use o endpoint principal.
FAQ
Preciso de uma conta paga para usar o V4?O chat web é gratuito. A API exige um recarga, mas o mínimo é de $2. Consulte como usar o DeepSeek V4 gratuitamente para caminhos sem custo.
Qual variante devo usar por padrão?Comece com V4-Flash no modo Non-Think. Meça a qualidade. Aumente apenas onde valer a pena.
Posso executar o V4 no meu MacBook?V4-Flash será executado em um M3 Max ou M4 Max com 128GB de memória unificada com alta quantização, lentamente. O V4-Pro não. Para experimentação em laptops, use a API ou o chat web.
O V4 suporta uso de ferramentas e chamada de funções?Sim. O endpoint compatível com OpenAI aceita o array padrão tools; as respostas trazem tool_calls de volta no mesmo formato. O endpoint no formato Anthropic usa o esquema nativo de uso de ferramentas da Anthropic.
Como faço para transmitir respostas?Defina stream: true no corpo da requisição. A resposta é um fluxo SSE padrão compatível com OpenAI; qualquer biblioteca que lide com streaming OpenAI funciona sem alterações.
Existe um limite de taxa?A API hospedada publica limites por nível em api-docs.deepseek.com. O V4 auto-hospedado não tem limite por requisição além do seu hardware.
