Como Usar DeepSeek V4: Chat Web, API e Implementação Self-Hosted

DeepSeek V4 foi lançado em 23 de abril de 2026 com quatro checkpoints, uma API ao vivo e pesos licenciados pelo MIT no Hugging Face. Essa combinação significa que não há uma única "maneira certa" de usá-lo; o melhor caminho depende se você deseja acesso instantâneo, chamadas de API de produção ou implantação on-premise. Este guia detalha todas as três opções, com as vantagens e desvantagens, as pegadinhas e um fluxo de trabalho de prompt pronto para produção que você pode reutilizar.

Se você deseja apenas a visão geral do produto, leia o que é DeepSeek V4 primeiro. Para o passo a passo puro da API, consulte o guia da API DeepSeek V4. Para o caminho de custo zero, veja como usar o DeepSeek V4 gratuitamente. Quando estiver pronto para testar requisições reais, pegue o Apidog e pré-monte a coleção.

button

TL;DR

Caminho mais rápido: chat.deepseek.com. Chat web gratuito, V4-Pro padrão, três modos de raciocínio.
Caminho de produção: https://api.deepseek.com/v1/chat/completions com os IDs de modelo deepseek-v4-pro ou deepseek-v4-flash.
Caminho auto-hospedado: puxe os pesos do Hugging Face, execute os scripts /inference no repositório.
Escolha Não-Pensar para roteamento e classificação, Pensar Alto para código e análise, Pensar Máximo somente quando a precisão for mais importante que o custo.
Recomendação de amostragem do DeepSeek: temperature=1.0, top_p=1.0. Não questione.
Use o Apidog como cliente de API; o formato compatível com OpenAI significa que uma requisição salva é reproduzida em DeepSeek, OpenAI e Anthropic.

Escolha o caminho certo para sua carga de trabalho

Existem quatro caminhos realistas. Cada um se destaca em algo diferente.

Caminho	Custo	Tempo de Configuração	Melhor para
chat.deepseek.com	Grátis	30 segundos	Testes rápidos, trabalho ad-hoc
API DeepSeek	Cobrança por token	5 minutos	Produção, agentes, trabalhos em lote
V4-Flash auto-hospedado	Apenas custo de hardware	Algumas horas	Conformidade on-premise, inferência offline
V4-Pro auto-hospedado	Apenas custo de cluster	Um dia	Pesquisa, fine-tunes personalizados
OpenRouter / agregador	Cobrança por token	2 minutos	Fallback multi-provedor

Caminho 1: Usar V4 no chat web

A maneira mais rápida de formar uma opinião sobre o V4 é a interface de chat oficial.

Vá para chat.deepseek.com.
Faça login com e-mail, Google ou WeChat.
V4-Pro é o modelo padrão. O botão na parte superior do compositor alterna entre Não-Pensar, Pensar Alto e Pensar Máximo.
Comece a digitar.

O chat web suporta upload de arquivos, pesquisa na web e o contexto completo de 1M de tokens. Os limites de taxa são aplicados no nível da conta; o uso intenso pode atrasar as respostas, mas raramente bloqueia completamente.

Boas tarefas para a UI web: colar um rastreamento de erro para diagnosticar, fazer upload de um PDF de 200 páginas para resumo, comparar com o mesmo prompt que você executa no GPT-5.5 ou Claude. Más tarefas: qualquer coisa que você queira automatizar ou reproduzir.

Caminho 2: Usar a API DeepSeek

Este é o caminho que a maioria das equipes seguirá. A API está ativa, o formato da requisição é compatível com OpenAI, e os IDs dos modelos são os mesmos que o DeepSeek manterá após a depreciação de deepseek-chat em julho de 2026.

Obter uma chave

Inscreva-se em platform.deepseek.com.
Adicione um método de pagamento. Os créditos começam em $2.
Crie uma chave de API em API Keys e copie-a uma vez; você não verá o segredo novamente.

Exporte a chave para que todo cliente a reconheça:

export DEEPSEEK_API_KEY="sk-..."

A requisição mínima viável

O DeepSeek expõe duas URLs base. A superfície compatível com OpenAI é a que deve ser usada por padrão.

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refatore esta função Python para assíncrona. Responda apenas com o código."}
    ],
    "thinking_mode": "thinking"
  }'

Troque deepseek-v4-pro por deepseek-v4-flash se desejar a variante mais barata. Troque thinking por non-thinking se desejar o caminho mais rápido.

Cliente Python

O SDK oficial do openai funciona com uma única substituição de URL base. Essa é a vantagem discreta dos endpoints compatíveis com OpenAI; todas as bibliotecas wrapper, incluindo LangChain, LlamaIndex e DSPy, funcionam sem alterações.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "Você é um engenheiro sênior conciso."},
        {"role": "user", "content": "Explique a pilha de atenção híbrida CSA+HCA."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Cliente Node

O mesmo padrão no Node:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Escreva um fizzbuzz em Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

Detalhes completos do endpoint, tabelas de parâmetros e tratamento de erros estão no guia da API DeepSeek V4.

Caminho 3: Iterar com Apidog

Curl é bom para uma única chamada. Depois disso, cada nova execução gasta créditos e polui seu terminal. O Apidog resolve ambos os problemas.

button

Baixe o Apidog para Mac, Windows ou Linux.
Crie um novo projeto de API, adicione uma requisição POST apontada para https://api.deepseek.com/v1/chat/completions.
Adicione Authorization: Bearer {{DEEPSEEK_API_KEY}} como um cabeçalho e armazene a chave em variáveis de ambiente, não no corpo da requisição.
Cole seu primeiro corpo JSON e salve. Cada ajuste a partir daqui é um clique para reproduzir.
Use o visualizador de resposta integrado para comparar rastros de raciocínio entre execuções Non-Think e Think Max no mesmo prompt.

A mesma coleção pode conter uma requisição OpenAI GPT-5.5, uma requisição Claude e uma requisição DeepSeek V4 lado a lado. Isso torna os testes A/B entre provedores triviais e mantém sua fatura visível em uma única janela. Para equipes que já usam Apidog com outras APIs de IA, o fluxo de trabalho se alinha um a um; a coleção GPT-5.5 API salva se torna uma coleção V4 com uma única alteração de URL base.

Caminho 4: Auto-hospedar V4-Flash

Se requisitos de conformidade, de lacuna de ar (air-gap) ou de economia de unidade o afastam das APIs hospedadas, a licença MIT significa que você possui este caminho completamente.

Hardware

V4-Flash (13B ativos, 284B total): 2 a 4 placas H100 / H200 / MI300X em FP8. Quantizado para INT4, cabe em uma única placa de 80GB com lotes apertados.
V4-Pro (49B ativos, 1.6T total): território de cluster genuíno. 16 a 32 H100s é o piso realista para inferência em produção.

Obtenha os pesos

# Instale o CLI uma vez
pip install -U "huggingface_hub[cli]"

# Faça login se o repositório for fechado (V4 é público, mas o login ajuda com limites de taxa)
huggingface-cli login

# Puxe o V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Espere que o download demore um pouco. V4-Flash tem aproximadamente 500GB em FP8; V4-Pro está na faixa de multi-terabytes.

Executar inferência

A pasta /inference no repositório do modelo contém código de referência. Para testes rápidos, vLLM e SGLang publicaram branches de suporte V4 dentro de um dia do lançamento.

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

Assim que o vLLM estiver pronto, aponte qualquer cliente compatível com OpenAI para http://localhost:8000/v1. A mesma coleção do Apidog, com uma URL base diferente.

Prompting V4 de forma eficaz

V4 responde a prompts de forma diferente do GPT-5.5 ou Claude. Três padrões que funcionam:

Peça explicitamente o modo de raciocínio que você deseja. Defina thinking_mode para corresponder à tarefa. Não dependa do modelo para escolher.
Use prompts de sistema para persona, não para o formato da tarefa. O V4-Pro segue bem os prompts de sistema para tom e restrição; é menos confiável quando você tenta encaixar toda a especificação da tarefa na mensagem do sistema. Coloque a tarefa na mensagem do usuário.
Dê a tarefas de código um ambiente de teste. A pontuação de 93.5 no LiveCodeBench veio de avaliações com casos de teste claros. Suas tarefas de código se beneficiarão do mesmo; cole o teste com falha e o modelo escreverá um código que o fará passar com mais frequência do que se você pedisse "uma função que faz X".

Para trabalhos de contexto longo (centenas de milhares de tokens), mantenha o material mais relevante perto do início e do final da janela de entrada. A atenção híbrida do V4 é eficiente, mas o viés de recenticidade e primazia ainda aparecem.

Controle de custos

Mesmo com os baixos preços por token do V4, um agente descontrolado pode esgotar um orçamento rapidamente. Três salvaguardas:

Use V4-Flash como padrão. Use V4-Pro apenas quando você tiver medido uma lacuna de qualidade que importa.
Use Non-Think como padrão. Aumente para Think High para tarefas difíceis; reserve Think Max para trabalhos críticos de correção.
Limite max_tokens. O contexto de 1M é um limite superior, não um objetivo. A maioria das respostas cabe em 2.000 tokens de saída.

Dentro do Apidog, defina variáveis com escopo de ambiente para DEEPSEEK_API_KEY para que as execuções de teste atinjam uma conta de faturamento separada da produção. O Apidog também registra a contagem de tokens em cada resposta, que é a maneira mais simples de identificar um prompt que ficou muito longo.

Migrando do DeepSeek V3 ou outros modelos

Três caminhos de migração cobrem a maioria das equipes:

De deepseek-chat / deepseek-reasoner: troque o ID do modelo para deepseek-v4-pro ou deepseek-v4-flash. Os IDs antigos serão descontinuados em 24 de julho de 2026. Faça esta migração antes disso.
De OpenAI GPT-5.x: altere a URL base para https://api.deepseek.com/v1, altere o ID do modelo, deixe todo o resto inalterado. Veja o guia da API GPT-5.5 correspondente para o formato de requisição paralelo.
De Anthropic Claude: aponte para https://api.deepseek.com/anthropic para manter o formato de mensagem Anthropic, ou reformule para o formato OpenAI e use o endpoint principal.

FAQ

Preciso de uma conta paga para usar o V4?O chat web é gratuito. A API exige um recarga, mas o mínimo é de $2. Consulte como usar o DeepSeek V4 gratuitamente para caminhos sem custo.

Qual variante devo usar por padrão?Comece com V4-Flash no modo Non-Think. Meça a qualidade. Aumente apenas onde valer a pena.

Posso executar o V4 no meu MacBook?V4-Flash será executado em um M3 Max ou M4 Max com 128GB de memória unificada com alta quantização, lentamente. O V4-Pro não. Para experimentação em laptops, use a API ou o chat web.

O V4 suporta uso de ferramentas e chamada de funções?Sim. O endpoint compatível com OpenAI aceita o array padrão tools; as respostas trazem tool_calls de volta no mesmo formato. O endpoint no formato Anthropic usa o esquema nativo de uso de ferramentas da Anthropic.

Como faço para transmitir respostas?Defina stream: true no corpo da requisição. A resposta é um fluxo SSE padrão compatível com OpenAI; qualquer biblioteca que lide com streaming OpenAI funciona sem alterações.

Existe um limite de taxa?A API hospedada publica limites por nível em api-docs.deepseek.com. O V4 auto-hospedado não tem limite por requisição além do seu hardware.