Como Usar DeepSeek V4: Chat Web, API e Implementação Self-Hosted

Ashley Innocent

Ashley Innocent

24 abril 2026

Como Usar DeepSeek V4: Chat Web, API e Implementação Self-Hosted

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

DeepSeek V4 foi lançado em 23 de abril de 2026 com quatro checkpoints, uma API ao vivo e pesos licenciados pelo MIT no Hugging Face. Essa combinação significa que não há uma única "maneira certa" de usá-lo; o melhor caminho depende se você deseja acesso instantâneo, chamadas de API de produção ou implantação on-premise. Este guia detalha todas as três opções, com as vantagens e desvantagens, as pegadinhas e um fluxo de trabalho de prompt pronto para produção que você pode reutilizar.

Se você deseja apenas a visão geral do produto, leia o que é DeepSeek V4 primeiro. Para o passo a passo puro da API, consulte o guia da API DeepSeek V4. Para o caminho de custo zero, veja como usar o DeepSeek V4 gratuitamente. Quando estiver pronto para testar requisições reais, pegue o Apidog e pré-monte a coleção.

button

TL;DR

Escolha o caminho certo para sua carga de trabalho

Existem quatro caminhos realistas. Cada um se destaca em algo diferente.

Caminho Custo Tempo de Configuração Melhor para
chat.deepseek.com Grátis 30 segundos Testes rápidos, trabalho ad-hoc
API DeepSeek Cobrança por token 5 minutos Produção, agentes, trabalhos em lote
V4-Flash auto-hospedado Apenas custo de hardware Algumas horas Conformidade on-premise, inferência offline
V4-Pro auto-hospedado Apenas custo de cluster Um dia Pesquisa, fine-tunes personalizados
OpenRouter / agregador Cobrança por token 2 minutos Fallback multi-provedor

Caminho 1: Usar V4 no chat web

A maneira mais rápida de formar uma opinião sobre o V4 é a interface de chat oficial.

  1. Vá para chat.deepseek.com.
  2. Faça login com e-mail, Google ou WeChat.
  3. V4-Pro é o modelo padrão. O botão na parte superior do compositor alterna entre Não-Pensar, Pensar Alto e Pensar Máximo.
  4. Comece a digitar.

O chat web suporta upload de arquivos, pesquisa na web e o contexto completo de 1M de tokens. Os limites de taxa são aplicados no nível da conta; o uso intenso pode atrasar as respostas, mas raramente bloqueia completamente.

Boas tarefas para a UI web: colar um rastreamento de erro para diagnosticar, fazer upload de um PDF de 200 páginas para resumo, comparar com o mesmo prompt que você executa no GPT-5.5 ou Claude. Más tarefas: qualquer coisa que você queira automatizar ou reproduzir.

Caminho 2: Usar a API DeepSeek

Este é o caminho que a maioria das equipes seguirá. A API está ativa, o formato da requisição é compatível com OpenAI, e os IDs dos modelos são os mesmos que o DeepSeek manterá após a depreciação de deepseek-chat em julho de 2026.

Obter uma chave

  1. Inscreva-se em platform.deepseek.com.
  2. Adicione um método de pagamento. Os créditos começam em $2.
  3. Crie uma chave de API em API Keys e copie-a uma vez; você não verá o segredo novamente.

Exporte a chave para que todo cliente a reconheça:

export DEEPSEEK_API_KEY="sk-..."

A requisição mínima viável

O DeepSeek expõe duas URLs base. A superfície compatível com OpenAI é a que deve ser usada por padrão.

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refatore esta função Python para assíncrona. Responda apenas com o código."}
    ],
    "thinking_mode": "thinking"
  }'

Troque deepseek-v4-pro por deepseek-v4-flash se desejar a variante mais barata. Troque thinking por non-thinking se desejar o caminho mais rápido.

Cliente Python

O SDK oficial do openai funciona com uma única substituição de URL base. Essa é a vantagem discreta dos endpoints compatíveis com OpenAI; todas as bibliotecas wrapper, incluindo LangChain, LlamaIndex e DSPy, funcionam sem alterações.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "Você é um engenheiro sênior conciso."},
        {"role": "user", "content": "Explique a pilha de atenção híbrida CSA+HCA."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Cliente Node

O mesmo padrão no Node:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Escreva um fizzbuzz em Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

Detalhes completos do endpoint, tabelas de parâmetros e tratamento de erros estão no guia da API DeepSeek V4.

Caminho 3: Iterar com Apidog

Curl é bom para uma única chamada. Depois disso, cada nova execução gasta créditos e polui seu terminal. O Apidog resolve ambos os problemas.

button
  1. Baixe o Apidog para Mac, Windows ou Linux.
  2. Crie um novo projeto de API, adicione uma requisição POST apontada para https://api.deepseek.com/v1/chat/completions.
  3. Adicione Authorization: Bearer {{DEEPSEEK_API_KEY}} como um cabeçalho e armazene a chave em variáveis de ambiente, não no corpo da requisição.
  4. Cole seu primeiro corpo JSON e salve. Cada ajuste a partir daqui é um clique para reproduzir.
  5. Use o visualizador de resposta integrado para comparar rastros de raciocínio entre execuções Non-Think e Think Max no mesmo prompt.

A mesma coleção pode conter uma requisição OpenAI GPT-5.5, uma requisição Claude e uma requisição DeepSeek V4 lado a lado. Isso torna os testes A/B entre provedores triviais e mantém sua fatura visível em uma única janela. Para equipes que já usam Apidog com outras APIs de IA, o fluxo de trabalho se alinha um a um; a coleção GPT-5.5 API salva se torna uma coleção V4 com uma única alteração de URL base.

Caminho 4: Auto-hospedar V4-Flash

Se requisitos de conformidade, de lacuna de ar (air-gap) ou de economia de unidade o afastam das APIs hospedadas, a licença MIT significa que você possui este caminho completamente.

Hardware

Obtenha os pesos

# Instale o CLI uma vez
pip install -U "huggingface_hub[cli]"

# Faça login se o repositório for fechado (V4 é público, mas o login ajuda com limites de taxa)
huggingface-cli login

# Puxe o V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Espere que o download demore um pouco. V4-Flash tem aproximadamente 500GB em FP8; V4-Pro está na faixa de multi-terabytes.

Executar inferência

A pasta /inference no repositório do modelo contém código de referência. Para testes rápidos, vLLM e SGLang publicaram branches de suporte V4 dentro de um dia do lançamento.

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

Assim que o vLLM estiver pronto, aponte qualquer cliente compatível com OpenAI para http://localhost:8000/v1. A mesma coleção do Apidog, com uma URL base diferente.

Prompting V4 de forma eficaz

V4 responde a prompts de forma diferente do GPT-5.5 ou Claude. Três padrões que funcionam:

  1. Peça explicitamente o modo de raciocínio que você deseja. Defina thinking_mode para corresponder à tarefa. Não dependa do modelo para escolher.
  2. Use prompts de sistema para persona, não para o formato da tarefa. O V4-Pro segue bem os prompts de sistema para tom e restrição; é menos confiável quando você tenta encaixar toda a especificação da tarefa na mensagem do sistema. Coloque a tarefa na mensagem do usuário.
  3. Dê a tarefas de código um ambiente de teste. A pontuação de 93.5 no LiveCodeBench veio de avaliações com casos de teste claros. Suas tarefas de código se beneficiarão do mesmo; cole o teste com falha e o modelo escreverá um código que o fará passar com mais frequência do que se você pedisse "uma função que faz X".

Para trabalhos de contexto longo (centenas de milhares de tokens), mantenha o material mais relevante perto do início e do final da janela de entrada. A atenção híbrida do V4 é eficiente, mas o viés de recenticidade e primazia ainda aparecem.

Controle de custos

Mesmo com os baixos preços por token do V4, um agente descontrolado pode esgotar um orçamento rapidamente. Três salvaguardas:

Dentro do Apidog, defina variáveis com escopo de ambiente para DEEPSEEK_API_KEY para que as execuções de teste atinjam uma conta de faturamento separada da produção. O Apidog também registra a contagem de tokens em cada resposta, que é a maneira mais simples de identificar um prompt que ficou muito longo.

Migrando do DeepSeek V3 ou outros modelos

Três caminhos de migração cobrem a maioria das equipes:

FAQ

Preciso de uma conta paga para usar o V4?O chat web é gratuito. A API exige um recarga, mas o mínimo é de $2. Consulte como usar o DeepSeek V4 gratuitamente para caminhos sem custo.

Qual variante devo usar por padrão?Comece com V4-Flash no modo Non-Think. Meça a qualidade. Aumente apenas onde valer a pena.

Posso executar o V4 no meu MacBook?V4-Flash será executado em um M3 Max ou M4 Max com 128GB de memória unificada com alta quantização, lentamente. O V4-Pro não. Para experimentação em laptops, use a API ou o chat web.

O V4 suporta uso de ferramentas e chamada de funções?Sim. O endpoint compatível com OpenAI aceita o array padrão tools; as respostas trazem tool_calls de volta no mesmo formato. O endpoint no formato Anthropic usa o esquema nativo de uso de ferramentas da Anthropic.

Como faço para transmitir respostas?Defina stream: true no corpo da requisição. A resposta é um fluxo SSE padrão compatível com OpenAI; qualquer biblioteca que lide com streaming OpenAI funciona sem alterações.

Existe um limite de taxa?A API hospedada publica limites por nível em api-docs.deepseek.com. O V4 auto-hospedado não tem limite por requisição além do seu hardware.

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs