Como Executar o DeepSeek V4 Localmente?

Ashley Innocent

Ashley Innocent

24 abril 2026

Como Executar o DeepSeek V4 Localmente?

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

O DeepSeek V4 foi lançado em 23 de abril de 2026 com pesos licenciados pelo MIT no Hugging Face. Essa única escolha de licença muda a lógica para qualquer equipe que deseja IA de ponta em seu próprio hardware. O V4-Flash (284B total, 13B ativo) cabe em um par de H100s em FP8. O V4-Pro (1.6T total, 49B ativo) precisa de um cluster, mas compete com o GPT-5.5 e o Claude Opus 4.6 em código e raciocínio.

Este guia é o passo a passo da implantação local. Ele aborda os requisitos de hardware, opções de quantização, configurações de vLLM e SGLang, configuração de uso de ferramentas e um fluxo de trabalho de teste no Apidog que valida o servidor local antes de você direcionar o tráfego de produção para ele.

button

Para uma visão geral do produto, consulte o que é DeepSeek V4. Para o caminho da API hospedada, consulte como usar a API DeepSeek V4. Para comparação de custos, consulte preços da API DeepSeek V4.

TL;DR

Quem deve hospedar por conta própria

Hospedar o V4 por conta própria é a decisão certa para três tipos de equipes.

  1. Com exigências de conformidade. Trabalhos em saúde, finanças, jurídico ou defesa onde os dados não podem sair da rede. A licença MIT de pesos abertos significa que não há acordo de uso, nem fluxo de dados transfronteiriço.
  2. Cargas de trabalho grandes e estáveis. Em taxas de cache-miss, a API V4-Pro custa US$ 1,74 / M de entrada e US$ 3,48 / M de saída. Para cargas de trabalho acima de aproximadamente 200 bilhões de tokens por mês, o hardware dedicado começa a superar a economia de pagamento por token.
  3. Ajuste fino e pesquisa. Os pontos de verificação Base existem especificamente para pré-treinamento contínuo e adaptação de domínio. A licença MIT cobre a redistribuição comercial do modelo resultante.

Quem não deve hospedar por conta própria: desenvolvedores de protótipos, equipes sem experiência em operações de GPU e qualquer pessoa cuja carga de trabalho caiba em US$ 200/mês de uso de API hospedada. A sobrecarga operacional consome rapidamente a economia de custos em pequena escala.

Requisitos de hardware

O DeepSeek V4 usa precisão mista FP4 + FP8 nativamente. Isso significa que o cálculo de memória é mais amigável do que um cálculo ingênuo de contagem de parâmetros sugere.

Variante Total de parâmetros Parâmetros ativos VRAM FP8 VRAM INT4 Placas mínimas
V4-Flash 284B 13B ~500GB ~140GB 2 × H100 80GB (FP8) ou 1 × H100 (INT4)
V4-Pro 1.6T 49B ~2.4TB ~700GB 16 × H100 80GB (FP8) ou 8 × H100 (INT4)

Alguns esclarecimentos:

Etapa 1: Baixar os pesos

Os repositórios oficiais:

Instale o CLI e baixe:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Reserve ~500GB de disco para V4-Flash e vários terabytes para V4-Pro. ModelScope (modelscope.cn) espelha os mesmos pontos de verificação e geralmente é mais rápido para usuários na China.

Etapa 2: Escolha um mecanismo de serviço

Dois mecanismos são importantes: vLLM e SGLang.

Ambos suportam V4 pronto para uso a partir das versões lançadas esta semana.

Etapa 3: Sirva V4-Flash com vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

Sinalizadores que vale a pena conhecer:

Assim que o servidor estiver ativo, qualquer cliente compatível com OpenAI funciona com http://localhost:8000/v1.

Etapa 4: Sirva V4-Pro com vLLM

O V4-Pro precisa de um cluster. A forma do comando não muda, apenas o paralelismo.

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

O contexto é reduzido para 512K aqui para caber confortavelmente em uma caixa de 16 H100; aumente-o de volta para 1M se a VRAM permitir. O paralelismo de pipeline mais o paralelismo de tensor é a forma comum para implantação entre nós.

Etapa 5: Sirva com SGLang (a alternativa para uso de ferramentas)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

O SGLang expõe a mesma interface compatível com OpenAI em http://localhost:30000/v1. Seu DSL lang oferece primitivas de chamada de função e modo JSON mais limpas do que a orientação JSON-schema do vLLM.

Etapa 6: Quantize para uma caixa de GPU única

A quantização INT4 executa o V4-Flash em uma única placa de 80GB com uma queda de qualidade mensurável, mas pequena. Dois caminhos.

AWQ (recomendado)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# Siga a receita de quantização GPTQ; padrão semelhante ao AWQ.

Sirva o ponto de verificação quantizado com vLLM passando --quantization awq ou --quantization gptq no lançamento.

Etapa 7: Teste com Apidog

Não envie tráfego de produção para um novo servidor local. Valide-o primeiro.

Captura de tela do Apidog mostrando como testar a API DeepSeek V4 localmente.
  1. Baixe o Apidog.
  2. Crie uma coleção apontando para http://localhost:8000/v1/chat/completions.
  3. Cole o mesmo prompt de teste que você usa contra a API hospedada. Compare as respostas lado a lado.
  4. Atinga o endpoint com um teste de contexto de 500K tokens para confirmar que o cache KV se mantém.
  5. Execute um fluxo de chamada de ferramentas de ponta a ponta antes de conectar um loop de agente.

A coleção exata que você usa contra a API hospedada DeepSeek V4 funciona contra um servidor local com uma única mudança de URL base; essa é a recompensa de endpoints compatíveis com OpenAI.

Observabilidade e monitoramento

Quatro métricas para monitorar desde o primeiro dia:

  1. Tokens por segundo. Tanto no prompt quanto na geração. O vLLM expõe estes em /metrics no formato Prometheus.
  2. Utilização da GPU. nvidia-smi ou DCGM. Manter <70% geralmente significa que o tamanho do seu lote está errado.
  3. Taxa de acertos do cache KV. Com --enable-prefix-caching, o vLLM reporta isso; uma taxa de acertos em queda sinaliza um esgotamento de prompt que está custando desempenho.
  4. Latência da requisição p50/p95/p99. Use rastreamento padrão; um p99 crescente com p50 estável significa que um formato de requisição está travando a fila.

Envie todos os quatro para o Grafana ou para qualquer stack de observabilidade que você já use.

Ajuste fino dos pontos de verificação Base do V4

Os pontos de verificação Base existem para pré-treinamento contínuo e SFT. O pipeline padrão:

pip install "torch>=2.6" transformers accelerate peft trl

# SFT padrão com LoRA no V4-Flash-Base
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

O ajuste fino de parâmetros completos no V4-Pro é uma tarefa de pesquisa séria. Adaptadores LoRA no V4-Flash-Base são o limite realista para a maioria das equipes; muito ganho de qualidade, uma fração da computação.

Armadilhas comuns

  1. OOM (Out Of Memory) na inicialização. Geralmente, --max-model-len é definido mais alto do que a VRAM permite ou --tensor-parallel-size é definido muito baixo. Reduza o contexto pela metade ou dobre o paralelismo.
  2. Primeira requisição lenta. O vLLM compila kernels preguiçosamente. A primeira chamada por formato é sempre lenta; aqueça com uma requisição dummy.
  3. Erros de análise do uso de ferramentas. O esquema de codificação DeepSeek difere ligeiramente do OpenAI. Fixe seu SDK em uma versão que suporte explicitamente o V4.
  4. Erros de FP8 em placas mais antigas. As A100s não suportam FP8 nativamente. Use BF16 em qualquer coisa anterior a Hopper; espere aproximadamente o dobro de VRAM.

Quando a hospedagem própria compensa

Cálculo aproximado do ponto de equilíbrio, baseado nos preços da API DeepSeek V4 hospedada:

O ponto de equilíbrio para o V4-Flash fica em aproximadamente 100B de tokens/mês em mix de produção. Abaixo disso, a API hospedada é mais barata e a sobrecarga operacional não vale a pena.

FAQ

Posso executar V4-Flash em uma única A100?Com quantização pesada e contexto mais curto, sim, mas lentamente. O INT4 em uma A100 de 80GB roda de 5 a 15 tok/s. A H100 é onde a arquitetura realmente deseja rodar.

O V4 suporta ajuste fino com LoRA?Sim. Use os pontos de verificação Base e os pipelines padrão TRL ou Axolotl. O roteamento MoE não altera a matemática do LoRA.

O servidor local é compatível com OpenAI?Sim. vLLM e SGLang ambos expõem /v1/chat/completions e /v1/completions com o formato de requisição do OpenAI. O guia da API hospedada funciona inalterado com localhost.

Como habilito o modo de pensamento localmente?Passe thinking_mode: "thinking" ou "thinking_max" no corpo da requisição. vLLM e SGLang encaminham o sinalizador para o modelo.

Posso fazer streaming de um servidor V4 local?Sim. Defina stream: true exatamente como faria com o OpenAI ou a API DeepSeek hospedada.

Qual a forma mais barata de experimentar antes de comprar hardware?Alugue uma única H100 no RunPod ou Lambda por algumas horas, execute o V4-Flash em INT4 e meça a taxa de transferência com seus prompts reais. Um teste de $10 a $30 responde à questão do hardware mais rápido do que uma semana de planejamento.

button

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs

Como Executar o DeepSeek V4 Localmente?