O DeepSeek V4 foi lançado em 23 de abril de 2026 com pesos licenciados pelo MIT no Hugging Face. Essa única escolha de licença muda a lógica para qualquer equipe que deseja IA de ponta em seu próprio hardware. O V4-Flash (284B total, 13B ativo) cabe em um par de H100s em FP8. O V4-Pro (1.6T total, 49B ativo) precisa de um cluster, mas compete com o GPT-5.5 e o Claude Opus 4.6 em código e raciocínio.
Este guia é o passo a passo da implantação local. Ele aborda os requisitos de hardware, opções de quantização, configurações de vLLM e SGLang, configuração de uso de ferramentas e um fluxo de trabalho de teste no Apidog que valida o servidor local antes de você direcionar o tráfego de produção para ele.
Para uma visão geral do produto, consulte o que é DeepSeek V4. Para o caminho da API hospedada, consulte como usar a API DeepSeek V4. Para comparação de custos, consulte preços da API DeepSeek V4.
TL;DR
- V4-Flash roda em 2 × H100 80GB em FP8, ou 1 × H100 em INT4. Os pesos são ~500GB em FP8.
- V4-Pro precisa de 16+ H100s em FP8 para throughput de produção; não é um modelo para laptop.
- vLLM é o caminho mais rápido para um servidor compatível com OpenAI.
vllm>=0.9.0adiciona suporte ao V4. - SGLang é a alternativa para equipes que desejam melhores recursos de uso de ferramentas e saída estruturada.
- A quantização para AWQ INT4 ou GPTQ INT4 permite que o V4-Flash caiba em uma única placa de 80GB com ~5% de perda de qualidade.
- Use Apidog para apontar para
http://localhost:8000/v1e reutilizar a coleção exata que você usa contra a API hospedada.
Quem deve hospedar por conta própria
Hospedar o V4 por conta própria é a decisão certa para três tipos de equipes.
- Com exigências de conformidade. Trabalhos em saúde, finanças, jurídico ou defesa onde os dados não podem sair da rede. A licença MIT de pesos abertos significa que não há acordo de uso, nem fluxo de dados transfronteiriço.
- Cargas de trabalho grandes e estáveis. Em taxas de cache-miss, a API V4-Pro custa US$ 1,74 / M de entrada e US$ 3,48 / M de saída. Para cargas de trabalho acima de aproximadamente 200 bilhões de tokens por mês, o hardware dedicado começa a superar a economia de pagamento por token.
- Ajuste fino e pesquisa. Os pontos de verificação Base existem especificamente para pré-treinamento contínuo e adaptação de domínio. A licença MIT cobre a redistribuição comercial do modelo resultante.
Quem não deve hospedar por conta própria: desenvolvedores de protótipos, equipes sem experiência em operações de GPU e qualquer pessoa cuja carga de trabalho caiba em US$ 200/mês de uso de API hospedada. A sobrecarga operacional consome rapidamente a economia de custos em pequena escala.
Requisitos de hardware
O DeepSeek V4 usa precisão mista FP4 + FP8 nativamente. Isso significa que o cálculo de memória é mais amigável do que um cálculo ingênuo de contagem de parâmetros sugere.
| Variante | Total de parâmetros | Parâmetros ativos | VRAM FP8 | VRAM INT4 | Placas mínimas |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | ~500GB | ~140GB | 2 × H100 80GB (FP8) ou 1 × H100 (INT4) |
| V4-Pro | 1.6T | 49B | ~2.4TB | ~700GB | 16 × H100 80GB (FP8) ou 8 × H100 (INT4) |
Alguns esclarecimentos:
- A memória MoE é total, não ativa. Você precisa de VRAM suficiente para todos os especialistas, mesmo que apenas um subconjunto seja ativado por token. O valor de 13B "ativos" reflete apenas o custo de computação por token, não a memória.
- H200 e MI300X se encaixam perfeitamente. 141GB ou 192GB por placa significa menos placas para o mesmo modelo.
- GPUs de consumidor não são adequadas. Mesmo o V4-Flash em INT4 não roda em uma RTX 5090 de 24GB.
- Apple Silicon: M3 Max e M4 Max com 128GB de memória unificada podem rodar o V4-Flash com quantização pesada, lentamente. É um brinquedo de caixa de desenvolvimento, não um alvo de implantação.
Etapa 1: Baixar os pesos
Os repositórios oficiais:
deepseek-ai/DeepSeek-V4-Flashdeepseek-ai/DeepSeek-V4-Prodeepseek-ai/DeepSeek-V4-Flash-BaseeDeepSeek-V4-Pro-Basepara ajuste fino.
Instale o CLI e baixe:
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
Reserve ~500GB de disco para V4-Flash e vários terabytes para V4-Pro. ModelScope (modelscope.cn) espelha os mesmos pontos de verificação e geralmente é mais rápido para usuários na China.
Etapa 2: Escolha um mecanismo de serviço
Dois mecanismos são importantes: vLLM e SGLang.
- vLLM. Melhor taxa de transferência, interface mais limpa e compatível com OpenAI, maior comunidade. Escolha padrão.
- SGLang. Melhores primitivas de uso de ferramentas, saída estruturada e alguns ganhos em contexto longo. Escolha este se sua carga de trabalho depender muito da chamada de funções.
Ambos suportam V4 pronto para uso a partir das versões lançadas esta semana.
Etapa 3: Sirva V4-Flash com vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
Sinalizadores que vale a pena conhecer:
--tensor-parallel-size 2divide o modelo entre 2 H100s. Aumente para mais placas.--max-model-len 1048576habilita a janela de contexto completa de 1M de tokens. Diminua para 131072 se não precisar; contexto mais curto libera VRAM.--enable-prefix-cachingespelha o preço de cache-hit da API hospedada localmente. Mesmo efeito: prefixos repetidos rodam muito mais rápido.--dtype autorespeita a precisão mista FP8 do V4.
Assim que o servidor estiver ativo, qualquer cliente compatível com OpenAI funciona com http://localhost:8000/v1.
Etapa 4: Sirva V4-Pro com vLLM
O V4-Pro precisa de um cluster. A forma do comando não muda, apenas o paralelismo.
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
O contexto é reduzido para 512K aqui para caber confortavelmente em uma caixa de 16 H100; aumente-o de volta para 1M se a VRAM permitir. O paralelismo de pipeline mais o paralelismo de tensor é a forma comum para implantação entre nós.
Etapa 5: Sirva com SGLang (a alternativa para uso de ferramentas)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
O SGLang expõe a mesma interface compatível com OpenAI em http://localhost:30000/v1. Seu DSL lang oferece primitivas de chamada de função e modo JSON mais limpas do que a orientação JSON-schema do vLLM.
Etapa 6: Quantize para uma caixa de GPU única
A quantização INT4 executa o V4-Flash em uma única placa de 80GB com uma queda de qualidade mensurável, mas pequena. Dois caminhos.
AWQ (recomendado)
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ
pip install auto-gptq
# Siga a receita de quantização GPTQ; padrão semelhante ao AWQ.
Sirva o ponto de verificação quantizado com vLLM passando --quantization awq ou --quantization gptq no lançamento.
Etapa 7: Teste com Apidog
Não envie tráfego de produção para um novo servidor local. Valide-o primeiro.

- Baixe o Apidog.
- Crie uma coleção apontando para
http://localhost:8000/v1/chat/completions. - Cole o mesmo prompt de teste que você usa contra a API hospedada. Compare as respostas lado a lado.
- Atinga o endpoint com um teste de contexto de 500K tokens para confirmar que o cache KV se mantém.
- Execute um fluxo de chamada de ferramentas de ponta a ponta antes de conectar um loop de agente.
A coleção exata que você usa contra a API hospedada DeepSeek V4 funciona contra um servidor local com uma única mudança de URL base; essa é a recompensa de endpoints compatíveis com OpenAI.
Observabilidade e monitoramento
Quatro métricas para monitorar desde o primeiro dia:
- Tokens por segundo. Tanto no prompt quanto na geração. O vLLM expõe estes em
/metricsno formato Prometheus. - Utilização da GPU.
nvidia-smiou DCGM. Manter <70% geralmente significa que o tamanho do seu lote está errado. - Taxa de acertos do cache KV. Com
--enable-prefix-caching, o vLLM reporta isso; uma taxa de acertos em queda sinaliza um esgotamento de prompt que está custando desempenho. - Latência da requisição p50/p95/p99. Use rastreamento padrão; um p99 crescente com p50 estável significa que um formato de requisição está travando a fila.
Envie todos os quatro para o Grafana ou para qualquer stack de observabilidade que você já use.
Ajuste fino dos pontos de verificação Base do V4
Os pontos de verificação Base existem para pré-treinamento contínuo e SFT. O pipeline padrão:
pip install "torch>=2.6" transformers accelerate peft trl
# SFT padrão com LoRA no V4-Flash-Base
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
O ajuste fino de parâmetros completos no V4-Pro é uma tarefa de pesquisa séria. Adaptadores LoRA no V4-Flash-Base são o limite realista para a maioria das equipes; muito ganho de qualidade, uma fração da computação.
Armadilhas comuns
- OOM (Out Of Memory) na inicialização. Geralmente,
--max-model-lené definido mais alto do que a VRAM permite ou--tensor-parallel-sizeé definido muito baixo. Reduza o contexto pela metade ou dobre o paralelismo. - Primeira requisição lenta. O vLLM compila kernels preguiçosamente. A primeira chamada por formato é sempre lenta; aqueça com uma requisição dummy.
- Erros de análise do uso de ferramentas. O esquema de codificação DeepSeek difere ligeiramente do OpenAI. Fixe seu SDK em uma versão que suporte explicitamente o V4.
- Erros de FP8 em placas mais antigas. As A100s não suportam FP8 nativamente. Use BF16 em qualquer coisa anterior a Hopper; espere aproximadamente o dobro de VRAM.
Quando a hospedagem própria compensa
Cálculo aproximado do ponto de equilíbrio, baseado nos preços da API DeepSeek V4 hospedada:
- V4-Flash com 200B de tokens de entrada/mês + 20B de tokens de saída/mês: ~$33,6K na API hospedada. Uma caixa de 8 × H100 custa cerca de ~$20K/mês de aluguel. A hospedagem própria economiza ~40%.
- V4-Pro com 500B de entrada + 50B de saída por mês: ~$1,04M na API hospedada. Um cluster de 16 × H100 custa cerca de ~$35K/mês de aluguel. A hospedagem própria economiza mais de 95%.
O ponto de equilíbrio para o V4-Flash fica em aproximadamente 100B de tokens/mês em mix de produção. Abaixo disso, a API hospedada é mais barata e a sobrecarga operacional não vale a pena.
FAQ
Posso executar V4-Flash em uma única A100?Com quantização pesada e contexto mais curto, sim, mas lentamente. O INT4 em uma A100 de 80GB roda de 5 a 15 tok/s. A H100 é onde a arquitetura realmente deseja rodar.
O V4 suporta ajuste fino com LoRA?Sim. Use os pontos de verificação Base e os pipelines padrão TRL ou Axolotl. O roteamento MoE não altera a matemática do LoRA.
O servidor local é compatível com OpenAI?Sim. vLLM e SGLang ambos expõem /v1/chat/completions e /v1/completions com o formato de requisição do OpenAI. O guia da API hospedada funciona inalterado com localhost.
Como habilito o modo de pensamento localmente?Passe thinking_mode: "thinking" ou "thinking_max" no corpo da requisição. vLLM e SGLang encaminham o sinalizador para o modelo.
Posso fazer streaming de um servidor V4 local?Sim. Defina stream: true exatamente como faria com o OpenAI ou a API DeepSeek hospedada.
Qual a forma mais barata de experimentar antes de comprar hardware?Alugue uma única H100 no RunPod ou Lambda por algumas horas, execute o V4-Flash em INT4 e meça a taxa de transferência com seus prompts reais. Um teste de $10 a $30 responde à questão do hardware mais rápido do que uma semana de planejamento.
