Comment exécuter DeepSeek V4 localement ?

Ashley Innocent

Ashley Innocent

24 April 2026

Comment exécuter DeepSeek V4 localement ?

Apidog pour les entreprises

Déploiement sur site

SSO & RBAC

Conforme SOC 2

Explorer Apidog Enterprise

DeepSeek V4 est sorti le 23 avril 2026 avec des poids sous licence MIT sur Hugging Face. Ce choix de licence unique change la donne pour toute équipe souhaitant une IA de pointe sur son propre matériel. V4-Flash (284 milliards au total, 13 milliards actifs) tient sur une paire de H100 en FP8. V4-Pro (1,6 téraoctet au total, 49 milliards actifs) nécessite un cluster mais est compétitif avec GPT-5.5 et Claude Opus 4.6 en matière de code et de raisonnement.

Ce guide est le mode d'emploi pour le déploiement local. Il couvre les exigences matérielles, les options de quantification, les configurations vLLM et SGLang, la configuration de l'utilisation des outils, et un workflow de test dans Apidog qui valide le serveur local avant de lui diriger le trafic de production.

bouton

Pour un aperçu du produit, consultez qu'est-ce que DeepSeek V4. Pour le chemin de l'API hébergée, consultez comment utiliser l'API DeepSeek V4. Pour une comparaison des coûts, consultez tarification de l'API DeepSeek V4.

En bref

Qui devrait auto-héberger

L'auto-hébergement de V4 est la bonne décision pour trois types d'équipes.

  1. Soumises à des exigences de conformité. Travaux dans la santé, la finance, le juridique ou la défense où les données ne peuvent pas quitter le réseau. La licence MIT à poids ouverts signifie aucun accord d'utilisation, aucun flux de données transfrontalier.
  2. Charges de travail importantes et stables. Aux taux de cache-miss, l'API V4-Pro coûte 1,74 $ / M d'entrée et 3,48 $ / M de sortie. Pour les charges de travail dépassant environ 200 milliards de tokens par mois, le matériel dédié commence à être plus avantageux que l'économie par token.
  3. Réglage fin (fine-tuning) et recherche. Les checkpoints de base existent spécifiquement pour la pré-formation continue et l'adaptation de domaine. La licence MIT couvre la redistribution commerciale du modèle résultant.

Qui ne devrait pas auto-héberger : les prototypistes, les équipes sans expérience en opérations GPU, et toute personne dont la charge de travail rentre dans 200 $/mois d'utilisation de l'API hébergée. Les frais opérationnels annulent rapidement les économies de coûts à petite échelle.

Exigences matérielles

DeepSeek V4 utilise nativement la précision mixte FP4 + FP8. Cela signifie que le calcul de la mémoire est plus avantageux qu'un calcul naïf du nombre de paramètres ne le suggérerait.

Variante Paramètres totaux Paramètres actifs VRAM FP8 VRAM INT4 Cartes minimum
V4-Flash 284B 13B ~500Go ~140Go 2 × H100 80Go (FP8) ou 1 × H100 (INT4)
V4-Pro 1.6T 49B ~2.4To ~700Go 16 × H100 80Go (FP8) ou 8 × H100 (INT4)

Quelques clarifications :

Étape 1 : Télécharger les poids

Les dépôts officiels :

Installez la CLI et téléchargez :

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Réservez environ 500 Go de disque pour V4-Flash et plusieurs téraoctets pour V4-Pro. ModelScope (modelscope.cn) reflète les mêmes checkpoints et est généralement plus rapide pour les utilisateurs en Chine.

Étape 2 : Choisir un moteur de service

Deux moteurs sont importants : vLLM et SGLang.

Les deux prennent en charge V4 dès la sortie des versions publiées cette semaine.

Étape 3 : Servir V4-Flash avec vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

Options à connaître :

Une fois le serveur démarré, tout client compatible OpenAI fonctionne avec http://localhost:8000/v1.

Étape 4 : Servir V4-Pro avec vLLM

V4-Pro nécessite un cluster. La forme de la commande ne change pas, seul le parallélisme.

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

Le contexte est réduit à 512K ici pour tenir confortablement sur un boîtier de 16 H100 ; ramenez-le à 1M si la VRAM le permet. Le parallélisme pipeline plus le parallélisme tensoriel est la forme courante pour le déploiement multi-nœuds.

Étape 5 : Servir avec SGLang (l'alternative pour l'utilisation d'outils)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

SGLang expose la même interface compatible OpenAI à http://localhost:30000/v1. Son DSL lang offre des primitives d'appel de fonction et de mode JSON plus propres que la guidance par schéma JSON de vLLM.

Étape 6 : Quantifier pour un boîtier à GPU unique

La quantification INT4 exécute V4-Flash sur une seule carte de 80 Go avec une perte de qualité mesurable mais faible. Deux chemins.

AWQ (recommandé)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# Suivez la recette de quantification GPTQ ; schéma similaire à AWQ.

Servez le checkpoint quantifié avec vLLM en passant --quantization awq ou --quantization gptq au lancement.

Étape 7 : Tester avec Apidog

N'envoyez pas de trafic de production à un serveur local fraîchement installé. Validez-le d'abord.

  1. Téléchargez Apidog.
  2. Créez une collection pointant vers http://localhost:8000/v1/chat/completions.
  3. Collez la même invite de test que vous utilisez contre l'API hébergée. Comparez les réponses côte à côte.
  4. Frappez le point de terminaison avec un test de contexte de 500K tokens pour confirmer que le cache KV tient bon.
  5. Exécutez un flux d'appel d'outils de bout en bout avant de connecter une boucle d'agent.

La collection exacte que vous utilisez contre l'API DeepSeek V4 hébergée fonctionne contre un serveur local avec un seul changement d'URL de base ; c'est l'avantage des points de terminaison compatibles OpenAI.

Observabilité et surveillance

Quatre métriques à suivre dès le premier jour :

Envoyez les quatre à Grafana ou à toute pile d'observabilité que vous utilisez déjà.

Réglage fin (fine-tuning) des checkpoints de base V4

Les checkpoints de base existent pour la pré-formation continue et le SFT. Le pipeline standard :

pip install "torch>=2.6" transformers accelerate peft trl

# SFT standard avec LoRA sur V4-Flash-Base
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

Le réglage fin à paramètres complets sur V4-Pro est une tâche de recherche sérieuse. Les adaptateurs LoRA sur V4-Flash-Base représentent le plafond réaliste pour la plupart des équipes ; un gain de qualité considérable pour une fraction de la puissance de calcul.

Pièges courants

  1. OOM au démarrage. Généralement, soit --max-model-len est défini plus haut que ce que la VRAM permet, soit --tensor-parallel-size est trop bas. Réduisez le contexte de moitié ou doublez le parallélisme.
  2. Première requête lente. vLLM compile les noyaux de manière paresseuse. Le premier appel par forme est toujours lent ; préchauffez avec une requête factice.
  3. Erreurs d'analyse de l'utilisation d'outils. Le schéma d'encodage DeepSeek diffère légèrement de celui d'OpenAI. Épinglez votre SDK à une version qui prend explicitement en charge V4.
  4. Erreurs FP8 sur les cartes plus anciennes. Les A100 ne prennent pas en charge FP8 nativement. Utilisez BF16 sur tout ce qui précède Hopper ; attendez-vous à environ 2x la VRAM.

Quand l'auto-hébergement est rentable

Calcul approximatif du seuil de rentabilité, basé sur la tarification de l'API DeepSeek V4 hébergée :

Le seuil de rentabilité pour V4-Flash se situe à environ 100 milliards de tokens/mois avec des mélanges de production. En dessous, l'API hébergée est moins chère et les frais opérationnels n'en valent pas la peine.

FAQ

Puis-je exécuter V4-Flash sur une seule A100 ?Avec une quantification lourde et un contexte plus court, oui, mais lentement. L'INT4 sur une A100 de 80 Go fonctionne à 5 à 15 tok/s. La H100 est là où l'architecture veut réellement fonctionner.

V4 prend-il en charge le réglage fin (fine-tuning) LoRA ?Oui. Utilisez les checkpoints de base et les pipelines TRL ou Axolotl standards. Le routage MoE ne modifie pas le calcul LoRA.

Le serveur local est-il compatible OpenAI ?Oui. vLLM et SGLang exposent tous deux /v1/chat/completions et /v1/completions avec la forme de requête OpenAI. Le guide de l'API hébergée fonctionne sans modification contre localhost.

Comment activer le mode réflexion localement ?Passez thinking_mode: "thinking" ou "thinking_max" dans le corps de la requête. vLLM et SGLang transmettent le drapeau au modèle.

Puis-je streamer depuis un serveur V4 local ?Oui. Définissez stream: true exactement comme vous le feriez contre OpenAI ou l'API DeepSeek hébergée.

Quel est le moyen le moins cher d'expérimenter avant d'acheter du matériel ?Louez une seule H100 sur RunPod ou Lambda pendant quelques heures, exécutez V4-Flash en INT4, et mesurez le débit par rapport à vos invites réelles. Un test de 10 à 30 $ répond à la question du matériel plus rapidement qu'une semaine de planification.

bouton

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API