DeepSeek V4 est sorti le 23 avril 2026 avec des poids sous licence MIT sur Hugging Face. Ce choix de licence unique change la donne pour toute équipe souhaitant une IA de pointe sur son propre matériel. V4-Flash (284 milliards au total, 13 milliards actifs) tient sur une paire de H100 en FP8. V4-Pro (1,6 téraoctet au total, 49 milliards actifs) nécessite un cluster mais est compétitif avec GPT-5.5 et Claude Opus 4.6 en matière de code et de raisonnement.
Ce guide est le mode d'emploi pour le déploiement local. Il couvre les exigences matérielles, les options de quantification, les configurations vLLM et SGLang, la configuration de l'utilisation des outils, et un workflow de test dans Apidog qui valide le serveur local avant de lui diriger le trafic de production.
Pour un aperçu du produit, consultez qu'est-ce que DeepSeek V4. Pour le chemin de l'API hébergée, consultez comment utiliser l'API DeepSeek V4. Pour une comparaison des coûts, consultez tarification de l'API DeepSeek V4.
En bref
- V4-Flash fonctionne sur 2 × H100 80 Go en FP8, ou 1 × H100 en INT4. Les poids sont d'environ 500 Go en FP8.
- V4-Pro nécessite plus de 16 H100 en FP8 pour un débit de production ; ce n'est pas un modèle pour ordinateur portable.
- vLLM est le moyen le plus rapide d'obtenir un serveur compatible OpenAI.
vllm>=0.9.0ajoute le support de V4. - SGLang est l'alternative pour les équipes qui souhaitent de meilleures fonctionnalités d'utilisation d'outils et de sortie structurée.
- La quantification en AWQ INT4 ou GPTQ INT4 permet de faire tenir V4-Flash sur une seule carte de 80 Go avec environ 5 % de perte de qualité.
- Utilisez Apidog pour pointer vers
http://localhost:8000/v1et réutiliser la collection exacte que vous utilisez contre l'API hébergée.
Qui devrait auto-héberger
L'auto-hébergement de V4 est la bonne décision pour trois types d'équipes.
- Soumises à des exigences de conformité. Travaux dans la santé, la finance, le juridique ou la défense où les données ne peuvent pas quitter le réseau. La licence MIT à poids ouverts signifie aucun accord d'utilisation, aucun flux de données transfrontalier.
- Charges de travail importantes et stables. Aux taux de cache-miss, l'API V4-Pro coûte 1,74 $ / M d'entrée et 3,48 $ / M de sortie. Pour les charges de travail dépassant environ 200 milliards de tokens par mois, le matériel dédié commence à être plus avantageux que l'économie par token.
- Réglage fin (fine-tuning) et recherche. Les checkpoints de base existent spécifiquement pour la pré-formation continue et l'adaptation de domaine. La licence MIT couvre la redistribution commerciale du modèle résultant.
Qui ne devrait pas auto-héberger : les prototypistes, les équipes sans expérience en opérations GPU, et toute personne dont la charge de travail rentre dans 200 $/mois d'utilisation de l'API hébergée. Les frais opérationnels annulent rapidement les économies de coûts à petite échelle.
Exigences matérielles
DeepSeek V4 utilise nativement la précision mixte FP4 + FP8. Cela signifie que le calcul de la mémoire est plus avantageux qu'un calcul naïf du nombre de paramètres ne le suggérerait.
| Variante | Paramètres totaux | Paramètres actifs | VRAM FP8 | VRAM INT4 | Cartes minimum |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | ~500Go | ~140Go | 2 × H100 80Go (FP8) ou 1 × H100 (INT4) |
| V4-Pro | 1.6T | 49B | ~2.4To | ~700Go | 16 × H100 80Go (FP8) ou 8 × H100 (INT4) |
Quelques clarifications :
- La mémoire MoE est totale, pas active. Vous avez besoin de suffisamment de VRAM pour tous les experts, même si seul un sous-ensemble est activé par token. Le chiffre de 13 milliards « actifs » ne reflète que le coût de calcul par token, pas la mémoire.
- Les H200 et MI300X s'intègrent parfaitement. 141 Go ou 192 Go par carte signifie moins de cartes pour le même modèle.
- Les GPU grand public ne conviennent pas. Même V4-Flash en INT4 ne fonctionne pas sur une RTX 5090 de 24 Go.
- Apple Silicon : Les M3 Max et M4 Max avec 128 Go de mémoire unifiée peuvent exécuter V4-Flash avec une forte quantification, mais lentement. C'est un jouet de développement, pas une cible de déploiement.
Étape 1 : Télécharger les poids
Les dépôts officiels :
deepseek-ai/DeepSeek-V4-Flashdeepseek-ai/DeepSeek-V4-Prodeepseek-ai/DeepSeek-V4-Flash-BaseetDeepSeek-V4-Pro-Basepour le réglage fin.
Installez la CLI et téléchargez :
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
Réservez environ 500 Go de disque pour V4-Flash et plusieurs téraoctets pour V4-Pro. ModelScope (modelscope.cn) reflète les mêmes checkpoints et est généralement plus rapide pour les utilisateurs en Chine.
Étape 2 : Choisir un moteur de service
Deux moteurs sont importants : vLLM et SGLang.
- vLLM. Meilleur débit, interface compatible OpenAI la plus propre, la plus grande communauté. Choix par défaut.
- SGLang. Meilleures primitives d'utilisation d'outils, sortie structurée et quelques gains sur les contextes longs. Choisissez-le si votre charge de travail dépend fortement de l'appel de fonctions.
Les deux prennent en charge V4 dès la sortie des versions publiées cette semaine.
Étape 3 : Servir V4-Flash avec vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
Options à connaître :
--tensor-parallel-size 2divise le modèle sur 2 H100. Augmentez-le pour plus de cartes.--max-model-len 1048576active la fenêtre de contexte complète de 1M de tokens. Réduisez à 131072 si vous n'en avez pas besoin ; un contexte plus court libère de la VRAM.--enable-prefix-cachingreproduit localement la tarification des accès au cache de l'API hébergée. Même effet : les préfixes répétés s'exécutent beaucoup plus rapidement.--dtype autorespecte la précision mixte FP8 de V4.
Une fois le serveur démarré, tout client compatible OpenAI fonctionne avec http://localhost:8000/v1.
Étape 4 : Servir V4-Pro avec vLLM
V4-Pro nécessite un cluster. La forme de la commande ne change pas, seul le parallélisme.
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
Le contexte est réduit à 512K ici pour tenir confortablement sur un boîtier de 16 H100 ; ramenez-le à 1M si la VRAM le permet. Le parallélisme pipeline plus le parallélisme tensoriel est la forme courante pour le déploiement multi-nœuds.
Étape 5 : Servir avec SGLang (l'alternative pour l'utilisation d'outils)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
SGLang expose la même interface compatible OpenAI à http://localhost:30000/v1. Son DSL lang offre des primitives d'appel de fonction et de mode JSON plus propres que la guidance par schéma JSON de vLLM.
Étape 6 : Quantifier pour un boîtier à GPU unique
La quantification INT4 exécute V4-Flash sur une seule carte de 80 Go avec une perte de qualité mesurable mais faible. Deux chemins.
AWQ (recommandé)
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ
pip install auto-gptq
# Suivez la recette de quantification GPTQ ; schéma similaire à AWQ.
Servez le checkpoint quantifié avec vLLM en passant --quantization awq ou --quantization gptq au lancement.
Étape 7 : Tester avec Apidog
N'envoyez pas de trafic de production à un serveur local fraîchement installé. Validez-le d'abord.

- Téléchargez Apidog.
- Créez une collection pointant vers
http://localhost:8000/v1/chat/completions. - Collez la même invite de test que vous utilisez contre l'API hébergée. Comparez les réponses côte à côte.
- Frappez le point de terminaison avec un test de contexte de 500K tokens pour confirmer que le cache KV tient bon.
- Exécutez un flux d'appel d'outils de bout en bout avant de connecter une boucle d'agent.
La collection exacte que vous utilisez contre l'API DeepSeek V4 hébergée fonctionne contre un serveur local avec un seul changement d'URL de base ; c'est l'avantage des points de terminaison compatibles OpenAI.
Observabilité et surveillance
Quatre métriques à suivre dès le premier jour :
- Tokens par seconde. À la fois pour l'invite et la génération. vLLM les expose sur
/metricsau format Prometheus. - Utilisation du GPU.
nvidia-smiou DCGM. Un maintien sous 70 % signifie généralement que votre taille de lot est incorrecte. - Taux d'accès au cache KV. Avec
--enable-prefix-caching, vLLM le rapporte ; un taux d'accès en baisse signale un roulement d'invites qui coûte en débit. - Latence des requêtes p50/p95/p99. Utilisez le traçage standard ; un p99 croissant avec un p50 stable signifie qu'une forme de requête bloque la file d'attente.
Envoyez les quatre à Grafana ou à toute pile d'observabilité que vous utilisez déjà.
Réglage fin (fine-tuning) des checkpoints de base V4
Les checkpoints de base existent pour la pré-formation continue et le SFT. Le pipeline standard :
pip install "torch>=2.6" transformers accelerate peft trl
# SFT standard avec LoRA sur V4-Flash-Base
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
Le réglage fin à paramètres complets sur V4-Pro est une tâche de recherche sérieuse. Les adaptateurs LoRA sur V4-Flash-Base représentent le plafond réaliste pour la plupart des équipes ; un gain de qualité considérable pour une fraction de la puissance de calcul.
Pièges courants
- OOM au démarrage. Généralement, soit
--max-model-lenest défini plus haut que ce que la VRAM permet, soit--tensor-parallel-sizeest trop bas. Réduisez le contexte de moitié ou doublez le parallélisme. - Première requête lente. vLLM compile les noyaux de manière paresseuse. Le premier appel par forme est toujours lent ; préchauffez avec une requête factice.
- Erreurs d'analyse de l'utilisation d'outils. Le schéma d'encodage DeepSeek diffère légèrement de celui d'OpenAI. Épinglez votre SDK à une version qui prend explicitement en charge V4.
- Erreurs FP8 sur les cartes plus anciennes. Les A100 ne prennent pas en charge FP8 nativement. Utilisez BF16 sur tout ce qui précède Hopper ; attendez-vous à environ 2x la VRAM.
Quand l'auto-hébergement est rentable
Calcul approximatif du seuil de rentabilité, basé sur la tarification de l'API DeepSeek V4 hébergée :
- V4-Flash à 200 milliards de tokens d'entrée/mois + 20 milliards de tokens de sortie/mois : ~33,6K $ sur l'API hébergée. Un boîtier de 8 × H100 coûte ~20K $/mois en location. L'auto-hébergement permet d'économiser environ 40 %.
- V4-Pro à 500 milliards d'entrée + 50 milliards de sortie par mois : ~1,04 M$ sur l'API hébergée. Un cluster de 16 × H100 coûte ~35K $/mois en location. L'auto-hébergement permet d'économiser plus de 95 %.
Le seuil de rentabilité pour V4-Flash se situe à environ 100 milliards de tokens/mois avec des mélanges de production. En dessous, l'API hébergée est moins chère et les frais opérationnels n'en valent pas la peine.
FAQ
Puis-je exécuter V4-Flash sur une seule A100 ?Avec une quantification lourde et un contexte plus court, oui, mais lentement. L'INT4 sur une A100 de 80 Go fonctionne à 5 à 15 tok/s. La H100 est là où l'architecture veut réellement fonctionner.
V4 prend-il en charge le réglage fin (fine-tuning) LoRA ?Oui. Utilisez les checkpoints de base et les pipelines TRL ou Axolotl standards. Le routage MoE ne modifie pas le calcul LoRA.
Le serveur local est-il compatible OpenAI ?Oui. vLLM et SGLang exposent tous deux /v1/chat/completions et /v1/completions avec la forme de requête OpenAI. Le guide de l'API hébergée fonctionne sans modification contre localhost.
Comment activer le mode réflexion localement ?Passez thinking_mode: "thinking" ou "thinking_max" dans le corps de la requête. vLLM et SGLang transmettent le drapeau au modèle.
Puis-je streamer depuis un serveur V4 local ?Oui. Définissez stream: true exactement comme vous le feriez contre OpenAI ou l'API DeepSeek hébergée.
Quel est le moyen le moins cher d'expérimenter avant d'acheter du matériel ?Louez une seule H100 sur RunPod ou Lambda pendant quelques heures, exécutez V4-Flash en INT4, et mesurez le débit par rapport à vos invites réelles. Un test de 10 à 30 $ répond à la question du matériel plus rapidement qu'une semaine de planification.
