DeepSeek a lancé la V4 le 23 avril 2026, et ce n'est pas une version mineure. Le laboratoire de Hangzhou a publié quatre checkpoints en même temps, dont le DeepSeek-V4-Pro, qui totalise 1,6 billion de paramètres, est assorti d'une licence MIT et dispose d'une fenêtre contextuelle d'un million de jetons. Le frère plus petit, DeepSeek-V4-Flash, atteint 284 milliards de paramètres avec le même contexte et les mêmes poids ouverts. Les benchmarks placent la variante Pro devant Claude Opus 4.6 sur LiveCodeBench et Codeforces, et à portée de main de GPT-5.4 xHigh sur MMLU-Pro.
Si vous hésitez à remplacer Claude, GPT-5.5 ou Qwen par DeepSeek V4, ce guide explique ce qu'est le modèle, ce qui a changé depuis la V3.2, les choix architecturaux qui sous-tendent les résultats des benchmarks, et où l'exécuter aujourd'hui.
Pour les guides pas à pas correspondants pour les développeurs, nous avons un guide de l'API DeepSeek V4, un guide d'accès gratuit, et un tutoriel complet sur l'utilisation de DeepSeek V4. La structure des requêtes correspond parfaitement au format d'OpenAI, vous pouvez donc pré-construire la collection dans Apidog avant qu'une clé n'arrive dans votre boîte de réception.
En bref
- DeepSeek V4 est une famille de modèles "Mixture-of-Experts" (Mélange d'Experts) publiée le 23 avril 2026 sous la licence MIT.
- Quatre checkpoints sont livrés au lancement : V4-Pro, V4-Pro-Base, V4-Flash et V4-Flash-Base.
- V4-Pro totalise 1,6 billion de paramètres dont 49 milliards actifs ; V4-Flash totalise 284 milliards de paramètres dont 13 milliards actifs.
- Les deux variantes disposent d'une fenêtre contextuelle d'un million de jetons et de trois modes de raisonnement : Non-Think, Think High et Think Max.
- Scores phares : LiveCodeBench 93,5, Codeforces 3206, MMLU-Pro 87,5 (variante Pro).
- L'API est disponible sur
api.deepseek.comavecdeepseek-v4-proetdeepseek-v4-flashcomme identifiants de modèle ; les poids sont sur Hugging Face et ModelScope.
Ce qu'est réellement DeepSeek V4
DeepSeek V4 succède aux lignes V3 et V3.2 qui ont fait la réputation du laboratoire l'année dernière. L'architecture reste "Mixture-of-Experts" (Mélange d'Experts), mais la forme du modèle a changé. Le V4-Pro n'active que 49 milliards de ses 1,6 billion de paramètres par jeton, de sorte que le coût de calcul par jeton ressemble plus à celui d'un modèle dense de 50 milliards de paramètres qu'à celui d'un système de pointe d'un billion de paramètres. Lisez le rapport technique complet sur la fiche modèle DeepSeek V4.

Quatre checkpoints sont livrés au lancement :
- DeepSeek-V4-Pro — le fleuron. 1,6T au total, 49 milliards actifs, 1M de contexte. C'est celui que la plupart des équipes appelleront via l'API.
- DeepSeek-V4-Pro-Base — la base pré-entraînée sans post-entraînement. Destiné aux chercheurs et aux équipes qui créent des ajustements personnalisés.
- DeepSeek-V4-Flash — la variante axée sur l'efficacité. 284 milliards au total, 13 milliards actifs, même contexte de 1M. Cible les charges de travail sensibles à la latence et le déploiement local sur deux ou trois H100.
- DeepSeek-V4-Flash-Base — le checkpoint de base correspondant pour Flash.
Les quatre sont publiés sous licence MIT, ce qui est la nouvelle la plus importante. GPT-5.5 est fermé et coûte 5 $ par million de jetons d'entrée ; Claude Opus 4.6 est fermé et coûte environ 15 $. DeepSeek V4-Pro propose des poids ouverts que vous pouvez télécharger, dupliquer, affiner et déployer sur votre propre matériel sans frais de licence.
Ce qui a changé depuis la V3.2
La V3 était déjà compétitive en matière de raisonnement et de code. La V4 réécrit la pile d'attention et le pipeline d'entraînement pour favoriser à la fois un long contexte et l'efficacité.
| Capacité | V3.2 | V4-Pro |
|---|---|---|
| Paramètres totaux | 685B | 1.6T |
| Paramètres actifs | 37B | 49B |
| Fenêtre contextuelle | 128K | 1M |
| FLOPs d'inférence (contexte 1M) | référence | 27% de la V3.2 |
| Cache KV (contexte 1M) | référence | 10% de la V3.2 |
| Précision | FP8 | FP4 + FP8 mixte |
| Licence | Licence DeepSeek | MIT |
| Modes de raisonnement | simple | trois |
Trois éléments expliquent ce bond en avant. Premièrement, une nouvelle pile d'attention hybride qui associe l'Attention Compressée Sparse (Compressed Sparse Attention) à l'Attention Lourdement Compressée (Heavily Compressed Attention) ; c'est de là que provient le chiffre de 10 % pour le cache KV. Deuxièmement, les Hyper-Connexions Contraintes par Manifold (Manifold-Constrained Hyper-Connections) qui stabilisent les gradients à la profondeur requise par la V4. Troisièmement, un passage à l'optimiseur Muon pour une convergence plus rapide. Le corpus d'entraînement a également dépassé les 32 billions de jetons, et le post-entraînement utilise un pipeline en deux étapes qui cultive d'abord des experts spécifiques à un domaine, puis les consolide par distillation basée sur la politique.

Les benchmarks qui comptent
Les chiffres rapportés par DeepSeek placent la V4-Pro en tête pour le codage et les connaissances, avec quelques lacunes en matière de récupération de contexte long.

Pour le V4-Flash, la variante plus petite, DeepSeek rapporte MMLU-Pro 86,2, GPQA Diamond 88,1, LiveCodeBench 91,6, Codeforces 3052, et SWE Verified 79,0. C'est un territoire de pointe pour un modèle actif de 13 milliards de paramètres, et c'est pourquoi Flash est le checkpoint intéressant pour quiconque déploie sur son propre matériel. Voir la fiche DeepSeek V4-Flash pour le tableau complet.
En toute honnêteté : la V4-Pro gagne sur le code, gagne sur le rappel factuel ouvert, est derrière Gemini 3.1 Pro sur les connaissances générales, et est derrière Claude Opus sur les benchmarks de récupération de contexte d'un million de jetons. Si votre charge de travail est du codage agentique ou une analyse basée sur le raisonnement, la V4-Pro est à considérer. S'il s'agit d'une recherche d'aiguille dans une botte de foin sur un million de jetons, Claude a toujours l'avantage.
Trois modes de raisonnement
Chaque checkpoint V4 propose trois efforts de raisonnement, et choisir le bon est le plus grand levier de coût.
- Non-Think — chemin rapide. Génération en un seul passage, pas de chaîne de pensée, pas de jetons de raisonnement supplémentaires. À utiliser pour la classification, le routage, les résumés courts, et tout ce où la latence est plus importante que la précision.
- Think High — le mode par défaut pour les tâches complexes. Le modèle écrit des jetons de raisonnement avant la réponse, planifie les appels d'outils et vérifie sa sortie. Correspond à ce que GPT-5.5 appelle le "mode de pensée" et ce que Claude appelle la "pensée étendue".
- Think Max — le plafond. Traces de raisonnement plus longues, auto-critique plus agressive et une recommandation de fenêtre contextuelle minimale de 384 000 jetons. C'est ce qui produit le score de 93,5 à LiveCodeBench ; attendez-vous à une augmentation correspondante du coût des jetons.
Basculez entre eux avec un seul paramètre thinking_mode dans l'API ou un drapeau dans le script d'inférence local. La recommandation d'échantillonnage de DeepSeek est temperature=1.0, top_p=1.0 pour les trois modes.
Architecture en langage simple
Le document sur l'architecture de la V4 est dense, mais trois choix expliquent l'histoire de son efficacité.
- Attention hybride. La plupart des couches de transformateurs utilisent l'Attention Sparse Compressée, qui maintient un petit groupe de jetons de grande valeur pleinement attentifs et compresse le reste. Une poignée de couches utilisent l'Attention Lourdement Compressée, dont le coût est plus proche d'un coût linéaire en fonction de la longueur de la séquence. Ce mélange est ce qui permet d'atteindre les 27 % de FLOPs et les 10 % de cache KV pour 1 million de jetons.
- Hyper-Connexions Contraintes par Manifold. Au lieu de simples connexions résiduelles, la V4 enveloppe les résidus de chaque couche dans une contrainte qui maintient les activations sur une variété stable. L'effet pratique est que vous pouvez empiler plus de couches sans chaos de gradient.
- Optimiseur Muon. Remplace AdamW pour la majeure partie de l'entraînement. Muon converge plus rapidement et gère mieux les normes de gradient énormes que les modèles MoE produisent que ne le fait AdamW.
Aucune de ces idées n'est entièrement nouvelle en soi. La contribution de la V4 est de faire fonctionner les trois ensemble à l'échelle du billion de paramètres sans faire exploser l'entraînement.
Disponibilité aujourd'hui
DeepSeek a lancé les quatre checkpoints et l'API le même jour. Voici un aperçu au 24 avril 2026.
| Surface | Accès |
|---|---|
| chat.deepseek.com | Chat web gratuit, V4-Pro par défaut, connexion requise |
| API DeepSeek | En direct sur api.deepseek.com ; ID de modèles deepseek-v4-pro, deepseek-v4-flash |
| Poids Hugging Face | V4-Pro, V4-Flash, tous deux MIT |
| ModelScope | Poids dupliqués pour les utilisateurs en Chine |
| OpenRouter et agrégateurs | Prévu dans les jours à venir ; schéma de lancement typique de DeepSeek |
deepseek-chat / deepseek-reasoner |
Déprécié le 24 juillet 2026 |
L'avis de dépréciation mérite d'être souligné. Si vous utilisez toujours deepseek-chat en production, vous avez trois mois pour migrer vers deepseek-v4-pro ou deepseek-v4-flash.
Comparaison avec GPT-5.5 et Claude
La comparaison à trois voies qui intéresse le plus les équipes :
- Coût. V4-Pro et V4-Flash ont des poids ouverts. GPT-5.5 et Claude Opus 4.6 n'en ont pas. Si vous pouvez héberger vous-même, V4 l'emporte sur l'économie unitaire à toute échelle sérieuse.
- Codage. Les scores de V4-Pro (93,5 sur LiveCodeBench et 3206 sur Codeforces) surpassent ceux de GPT-5.5 et de Claude Opus sur les mêmes suites.
- Étendue des connaissances. Gemini 3.1 Pro est toujours en tête du MMLU-Pro avec 91,0. GPT-5.5 et V4-Pro sont à égalité avec 87,5. Sur SimpleQA-Verified, V4 bat GPT-5.5 et Claude par deux chiffres.
- Récupération de contexte long. Claude Opus gagne le MRCR 1M par environ 9 points. Si votre charge de travail est de "trouver la phrase unique dans un million de jetons", Claude est toujours le choix le plus sûr.
- Licence. La licence MIT signifie que vous pouvez intégrer V4-Pro dans un produit sans accord d'utilisation. Rien de ce qu'offrent OpenAI ou Anthropic ne correspond à cela.
Ce que vous pouvez construire avec
Quatre types de charges de travail s'alignent parfaitement avec les atouts de la V4 :
- Boucles de codage agentiques. Les scores SWE Verified 79,0 et Codeforces 3206 indiquent directement le débogage multi-fichiers, les refactorisations conscientes du dépôt et les corrections de tests autonomes. Associez-le à un bon client API comme Apidog pour inspecter chaque requête et réponse pendant que vous ajustez les invites.
- Raisonnement sur de longs documents. 1 million de jetons suffisent pour la plupart des monorepos, la plupart des contrats et la plupart des corpus de recherche. Think High est le mode approprié pour cela.
- Produits d'IA auto-hébergés. Si vos exigences de conformité nécessitent une inférence sur site, V4-Flash est le premier modèle à poids ouverts qui rivalise en qualité avec les API de pointe fermées.
- Recherche et affinement. Les checkpoints de base sont là spécifiquement pour l'entraînement personnalisé. Associez-les à vos données de domaine et à un pipeline SFT standard. La licence MIT couvre la redistribution commerciale du modèle résultant.
Là où il ne convient pas : la classification à grand volume, la récupération d'embeddings ou le chat à courtes invites. V4-Flash est encore excessif pour ces cas, et les anciens checkpoints de DeepSeek coûtent moins cher.
Tarification en une phrase
DeepSeek n'avait pas publié la grille tarifaire finale de l'API au moment de la rédaction. La V3.2 fonctionnait à environ 0,28 $ par million de jetons d'entrée et 0,42 $ par million de jetons de sortie, et le laboratoire a l'habitude de maintenir la tarification de la série V proche de ce plancher. Attendez-vous à ce que V4-Flash se situe dans la même fourchette et V4-Pro à un léger supplément. Les concurrents fermés facturent de 5 à 15 $ par million de jetons d'entrée, donc même un bond de 3x par rapport à la V3.2 laisse DeepSeek bien en dessous de la médiane des API de pointe. Suivez les chiffres en direct sur la page de tarification de DeepSeek.
Comment tester la V4 aujourd'hui
Trois chemins, classés par temps de premier jeton.
- Chat Web. Ouvrez chat.deepseek.com et connectez-vous. V4-Pro est le mode par défaut ; passez à Think High dans l'interface utilisateur. Gratuit, sans carte, fonctionne dès maintenant.
- API. Obtenez une clé, pointez votre client vers
https://api.deepseek.com, définissez"model": "deepseek-v4-pro", et c'est parti. La forme de la requête est compatible avec OpenAI, donc tout client OpenAI existant fonctionne avec un simple changement d'URL de base. Guide complet dans le guide de l'API DeepSeek V4. - Poids locaux. Téléchargez depuis Hugging Face ou ModelScope. V4-Flash fonctionne sur 2 à 4 H100 ; V4-Pro nécessite un cluster sérieux. Le code d'inférence se trouve dans le dossier
/inferencedu dépôt du modèle.
Pour le guide complet incluant l'itération d'invites basée sur Apidog, consultez comment utiliser DeepSeek V4. Pour maintenir les dépenses à zéro, consultez comment utiliser DeepSeek V4 gratuitement. Téléchargez Apidog et pré-construisez votre collection ; le format compatible OpenAI signifie qu'une seule requête fonctionne sur DeepSeek, OpenAI et toutes les autres API de pointe.
FAQ
DeepSeek V4 est-il vraiment open source ?Oui. Les quatre checkpoints sont sous licence MIT, ce qui autorise l'utilisation commerciale, la modification et la redistribution sans accord d'utilisation séparé.
Ai-je besoin d'un cluster GPU pour exécuter V4-Flash ?Vous avez besoin de deux à quatre H100 ou H200 pour V4-Flash en pleine précision, moins si vous quantifiez. V4-Pro nécessite un véritable cluster. Si vous voulez essayer V4 sans matériel, utilisez l'API ou chat.deepseek.com.
Quand la V4 sera-t-elle disponible sur l'API DeepSeek ?Elle est déjà en ligne depuis le 23 avril 2026. Les identifiants de modèle sont deepseek-v4-pro et deepseek-v4-flash. Les anciens identifiants deepseek-chat et deepseek-reasoner seront dépréciés le 24 juillet 2026.
Comment la V4 se compare-t-elle à Kimi et Qwen ?La V4-Pro affiche des scores LiveCodeBench et Codeforces plus élevés que Kimi K2 et Qwen 3 Max dans les tableaux rapportés par DeepSeek. Tous trois sont des systèmes MoE à poids ouverts avec des profils de déploiement similaires. Choisissez en fonction du benchmark le plus proche de votre charge de travail.
Puis-je affiner la V4 avec mes propres données ?Oui. Les checkpoints de base existent pour cela ; associez-les à vos données de domaine et à un pipeline SFT standard. La licence MIT couvre la redistribution commerciale du modèle résultant.
La V4 fonctionnera-t-elle avec mes outils compatibles OpenAI existants ?Oui. L'API accepte les formats de messages OpenAI et Anthropic respectivement à https://api.deepseek.com et https://api.deepseek.com/anthropic. La plupart des clients OpenAI existants fonctionnent avec un simple changement d'URL de base. Consultez le tutoriel de l'API GPT-5.5 correspondant pour le modèle parallèle.
