Comment Utiliser DeepSeek V4: Chat Web, API et Options Auto-Hébergées

DeepSeek V4 a été lancé le 23 avril 2026 avec quatre points de contrôle, une API en direct et des poids sous licence MIT sur Hugging Face. Cette combinaison signifie qu'il n'y a pas de « bonne façon » unique de l'utiliser ; le meilleur chemin dépend si vous souhaitez un accès instantané, des appels d'API de production ou un déploiement sur site. Ce guide passe en revue les trois, avec les compromis, les pièges, et un flux de travail de prompt prêt pour la production que vous pouvez réutiliser.

Si vous souhaitez simplement un aperçu au niveau du produit, lisez d'abord qu'est-ce que DeepSeek V4. Pour la présentation complète de l'API, consultez le guide de l'API DeepSeek V4. Pour le chemin sans coût, consultez comment utiliser DeepSeek V4 gratuitement. Lorsque vous êtes prêt à tester de véritables requêtes, prenez Apidog et pré-construisez la collection.

bouton

TL;DR

Chemin le plus rapide : chat.deepseek.com. Chat web gratuit, V4-Pro par défaut, trois modes de raisonnement.
Chemin de production : https://api.deepseek.com/v1/chat/completions avec les ID de modèle deepseek-v4-pro ou deepseek-v4-flash.
Chemin auto-hébergé : téléchargez les poids depuis Hugging Face, exécutez les scripts /inference dans le dépôt.
Choisissez **Non-Think** pour le routage et la classification, **Think High** pour le code et l'analyse, **Think Max** uniquement lorsque la précision est plus importante que le coût.
Recommandation d'échantillonnage de DeepSeek : temperature=1.0, top_p=1.0. Ne le remettez pas en question.
Utilisez Apidog comme client API ; le format compatible OpenAI signifie qu'une seule requête sauvegardée peut être rejouée sur DeepSeek, OpenAI et Anthropic.

Choisissez le bon chemin pour votre charge de travail

Quatre chemins réalistes existent. Chacun excelle dans un domaine différent.

Chemin	Coût	Temps d'installation	Idéal pour
chat.deepseek.com	Gratuit	30 secondes	Tests rapides, travail ad-hoc
API DeepSeek	Facturation par jeton	5 minutes	Production, agents, tâches par lot
V4-Flash auto-hébergé	Coût matériel uniquement	Quelques heures	Conformité sur site, inférence hors ligne
V4-Pro auto-hébergé	Coût du cluster uniquement	Une journée	Recherche, ajustements personnalisés
OpenRouter / agrégateur	Facturation par jeton	2 minutes	Restauration multi-fournisseurs

Chemin 1 : Utiliser V4 dans le chat web

Le moyen le plus rapide de se faire une opinion sur V4 est l'interface de chat officielle.

Accédez à chat.deepseek.com.
Connectez-vous avec votre e-mail, Google ou WeChat.
V4-Pro est le modèle par défaut. Le sélecteur en haut du composeur permet de basculer entre Non-Think, Think High et Think Max.
Commencez à taper.

Le chat web prend en charge les téléchargements de fichiers, la recherche web et le contexte complet de 1M de jetons. Des limites de débit s'appliquent au niveau du compte ; une utilisation intensive peut ralentir les réponses mais bloque rarement complètement.

Bonnes tâches pour l'interface utilisateur web : coller une trace d'erreur pour diagnostiquer, télécharger un PDF de 200 pages pour un résumé, comparer avec le même prompt que vous exécutez via GPT-5.5 ou Claude. Mauvaises tâches : tout ce que vous voulez automatiser ou rejouer.

Chemin 2 : Utiliser l'API DeepSeek

C'est le chemin que la plupart des équipes choisiront. L'API est en direct, la forme de la requête est compatible avec OpenAI, et les ID de modèle sont les mêmes que DeepSeek conservera après la dépréciation de deepseek-chat en juillet 2026.

Obtenir une clé

Inscrivez-vous sur platform.deepseek.com.
Ajoutez un moyen de paiement. Les recharges commencent à 2 $.
Créez une clé API sous Clés API et copiez-la une seule fois ; vous ne reverrez plus le secret.

Exportez la clé pour que chaque client la prenne en charge :

export DEEPSEEK_API_KEY="sk-..."

La requête minimale viable

DeepSeek expose deux URL de base. L'interface compatible OpenAI est celle à utiliser par défaut.

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
    ],
    "thinking_mode": "thinking"
  }'

Échangez deepseek-v4-pro contre deepseek-v4-flash si vous voulez la variante moins chère. Échangez thinking contre non-thinking si vous voulez le chemin rapide.

Client Python

Le SDK officiel openai fonctionne avec une simple surcharge d'URL de base. C'est l'avantage discret des points de terminaison compatibles OpenAI ; chaque bibliothèque wrapper, y compris LangChain, LlamaIndex et DSPy, fonctionne sans modification.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a concise senior engineer."},
        {"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Client Node

Même schéma sur Node :

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

Les détails complets des points de terminaison, les tableaux de paramètres et la gestion des erreurs se trouvent dans le guide de l'API DeepSeek V4.

Chemin 3 : Itérer avec Apidog

Curl est suffisant pour un seul appel. Après cela, chaque réexécution gaspille des crédits et encombre votre terminal. Apidog résout les deux problèmes.

bouton

Téléchargez Apidog pour Mac, Windows ou Linux.
Créez un nouveau projet API, ajoutez une requête POST pointant vers https://api.deepseek.com/v1/chat/completions.
Ajoutez Authorization: Bearer {{DEEPSEEK_API_KEY}} comme en-tête et stockez la clé dans des variables d'environnement, pas dans le corps de la requête.
Collez votre premier corps JSON et enregistrez. Chaque modification à partir d'ici est un clic pour rejouer.
Utilisez la visionneuse de réponses intégrée pour comparer les traces de raisonnement entre les exécutions Non-Think et Think Max sur le même prompt.

La même collection peut contenir une requête OpenAI GPT-5.5, une requête Claude et une requête DeepSeek V4 côte à côte. Cela rend les tests A/B entre fournisseurs triviaux et garde votre facturation visible dans une seule fenêtre. Pour les équipes utilisant déjà Apidog avec d'autres API IA, le flux de travail est un mappage un-à-un ; la collection d'API GPT-5.5 sauvegardée devient une collection V4 avec un simple changement d'URL de base.

Chemin 4 : Auto-héberger V4-Flash

Si la conformité, les exigences de l'entrefer ou l'économie unitaire vous éloignent des API hébergées, la licence MIT signifie que vous possédez entièrement ce chemin.

Matériel

V4-Flash (13B actif, 284B total) : 2 à 4 cartes H100 / H200 / MI300X en FP8. Quantifié en INT4, il tient sur une seule carte de 80 Go avec des lots serrés.
V4-Pro (49B actif, 1.6T total) : véritable territoire de cluster. 16 à 32 H100 sont le seuil réaliste pour l'inférence en production.

Obtenir les poids

# Install the CLI once
pip install -U "huggingface_hub[cli]"

# Log in if the repo is gated (V4 is public, but the login helps with rate limits)
huggingface-cli login

# Pull V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Attendez-vous à ce que le téléchargement prenne un certain temps. V4-Flash est d'environ 500 Go en FP8 ; V4-Pro est dans la gamme des multi-téraoctets.

Exécuter l'inférence

Le dossier /inference du dépôt du modèle contient le code de référence. Pour des tests rapides, vLLM et SGLang ont publié des branches de support V4 dans la journée suivant la sortie.

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

Une fois vLLM en marche, pointez tout client compatible OpenAI vers http://localhost:8000/v1. Même collection Apidog, URL de base différente.

Élaborer des prompts efficaces pour V4

V4 répond différemment aux prompts par rapport à GPT-5.5 ou Claude. Voici trois modèles qui fonctionnent.

Demandez explicitement le mode de raisonnement souhaité. Définissez thinking_mode pour qu'il corresponde à la tâche. Ne comptez pas sur le modèle pour choisir.
Utilisez les prompts système pour la persona, pas pour la forme de la tâche. V4-Pro suit bien les prompts système pour le ton et les contraintes ; il est moins fiable lorsque vous essayez d'insérer toute la spécification de la tâche dans le message système. Mettez la tâche dans le message de l'utilisateur.
Donnez des tâches de code avec un harnais de test. Le score LiveCodeBench de 93,5 provenait d'évaluations avec des cas de test clairs. Vos tâches de code bénéficieront de la même approche ; collez le test échoué et le modèle écrira du code qui le fera réussir plus souvent que si vous demandiez "une fonction qui fait X".

Pour les travaux à contexte long (des centaines de milliers de jetons), gardez le matériel le plus pertinent près du haut et du bas de la fenêtre d'entrée. L'attention hybride de V4 est efficace, mais les biais de récence et de primauté apparaissent toujours.

Contrôle des coûts

Même avec les faibles prix des jetons de V4, un agent incontrôlable peut rapidement épuiser un budget. Voici trois garde-fous :

Utilisez V4-Flash par défaut. N'utilisez V4-Pro que lorsque vous avez mesuré un écart de qualité significatif.
Utilisez Non-Think par défaut. Passez à Think High pour les tâches difficiles ; réservez Think Max pour les travaux où la justesse est critique.
Limitez max_tokens. Le contexte de 1M est une limite supérieure, pas une cible. La plupart des réponses tiennent en 2 000 jetons de sortie.

Dans Apidog, définissez des variables à portée environnementale pour DEEPSEEK_API_KEY afin que les exécutions de test soient imputées à un compte de facturation distinct de celui de la production. Apidog enregistre également le nombre de jetons sur chaque réponse, ce qui est le moyen le plus simple de repérer un prompt qui est devenu trop long.

Migration depuis DeepSeek V3 ou d'autres modèles

Trois chemins de migration couvrent la plupart des équipes :

Depuis deepseek-chat / deepseek-reasoner : remplacez l'ID du modèle par deepseek-v4-pro ou deepseek-v4-flash. Les anciens ID seront dépréciés le 24 juillet 2026. Effectuez cette migration avant cette date.
Depuis OpenAI GPT-5.x : changez l'URL de base pour https://api.deepseek.com/v1, changez l'ID du modèle, laissez tout le reste tel quel. Consultez le guide de l'API GPT-5.5 correspondant pour la forme de requête parallèle.
Depuis Anthropic Claude : pointez vers https://api.deepseek.com/anthropic pour conserver le format de message Anthropic, ou reformulez au format OpenAI et utilisez le point de terminaison principal.

FAQ

Ai-je besoin d'un compte payant pour utiliser V4 ?Le chat web est gratuit. L'API nécessite un rechargement, mais le minimum est de 2 $. Consultez comment utiliser DeepSeek V4 gratuitement pour les chemins sans coût.

Quelle variante devrais-je utiliser par défaut ?Commencez par V4-Flash en mode Non-Think. Mesurez la qualité. N'escaladez que lorsque cela en vaut la peine.

Puis-je exécuter V4 sur mon MacBook ?V4-Flash fonctionnera sur un M3 Max ou M4 Max avec 128 Go de mémoire unifiée avec une forte quantification, mais lentement. V4-Pro ne le fera pas. Pour l'expérimentation sur ordinateur portable, tenez-vous-en à l'API ou au chat web.

V4 prend-il en charge l'utilisation d'outils et l'appel de fonctions ?Oui. Le point de terminaison compatible OpenAI accepte le tableau standard tools ; les réponses renvoient des tool_calls sous la même forme. Le point de terminaison au format Anthropic utilise le schéma natif d'utilisation d'outils Anthropic.

Comment diffuser les réponses ?Définissez stream: true dans le corps de la requête. La réponse est un flux SSE standard compatible OpenAI ; toute bibliothèque gérant le streaming OpenAI fonctionne sans modifications.

Y a-t-il une limite de débit ?L'API hébergée publie des limites par niveau sur api-docs.deepseek.com. Le V4 auto-hébergé n'a pas de limite par requête au-delà de votre matériel.