Pendant la majeure partie des deux dernières années, la question « quel est le meilleur modèle de codage ? » avait une réponse occidentale. Vous choisissiez GPT, Claude ou Gemini, payiez le tarif par jeton et acceptiez que les poids restent verrouillés dans le centre de données de quelqu'un d'autre. Ce n'est plus le seul chemin. Un ensemble de laboratoires chinois proposent désormais des modèles qui rivalisent avec les meilleurs en matière de codage, tout en publiant les poids ou en proposant l'API à un prix si bas que cela change l'équation pour chaque agent que vous utilisez.
MiniMax M3 a été lancé le 1er juin 2026, et c'est le signal le plus clair à ce jour. Il est à poids ouverts, conçu pour le codage et le travail agentique, dispose d'une fenêtre de contexte d'un million de jetons et ajoute une multimodalité native. C'est le troisième concurrent sérieux à poids ouverts à arriver en quelques semaines, aux côtés de la famille V4 de DeepSeek et de Qwen 3.7 d'Alibaba. Si vous souhaitez des poids ouverts, un faible coût et aucune dépendance vis-à-vis d'un fournisseur, vous avez maintenant une véritable liste restreinte au lieu d'une seule option.
Les trois concurrents
MiniMax M3 est le nouveau venu. MiniMax le positionne comme un modèle de codage de pointe avec une fenêtre de contexte de 1M de jetons et une multimodalité native, ce qui signifie qu'il gère les entrées d'images et de vidéos et peut exécuter des tâches d'utilisation d'ordinateur, pas seulement du texte. Il fonctionne sur une nouvelle architecture MSA. MiniMax affirme que les poids ouverts et un rapport technique suivront dans environ dix jours après le lancement, et n'a pas divulgué le nombre de paramètres. L'analyse complète se trouve dans qu'est-ce que MiniMax M3.
DeepSeek V4-Pro est le cheval de bataille du raisonnement et du codage. C'est un modèle de réflexion : il renvoie une chaîne de pensée reasoning_content avant sa réponse finale, ce qui permet de détecter les dépendances multi-fichiers que les modèles à achèvement simple manquent. DeepSeek a une longue histoire documentée de publication de poids ouverts pour ses gammes R1 et V3, et il associe V4-Pro à une variante V4-Flash moins chère et non réflexive. Le point fort est le prix, sur lequel nous reviendrons. DeepSeek gère son site officiel et son API sur deepseek.com.
Qwen 3.7 est le fleuron d'Alibaba, mené par Qwen3.7-Max-Preview. C'est un modèle de raisonnement avec une fenêtre de contexte de 1M de jetons, fortement axé sur le travail d'agent à long terme. Une mise en garde honnête est au cœur de cette comparaison : à partir de son lancement mi-mai 2026, le fleuron Qwen3.7-Max est propriétaire et à poids fermés. Alibaba a une solide expérience en matière d'open-sourcing du niveau inférieur à son fleuron, de sorte que des poids ouverts pour la version 3.7 sont plausibles plus tard, mais aucun n'a encore été livré. Les détails complets sont dans qu'est-ce que Qwen 3.7. Les dépôts open source d'Alibaba se trouvent sur github.com/QwenLM.
Tableau des spécifications
| Spécification | MiniMax M3 | DeepSeek V4-Pro | Qwen3.7-Max-Preview |
|---|---|---|---|
| Fournisseur | MiniMax | DeepSeek | Alibaba (Qwen) |
| Lancé le | 1er juin 2026 | 2026 | Mai 2026 (préversion) |
| Poids ouverts | Oui (poids dans ~10 jours) | Oui (historique de DeepSeek sur R1/V3) | Pas encore (le fleuron est à poids fermés) |
| Fenêtre de contexte | 1 000 000 jetons | Non spécifié ici | 1 000 000 jetons |
| Multimodal | Oui (image + vidéo, utilisation ordinateur) | Non (texte + raisonnement) | Raisonnement axé sur le texte |
| Mode raisonnement / pensée | Oui | Oui (reasoning_content) |
Oui (pensée étendue) |
| Nombre de paramètres | Non divulgué | Non divulgué ici | Non divulgué ici |
| Architecture | MSA | Non spécifié ici | Non spécifié ici |
Une note sur la ligne « poids ouverts », car c'est le point central de cette comparaison. M3 s'engage à publier les poids et un rapport technique dans environ dix jours après le lancement. DeepSeek a publié des poids ouverts à plusieurs reprises. Le fleuron de Qwen 3.7 est fermé aujourd'hui. Si les poids ouverts sont une exigence stricte à l'heure actuelle, cela réduit votre champ d'action avant même de lire un seul benchmark.
Force de codage et agentique
C'est ici que les données deviennent inégales, nous allons donc commencer par ce qui est vérifié et rester qualitatifs là où ce n'est pas le cas.
MiniMax M3 a été lancé avec une gamme complète de benchmarks de codage et agentiques rapportés par le fournisseur. Ce sont les propres chiffres de MiniMax, traitez-les donc comme des revendications du fournisseur au jour du lancement jusqu'à ce que des tiers les reproduisent :
| Benchmark (rapporté par le fournisseur, MiniMax) | MiniMax M3 |
|---|---|
| SWE-Bench Pro | 59,0% |
| Terminal-Bench 2.1 | 66,0% |
| SWE-fficiency | 34,8% |
| KernelBench Hard | 28,8% |
| MCP Atlas | 74,2% |
| PostTrainBench | 0,37 |
| SVG-Bench | Rapporté au-dessus d'Opus 4.7 |
| OmniDocBench | Rapporté au-dessus de Gemini 3.1 Pro |
| Claw-Eval | Rapporté comme le plus élevé de sa catégorie |
SWE-Bench Pro et Terminal-Bench mesurent de véritables tâches d'ingénierie logicielle : résolution de problèmes GitHub, travail dans un terminal. MCP Atlas mesure l'utilisation d'outils et l'orchestration d'agents. Ensemble, ils décrivent un modèle conçu pour effectuer un travail de codage agentique, et pas seulement de l'autocomplétion. Vous pouvez vérifier le domaine SWE-Bench sur le classement SWE-Bench.
Pour DeepSeek V4-Pro et Qwen 3.7, les chiffres comparables de codage agentique ne sont pas publiés dans le même format, de sorte qu'une correspondance directe cellule par cellule serait inventée, et nous ne le ferons pas. Ce qui est documenté :
- DeepSeek V4-Pro atteint sa capacité de codage à quelques points de benchmark de GPT-5.5 selon des comparaisons tierces, tout en coûtant une fraction du prix. Sa chaîne de raisonnement est l'avantage pratique : sur les refactorisations complexes multi-fichiers, les renommages et les changements de signature, le passage de réflexion détecte les dépendances en un seul coup là où les modèles simples ont besoin de trois tours pour les gérer. Les détails de configuration et le calcul des coûts sont dans comment utiliser DeepSeek V4-Pro avec Cursor.
- Qwen 3.7 a obtenu un score de 57 sur l'indice d'intelligence Artificial Analysis, un composite qui mélange le raisonnement, les connaissances, les mathématiques et le codage, signalé comme le résultat n°1 de ce classement au lancement, plus environ 1 475 Elo sur LM Arena avec un placement dans le top dix dans la catégorie codage. L'argument d'Alibaba est le travail d'agent à long terme : des exécutions autonomes soutenues et une utilisation intensive d'outils sur de nombreuses étapes.
La lecture honnête : M3 est livré aujourd'hui avec les preuves de codage agentique les plus transparentes car il a publié des chiffres au niveau des tâches. La force de DeepSeek réside dans la qualité de code basée sur le raisonnement à un prix bas. La force de Qwen est l'intelligence composite et l'endurance sur de longues chaînes d'agents. Tant que DeepSeek et Qwen ne rendent pas compte des mêmes tâches SWE-Bench Pro et Terminal-Bench, exécutez votre propre charge de travail sur les trois, ce que nous aborderons à la fin. Une confrontation de pointe plus large pour Qwen se trouve dans Qwen 3.7 vs GPT-5.5 vs Opus 4.7.
Fenêtre de contexte et coût du contexte long
Deux des trois annoncent une fenêtre de contexte d'un million de jetons : MiniMax M3 et Qwen3.7-Max. Le contexte de DeepSeek V4-Pro n'est pas reproduit ici, nous n'indiquerons donc pas de chiffre pour celui-ci.
Un million de jetons représente environ 700 000 à 750 000 mots. C'est suffisant pour contenir un dépôt de taille moyenne, une pile de longs PDF ou des mois de conversation en une seule requête, sans découpage manuel ni couche de récupération à maintenir. Pour le raisonnement sur l'ensemble du dépôt, cela supprime beaucoup de complexité.
Deux mises en garde pour être honnête. Premièrement, une grande fenêtre est un plafond, pas une garantie. Les modèles récupèrent et raisonnent souvent de manière moins fiable à mesure que la fenêtre se remplit, et les tests indépendants sur des contextes longs pour ces toutes nouvelles versions sont encore rares. Deuxièmement, les grands contextes coûtent de l'argent. Chaque jeton que vous envoyez est facturé, donc une invite d'un million de jetons est une invite coûteuse.
C'est là que l'architecture MSA de M3 est censée être importante. MiniMax la présente comme conçue pour l'efficacité des contextes longs, avec un taux d'API standard jusqu'à 512K jetons d'entrée et un taux de contexte long distinct au-dessus de ce seuil. La distinction vous expose clairement la réalité économique : le contexte long est un niveau premium, sur chaque modèle qui en dispose. La défense pratique est la même quel que soit le modèle que vous choisissez. Utilisez la fenêtre complète uniquement lorsque la tâche l'exige, et réduisez-la agressivement lorsque ce n'est pas le cas. Les tactiques concrètes pour maintenir un contexte d'agent léger sont dans comment réduire les coûts de jetons d'agent.
Prix et accès
Le prix est la raison d'être de cette comparaison. La même charge de travail qui coûte cher sur un fleuron occidental fonctionne ici pour une fraction du prix, et cet écart est le moteur de la guerre des prix des LLM chinois 2026.
DeepSeek V4-Pro publie les chiffres par jeton les plus clairs des trois. Tarifs standards, permanents à partir de mai 2026 :
| Type de jeton | Taux DeepSeek V4-Pro par 1M de jetons |
|---|---|
| Entrée (cache miss) | 0,435 $ |
| Entrée (cache hit) | 0,003625 $ |
| Sortie | 0,87 $ |
Ce taux de sortie représente environ 1/34 du coût de la sortie de GPT-5.5. La variante V4-Flash, non réflexive, est encore moins chère à 0,14 $ / 0,28 $ par million d'entrées/sorties. Une journée intensive d'utilisation d'assistant de codage coûte environ 1 $. C'est le chiffre qui rend DeepSeek difficile à ignorer pour le trafic d'agents à volume élevé.
MiniMax M3 vend des forfaits de jetons plutôt qu'un prix unique publié par jeton : Plus à 20 $, Max à 50 $ et Ultra à 120 $. Son API utilise un tarif standard pour les entrées jusqu'à 512K jetons et un tarif de contexte long au-dessus de ce seuil. MiniMax n'a pas publié de chiffre exact par jeton, nous n'en citerons donc pas. La structure des forfaits convient aux équipes qui souhaitent une dépense mensuelle prévisible plutôt qu'une facturation à la consommation. Les détails de connexion sont dans comment utiliser l'API MiniMax M3.
Qwen 3.7 est facturé par jeton via Alibaba Cloud, où la préversion Max a été mise en ligne en mai 2026. Alibaba a fixé des prix agressifs pour les récentes versions de Qwen dans le cadre de la même guerre des prix, mais les tarifs exacts d'un modèle en préversion peuvent varier, alors consultez la documentation actuelle du modèle d'Alibaba Cloud pour le chiffre en vigueur.
En matière d'accès, l'angle des poids ouverts change entièrement le plafond de coût. Les poids publiés de M3 et les versions ouvertes de DeepSeek signifient que vous pouvez auto-héberger et ne payer que pour le matériel, sans aucun compteur par jeton. Qwen3.7-Max ne peut pas être auto-hébergé aujourd'hui car ses poids de fleuron ne sont pas publiés, donc chaque chemin vers celui-ci passe par l'API d'Alibaba. Si l'objectif est d'éviter la dépendance vis-à-vis d'un fournisseur, c'est un véritable différenciateur.
Lequel choisir
Le bon modèle dépend de ce que vous optimisez. Faites correspondre votre priorité à la colonne.
| Votre priorité | Meilleur choix | Pourquoi |
|---|---|---|
| Codage agentique avec benchmarks publiés | MiniMax M3 | Chiffres SWE-Bench Pro / Terminal-Bench / MCP Atlas transparents au lancement (rapportés par le fournisseur) |
| Entrée multimodale (image, vidéo, utilisation ordinateur) | MiniMax M3 | Le seul des trois avec multimodalité native |
| Coût le plus bas sur le trafic API à fort volume | DeepSeek V4-Pro | ~0,87 $/1M de sortie, avec une variante Flash moins chère et une tarification "cache-hit" |
| Qualité de code basée sur le raisonnement pour les refactorisations complexes | DeepSeek V4-Pro | La chaîne de pensée détecte les dépendances multi-fichiers en un seul passage |
| Meilleur score d'intelligence composite sur un classement public | Qwen3.7-Max | Indice d'intelligence AA 57, signalé n°1 au lancement |
| Exécutions d'agents autonomes à long terme | Qwen3.7-Max ou MiniMax M3 | Les deux offrent endurance et utilisation intensive d'outils ; M3 publie également MCP Atlas |
| Auto-hébergement / pas de dépendance fournisseur aujourd'hui | MiniMax M3 ou DeepSeek V4-Pro | Les deux publient des poids ouverts ; le fleuron de Qwen est fermé |
Quelques lectures simples. Si les poids ouverts et les preuves de codage agentique sont vos deux critères principaux, M3 est le choix le plus clair actuellement, avec la mise en garde que ses poids et son rapport technique étaient encore à quelques jours du lancement et que ses benchmarks sont rapportés par le fournisseur. Si vous exécutez un volume API important et que vous souhaitez la facture la plus basse, le prix de DeepSeek V4-Pro est le point fort. Si vous voulez le meilleur score composite public et que vous êtes à l'aise avec une API hébergée, Qwen3.7-Max convient, tant que vous n'avez pas besoin d'auto-hébergement.
Testez-les vous-même
Un classement vous indique comment un modèle se comporte sur les tâches de quelqu'un d'autre. Il ne vous dit pas comment il se comporte sur les vôtres. Ces trois modèles exposent une API, et le moyen le plus rapide de faire votre choix est d'exécuter des invites identiques sur chacun d'eux et de comparer les réponses côte à côte.
C'est un travail pour Apidog. Configurez un projet Apidog avec trois environnements, un par API de modèle, et importez le schéma de complétion de chat compatible OpenAI que chacun d'eux utilise. Ensuite, vous pouvez :
- Envoyer le même lot d'invites à M3, V4-Pro et Qwen3.7-Max et comparer les sorties en un seul endroit.
- Enregistrer les réponses de référence et les rejouer à chaque changement d'invite pour détecter les dérives.
- Valider les formes de
tool_callsetreasoning_contentavec des assertions de schéma JSON, afin qu'une mauvaise modification d'invite système ne casse pas votre agent silencieusement.
Téléchargez Apidog, pointez trois environnements vers les trois points de terminaison des modèles, et vous disposez d'un banc de comparaison fonctionnel en quelques minutes. Les spécificités de configuration de l'API pour le modèle le plus récent se trouvent dans comment utiliser l'API MiniMax M3.
Questions fréquemment posées
Quel est le meilleur modèle de codage à poids ouverts en 2026 actuellement ?
Pour des preuves vérifiables de codage agentique au lancement, MiniMax M3 est en tête, car il a publié des benchmarks au niveau des tâches comme SWE-Bench Pro 59,0% et Terminal-Bench 2.1 66,0% (rapportés par le fournisseur). DeepSeek V4-Pro est le choix économique : codage à quelques points de GPT-5.5 pour environ 1/34 du prix de sortie. Qwen3.7-Max est en tête d'un classement composite mais n'est pas encore à poids ouverts. La réponse honnête est que les chiffres de codage en face-à-face ne sont pas directement comparables entre les trois, alors exécutez votre propre charge de travail avant de vous engager.
Les trois sont-ils vraiment à poids ouverts ?
Pas encore. MiniMax M3 est à poids ouverts, avec des poids et un rapport technique attendus dans environ dix jours après son lancement le 1er juin 2026. DeepSeek a un long historique de publication de poids ouverts pour ses familles R1 et V3. Qwen3.7-Max-Preview, le fleuron que la plupart des gens désignent par « Qwen 3.7 », est propriétaire et à poids fermés depuis mi-mai 2026. Alibaba pourrait publier une version open source d'un niveau inférieur plus tard, mais considérez cela comme plausible, non confirmé. Les détails sont dans qu'est-ce que Qwen 3.7.
Lequel a la plus grande fenêtre de contexte ?
MiniMax M3 et Qwen3.7-Max annoncent tous deux une fenêtre de 1 000 000 de jetons, soit environ 700 000 à 750 000 mots. Le contexte de DeepSeek V4-Pro n'est pas précisé ici. N'oubliez pas qu'une grande fenêtre est un plafond, pas une promesse de rappel parfait, et que chaque jeton qu'elle contient est facturé.
Lequel est le moins cher à utiliser ?
Sur les tarifs par jeton publiés, DeepSeek V4-Pro est le leader incontestable : environ 0,87 $ par million de jetons de sortie, avec une variante V4-Flash non réflexive moins chère à 0,14 $ / 0,28 $. MiniMax M3 vend des forfaits de jetons mensuels (20 $ / 50 $ / 120 $) plutôt qu'un prix par jeton publié. Qwen3.7-Max facture par jeton sur Alibaba Cloud. Si vous pouvez auto-héberger, les modèles à poids ouverts réduisent votre coût marginal au seul matériel. Le tableau plus large des prix se trouve dans la guerre des prix des LLM chinois 2026.
MiniMax M3 est-il réellement meilleur que DeepSeek V4-Pro en codage ?
Les chiffres des benchmarks ne sont pas encore directement comparables. M3 a publié les résultats de SWE-Bench Pro et Terminal-Bench au lancement ; DeepSeek n'a pas rapporté ces mêmes tâches dans le même format. L'avantage de M3 aujourd'hui est la preuve publiée plus la multimodalité. L'avantage de DeepSeek est le prix et une chaîne de raisonnement solide sur les refactorisations multi-fichiers. Les trois parlent une API compatible OpenAI, donc le test équitable est d'exécuter des invites identiques sur chacun sur votre propre dépôt avant de décider.
Version courte
Trois concurrents à poids ouverts atteignent désormais la frontière du codage, et le choix se résume à ce que vous optimisez. Choisissez MiniMax M3 si vous voulez des benchmarks de codage agentique publiés, un contexte de 1M et la multimodalité, et que vous pouvez attendre quelques jours pour que ses poids soient disponibles. Choisissez DeepSeek V4-Pro si le faible coût et la qualité de code basée sur le raisonnement sont les plus importants, car son prix par jeton est le plus bas des trois et ses poids sont disponibles. Envisagez Qwen3.7-Max si vous voulez le meilleur score composite public et que vous êtes à l'aise sur une API hébergée, sachant que son fleuron n'est pas à poids ouverts aujourd'hui.
Les chiffres des benchmarks continueront d'évoluer, et plusieurs de ceux de M3 sont toujours rapportés par le fournisseur. Le conseil durable ne change pas : exécutez les mêmes invites sur les trois API dans un seul projet Apidog, surveillez les sorties et les factures, et laissez votre propre charge de travail choisir le gagnant.
bouton
