Alibaba a lancé deux modèles phares de la gamme Qwen 3.7 en l'espace de deux semaines : Qwen3.7-Max, le modèle de raisonnement textuel uniquement, et Qwen3.7-Plus, la version multimodale qui ajoute la vision et coûte une fraction du prix. Ils partagent le même contexte de 1 million de jetons et le même plafond d'autonomie de 35 heures, le choix n'est donc pas évident à partir de la seule fiche technique.
Ce guide les compare côte à côte sur les benchmarks, le prix, la vitesse et la décision d'utilisation quotidienne. Si vous souhaitez d'abord en savoir plus sur chaque modèle, consultez notre aperçu de Qwen 3.7 Plus et le guide plus général sur ce qu'est Qwen 3.7. Quel que soit votre choix, vous l'appellerez via une API et devrez tester les réponses ; c'est là qu'Apidog intervient, présenté à la fin.
La réponse courte
Choisissez Plus par défaut. Il est à égalité avec Max pour l'utilisation d'outils, le dépasse sur les tâches terminales, ajoute la saisie d'images et de vidéos, et coûte environ six fois moins cher. Pour la plupart des charges de travail, cette décision est déjà prise sur la base du prix seul.

Ne choisissez Max que lorsque vous optimisez purement pour le texte. Il conserve une légère avance dans les classements purement textuels et fonctionne un peu plus rapidement lors des démarrages à froid purement textuels. Si votre travail ne touche jamais une capture d'écran ou une image de document, cet avantage peut être important. Pour tout le reste, Plus l'emporte.
La différence fondamentale
Max est le modèle phare purement textuel. Il raisonne, code et exécute de longues chaînes d'agents, tout cela à partir d'une entrée textuelle. Plus reprend la même architecture et y ajoute des yeux : il accepte les images et les vidéos, et il ancre les interfaces graphiques suffisamment bien pour renvoyer des coordonnées de clic exactes à partir d'une capture d'écran. Ensuite, il concurrence Max sur le prix.

L'arbitrage est donc restreint. Vous renoncez à un léger avantage en termes de qualité de texte et de latence, et vous gagnez la vision ainsi qu'une facture bien moins élevée.
Benchmarks
Les chiffres racontent une histoire cohérente. Plus est légèrement derrière Max sur le texte pur, est à égalité sur l'utilisation d'outils, et prend l'avantage dès que la vision entre en jeu.
| Benchmark | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| LM Arena (texte) | #15 | #13 |
| LM Arena (codage) | #12 | #10 |
| Vision Arena | #16 | Non applicable |
| SWE-Bench Pro | ~60% | 60.6% |
| Terminal-Bench (2.0 Terminus) | 70.3 | 69.7 |
| ScreenSpot Pro (ancrage GUI) | 79.0 | Aucun |
| MCP-Atlas (utilisation d'outils) | 76.4 | 76.4 |
Trois choses se distinguent.
SWE-Bench Pro est effectivement une égalité. Plus se situe autour de 60 % contre 60,6 % pour Max. Sur les tâches logicielles réelles, les paramètres de vision ne coûtent à Plus aucune capacité de codage significative. Notre comparaison Qwen 3.7 vs GPT-5.5 vs Opus 4.7 montre sa position par rapport aux modèles phares occidentaux.
Plus gagne en fait Terminal-Bench, 70,3 contre 69,7. Pour le travail d'agent intensif en shell, le modèle le moins cher est également le légèrement plus puissant.
L'ancrage d'interface graphique est le véritable différenciateur. ScreenSpot Pro 79.0 est de niveau 'frontier', et Max ne peut pas l'exécuter du tout. Si votre agent doit regarder un écran, un seul de ces modèles se qualifie. Comme toujours, traitez les chiffres des benchmarks des fournisseurs comme une indication, pas comme l'évangile ; le site SWE-bench explique ce que mesure chaque suite.
Tarification
C'est là que l'écart est large.
| Qwen 3.7 Plus | Qwen 3.7 Max | |
|---|---|---|
| Entrée / 1M de jetons | $0.40 | $2.50 |
| Sortie / 1M de jetons | $1.60 | $7.50 |
| Entrée en cache / 1M | $0.08 | $0.25 |
Plus est environ six fois moins cher en entrée et près de cinq fois moins cher en sortie. Pour les agents à fort volume ou à exécution prolongée, ce ratio détermine les budgets. Le modèle moins cher lit également les images, ce qui rend Max difficile à vendre à moins que vous n'ayez spécifiquement besoin de son avantage textuel.
Une mise en garde pour Plus : les images et les vidéos sont tokenisées et partagent le budget de contexte de 1M, ainsi, une charge de travail intensive en captures d'écran ou en vidéo dépense plus par appel que le tarif par jeton ne le suggère. Réduisez la taille des images et échantillonnez les vidéos avec parcimonie. Nos notes sur la réduction des coûts de jetons d'agent et la guerre des prix des LLM chinois de 2026 couvrent le tableau général des coûts. Les tarifs officiels sont disponibles sur la page de tarification de Model Studio.
Spécifications et vitesse
| Qwen 3.7 Plus | Qwen 3.7 Max | |
|---|---|---|
| Modalités d'entrée | Texte, image, vidéo | Texte uniquement |
| Fenêtre de contexte | 1M (partagé avec la vision) | 1M |
| Plafond d'exécution autonome | 35 heures | 35 heures |
| Latence texte uniquement | Référence | ~7–15% plus rapide sur les chemins froids |
| Poids | Propriétaire, API uniquement | Propriétaire, API uniquement |
La latence est l'avantage discret de Max. Lors des démarrages à froid purement textuels, il répond sensiblement plus rapidement, ce qui est important dans les produits de type chat où le temps de premier jeton est visible par les utilisateurs ; une analyse indépendante détaille le compromis entre vitesse et intelligence. Les deux modèles ont des poids fermés et ne fonctionnent que via Alibaba Cloud Model Studio, donc aucun n'est une option si vous devez les auto-héberger.
Lequel choisir
Choisissez **Qwen 3.7 Plus** si :
- Votre travail implique des images, des captures d'écran, des PDF ou des vidéos.
- Vous développez des agents d'utilisation d'ordinateur ou d'interface graphique qui lisent un écran.
- Le coût est important, ce qui, d'après ces chiffres, est presque toujours le cas.
Choisissez **Qwen 3.7 Max** si :
- Vous optimisez purement pour les scores SWE-Bench Pro textuels uniquement.
- Vous avez besoin de la réponse textuelle la plus rapide dans un produit sensible à la latence.
- Vous n'envoyez jamais d'entrée visuelle et souhaitez chaque point de qualité textuelle.
Pour la plupart des équipes, Plus est le choix par défaut judicieux et Max est le spécialiste. L'écart de coût est suffisamment important pour que vous ayez une raison concrète de payer six fois plus cher pour un modèle purement textuel.
Pour concrétiser cela, voici comment les charges de travail courantes se répartissent :
| Charge de travail | Choix | Pourquoi |
|---|---|---|
| Agent d'assurance qualité de capture d'écran ou de régression visuelle | Plus | Nécessite un ancrage GUI ; seul Plus voit l'écran |
| Extraction de factures, reçus ou PDF scannés | Plus | Les images de documents nécessitent une entrée visuelle |
| Classification de texte à grand volume | Plus | Même qualité de texte, une fraction du coût |
| Chatbot de support client à faible latence | Max | Des démarrages à froid purement textuels plus rapides sont importants pour les utilisateurs |
| Exécution de code autonome longue | L'un ou l'autre | Ils sont à égalité sur SWE-Bench Pro, donc le coût décide |
Le schéma se répète : à moins qu'une charge de travail ne soit purement textuelle et sensible à la latence, le modèle multimodal moins cher est le choix par défaut le plus sûr.
Tester les deux avec Apidog
Les deux modèles partagent le même point de terminaison Model Studio compatible OpenAI, donc basculer entre eux est un simple changement d'ID de modèle sur une seule ligne. Cela les rend faciles à comparer directement : envoyez la même requête à qwen3.7-plus et qwen3.7-max, alignez les réponses et voyez si l'écart de prix en vaut la peine pour votre tâche.

Apidog est conçu pour cette boucle. Envoyez des requêtes aux deux modèles, inspectez le JSON brut côte à côte, stockez votre clé Model Studio par environnement, et simulez les points de terminaison pour que votre application continue de se développer. Pour les requêtes multimodales de Plus, notre guide API Qwen 3.7 Plus montre le format de charge utile d'image et de vidéo, et le guide API Qwen 3.7 de base couvre le chemin textuel. Lorsqu'un modèle enchaîne des appels d'outils dans une exécution d'agent, le débogueur d'agent IA d'Apidog montre la séquence complète.
Téléchargez Apidog pour tester et comparer les deux modèles Qwen 3.7 avant d'en intégrer un en production.
FAQ
Qwen 3.7 Plus est-il meilleur que Max ? Pour la plupart des charges de travail, oui, car il ajoute la vision et coûte beaucoup moins cher tout en étant à égalité avec Max en matière de codage et d'utilisation d'outils. Max conserve une légère avance dans les classements purement textuels et en latence texte uniquement.
À quel point Plus est-il moins cher ? Environ six fois moins cher en entrée (0,40 $ contre 2,50 $ par million de jetons) et près de cinq fois moins cher en sortie (1,60 $ contre 7,50 $).
Partagent-ils la même fenêtre de contexte ? Oui, tous deux ont une fenêtre de 1 million de jetons. Sur Plus, les images et les vidéos consomment des jetons de ce même budget.
Max peut-il traiter les images ? Non. Max est purement textuel. Si vous avez besoin d'une entrée d'image ou de vidéo, vous avez besoin de Plus.
Sont-ils open source ? Non. Les deux sont propriétaires et ne fonctionnent que via Alibaba Cloud Model Studio. Vous ne pouvez pas télécharger ou auto-héberger les poids.
Lequel est le plus rapide ? Max est environ 7 à 15 % plus rapide sur les chemins froids purement textuels. Pour les travaux mixtes ou de vision, Plus est de toute façon la seule option.
En résumé
Qwen 3.7 Max et Plus ne sont pas vraiment en concurrence pour le même travail. Max est le puriste du texte avec un léger avantage en vitesse et en qualité ; Plus est le généraliste multimodal moins cher qui l'emporte presque partout où le prix ou la vision comptent. Commencez par Plus, et n'optez pour Max que lorsqu'une charge de travail purement textuelle justifie le surcoût. Dans tous les cas, testez l'API dans Apidog afin que ce que vous livrez se comporte comme les benchmarks le promettent.
