Trois laboratoires ont lancé des modèles phares à cinq semaines d'intervalle, et les classements n'ont cessé d'évoluer depuis. Qwen3.7-Max-Preview d'Alibaba, GPT-5.5 d'OpenAI et Claude Opus 4.7 d'Anthropic sont désormais en tête de tous les benchmarks importants, et choisir parmi eux est plus difficile qu'il n'y paraît. Un titre continue de circuler : Qwen3.7-Max classé #1 sur l'Artificial Analysis Intelligence Index. Cette affirmation est réelle, mais elle nécessite un contexte, et elle ne résout pas la question de savoir sur quel modèle vous devriez réellement construire.
Cette comparaison met les trois modèles côte à côte en termes de raisonnement, de codage, de fenêtre contextuelle, de tarification, de disponibilité et de latence. Chaque chiffre cité ici est attribué à une source nommée, car le marketing des fournisseurs et les benchmarks indépendants racontent des histoires différentes. Si vous souhaitez tester les différences par vous-même, vous pouvez exécuter les API des trois modèles côte à côte dans Apidog, en comparant les réponses, l'utilisation des tokens et la latence dans un seul espace de travail avant de vous engager.
En bref
Pour l'intelligence brute des benchmarks, GPT-5.5 mène avec un score de 60 sur l'Artificial Analysis Intelligence Index, tandis que Qwen3.7-Max-Preview occupe la première place du classement général avec 57 et que Claude Opus 4.7 obtient également 57. Pour la qualité préférée par l'humain sur LM Arena, Claude Opus 4.7 l'emporte. Pour le codage réel, la répartition est serrée : GPT-5.5 est en tête sur SWE-bench Verified, Opus 4.7 mène sur le plus difficile SWE-bench Pro. Pour le budget et l'ouverture, Qwen l'emporte sur le prix (avec des réserves, car il n'est qu'en préversion). Choisissez GPT-5.5 pour le travail d'agent efficace en tokens, Opus 4.7 pour l'ingénierie de grandes bases de code et la qualité conversationnelle, et Qwen3.7-Max si le coût et une fenêtre de 1M de tokens sont les plus importants.
Les trois modèles en un coup d'œil
Avant les benchmarks, voici ce qu'est réellement chaque modèle. Les différences de statut de publication seules changent la façon dont vous devriez interpréter chaque score.
Qwen3.7-Max-Preview
Qwen3.7-Max est le modèle de raisonnement phare d'Alibaba, présenté en préversion à la mi-mai 2026 et annoncé lors du Sommet Alibaba Cloud. Il utilise une pensée étendue, dispose d'une fenêtre contextuelle de 1,0M de tokens, et est conçu avec le codage d'agents, l'utilisation d'outils et le raisonnement à long contexte comme priorités. Le mot important est préversion. Fin mai 2026, il n'a pas de point d'API public et pas de poids ouverts ; l'accès se fait via Alibaba Cloud Model Studio et Qwen Studio.

Une nuance à souligner : Alibaba a déclaré que Qwen3.7-Plus serait open source tandis que Qwen3.7-Max resterait propriétaire. C'est un changement par rapport à l'approche entièrement ouverte de Qwen auparavant, et c'est important si l'ouverture fait partie de votre décision.
GPT-5.5
GPT-5.5 est le modèle de raisonnement d'OpenAI axé sur l'agentique, sorti le 23 avril 2026. Il est une réponse directe à Claude Opus 4.7 et s'appuie fortement sur les flux de travail autonomes : utilisation de terminaux, tâches de navigateur et appel d'outils. OpenAI le propose en plusieurs niveaux d'effort (les chiffres publics d'Artificial Analysis utilisent la variante xhigh), avec une fenêtre contextuelle de 1M de tokens dans l'API et une fenêtre plus petite de 400K dans Codex. Il est généralement disponible via l'API OpenAI aujourd'hui.

Claude Opus 4.7
Claude Opus 4.7 est le modèle phare actuel d'Anthropic, sorti le 16 avril 2026 en tant que mise à niveau directe d'Opus 4.6. Anthropic l'a positionné autour de l'ingénierie logicielle avancée, en particulier pour les tâches les plus difficiles sur de grandes bases de code. Il exécute un raisonnement adaptatif, dispose d'une fenêtre contextuelle de 1,0M de tokens, et est généralement disponible via l'API Anthropic, Amazon Bedrock et Google Vertex AI. Parmi les trois, il a la plus longue expérience en production et le plus de données de vote indépendantes derrière ses scores.

Benchmarks de raisonnement et d'intelligence
C'est de là que vient l'accroche « Qwen #1 », elle mérite donc une lecture attentive.
L'Artificial Analysis Intelligence Index
L'Artificial Analysis Intelligence Index est un score composite construit à partir d'une moyenne pondérée de dix évaluations couvrant le raisonnement, la connaissance, les mathématiques et le codage. Voici où se situent les trois modèles, selon Artificial Analysis fin mai 2026 :
- Qwen3.7-Max obtient 57, classé #1 sur 218 modèles au classement général.
- GPT-5.5 (xhigh) obtient 60, le plus élevé des trois.
- Claude Opus 4.7 (max) obtient 57, classé #3 dans sa catégorie suivie.
Les deux parties de l'affirmation populaire sont donc techniquement vraies et légèrement en tension. Qwen3.7-Max occupe bien la première position du classement général sur Artificial Analysis. Mais GPT-5.5 affiche le score d'indice le plus élevé avec 60. L'écart s'explique par la façon dont le classement évalue les modèles qui partagent un même niveau et par la façon dont Artificial Analysis regroupe les variantes de raisonnement ; un modèle peut être en tête de la liste générale tandis qu'un autre affiche un nombre brut plus élevé dans un groupe suivi différent. Le résumé honnête : GPT-5.5 a le score d'intelligence mesuré le plus élevé, et Qwen3.7-Max se situe tout en haut du classement public. Considérez-les comme des co-leaders, avec Opus 4.7 un peu derrière sur cet indice particulier.
Une autre mise en garde pour Qwen. Artificial Analysis note que Qwen3.7-Max a généré 97M de tokens en sortie pendant l'évaluation, bien au-dessus de la moyenne d'environ 26M. C'est un raisonneur verbeux. Cette verbosité gonfle les coûts des tokens et la latence, et c'est un facteur réel une fois que l'on passe des benchmarks à la production.
LM Arena Elo de préférence humaine
Les benchmarks mesurent la justesse sur des tâches fixes. LM Arena mesure quelque chose de différent : quelle réponse un humain préfère lors d'une comparaison aveugle côte à côte. Le classement textuel actuel de LM Arena raconte une histoire différente de l'Intelligence Index :
- Claude Opus 4.7 se situe autour de 1 492 Elo, classé #4 au général, avec plus de 13 000 votes derrière lui.
- GPT-5.5 se situe autour de 1 478 Elo, classé #11.
- Qwen3.7-Max-Preview se situe autour de 1 475 Elo, classé #14, toujours marqué préliminaire avec moins de 4 000 votes.
Le revirement est frappant. Le modèle avec le score de benchmark le plus élevé (GPT-5.5) ne domine pas en préférence humaine, et le modèle en préversion (Qwen) a trop peu de votes pour une lecture stable. Opus 4.7 l'emporte ici, ce qui correspond au schéma plus large selon lequel les modèles Opus d'Anthropic ont tendance à dominer les classements de texte, de vision et de documents de LM Arena, même lorsqu'ils sont en retrait sur les benchmarks académiques. Si votre produit est conversationnel et que la qualité est jugée par les utilisateurs plutôt que par des suites de tests, cet écart est à prendre en compte sérieusement. Les scores Elo changent à mesure que les votes s'accumulent, alors vérifiez le tableau en direct avant de citer un seul chiffre.
Capacités de codage
Les trois laboratoires commercialisent ces modèles comme des outils de codage, donc les benchmarks de codage ont du poids.
Sur SWE-bench Verified, le test standard de résolution de problèmes GitHub réels, GPT-5.5 a pris la première place avec 88,7%, avec Claude Opus 4.7 juste derrière à 87,6%, selon le suivi du classement SWE-bench de mai 2026. C'est une marge étroite et les deux chiffres sont excellents.
Le tableau change sur des tests plus difficiles. Sur SWE-bench Pro, qui utilise des tâches de pull request de dépôts réels plus complexes, Claude Opus 4.7 mène à environ 64% contre 59% pour GPT-5.5. Opus 4.7 a également tendance à mieux réussir les tâches qui nécessitent un raisonnement architectural large sur une grande base de code. GPT-5.5, à son tour, domine les flux de travail terminaux et shell non supervisés, menant Terminal-Bench 2.0 avec une large marge, et il est bien plus efficace en termes de tokens (environ 72% de tokens de sortie en moins sur des tâches équivalentes). Sur les dix benchmarks rapportés par les deux fournisseurs, une couverture indépendante a placé Opus 4.7 en tête sur six et GPT-5.5 sur quatre.
Qwen3.7-Max-Preview est le plus difficile à cerner. Fin mai 2026, il dispose de données Arena Elo mais pas de benchmarks de codage standardisés publiés comme SWE-bench. Il est classé #9 dans la catégorie Logiciels & TI et #10 dans la catégorie Codage sur les tableaux de catégories de LM Arena, ce qui est solide mais ne remplace pas une exécution contrôlée de SWE-bench. Les modèles de niveau codeur de Qwen ont affiché des scores SWE-bench Verified supérieurs à 70% dans la même famille, donc la capacité est plausible ; le chiffre Max-Preview n'est tout simplement pas encore public. Indiquer un chiffre SWE-bench pour Qwen3.7-Max aujourd'hui serait une supposition, nous l'omettons donc.
Lecture pratique pour le codage : GPT-5.5 pour l'automatisation pilotée par terminal et sensible aux coûts, Opus 4.7 pour l'ingénierie de grandes bases de code et les pull requests les plus complexes. Si vous comparez spécifiquement des agents de codage intégrés à un IDE, notre analyse de Cursor Composer 2.5 par rapport à Opus 4.7 et GPT-5.5 approfondit ce flux de travail.
Fenêtre contextuelle
Un long contexte détermine si vous pouvez insérer un référentiel entier, un ensemble de documents longs ou une trace d'agent de plusieurs heures dans un seul appel.
- Qwen3.7-Max : 1,0M de tokens, selon Artificial Analysis.
- Claude Opus 4.7 : 1,0M de tokens, selon Artificial Analysis.
- GPT-5.5 : 1M de tokens dans l'API, bien qu'Artificial Analysis ait mesuré une fenêtre effective autour de 922K ; l'intégration Codex plafonne à 400K.
C'est presque une égalité à trois au niveau du titre. Les trois vous donnent environ un million de tokens, assez pour environ 1 500 pages de texte. Les différences pratiques se situent aux marges. La fenêtre de l'API de GPT-5.5 correspond à celle des autres, mais si vous travaillez à l'intérieur de Codex, vous en obtenez moins de la moitié, alors vérifiez quelle surface vous appelez réellement. Et une longue fenêtre annoncée n'est pas la même chose qu'un rappel fiable en profondeur dans cette fenêtre ; si la précision du long contexte est essentielle à votre cas d'utilisation, testez la récupération en profondeur plutôt que de faire confiance au chiffre d'en-tête.
Tarification
Le coût est là où la comparaison devient inégale, car l'un des trois n'a pas de prix publié.
Selon Artificial Analysis, GPT-5.5 (xhigh) coûte 5,00 $ par million de tokens d'entrée et 30,00 $ par million de tokens de sortie, avec une entrée en cache à 0,50 $. Claude Opus 4.7 (max) coûte 6,25 $ par million d'entrée et 25,00 $ par million de sortie, également avec une entrée en cache à 0,50 $. Ainsi, Opus 4.7 est moins cher en sortie, GPT-5.5 est moins cher en entrée, et le gagnant dépend entièrement de votre ratio entrée-sortie. Les charges de travail à long prompt et réponse courte favorisent GPT-5.5 ; les charges de travail intensives en génération favorisent Opus 4.7.
Qwen3.7-Max-Preview n'a pas de tarification API annoncée fin mai 2026. Pour référence, la génération précédente Qwen3.6-Max-Preview était tarifée autour de 1,30 $ par million de tokens d'entrée et 7,80 $ par million de tokens de sortie via Alibaba Cloud. Si Qwen3.7-Max se rapproche de cette fourchette, il sous-coterait les deux modèles américains de loin. C'est une attente raisonnable, pas un prix confirmé, alors planifiez en conséquence avec prudence. Quel que soit le prix affiché, rappelez-vous la verbosité de Qwen : 97M de tokens sur un benchmark où la moyenne est de 26M signifie que votre facture réelle augmentera plus rapidement que ce que le taux par token suggère.
Si la dépense en tokens est votre principale contrainte, le modèle le moins cher sur le papier n'est pas toujours le moins cher en pratique. Le volume de sortie, la mise en cache et le comportement de réessai modifient tous le chiffre. Notre guide sur comment réduire les coûts des tokens d'agent depuis la CLI couvre les leviers qui comptent plus que la grille tarifaire.
Disponibilité et ouverture
Cette catégorie a un classement clair, et c'est celle qui est le plus susceptible d'écarter un modèle.
- GPT-5.5 est généralement disponible via l'API OpenAI et Codex aujourd'hui. Propriétaire, pas de poids ouverts, mais stable et prêt pour la production.
- Claude Opus 4.7 est généralement disponible via l'API Anthropic, Amazon Bedrock et Google Vertex AI. Également propriétaire, également prêt pour la production, avec la plus large portée de plateforme cloud des trois.
- Qwen3.7-Max-Preview est uniquement en préversion. Pas de point d'API public, pas de poids ouverts, accès limité à Alibaba Cloud Model Studio et Qwen Studio. Alibaba a déclaré que le niveau Plus serait open source tandis que Max resterait fermé. Pour un système de production aujourd'hui, le statut de préversion est un véritable obstacle ; pour l'évaluation et la planification de la feuille de route, c'est acceptable. Si vous souhaitez une approche pratique, notre guide sur comment utiliser l'API Qwen 3.7 couvre l'accès actuel, et il existe un guide séparé sur comment utiliser Qwen 3.7 gratuitement via l'interface de chat Qwen pendant que l'API se stabilise.
En bref : GPT-5.5 et Opus 4.7 sont tous deux prêts à être déployés. Qwen3.7-Max ne l'est pas encore.
Latence
La vitesse est importante pour tout ce qui est destiné aux utilisateurs ou pour les boucles d'agents qui effectuent de nombreux appels séquentiels.
Selon Artificial Analysis, Claude Opus 4.7 a un temps de premier token d'environ 27 secondes, et GPT-5.5 (xhigh) est plus lent avec environ 101 secondes. En termes de débit de sortie, GPT-5.5 génère environ 65,9 tokens par seconde contre 49,4 pour Opus 4.7. Deux choses à noter. Premièrement, ce sont des chiffres pour les niveaux de raisonnement les plus exigeants ; les variantes moins exigeantes des deux modèles répondent beaucoup plus rapidement, et la plupart des déploiements en production ne fonctionnent pas à plein régime. Deuxièmement, GPT-5.5 démarre lentement mais diffuse rapidement une fois qu'il commence, tandis qu'Opus 4.7 démarre plus rapidement mais diffuse plus lentement. Pour une interface de chat, le premier token plus rapide est généralement plus agréable ; pour la génération en masse, le débit brut l'emporte.
Qwen3.7-Max n'a pas de données de vitesse ou de latence publiées sur Artificial Analysis. Compte tenu du chiffre de verbosité de 97M de tokens, attendez-vous à des temps de bout en bout plus longs sur les invites à forte charge de raisonnement, quel que soit le débit brut, car le modèle produit simplement plus de tokens pour obtenir une réponse.
Tableau comparatif complet
| Critère | Qwen3.7-Max-Preview | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|---|
| Fournisseur | Alibaba | OpenAI | Anthropic |
| Date de sortie | Préversion, mi-mai 2026 | 23 avril 2026 | 16 avril 2026 |
| AA Intelligence Index | 57 (#1 / 218 au général) | 60 (score le plus élevé) | 57 (#3 dans sa catégorie) |
| LM Arena texte Elo | ~1 475 (#14, préliminaire) | ~1 478 (#11) | ~1 492 (#4) |
| SWE-bench Verified | Non publié | 88,7% | 87,6% |
| SWE-bench Pro | Non publié | ~59% | ~64% |
| Fenêtre contextuelle | 1,0M tokens | 1M API / ~922K effectif / 400K Codex | 1,0M tokens |
| Prix d'entrée (par 1M) | Non annoncé (Qwen3.6-Max: ~1,30 $) | 5,00 $ | 6,25 $ |
| Prix de sortie (par 1M) | Non annoncé (Qwen3.6-Max: ~7,80 $) | 30,00 $ | 25,00 $ |
| Vitesse de sortie | Non publiée | ~65,9 tok/s | ~49,4 tok/s |
| Temps au premier token | Non publié | ~101 s (xhigh) | ~27 s |
| Disponibilité | Préversion uniquement (Model Studio / Qwen Studio) | Disponibilité générale (API OpenAI, Codex) | Disponibilité générale (API Anthropic, Bedrock, Vertex) |
| Poids ouverts | Non (Max propriétaire ; Plus sera ouvert) | Non | Non |
| Modèle de raisonnement | Oui (pensée étendue) | Oui (pensée étendue) | Oui (raisonnement adaptatif) |
Sources : Pages des modèles Artificial Analysis, classement textuel LM Arena, suivi du classement SWE-bench et annonces des fournisseurs, toutes à jour fin mai 2026. Les chiffres de Qwen en phase de préversion ne sont pas finalisés ; les chiffres des benchmarks et Elo évoluent, alors vérifiez-les par rapport aux tableaux en direct avant de les citer.
Cas d'utilisation réels
Les benchmarks généralisent ; votre charge de travail est spécifique. Voici comment les trois se comportent pour les tâches que les gens exécutent réellement.
Construire un agent de codage autonome
Vous voulez un modèle qui résout les problèmes GitHub, exécute des commandes de terminal et reste dans un budget de tokens sur de longues boucles d'agents. GPT-5.5 correspond le mieux à cela. Il est en tête de SWE-bench Verified, domine Terminal-Bench, et son avantage d'efficacité de 72% en tokens se cumule sur des milliers d'étapes d'agents. Opus 4.7 est une alternative solide lorsque la base de code est grande et que le raisonnement architectural est plus important que le débit du shell.
Refactoriser une grande base de code héritée
Ici, la tâche consiste à raisonner sur des centaines de fichiers, à maintenir un modèle mental large et à produire des changements de qualité PR (Pull Request). Claude Opus 4.7 est en tête sur SWE-bench Pro et sur les tâches de grandes bases de code, et sa fenêtre de 1M de tokens vous permet de charger un contexte réel. C'est son cas d'utilisation le plus fort.
Analyse de documents longs et synthèse de recherche
L'alimentation de contrats volumineux, d'articles de recherche ou de transcriptions est presque une égalité. Les trois offrent environ 1M de tokens. La position plus élevée d'Opus 4.7 dans LM Arena suggère des résumés plus clairs que les humains préfèrent ; Qwen3.7-Max correspond à la fenêtre et serait probablement moins cher une fois tarifé. Pour un pipeline de documents en production aujourd'hui, Opus 4.7 ou GPT-5.5 ; pour un outil interne sensible aux coûts où l'accès en préversion est acceptable, Qwen mérite un projet pilote.
Chat et assistants pour les clients
Lorsque les utilisateurs finaux jugent la sortie, le score Elo de LM Arena est le signal le plus pertinent. Opus 4.7 est en tête des trois en matière de préférence humaine, ce qui est la métrique qui suit le plus directement la satisfaction des utilisateurs. GPT-5.5 est un excellent deuxième choix, surtout là où son streaming plus rapide améliore la réactivité perçue.
Charges de travail à volume élevé et sensibles aux coûts
Pour la classification, l'extraction ou la génération en masse où vous traitez des millions de tokens quotidiennement, le prix domine. Si Qwen3.7-Max est commercialisé à des tarifs proches de ceux de son prédécesseur, ce serait le choix évident. Tant que l'API et la tarification ne sont pas publiques, GPT-5.5 (entrée moins chère) ou Opus 4.7 (sortie moins chère) l'emporte selon votre combinaison de tokens. Quel que soit votre choix, validez le coût réel par requête plutôt que de faire confiance à la grille tarifaire, car le volume de sortie varie beaucoup entre ces modèles.
Choix par cas d'utilisation
Un guide de décision rapide :
- Meilleur pour les agents de codage et l'automatisation de terminal : GPT-5.5. Score SWE-bench Verified le plus élevé, meilleures performances de terminal et le plus efficace en termes de tokens avec une large marge.
- Meilleur pour l'ingénierie de grandes bases de code : Claude Opus 4.7. Mène sur SWE-bench Pro et les tâches architecturales larges, avec une fenêtre complète de 1M de tokens.
- Meilleur pour les produits conversationnels et orientés utilisateur : Claude Opus 4.7. Le plus haut score Elo de préférence humaine de LM Arena des trois.
- Meilleur pour l'intelligence brute des benchmarks : GPT-5.5. Score le plus élevé sur l'Artificial Analysis Intelligence Index avec 60.
- Meilleur pour le budget et le long contexte (avec des réserves) : Qwen3.7-Max-Preview. Une fenêtre de 1M de tokens et probablement un prix bas, mais il est uniquement en préversion sans API de production pour l'instant.
- Meilleur tout-usage disponible aujourd'hui : un coude à coude entre GPT-5.5 et Opus 4.7 ; les deux sont en disponibilité générale, les deux sont excellents, et le bon choix dépend si vous optimisez pour le coût des tokens ou la qualité préférée par l'humain.
Si un quatrième concurrent mérite d'être inclus dans votre évaluation, le modèle de Google vaut également le détour. Nous couvrons ce qu'est Gemini 3.5 séparément, et il existe une comparaison directe Gemini 3.5 vs GPT-5.5 vs Opus 4.7 pour cette confrontation à trois.
Comment tester les trois par vous-même
Les benchmarks généralisent ; votre charge de travail est spécifique. La façon la plus rapide de trancher un choix de modèle est d'envoyer les mêmes invites à chaque API et de comparer directement les réponses, les décomptes de tokens et la latence.

Apidog facilite ce test côte à côte. Créez une requête pour le point d'accès de chat de chaque modèle, déposez-les dans un espace de travail partagé et exécutez-les avec la même entrée. Vous pouvez inspecter les réponses complètes, mesurer le temps de réponse et suivre l'utilisation des tokens en un seul endroit au lieu de jongler avec trois consoles ou scripts séparés. Enregistrez les requêtes comme un scénario de test réutilisable et vous pourrez relancer la comparaison chaque fois qu'un modèle est mis à jour, ce qui, étant donné la rapidité d'itération de ces trois modèles, sera fréquent. Téléchargez Apidog pour configurer votre première comparaison multi-modèles.
Conclusion
Il n'y a pas de vainqueur unique ici, et tout article qui en désigne un simplifie à l'excès. Les conclusions honnêtes :
- GPT-5.5 a la plus haute intelligence de benchmark (60 sur l'Artificial Analysis Intelligence Index), est en tête de SWE-bench Verified, et est le plus efficace en tokens. Idéal pour les agents de codage et l'automatisation sensible aux coûts.
- Claude Opus 4.7 remporte la qualité de préférence humaine sur LM Arena, mène sur le plus difficile SWE-bench Pro, et a la plus large disponibilité cloud. Idéal pour l'ingénierie de grandes bases de code et les produits orientés utilisateur.
- Qwen3.7-Max-Preview occupe la première place du classement Artificial Analysis, égale les autres en fenêtre contextuelle, et sera probablement le moins cher une fois tarifé. Mais il est uniquement en préversion aujourd'hui, c'est donc un candidat pour la feuille de route, pas encore un choix de production.
- Le titre « Qwen classé #1 » est précis mais partiel : Qwen est en tête du classement général tandis que GPT-5.5 affiche le score brut le plus élevé. Lisez les deux.
- Les chiffres des benchmarks et les classements Elo évoluent de semaine en semaine. Vérifiez-les par rapport aux tableaux en direct avant de vous engager.
Le bon modèle est celui qui l'emporte sur vos invites réelles, votre combinaison de tokens et votre budget de latence. Testez les trois avec les mêmes requêtes dans Apidog avant de décider ; un après-midi de tests côte à côte vaut mieux qu'un mois de conjectures à partir des classements.
