Qwen 3.7 Plus : Modèle d'agent multimodal d'Alibaba, benchmarks et tarifs

Alibaba a lancé Qwen 3.7 Plus quelques jours seulement après Qwen3.7-Max. En bref : Plus est Max avec des yeux. Il conserve le même contexte de 1M de tokens et la même architecture agentique, ajoute la saisie d'images et de vidéos, et coûte environ un sixième du prix de Max. Si vous avez suivi la famille, notre guide sur ce qu'est Qwen 3.7 couvre le fleuron textuel ; cet article porte sur ce qu'apporte la nouvelle variante Plus.

Une chose à signaler d'emblée, car cela change qui devrait s'en soucier : Qwen 3.7 Plus est uniquement via API et est propriétaire. Il n'y a pas de poids ouverts, ce qui rompt avec l'habitude open source de Qwen. Nous verrons ce que cela signifie ci-dessous. Puisque Plus n'est livré qu'en tant qu'API, vous passerez votre temps à l'appeler et à la déboguer ; c'est là qu'Apidog intervient, comme nous le verrons à la fin.

bouton

La réponse courte

Qwen 3.7 Plus est le jumeau multimodal et économique de Qwen3.7-Max. Donnez-lui une capture d'écran, une maquette de conception ou une vidéo, et il les analysera comme une entrée de première classe. Il est conçu pour les agents qui pilotent des interfaces graphiques : il peut regarder une capture d'écran d'application et renvoyer les coordonnées exactes des pixels à cliquer.

Pour le texte pur, Max le dépasse encore légèrement. Pour tout ce qui comporte un signal visuel, Plus est celui que vous voulez, et il coûte une fraction du prix de Max dans tous les cas. Le seul inconvénient réel est la nature des poids fermés (propriétaires).

Quoi de neuf par rapport à Qwen 3.7 Max

Trois changements sont importants.

Il voit. Max est uniquement textuel. Plus accepte le texte, les images et la vidéo. Cela permet la perception des captures d'écran, la lecture de documents et de PDF, et la compréhension vidéo à partir d'un seul modèle.

Il ancre les GUI. Plus est positionné comme un agent interactif multimodal qui gère l'automatisation du navigateur, la navigation GUI et les flux de travail hybrides GUI-plus-CLI. Il produit des plans d'action structurés comme « cliquer à (x=487, y=232) », ce qui permet aux agents d'utilisation informatique de fonctionner réellement.

Il est économique. Plus fonctionne à un niveau de prix bien inférieur à celui de Max.

	Qwen 3.7 Plus	Qwen 3.7 Max
Modalités d'entrée	Texte, image, vidéo	Texte uniquement
Fenêtre de contexte	1M de tokens (partagé avec la vision)	1M de tokens
Entrée / sortie par 1M	0,40 $ / 1,60 $	2,50 $ / 7,50 $
Entrée en cache par 1M	0,08 $	0,25 $
Ancrage GUI (ScreenSpot Pro)	79,0	Aucun
Terminal-Bench	70,3	69,7
Plafond d'exécution autonome	35 heures	35 heures

Benchmarks

Les chiffres de lancement, confirmés par les premiers tests pratiques, racontent une histoire cohérente : Plus égale ou dépasse légèrement Max sur le texte, puis prend l'avantage dès que la vision entre en jeu.

ScreenSpot Pro: 79,0. Il s'agit du test d'ancrage GUI, la capacité du modèle à regarder une capture d'écran et à produire des coordonnées de pixels exactes. 79,0 est un niveau de pointe, et Max ne peut pas l'exécuter du tout.
Terminal-Bench: 70,3. Légèrement en avance sur les 69,7 de Max, même avec les paramètres de vision ajoutés.
SWE-Bench Pro: environ 60%, essentiellement au même niveau que les 60,6% de Max.
MCP-Atlas: 76,4, une égalité avec Max sur l'orchestration de l'utilisation des outils.
LM Arena : Plus est légèrement derrière Max sur le texte (n°15 contre n°13) et le codage (n°12 contre n°10). Pour le travail purement textuel, Max conserve un léger avantage.

Le schéma est clair. Choisissez Plus lorsque la tâche comporte un signal visuel : une capture d'écran, une maquette, un graphique. Pour une comparaison directe côté texte, notre comparaison Qwen 3.7 vs GPT-5.5 vs Opus 4.7 couvre la position de la famille face aux fleurons occidentaux. Comme toujours, les chiffres des benchmarks proviennent du fournisseur et des premiers testeurs, il faut donc les considérer comme une direction plutôt que comme parole d'évangile.

Tarification : le niveau multimodal économique

C'est là que Plus devient intéressant. À 0,40 $ en entrée et 1,60 $ en sortie par million de tokens, il est environ six fois moins cher que Max en entrée et près de cinq fois moins cher en sortie. L'entrée en cache descend à 0,08 $. Vous obtenez la vision et un contexte de 1M pour moins cher que la plupart des modèles textuels uniquement.

Une mise en garde à intégrer dans votre modèle de coût : les images et les vidéos partagent ce budget de 1M de tokens. Une capture d'écran haute résolution peut consommer des milliers de tokens, et les images vidéo s'accumulent rapidement, de sorte que votre marge de manœuvre textuelle effective diminue à mesure que la charge utile visuelle augmente. Prévoyez-le. Pour un contexte plus large sur les raisons pour lesquelles les laboratoires chinois continuent de casser les prix, consultez notre analyse de la guerre des prix des LLM chinois de 2026.

Le piège : propriétaire et uniquement via API

Qwen a bâti sa traction en entreprise sur les poids ouverts. Une grande partie de la ligne Qwen précédente a été livrée sous licence Apache 2.0 ou d'utilisation ouverte, afin que les équipes puissent télécharger, affiner et exécuter des modèles dans des centres de données isolés. Qwen 3.7 Plus ne le fait pas.

Plus est livré strictement en tant qu'API commerciale gérée via Alibaba Cloud Model Studio. Vous ne pouvez pas télécharger les poids, vous ne pouvez pas l'auto-héberger et vous ne pouvez pas l'exécuter hors ligne. Pour les environnements réglementés ou isolés, c'est un arrêt net. Une variante Plus à poids ouverts a été évoquée pour le T3 2026, mais elle n'est pas confirmée, et le niveau propriétaire pourrait rester fermé. Si les poids ouverts sont une exigence, ce modèle n'est pas votre choix aujourd'hui ; des rivaux comme Step 3.7 Flash sont livrés sous licence Apache 2.0 et le concurrencent sur le prix.

Comment accéder à Qwen 3.7 Plus

Deux voies :

API : appelez-la via Alibaba Cloud Model Studio. Le point d'accès est compatible OpenAI, de sorte que les modèles de requête du modèle de base sont repris ; notre guide sur l'utilisation de l'API Qwen 3.7 explique l'authentification et le premier appel, et vous ajoutez des parties image ou vidéo à la charge utile du message pour les requêtes multimodales.
Chat : essayez-le dans le navigateur sur chat.qwen.ai avant d'écrire du code. Si vous voulez tester la famille sans facturation, notre guide Qwen 3.7 gratuit vous montre les voies gratuites.

Un appel multimodal minimal utilise le format de message OpenAI standard, avec une partie image ajoutée à côté du texte :

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Which button submits this form? Give pixel coordinates."},
            {"type": "image_url", "image_url": {"url": "https://example.com/screenshot.png"}},
        ],
    }],
)
print(resp.choices[0].message.content)

Consultez la documentation de Model Studio pour l'identifiant exact du modèle et l'URL de base régionale, car ceux-ci diffèrent entre les points d'accès internationaux et chinois.

Qui devrait l'utiliser

Optez pour Qwen 3.7 Plus lorsque votre travail ressemble à ceci :

Agents d'utilisation informatique et GUI qui cliquent à travers de véritables interfaces à partir de captures d'écran.
Capture d'écran vers code et maquette vers UI, où le modèle lit un design et écrit le frontend.
Compréhension de documents, de PDF et de vidéos à faible coût par token.
Longues exécutions agentiques, jusqu'à la limite de 35 heures avec des milliers d'appels d'outils séquentiels.

Restez avec Max si vous optimisez purement les scores de texte SWE-Bench Pro ou si vous avez besoin de la latence la plus rapide pour le texte uniquement, où il fonctionne un peu plus vite sur les chemins à froid. Pour la plupart des charges de travail mixtes, l'option multimodale moins chère est le choix par défaut judicieux. Si vous comparez Plus à d'autres modèles ouverts et économiques, notre comparaison MiniMax M3 vs DeepSeek V4 vs Qwen 3.7 est une carte utile.

Tester Qwen 3.7 Plus avec Apidog

Parce que Plus est uniquement via API, vous vivez dans l'API. Les requêtes multimodales sont délicates : vous encodez des images, joignez des vidéos et lisez des plans d'action structurés, souvent à l'intérieur d'une boucle d'appel d'outils qui s'exécute pendant des minutes ou des heures. Vous devez voir exactement ce que chaque requête envoie et ce qui est renvoyé.

Apidog est conçu pour cela. Envoyez des requêtes Qwen 3.7 Plus avec des charges utiles d'images et de vidéos, inspectez les réponses brutes, gérez vos clés Model Studio dans différents environnements, et simulez le point d'accès afin que votre application continue de se développer pendant que vous ajustez les prompts. Pour le côté agentique, où Plus enchaîne les appels d'outils à travers un flux de travail GUI et CLI, le débogueur d'agents IA d'Apidog affiche la séquence complète des appels afin que vous puissiez trouver où une exécution a échoué.

Téléchargez Apidog pour tester, déboguer et simuler l'API Qwen 3.7 Plus avant qu'elle n'atteigne la production.

FAQ

Qwen 3.7 Plus est-il open source ? Non. Il est propriétaire et disponible uniquement en tant qu'API gérée via Alibaba Cloud Model Studio. Vous ne pouvez pas télécharger ou auto-héberger les poids. Une variante à poids ouverts a été suggérée pour le T3 2026 mais n'est pas confirmée.

Qwen 3.7 Plus ou Max, lequel dois-je utiliser ? Utilisez Plus si vous avez besoin de vision (captures d'écran, PDF, vidéo) ou si vous souhaitez le prix le plus bas, ce qui couvre la plupart des charges de travail. Utilisez Max si vous optimisez les scores SWE-Bench Pro purement textuels ou si vous avez besoin de la latence la plus rapide pour le texte uniquement.

Combien coûte Qwen 3.7 Plus ? 0,40 $ par million de tokens en entrée, 1,60 $ par million de tokens en sortie, et 0,08 $ pour l'entrée en cache. C'est environ six fois moins cher que Qwen3.7-Max.

Qwen 3.7 Plus gère-t-il la vidéo ? Oui. Il accepte le texte, les images et les vidéos en entrée. N'oubliez pas que les tokens visuels partagent le budget de contexte de 1M de tokens, de sorte que les charges utiles de médias volumineuses réduisent votre marge de manœuvre textuelle.

Quelle est la fenêtre de contexte ? 1M de tokens, hérités de l'architecture de Max, partagés entre les tokens de texte, d'image et de vidéo.

Comment accéder à Qwen 3.7 Plus ? Via l'API Alibaba Cloud Model Studio, ou essayez-le dans le navigateur sur chat.qwen.ai.

En résumé

Qwen 3.7 Plus reprend le fleuron agentique d'Alibaba, y ajoute la vision et réduit le prix à un niveau économique. Pour les développeurs qui créent des agents d'utilisation informatique, du codage basé sur des captures d'écran ou de la compréhension vidéo, c'est l'une des options multimodales de pointe les moins chères disponibles. Le compromis que vous acceptez est la nature des poids fermés et une forte dépendance au cloud d'Alibaba.

Si ce compromis vous convient, la prochaine étape est l'API elle-même. Testez-la, déboguez les appels multimodaux et simulez les réponses dans Apidog afin que ce que vous livrez tienne la route sous un trafic réel.

bouton