API Qwen3.6-Plus: Surpasse Claude aux Benchmarks Terminal

En bref

Qwen3.6-Plus a été officiellement lancé. Il obtient un score de 78,8 % sur SWE-bench Verified et de 61,6 % sur Terminal-Bench 2.0, où il surpasse Claude Opus 4.5. Il dispose d'une fenêtre contextuelle d'1 million de jetons, d'un nouveau paramètre preserve_thinking pour les boucles d'agents, et fonctionne directement avec Claude Code, OpenClaw et Qwen Code via une API compatible OpenAI.

De la préversion à la version finale

Si vous avez lu notre guide précédent sur la préversion de Qwen 3.6 Plus sur OpenRouter, vous savez déjà de quoi ce modèle est capable. La préversion a été lancée discrètement le 30 mars, sans liste d'attente et avec un accès gratuit via OpenRouter. Au cours de ses deux premiers jours, elle a traité plus de 400 millions de jetons de complétion à travers environ 400 000 requêtes.

La version officielle apporte la version de production complète. Ce n'est plus seulement une préversion. Le modèle est maintenant disponible via Alibaba Cloud Model Studio avec une API stable, une disponibilité garantie par SLA, et un nouveau paramètre d'API qui le rend significativement plus performant pour les tâches d'agent multi-étapes.

Ce guide couvre les changements, comment appeler correctement l'API et comment tester votre intégration avec Apidog avant le déploiement.

bouton

Qu'est-ce que Qwen3.6-Plus ?

Qwen3.6-Plus est un modèle hébergé de type « mixture-of-experts » de l'équipe Qwen d'Alibaba. Comme la série Qwen3.5, il utilise une activation sparse, ce qui signifie que seule une fraction des paramètres est activée par jeton. Le résultat est une performance élevée à un coût de calcul inférieur à celui d'un modèle dense de capacité similaire.

Spécifications clés au lancement :

Fenêtre contextuelle d'1 million de jetons par défaut
Raisonnement en chaîne de pensée obligatoire (identique à la préversion)
Nouveau paramètre preserve_thinking pour les tâches d'agent
Support multimodal natif (vision, vidéo, compréhension de documents)
API compatible OpenAI, API compatible Anthropic et API de réponses OpenAI

Des variantes plus petites et open-source seront disponibles d'ici quelques jours. Si vous avez besoin de poids pour l'auto-hébergement, ils sont en route.

Résultats des benchmarks

Agents de codage

Qwen3.6-Plus se situe légèrement derrière Claude Opus 4.5 sur la plupart des tâches SWE-bench, tout en surpassant tous les modèles de la comparaison sur les opérations terminales.

Terminal-Bench 2.0 teste des opérations shell réelles : gestion de fichiers, contrôle de processus, flux de travail terminaux multi-étapes avec un délai d'attente de 3 heures, 32 cœurs de CPU et 48 Go de RAM. Le score de Qwen3.6-Plus de 61,6 % contre 59,3 % pour Claude Opus 4.5 représente un écart significatif sur exactement le genre de tâches que les développeurs exécutent.

Agents généraux et utilisation d'outils

Benchmark	Claude Opus 4.5	Qwen3.6-Plus
TAU3-Bench	70.2%	70.7%
DeepPlanning	33.9%	41.5%
MCPMark	42.3%	48.2%
MCP-Atlas	71.8%	74.1%
WideSearch	76.4%	74.3%

MCPMark teste les appels d'outils GitHub MCP v0.30.3, avec des réponses Playwright tronquées à 32K jetons. Le leadership à 48,2 % est important pour quiconque développe des outils basés sur MCP. DeepPlanning à 41,5 % contre 33,9 % pour Claude montre un écart significatif sur les tâches de planification à long terme.

Raisonnement et connaissances

Benchmark	Claude Opus 4.5	Qwen3.6-Plus
GPQA	87.0%	90.4%
LiveCodeBench v6	84.8%	87.1%
IFEval strict	90.9%	94.3%
MMLU-Pro	89.5%	88.5%

GPQA est un benchmark de raisonnement scientifique de niveau universitaire. IFEval strict mesure la capacité d'un modèle à suivre des instructions de formatage et de contraintes précises. Qwen3.6-Plus est en tête sur les deux, ce qui est important pour les sorties structurées et les tâches d'agent où le modèle doit suivre des instructions complexes sans dériver.

Multimodal

Qwen3.6-Plus est un modèle multimodal natif. Il est en tête de plusieurs benchmarks de documents, spatiaux et de détection d'objets.

Benchmark	Qwen3.6-Plus	Remarques
OmniDocBench 1.5	91.2%	Meilleur du tableau
RefCOCO avg	93.5%	Meilleur du tableau
We-Math	89.0%	Meilleur du tableau
CountBench	97.6%	Meilleur du tableau
OSWorld-Verified	62.5%	Derrière Claude (66,3 %)

OSWorld-Verified, le benchmark d'utilisation de l'ordinateur de bureau, place Claude Opus 4.5 en tête à 66,3 % contre 62,5 % pour Qwen3.6-Plus. Pour les tâches de compréhension de documents et de mise en correspondance spatiale, Qwen3.6-Plus est en tête.

Comment appeler l'API

Qwen3.6-Plus est disponible sur Alibaba Cloud Model Studio. Obtenez votre clé API sur modelstudio.alibabacloud.com.

Trois URL de base régionales :

Singapour : https://dashscope-intl.aliyuncs.com/compatible-mode/v1
Pékin : https://dashscope.aliyuncs.com/compatible-mode/v1
Virginie (États-Unis) : https://dashscope-us.aliyuncs.com/compatible-mode/v1

Appel de base avec streaming

from openai import OpenAI
import os

client = OpenAI(
 api_key=os.environ["DASHSCOPE_API_KEY"],
 base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
 extra_body={"enable_thinking": True},
 stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
 if not chunk.choices:
 continue
 delta = chunk.choices[0].delta
 if hasattr(delta, "reasoning_content") and delta.reasoning_content:
 if not is_answering:
 reasoning += delta.reasoning_content
 if delta.content:
 if not is_answering:
 is_answering = True
 answer += delta.content
 print(delta.content, end="", flush=True)

Le paramètre preserve_thinking

La version préliminaire ne conservait que le raisonnement du tour actuel. La version officielle ajoute preserve_thinking.

Lorsque vous définissez preserve_thinking: true, le modèle conserve la chaîne de pensée de tous les tours précédents de la conversation. Alibaba le recommande spécifiquement pour les scénarios d'agent. La logique est la suivante : un agent travaillant sur une tâche multi-étapes bénéficie de la visualisation de sa propre pensée antérieure. Il prend de meilleures décisions à l'étape 5 lorsqu'il peut voir pourquoi il a fait le choix qu'il a fait à l'étape 2.

Il est désactivé par défaut pour contrôler l'utilisation des jetons. Activez-le pour les boucles d'agents.

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=conversation_history,
 extra_body={
 "enable_thinking": True,
 "preserve_thinking": True, # keep reasoning across all turns
 },
 stream=True
)

Utiliser Qwen3.6-Plus avec Claude Code

L'API Qwen prend en charge le protocole Anthropic. Vous pouvez exécuter Claude Code avec Qwen3.6-Plus sans modifier aucune configuration de Claude Code au-delà des variables d'environnement.

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude

Utiliser Qwen3.6-Plus avec OpenClaw

OpenClaw (anciennement Moltbot / Clawdbot) est un agent de codage open-source auto-hébergé. Installez-le et pointez-le vers Model Studio :

# Install (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard

Modifiez ~/.openclaw/openclaw.json et fusionnez ces champs (ne pas écraser l'intégralité du fichier) :

{
 "models": {
 "providers": [{
 "name": "alibaba-coding-plan",
 "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
 "apiKey": "${DASHSCOPE_API_KEY}",
 "models": [{"id": "qwen3.6-plus", "reasoning": true}]
 }]
 },
 "agents": {
 "defaults": {"models": ["qwen3.6-plus"]}
 }
}

Utiliser Qwen3.6-Plus avec Qwen Code

Qwen Code est l'agent terminal open-source d'Alibaba, conçu spécifiquement pour la série Qwen. Il vous offre 1 000 appels API gratuits par jour lorsque vous vous connectez avec Qwen Code OAuth.

npm install -g @qwen-code/qwen-code@latest
qwen
# Type /auth to sign in and activate free tier

Pourquoi preserve_thinking modifie le comportement de l'agent

La plupart des API LLM traitent chaque tour indépendamment. Le modèle génère une réponse, le raisonnement est écarté et le tour suivant commence à zéro. Pour les questions-réponses simples, cela convient. Pour les agents exécutant des tâches en 10 à 20 étapes, cela crée un problème : le modèle ne peut pas voir pourquoi il a pris des décisions antérieures, il dérive donc.

Le paramètre preserve_thinking maintient visible la chaîne complète de raisonnement de tous les tours précédents lors de la génération de la réponse suivante. L'effet pratique : un agent travaillant sur une tâche complexe au niveau du référentiel à l'étape 8 peut voir son analyse des étapes 2, 4 et 6. Il prend des décisions plus cohérentes et produit moins de contradictions.

Les benchmarks d'Alibaba montrent que cela réduit également le raisonnement redondant. Lorsque le modèle n'a pas à redériver un contexte qu'il a déjà établi, il utilise en moyenne moins de jetons par tour pour les flux de travail complexes en plusieurs étapes.

Utilisez ce modèle pour les boucles d'agents :

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# Example: multi-step code review agent
result = agent_step("Analyze the auth module for security issues.")
result = agent_step("Now suggest fixes for the top 3 issues you found.")
result = agent_step("Write tests that validate each fix.")

Sans preserve_thinking, le modèle à l'étape 3 ne sait pas quels 3 problèmes il a identifiés à l'étape 1. Avec lui, la chaîne de raisonnement est intacte.

À quoi il est le mieux adapté

Correction de bugs au niveau du référentiel. SWE-bench Verified à 78,8 % et SWE-bench Pro à 56,6 % sont compétitifs avec tout ce qui est disponible aujourd'hui. Si vous exécutez des pipelines de réparation ou de révision de code automatisés, Qwen3.6-Plus vaut la peine d'être comparé à votre configuration actuelle.

Automatisation du terminal. Le leadership de Terminal-Bench 2.0 en fait le modèle le plus puissant disponible pour les flux de travail intensifs en shell. Opérations de fichiers multi-étapes, gestion de processus, pipelines de construction.

Appel d'outils MCP. MCPMark à 48,2 % (meilleur résultat) en fait le meilleur choix actuel pour les intégrations d'outils basés sur MCP.

Analyse de documents à long contexte. La fenêtre de 1 million de jetons avec de solides scores LongBench v2 gère les révisions complètes de bases de code, les grands documents de spécification et l'analyse multi-fichiers en un seul appel.

Génération de code frontend. Le QwenWebBench interne de l'équipe Qwen (classement Elo, 7 catégories : Web Design, Web Apps, Games, SVG, Data Visualization, Animation, 3D) donne à Qwen3.6-Plus un score de 1501,7 contre 1517,9 pour Claude Opus 4.5. Effectivement à égalité pour la qualité de génération frontend.

Multilingue. WMT24++ à 84,3 % (meilleur), MAXIFE à 88,2 % sur 23 configurations linguistiques. Solide pour les cas d'utilisation non-anglais.

Tester les appels API de Qwen3.6-Plus avec Apidog

Le point d'accès est compatible OpenAI, vous pouvez donc l'importer directement dans Apidog et le tester comme n'importe quelle autre API.

Configurez une requête POST vers https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions. Ajoutez votre clé API comme variable d'environnement : Authorization: Bearer {{DASHSCOPE_API_KEY}}.

Écrivez des assertions de réponse pour valider la structure et le contenu :

pm.test("La réponse contient des choix", () => {
 const body = pm.response.json();
 pm.expect(body).to.have.property("choices");
 pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("Pas de raisonnement vide lorsque la pensée est activée", () => {
 const choice = pm.response.json().choices[0];
 if (choice.message.reasoning_content !== undefined) {
 pm.expect(choice.message.reasoning_content).to.not.be.empty;
 }
});

Utilisez le Smart Mock d'Apidog pour générer des réponses de test pendant le développement. Cela signifie que votre code d'orchestration d'agent peut être testé sans appeler l'API en direct à chaque exécution, ce qui permet d'économiser des jetons et d'accélérer les cycles de test.

Si vous construisez un agent multi-tours, créez un scénario de test dans Apidog qui enchaîne plusieurs requêtes. Validez que preserve_thinking transmet le raisonnement entre les tours en vérifiant la structure de la réponse à chaque étape avant d'exécuter la boucle complète en production.

Téléchargez Apidog gratuitement pour configurer ces tests.

bouton

Ce qui arrive ensuite

L'équipe Qwen a confirmé que des variantes open-source plus petites seront livrées dans les prochains jours. Celles-ci suivront le modèle Qwen3.5 : des modèles MoE (Mixture-of-Experts) sparses avec des poids Apache 2.0 publics.

La feuille de route comprend également :

Tâches de référentiel à plus long terme, ciblant la résolution de problèmes multi-fichiers de plus en plus complexes
Développement continu d'agents multimodaux, avec des agents GUI et du codage visuel comme fonctionnalités de premier ordre, et non comme fonctionnalités secondaires

Les variantes open-source de Qwen3.5 sont devenues certains des modèles auto-hébergés les plus déployés quelques semaines après leur sortie. Si Qwen3.6 suit le même schéma, les variantes plus petites deviendront probablement le choix par défaut pour les agents de codage auto-hébergés peu après leur arrivée.

Conclusion

Qwen3.6-Plus réduit l'écart avec Claude Opus 4.5 sur les tâches de codage et prend une avance claire sur les opérations terminales, les appels d'outils MCP et la planification à long terme. Le contexte d'1 million de jetons, la compatibilité avec le protocole Anthropic et preserve_thinking pour les boucles d'agents en font un choix pratique pour les systèmes d'agents en production dès maintenant.

La période de prévisualisation gratuite sur OpenRouter a été un moyen utile d'évaluer le modèle. L'API officielle apporte de la stabilité, une couverture SLA et le nouveau paramètre axé sur les agents qui rend les flux de travail multi-tours plus fiables.

Apidog gère la partie test : importez le point d'accès compatible OpenAI, écrivez des assertions de réponse, simulez pendant le développement et exécutez des tests de régression chaque fois que vous mettez à jour le modèle ou la version de l'API.

bouton

FAQ

Quelle est la différence entre Qwen3.6-Plus et la préversion ?La préversion (qwen/qwen3.6-plus-preview) a été lancée sur OpenRouter le 30 mars 2026. La version officielle ajoute le paramètre preserve_thinking, une disponibilité garantie par SLA et la prise en charge complète de Model Studio. Des variantes open-source plus petites sont également à venir.

Qu'est-ce que preserve_thinking et quand dois-je l'utiliser ?Par défaut, seul le raisonnement du tour actuel est conservé. Lorsque preserve_thinking: true est défini, le modèle conserve la chaîne de pensée de tous les tours de conversation précédents. Utilisez-le pour les boucles d'agents multi-étapes où le raisonnement passé du modèle doit éclairer sa prochaine action.

Comment Qwen3.6-Plus se compare-t-il à Claude Opus 4.5 ?Claude Opus 4.5 est en tête sur SWE-bench Verified (80,9 % contre 78,8 %) et OSWorld-Verified (66,3 % contre 62,5 %). Qwen3.6-Plus est en tête sur Terminal-Bench 2.0 (61,6 % contre 59,3 %), MCPMark (48,2 % contre 42,3 %), DeepPlanning (41,5 % contre 33,9 %) et GPQA (90,4 % contre 87,0 %).

Puis-je utiliser Qwen3.6-Plus avec Claude Code ?Oui. Définissez ANTHROPIC_BASE_URL sur le point d'accès Dashscope compatible Anthropic, ANTHROPIC_MODEL sur qwen3.6-plus et ANTHROPIC_AUTH_TOKEN sur votre clé API Dashscope.

Qwen3.6-Plus est-il open source ?Le modèle d'API hébergé n'est pas en poids ouvert. Des variantes plus petites avec des poids publics devraient être publiées dans les prochains jours.

Comment obtenir un accès gratuit ?Installez Qwen Code (npm install -g @qwen-code/qwen-code@latest), exécutez qwen, puis /auth. Connectez-vous avec Qwen Code OAuth pour 1 000 appels API gratuits par jour vers Qwen3.6-Plus.

Quelle fenêtre contextuelle prend-il en charge ?1 million de jetons par défaut. Certains benchmarks dans le rapport officiel ont utilisé 256K pour une comparaison standardisée, mais la valeur par défaut de l'API est 1M.

Comment tester l'intégration de l'API avant le déploiement ?Importez le point d'accès dans Apidog, ajoutez votre clé API comme variable d'environnement, écrivez des assertions de réponse et utilisez Smart Mock pour le développement hors ligne. Enchaînez les requêtes dans un scénario de test pour valider le comportement de l'agent multi-tours de bout en bout.