Qwen3.6-Plus API: Besser als Claude bei Terminal Benchmarks

Kurz gesagt

Qwen3.6-Plus wurde offiziell veröffentlicht. Es erreicht 78,8 % auf SWE-bench Verified und 61,6 % auf Terminal-Bench 2.0, womit es Claude Opus 4.5 übertrifft. Es verfügt über ein Kontextfenster von 1 Million Tokens, einen neuen preserve_thinking Parameter für Agenten-Loops und arbeitet direkt mit Claude Code, OpenClaw und Qwen Code über eine OpenAI-kompatible API.

Von der Vorschau zur Veröffentlichung

Wenn Sie unseren früheren Leitfaden zur Qwen 3.6 Plus Vorschau auf OpenRouter gelesen haben, wissen Sie bereits, wozu dieses Modell fähig ist. Die Vorschau wurde am 30. März leise veröffentlicht, ohne Warteliste und mit kostenlosem Zugang über OpenRouter. In den ersten beiden Tagen verarbeitete es über 400 Millionen Completion-Tokens in etwa 400.000 Anfragen.

Die offizielle Veröffentlichung bringt die vollständige Produktionsversion. Es ist nicht länger nur eine Vorschau. Das Modell ist jetzt über Alibaba Cloud Model Studio mit einer stabilen API, SLA-gestützter Betriebszeit und einem neuen API-Parameter verfügbar, der es für mehrstufige Agentenaufgaben deutlich leistungsfähiger macht.

Dieser Leitfaden behandelt, was sich geändert hat, wie die API korrekt aufgerufen wird und wie Sie Ihre Integration mit Apidog vor der Bereitstellung testen können.

button

Was Qwen3.6-Plus ist

Qwen3.6-Plus ist ein gehostetes Mixture-of-Experts-Modell vom Qwen-Team von Alibaba. Wie die Qwen3.5-Reihe verwendet es dünne Aktivierung, was bedeutet, dass pro Token nur ein Bruchteil der Parameter aktiviert wird. Das Ergebnis ist eine starke Leistung bei geringeren Rechenkosten als bei einem dichten Modell ähnlicher Fähigkeiten.

Wichtige Spezifikationen bei der Einführung:

Standardmäßig 1 Million Token Kontextfenster
Obligatorische Chain-of-Thought-Argumentation (wie bei der Vorschau)
Neuer preserve_thinking Parameter für Agentenaufgaben
Native multimodale Unterstützung (Vision, Video, Dokumentenverständnis)
OpenAI-kompatible API, Anthropic-kompatible API und OpenAI Responses API

Kleinere Open-Source-Varianten werden innerhalb weniger Tage veröffentlicht. Wenn Sie Gewichte für das Selbst-Hosting benötigen, sind diese unterwegs.

Benchmark-Ergebnisse

Coding-Agenten

Qwen3.6-Plus liegt bei den meisten SWE-bench-Aufgaben knapp hinter Claude Opus 4.5, übertrifft jedoch jedes Modell im Vergleich bei Terminaloperationen.

Terminal-Bench 2.0 testet echte Shell-Operationen: Dateiverwaltung, Prozesskontrolle, mehrstufige Terminal-Workflows mit einem 3-Stunden-Timeout, 32 CPU-Kernen und 48 GB RAM. Das Ergebnis von Qwen3.6-Plus mit 61,6 % gegenüber 59,3 % von Claude Opus 4.5 ist ein signifikanter Unterschied bei genau den Arten von Aufgaben, die Entwickler ausführen.

Allgemeine Agenten und Werkzeugnutzung

Benchmark	Claude Opus 4.5	Qwen3.6-Plus
TAU3-Bench	70.2%	70.7%
DeepPlanning	33.9%	41.5%
MCPMark	42.3%	48.2%
MCP-Atlas	71.8%	74.1%
WideSearch	76.4%	74.3%

MCPMark testet GitHub MCP v0.30.3 Tool-Aufrufe, wobei Playwright-Antworten bei 32K Tokens abgeschnitten werden. Das Führen mit 48,2 % ist wichtig für jeden, der auf MCP-basierten Tools aufbaut. DeepPlanning mit 41,5 % gegenüber 33,9 % für Claude zeigt einen signifikanten Unterschied bei langfristigen Planungsaufgaben.

Argumentation und Wissen

Benchmark	Claude Opus 4.5	Qwen3.6-Plus
GPQA	87.0%	90.4%
LiveCodeBench v6	84.8%	87.1%
IFEval strict	90.9%	94.3%
MMLU-Pro	89.5%	88.5%

GPQA ist ein Wissenschafts-Argumentations-Benchmark auf Graduiertenniveau. IFEval strict misst, wie gut ein Modell präzise Formatierungs- und Einschränkungsanweisungen befolgt. Qwen3.6-Plus führt bei beiden, was für strukturierte Ausgaben und Agentenaufgaben wichtig ist, bei denen das Modell komplexe Anweisungen ohne Abweichungen befolgen muss.

Multimodal

Qwen3.6-Plus ist ein natives multimodales Modell. Es führt bei mehreren Benchmarks für Dokumente, räumliche und Objekterkennung.

Benchmark	Qwen3.6-Plus	Anmerkungen
OmniDocBench 1.5	91.2%	Spitzenwert in Tabelle
RefCOCO avg	93.5%	Spitzenwert in Tabelle
We-Math	89.0%	Spitzenwert in Tabelle
CountBench	97.6%	Spitzenwert in Tabelle
OSWorld-Verified	62.5%	Hinter Claude (66,3 %)

OSWorld-Verified, der Benchmark für die Nutzung von Desktop-Computern, sieht Claude Opus 4.5 mit 66,3 % vor Qwen3.6-Plus mit 62,5 %. Bei Aufgaben zum Dokumentenverständnis und zur räumlichen Verankerung ist Qwen3.6-Plus führend.

Wie man die API aufruft

Qwen3.6-Plus ist im Alibaba Cloud Model Studio verfügbar. Holen Sie sich Ihren API-Schlüssel unter modelstudio.alibabacloud.com.

Drei regionale Basis-URLs:

Singapur: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
Peking: https://dashscope.aliyuncs.com/compatible-mode/v1
US Virginia: https://dashscope-us.aliyuncs.com/compatible-mode/v1

Grundlegender Aufruf mit Streaming

from openai import OpenAI
import os

client = OpenAI(
 api_key=os.environ["DASHSCOPE_API_KEY"],
 base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
 extra_body={"enable_thinking": True},
 stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
 if not chunk.choices:
 continue
 delta = chunk.choices[0].delta
 if hasattr(delta, "reasoning_content") and delta.reasoning_content:
 if not is_answering:
 reasoning += delta.reasoning_content
 if delta.content:
 if not is_answering:
 is_answering = True
 answer += delta.content
 print(delta.content, end="", flush=True)

Der preserve_thinking Parameter

Die Vorschauversion behielt die Argumentation nur vom aktuellen Zug bei. Die offizielle Veröffentlichung fügt preserve_thinking hinzu.

Wenn Sie preserve_thinking: true einstellen, behält das Modell die Chain-of-Thought aus allen vorherigen Zügen in der Konversation bei. Alibaba empfiehlt dies speziell für Agentenszenarien. Die Begründung ist: Ein Agent, der eine mehrstufige Aufgabe bearbeitet, profitiert davon, sein eigenes früheres Denken zu sehen. Er trifft in Schritt 5 bessere Entscheidungen, wenn er sehen kann, warum er in Schritt 2 die entsprechende Wahl getroffen hat.

Es ist standardmäßig deaktiviert, um den Token-Verbrauch zu kontrollieren. Aktivieren Sie es für Agenten-Loops.

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=conversation_history,
 extra_body={
 "enable_thinking": True,
 "preserve_thinking": True, # keep reasoning across all turns
 },
 stream=True
)

Qwen3.6-Plus mit Claude Code verwenden

Die Qwen API unterstützt das Anthropic-Protokoll. Sie können Claude Code gegen Qwen3.6-Plus ausführen, ohne die Claude Code-Konfiguration über Umgebungsvariablen hinaus zu ändern.

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude

Qwen3.6-Plus mit OpenClaw verwenden

OpenClaw (ehemals Moltbot / Clawdbot) ist ein quelloffener, selbst gehosteter Coding-Agent. Installieren Sie ihn und richten Sie ihn auf Model Studio aus:

# Install (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard

Bearbeiten Sie ~/.openclaw/openclaw.json und führen Sie diese Felder zusammen (überschreiben Sie nicht die gesamte Datei):

{
 "models": {
 "providers": [{
 "name": "alibaba-coding-plan",
 "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
 "apiKey": "${DASHSCOPE_API_KEY}",
 "models": [{"id": "qwen3.6-plus", "reasoning": true}]
 }]
 },
 "agents": {
 "defaults": {"models": ["qwen3.6-plus"]}
 }
}

Qwen3.6-Plus mit Qwen Code verwenden

Qwen Code ist Alibabas eigener Open-Source-Terminal-Agent, der speziell für die Qwen-Reihe entwickelt wurde. Er gewährt Ihnen 1.000 kostenlose API-Aufrufe pro Tag, wenn Sie sich mit Qwen Code OAuth anmelden.

npm install -g @qwen-code/qwen-code@latest
qwen
# Type /auth to sign in and activate free tier

Warum preserve_thinking das Agentenverhalten ändert

Die meisten LLM-APIs behandeln jeden Zug unabhängig. Das Modell generiert eine Antwort, die Argumentation wird verworfen, und der nächste Zug beginnt von Neuem. Für einfache Fragen und Antworten ist das in Ordnung. Für Agenten, die 10-20-Schritte-Aufgaben ausführen, entsteht ein Problem: Das Modell kann nicht sehen, warum es frühere Entscheidungen getroffen hat, sodass es abdriftet.

Der Parameter preserve_thinking hält die vollständige Argumentationskette aus allen vorherigen Zügen sichtbar, wenn die nächste Antwort generiert wird. Der praktische Effekt: Ein Agent, der eine komplexe Aufgabe auf Repository-Ebene in Schritt 8 bearbeitet, kann seine Analyse aus den Schritten 2, 4 und 6 sehen. Er trifft konsistentere Entscheidungen und produziert weniger Widersprüche.

Alibabas Benchmarks zeigen, dass dies auch redundante Argumentation reduziert. Wenn das Modell den bereits etablierten Kontext nicht neu ableiten muss, verbraucht es durchschnittlich weniger Tokens pro Zug bei komplexen mehrstufigen Workflows.

Verwenden Sie dieses Muster für Agenten-Loops:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# Example: multi-step code review agent
result = agent_step("Analyze the auth module for security issues.")
result = agent_step("Now suggest fixes for the top 3 issues you found.")
result = agent_step("Write tests that validate each fix.")

Ohne preserve_thinking weiß das Modell in Schritt 3 nicht, welche 3 Probleme es in Schritt 1 identifiziert hat. Mit ihm bleibt die Argumentationskette intakt.

Wofür es am besten geeignet ist

Fehlerbehebung auf Repository-Ebene. SWE-bench Verified mit 78,8 % und SWE-bench Pro mit 56,6 % sind konkurrenzfähig mit allem, was heute verfügbar ist. Wenn Sie automatisierte Code-Reparatur- oder Überprüfungs-Pipelines betreiben, lohnt es sich, Qwen3.6-Plus gegen Ihr aktuelles Setup zu benchmarken.

Terminal-Automatisierung. Die Führungsposition bei Terminal-Bench 2.0 macht es zum stärksten verfügbaren Modell für Shell-lastige Workflows. Mehrstufige Dateioperationen, Prozessmanagement, Build-Pipelines.

MCP-Tool-Aufruf. MCPMark mit 48,2 % (Spitzenergebnis) macht es zur derzeit besten Wahl für MCP-basierte Tool-Integrationen.

Dokumentenanalyse mit langem Kontext. Das 1M Token-Fenster mit starken LongBench v2-Ergebnissen bewältigt vollständige Codebasis-Überprüfungen, große Spezifikationsdokumente und die Analyse mehrerer Dateien in einem einzigen Aufruf.

Frontend-Code-Generierung. Alibabas internes QwenWebBench (Elo-Rating, 7 Kategorien: Webdesign, Web-Apps, Spiele, SVG, Datenvisualisierung, Animation, 3D) gibt Qwen3.6-Plus eine Punktzahl von 1501,7 gegenüber 1517,9 für Claude Opus 4.5. Effektiv gleichauf bei der Frontend-Generierungsqualität.

Mehrsprachig. WMT24++ mit 84,3 % (Spitzenwert), MAXIFE mit 88,2 % über 23 Spracheinstellungen. Stark bei nicht-englischen Anwendungsfällen.

Testen von Qwen3.6-Plus API-Aufrufen mit Apidog

Der Endpunkt ist OpenAI-kompatibel, sodass Sie ihn direkt in Apidog importieren und wie jede andere API testen können.

Richten Sie eine POST-Anfrage an https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions ein. Fügen Sie Ihren API-Schlüssel als Umgebungsvariable hinzu: Authorization: Bearer {{DASHSCOPE_API_KEY}}.

Schreiben Sie Antwort-Assertions, um Struktur und Inhalt zu validieren:

pm.test("Response contains choices", () => {
 const body = pm.response.json();
 pm.expect(body).to.have.property("choices");
 pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("No empty reasoning when thinking enabled", () => {
 const choice = pm.response.json().choices[0];
 if (choice.message.reasoning_content !== undefined) {
 pm.expect(choice.message.reasoning_content).to.not.be.empty;
 }
});

Verwenden Sie Apidogs Smart Mock, um Testantworten während der Entwicklung zu generieren. Dies bedeutet, dass Ihr Agenten-Orchestrierungscode getestet werden kann, ohne bei jedem Durchlauf die Live-API aufrufen zu müssen, was Tokens spart und Testzyklen beschleunigt.

Wenn Sie einen Multi-Turn-Agenten entwickeln, erstellen Sie ein Testszenario in Apidog, das mehrere Anfragen miteinander verkettet. Überprüfen Sie, ob preserve_thinking die Argumentation über mehrere Züge hinweg beibehält, indem Sie die Antwortstruktur bei jedem Schritt überprüfen, bevor Sie die vollständige Schleife in Produktion nehmen.

Apidog kostenlos herunterladen, um diese Tests einzurichten.

Was kommt als Nächstes

Das Qwen-Team bestätigte, dass kleinere Open-Source-Varianten innerhalb weniger Tage ausgeliefert werden. Diese werden dem Qwen3.5-Muster folgen: spärliche MoE-Modelle mit öffentlichen Apache 2.0 Gewichten.

Die Roadmap umfasst außerdem:

Längerfristige Aufgaben auf Repository-Ebene, die auf immer komplexere Dateiproblemlösungen abzielen
Fortgesetzte Entwicklung multimodaler Agenten, mit GUI-Agenten und visuellem Coding als erstklassige Funktionen, nicht als Nebenmerkmale

Die Open-Source-Varianten von Qwen3.5 wurden innerhalb weniger Wochen nach ihrer Veröffentlichung zu einigen der am häufigsten eingesetzten selbst gehosteten Modelle. Wenn Qwen3.6 dem gleichen Muster folgt, werden die kleineren Varianten wahrscheinlich kurz nach ihrer Einführung die Standardwahl für selbst gehostete Coding-Agenten werden.

Fazit

Qwen3.6-Plus schließt die Lücke zu Claude Opus 4.5 bei Coding-Aufgaben und sichert sich eine klare Führung bei Terminal-Operationen, MCP-Tool-Aufrufen und langfristiger Planung. Der 1M Token-Kontext, die Anthropic-Protokoll-Kompatibilität und preserve_thinking für Agenten-Loops machen es zu einer praktischen Wahl für produktive Agentensysteme.

Die kostenlose Vorschauphase auf OpenRouter war eine nützliche Möglichkeit, das Modell zu evaluieren. Die offizielle API bietet Stabilität, SLA-Abdeckung und den neuen agentenorientierten Parameter, der mehrstufige Workflows zuverlässiger macht.

Apidog kümmert sich um die Testseite: Importieren Sie den OpenAI-kompatiblen Endpunkt, schreiben Sie Antwort-Assertions, simulieren Sie während der Entwicklung und führen Sie Regressionstests durch, wann immer Sie das Modell aktualisieren oder die API-Version erhöhen.

button

FAQ

Was ist der Unterschied zwischen Qwen3.6-Plus und der Vorschau? Die Vorschau (qwen/qwen3.6-plus-preview) wurde am 30. März 2026 auf OpenRouter gestartet. Die offizielle Veröffentlichung fügt den preserve_thinking Parameter, SLA-gestützte Betriebszeit und vollständige Model Studio-Unterstützung hinzu. Kleinere Open-Source-Varianten werden ebenfalls kommen.

Was ist preserve_thinking und wann sollte ich es verwenden? Standardmäßig wird nur die Argumentation des aktuellen Zuges beibehalten. Wenn preserve_thinking: true eingestellt ist, behält das Modell die Chain-of-Thought aus allen vorherigen Konversationszügen bei. Verwenden Sie es für mehrstufige Agenten-Loops, bei denen die frühere Argumentation des Modells seine nächste Aktion beeinflussen soll.

Wie verhält sich Qwen3.6-Plus im Vergleich zu Claude Opus 4.5? Claude Opus 4.5 führt bei SWE-bench Verified (80,9 % vs. 78,8 %) und OSWorld-Verified (66,3 % vs. 62,5 %). Qwen3.6-Plus führt bei Terminal-Bench 2.0 (61,6 % vs. 59,3 %), MCPMark (48,2 % vs. 42,3 %), DeepPlanning (41,5 % vs. 33,9 %) und GPQA (90,4 % vs. 87,0 %).

Kann ich Qwen3.6-Plus mit Claude Code verwenden? Ja. Setzen Sie ANTHROPIC_BASE_URL auf den Dashscope Anthropic-kompatiblen Endpunkt, ANTHROPIC_MODEL auf qwen3.6-plus und ANTHROPIC_AUTH_TOKEN auf Ihren Dashscope API-Schlüssel.

Ist Qwen3.6-Plus Open Source? Das gehostete API-Modell ist nicht Open-Weight. Kleinere Varianten mit öffentlichen Gewichten sollen innerhalb weniger Tage veröffentlicht werden.

Wie erhalte ich kostenlosen Zugang? Installieren Sie Qwen Code (npm install -g @qwen-code/qwen-code@latest), führen Sie qwen aus, dann /auth. Melden Sie sich mit Qwen Code OAuth an, um 1.000 kostenlose API-Aufrufe pro Tag gegen Qwen3.6-Plus zu erhalten.

Welches Kontextfenster unterstützt es? Standardmäßig 1 Million Tokens. Einige Benchmarks im offiziellen Bericht verwendeten 256K für einen standardisierten Vergleich, aber der API-Standard ist 1M.

Wie teste ich die API-Integration vor der Bereitstellung? Importieren Sie den Endpunkt in Apidog, fügen Sie Ihren API-Schlüssel als Umgebungsvariable hinzu, schreiben Sie Antwort-Assertions, simulieren Sie während der Entwicklung und führen Sie Regressionstests durch, wann immer Sie das Modell aktualisieren oder die API-Version erhöhen.