Kurz gesagt
Qwen3.6-Plus wurde offiziell veröffentlicht. Es erreicht 78,8 % auf SWE-bench Verified und 61,6 % auf Terminal-Bench 2.0, womit es Claude Opus 4.5 übertrifft. Es verfügt über ein Kontextfenster von 1 Million Tokens, einen neuen preserve_thinking Parameter für Agenten-Loops und arbeitet direkt mit Claude Code, OpenClaw und Qwen Code über eine OpenAI-kompatible API.
Von der Vorschau zur Veröffentlichung
Wenn Sie unseren früheren Leitfaden zur Qwen 3.6 Plus Vorschau auf OpenRouter gelesen haben, wissen Sie bereits, wozu dieses Modell fähig ist. Die Vorschau wurde am 30. März leise veröffentlicht, ohne Warteliste und mit kostenlosem Zugang über OpenRouter. In den ersten beiden Tagen verarbeitete es über 400 Millionen Completion-Tokens in etwa 400.000 Anfragen.
Die offizielle Veröffentlichung bringt die vollständige Produktionsversion. Es ist nicht länger nur eine Vorschau. Das Modell ist jetzt über Alibaba Cloud Model Studio mit einer stabilen API, SLA-gestützter Betriebszeit und einem neuen API-Parameter verfügbar, der es für mehrstufige Agentenaufgaben deutlich leistungsfähiger macht.
Dieser Leitfaden behandelt, was sich geändert hat, wie die API korrekt aufgerufen wird und wie Sie Ihre Integration mit Apidog vor der Bereitstellung testen können.
Was Qwen3.6-Plus ist
Qwen3.6-Plus ist ein gehostetes Mixture-of-Experts-Modell vom Qwen-Team von Alibaba. Wie die Qwen3.5-Reihe verwendet es dünne Aktivierung, was bedeutet, dass pro Token nur ein Bruchteil der Parameter aktiviert wird. Das Ergebnis ist eine starke Leistung bei geringeren Rechenkosten als bei einem dichten Modell ähnlicher Fähigkeiten.
Wichtige Spezifikationen bei der Einführung:
- Standardmäßig 1 Million Token Kontextfenster
- Obligatorische Chain-of-Thought-Argumentation (wie bei der Vorschau)
- Neuer
preserve_thinkingParameter für Agentenaufgaben - Native multimodale Unterstützung (Vision, Video, Dokumentenverständnis)
- OpenAI-kompatible API, Anthropic-kompatible API und OpenAI Responses API
Kleinere Open-Source-Varianten werden innerhalb weniger Tage veröffentlicht. Wenn Sie Gewichte für das Selbst-Hosting benötigen, sind diese unterwegs.
Benchmark-Ergebnisse
Coding-Agenten
Qwen3.6-Plus liegt bei den meisten SWE-bench-Aufgaben knapp hinter Claude Opus 4.5, übertrifft jedoch jedes Modell im Vergleich bei Terminaloperationen.

Terminal-Bench 2.0 testet echte Shell-Operationen: Dateiverwaltung, Prozesskontrolle, mehrstufige Terminal-Workflows mit einem 3-Stunden-Timeout, 32 CPU-Kernen und 48 GB RAM. Das Ergebnis von Qwen3.6-Plus mit 61,6 % gegenüber 59,3 % von Claude Opus 4.5 ist ein signifikanter Unterschied bei genau den Arten von Aufgaben, die Entwickler ausführen.
Allgemeine Agenten und Werkzeugnutzung
| Benchmark | Claude Opus 4.5 | Qwen3.6-Plus |
|---|---|---|
| TAU3-Bench | 70.2% | 70.7% |
| DeepPlanning | 33.9% | 41.5% |
| MCPMark | 42.3% | 48.2% |
| MCP-Atlas | 71.8% | 74.1% |
| WideSearch | 76.4% | 74.3% |
MCPMark testet GitHub MCP v0.30.3 Tool-Aufrufe, wobei Playwright-Antworten bei 32K Tokens abgeschnitten werden. Das Führen mit 48,2 % ist wichtig für jeden, der auf MCP-basierten Tools aufbaut. DeepPlanning mit 41,5 % gegenüber 33,9 % für Claude zeigt einen signifikanten Unterschied bei langfristigen Planungsaufgaben.
Argumentation und Wissen
| Benchmark | Claude Opus 4.5 | Qwen3.6-Plus |
|---|---|---|
| GPQA | 87.0% | 90.4% |
| LiveCodeBench v6 | 84.8% | 87.1% |
| IFEval strict | 90.9% | 94.3% |
| MMLU-Pro | 89.5% | 88.5% |
GPQA ist ein Wissenschafts-Argumentations-Benchmark auf Graduiertenniveau. IFEval strict misst, wie gut ein Modell präzise Formatierungs- und Einschränkungsanweisungen befolgt. Qwen3.6-Plus führt bei beiden, was für strukturierte Ausgaben und Agentenaufgaben wichtig ist, bei denen das Modell komplexe Anweisungen ohne Abweichungen befolgen muss.
Multimodal
Qwen3.6-Plus ist ein natives multimodales Modell. Es führt bei mehreren Benchmarks für Dokumente, räumliche und Objekterkennung.
| Benchmark | Qwen3.6-Plus | Anmerkungen |
|---|---|---|
| OmniDocBench 1.5 | 91.2% | Spitzenwert in Tabelle |
| RefCOCO avg | 93.5% | Spitzenwert in Tabelle |
| We-Math | 89.0% | Spitzenwert in Tabelle |
| CountBench | 97.6% | Spitzenwert in Tabelle |
| OSWorld-Verified | 62.5% | Hinter Claude (66,3 %) |
OSWorld-Verified, der Benchmark für die Nutzung von Desktop-Computern, sieht Claude Opus 4.5 mit 66,3 % vor Qwen3.6-Plus mit 62,5 %. Bei Aufgaben zum Dokumentenverständnis und zur räumlichen Verankerung ist Qwen3.6-Plus führend.
Wie man die API aufruft
Qwen3.6-Plus ist im Alibaba Cloud Model Studio verfügbar. Holen Sie sich Ihren API-Schlüssel unter modelstudio.alibabacloud.com.
Drei regionale Basis-URLs:
- Singapur:
https://dashscope-intl.aliyuncs.com/compatible-mode/v1 - Peking:
https://dashscope.aliyuncs.com/compatible-mode/v1 - US Virginia:
https://dashscope-us.aliyuncs.com/compatible-mode/v1
Grundlegender Aufruf mit Streaming
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen3.6-plus",
messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
extra_body={"enable_thinking": True},
stream=True
)
reasoning = ""
answer = ""
is_answering = False
for chunk in completion:
if not chunk.choices:
continue
delta = chunk.choices[0].delta
if hasattr(delta, "reasoning_content") and delta.reasoning_content:
if not is_answering:
reasoning += delta.reasoning_content
if delta.content:
if not is_answering:
is_answering = True
answer += delta.content
print(delta.content, end="", flush=True)
Der preserve_thinking Parameter
Die Vorschauversion behielt die Argumentation nur vom aktuellen Zug bei. Die offizielle Veröffentlichung fügt preserve_thinking hinzu.
Wenn Sie preserve_thinking: true einstellen, behält das Modell die Chain-of-Thought aus allen vorherigen Zügen in der Konversation bei. Alibaba empfiehlt dies speziell für Agentenszenarien. Die Begründung ist: Ein Agent, der eine mehrstufige Aufgabe bearbeitet, profitiert davon, sein eigenes früheres Denken zu sehen. Er trifft in Schritt 5 bessere Entscheidungen, wenn er sehen kann, warum er in Schritt 2 die entsprechende Wahl getroffen hat.
Es ist standardmäßig deaktiviert, um den Token-Verbrauch zu kontrollieren. Aktivieren Sie es für Agenten-Loops.
completion = client.chat.completions.create(
model="qwen3.6-plus",
messages=conversation_history,
extra_body={
"enable_thinking": True,
"preserve_thinking": True, # keep reasoning across all turns
},
stream=True
)
Qwen3.6-Plus mit Claude Code verwenden
Die Qwen API unterstützt das Anthropic-Protokoll. Sie können Claude Code gegen Qwen3.6-Plus ausführen, ohne die Claude Code-Konfiguration über Umgebungsvariablen hinaus zu ändern.
npm install -g @anthropic-ai/claude-code
export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key
claude
Qwen3.6-Plus mit OpenClaw verwenden
OpenClaw (ehemals Moltbot / Clawdbot) ist ein quelloffener, selbst gehosteter Coding-Agent. Installieren Sie ihn und richten Sie ihn auf Model Studio aus:
# Install (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY=your_key
openclaw dashboard
Bearbeiten Sie ~/.openclaw/openclaw.json und führen Sie diese Felder zusammen (überschreiben Sie nicht die gesamte Datei):
{
"models": {
"providers": [{
"name": "alibaba-coding-plan",
"baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
"apiKey": "${DASHSCOPE_API_KEY}",
"models": [{"id": "qwen3.6-plus", "reasoning": true}]
}]
},
"agents": {
"defaults": {"models": ["qwen3.6-plus"]}
}
}
Qwen3.6-Plus mit Qwen Code verwenden
Qwen Code ist Alibabas eigener Open-Source-Terminal-Agent, der speziell für die Qwen-Reihe entwickelt wurde. Er gewährt Ihnen 1.000 kostenlose API-Aufrufe pro Tag, wenn Sie sich mit Qwen Code OAuth anmelden.
npm install -g @qwen-code/qwen-code@latest
qwen
# Type /auth to sign in and activate free tier
Warum preserve_thinking das Agentenverhalten ändert
Die meisten LLM-APIs behandeln jeden Zug unabhängig. Das Modell generiert eine Antwort, die Argumentation wird verworfen, und der nächste Zug beginnt von Neuem. Für einfache Fragen und Antworten ist das in Ordnung. Für Agenten, die 10-20-Schritte-Aufgaben ausführen, entsteht ein Problem: Das Modell kann nicht sehen, warum es frühere Entscheidungen getroffen hat, sodass es abdriftet.
Der Parameter preserve_thinking hält die vollständige Argumentationskette aus allen vorherigen Zügen sichtbar, wenn die nächste Antwort generiert wird. Der praktische Effekt: Ein Agent, der eine komplexe Aufgabe auf Repository-Ebene in Schritt 8 bearbeitet, kann seine Analyse aus den Schritten 2, 4 und 6 sehen. Er trifft konsistentere Entscheidungen und produziert weniger Widersprüche.
Alibabas Benchmarks zeigen, dass dies auch redundante Argumentation reduziert. Wenn das Modell den bereits etablierten Kontext nicht neu ableiten muss, verbraucht es durchschnittlich weniger Tokens pro Zug bei komplexen mehrstufigen Workflows.
Verwenden Sie dieses Muster für Agenten-Loops:
conversation = []
def agent_step(user_message, preserve=True):
conversation.append({"role": "user", "content": user_message})
response = client.chat.completions.create(
model="qwen3.6-plus",
messages=conversation,
extra_body={
"enable_thinking": True,
"preserve_thinking": preserve,
},
stream=False
)
message = response.choices[0].message
conversation.append({"role": "assistant", "content": message.content})
return message.content
# Example: multi-step code review agent
result = agent_step("Analyze the auth module for security issues.")
result = agent_step("Now suggest fixes for the top 3 issues you found.")
result = agent_step("Write tests that validate each fix.")
Ohne preserve_thinking weiß das Modell in Schritt 3 nicht, welche 3 Probleme es in Schritt 1 identifiziert hat. Mit ihm bleibt die Argumentationskette intakt.
Wofür es am besten geeignet ist
Fehlerbehebung auf Repository-Ebene. SWE-bench Verified mit 78,8 % und SWE-bench Pro mit 56,6 % sind konkurrenzfähig mit allem, was heute verfügbar ist. Wenn Sie automatisierte Code-Reparatur- oder Überprüfungs-Pipelines betreiben, lohnt es sich, Qwen3.6-Plus gegen Ihr aktuelles Setup zu benchmarken.
Terminal-Automatisierung. Die Führungsposition bei Terminal-Bench 2.0 macht es zum stärksten verfügbaren Modell für Shell-lastige Workflows. Mehrstufige Dateioperationen, Prozessmanagement, Build-Pipelines.
MCP-Tool-Aufruf. MCPMark mit 48,2 % (Spitzenergebnis) macht es zur derzeit besten Wahl für MCP-basierte Tool-Integrationen.
Dokumentenanalyse mit langem Kontext. Das 1M Token-Fenster mit starken LongBench v2-Ergebnissen bewältigt vollständige Codebasis-Überprüfungen, große Spezifikationsdokumente und die Analyse mehrerer Dateien in einem einzigen Aufruf.
Frontend-Code-Generierung. Alibabas internes QwenWebBench (Elo-Rating, 7 Kategorien: Webdesign, Web-Apps, Spiele, SVG, Datenvisualisierung, Animation, 3D) gibt Qwen3.6-Plus eine Punktzahl von 1501,7 gegenüber 1517,9 für Claude Opus 4.5. Effektiv gleichauf bei der Frontend-Generierungsqualität.
Mehrsprachig. WMT24++ mit 84,3 % (Spitzenwert), MAXIFE mit 88,2 % über 23 Spracheinstellungen. Stark bei nicht-englischen Anwendungsfällen.
Testen von Qwen3.6-Plus API-Aufrufen mit Apidog
Der Endpunkt ist OpenAI-kompatibel, sodass Sie ihn direkt in Apidog importieren und wie jede andere API testen können.

Richten Sie eine POST-Anfrage an https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions ein. Fügen Sie Ihren API-Schlüssel als Umgebungsvariable hinzu: Authorization: Bearer {{DASHSCOPE_API_KEY}}.
Schreiben Sie Antwort-Assertions, um Struktur und Inhalt zu validieren:
pm.test("Response contains choices", () => {
const body = pm.response.json();
pm.expect(body).to.have.property("choices");
pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});
pm.test("No empty reasoning when thinking enabled", () => {
const choice = pm.response.json().choices[0];
if (choice.message.reasoning_content !== undefined) {
pm.expect(choice.message.reasoning_content).to.not.be.empty;
}
});
Verwenden Sie Apidogs Smart Mock, um Testantworten während der Entwicklung zu generieren. Dies bedeutet, dass Ihr Agenten-Orchestrierungscode getestet werden kann, ohne bei jedem Durchlauf die Live-API aufrufen zu müssen, was Tokens spart und Testzyklen beschleunigt.
Wenn Sie einen Multi-Turn-Agenten entwickeln, erstellen Sie ein Testszenario in Apidog, das mehrere Anfragen miteinander verkettet. Überprüfen Sie, ob preserve_thinking die Argumentation über mehrere Züge hinweg beibehält, indem Sie die Antwortstruktur bei jedem Schritt überprüfen, bevor Sie die vollständige Schleife in Produktion nehmen.
Apidog kostenlos herunterladen, um diese Tests einzurichten.
Was kommt als Nächstes
Das Qwen-Team bestätigte, dass kleinere Open-Source-Varianten innerhalb weniger Tage ausgeliefert werden. Diese werden dem Qwen3.5-Muster folgen: spärliche MoE-Modelle mit öffentlichen Apache 2.0 Gewichten.
Die Roadmap umfasst außerdem:
- Längerfristige Aufgaben auf Repository-Ebene, die auf immer komplexere Dateiproblemlösungen abzielen
- Fortgesetzte Entwicklung multimodaler Agenten, mit GUI-Agenten und visuellem Coding als erstklassige Funktionen, nicht als Nebenmerkmale
Die Open-Source-Varianten von Qwen3.5 wurden innerhalb weniger Wochen nach ihrer Veröffentlichung zu einigen der am häufigsten eingesetzten selbst gehosteten Modelle. Wenn Qwen3.6 dem gleichen Muster folgt, werden die kleineren Varianten wahrscheinlich kurz nach ihrer Einführung die Standardwahl für selbst gehostete Coding-Agenten werden.
Fazit
Qwen3.6-Plus schließt die Lücke zu Claude Opus 4.5 bei Coding-Aufgaben und sichert sich eine klare Führung bei Terminal-Operationen, MCP-Tool-Aufrufen und langfristiger Planung. Der 1M Token-Kontext, die Anthropic-Protokoll-Kompatibilität und preserve_thinking für Agenten-Loops machen es zu einer praktischen Wahl für produktive Agentensysteme.
Die kostenlose Vorschauphase auf OpenRouter war eine nützliche Möglichkeit, das Modell zu evaluieren. Die offizielle API bietet Stabilität, SLA-Abdeckung und den neuen agentenorientierten Parameter, der mehrstufige Workflows zuverlässiger macht.
Apidog kümmert sich um die Testseite: Importieren Sie den OpenAI-kompatiblen Endpunkt, schreiben Sie Antwort-Assertions, simulieren Sie während der Entwicklung und führen Sie Regressionstests durch, wann immer Sie das Modell aktualisieren oder die API-Version erhöhen.
FAQ
Was ist der Unterschied zwischen Qwen3.6-Plus und der Vorschau? Die Vorschau (qwen/qwen3.6-plus-preview) wurde am 30. März 2026 auf OpenRouter gestartet. Die offizielle Veröffentlichung fügt den preserve_thinking Parameter, SLA-gestützte Betriebszeit und vollständige Model Studio-Unterstützung hinzu. Kleinere Open-Source-Varianten werden ebenfalls kommen.
Was ist preserve_thinking und wann sollte ich es verwenden? Standardmäßig wird nur die Argumentation des aktuellen Zuges beibehalten. Wenn preserve_thinking: true eingestellt ist, behält das Modell die Chain-of-Thought aus allen vorherigen Konversationszügen bei. Verwenden Sie es für mehrstufige Agenten-Loops, bei denen die frühere Argumentation des Modells seine nächste Aktion beeinflussen soll.
Wie verhält sich Qwen3.6-Plus im Vergleich zu Claude Opus 4.5? Claude Opus 4.5 führt bei SWE-bench Verified (80,9 % vs. 78,8 %) und OSWorld-Verified (66,3 % vs. 62,5 %). Qwen3.6-Plus führt bei Terminal-Bench 2.0 (61,6 % vs. 59,3 %), MCPMark (48,2 % vs. 42,3 %), DeepPlanning (41,5 % vs. 33,9 %) und GPQA (90,4 % vs. 87,0 %).
Kann ich Qwen3.6-Plus mit Claude Code verwenden? Ja. Setzen Sie ANTHROPIC_BASE_URL auf den Dashscope Anthropic-kompatiblen Endpunkt, ANTHROPIC_MODEL auf qwen3.6-plus und ANTHROPIC_AUTH_TOKEN auf Ihren Dashscope API-Schlüssel.
Ist Qwen3.6-Plus Open Source? Das gehostete API-Modell ist nicht Open-Weight. Kleinere Varianten mit öffentlichen Gewichten sollen innerhalb weniger Tage veröffentlicht werden.
Wie erhalte ich kostenlosen Zugang? Installieren Sie Qwen Code (npm install -g @qwen-code/qwen-code@latest), führen Sie qwen aus, dann /auth. Melden Sie sich mit Qwen Code OAuth an, um 1.000 kostenlose API-Aufrufe pro Tag gegen Qwen3.6-Plus zu erhalten.
Welches Kontextfenster unterstützt es? Standardmäßig 1 Million Tokens. Einige Benchmarks im offiziellen Bericht verwendeten 256K für einen standardisierten Vergleich, aber der API-Standard ist 1M.
Wie teste ich die API-Integration vor der Bereitstellung? Importieren Sie den Endpunkt in Apidog, fügen Sie Ihren API-Schlüssel als Umgebungsvariable hinzu, schreiben Sie Antwort-Assertions, simulieren Sie während der Entwicklung und führen Sie Regressionstests durch, wann immer Sie das Modell aktualisieren oder die API-Version erhöhen.
