TL;DR
Qwen 3.6 Plus Preview wurde am 30. März 2026 mit einem Kontextfenster von 1 Million Tokens, obligatorischem Chain-of-Thought-Reasoning und Tool-Nutzungsunterstützung gestartet. Es ist derzeit auf OpenRouter komplett kostenlos. Verwenden Sie die Modell-ID qwen/qwen3.6-plus-preview:free mit jedem OpenAI-kompatiblen Client, um noch heute Anfragen zu senden.
Das Modell, das leise erschien
Alibaba Cloud veröffentlichte Qwen 3.6 Plus Preview am 30. März 2026. Keine große Ankündigung. Keine Warteliste. Einfach ein neues Modell, das auf OpenRouter für 0 $ pro Million Tokens verfügbar ist.

In den ersten beiden Tagen verarbeitete es über 400 Millionen Completion-Tokens in etwa 400.000 Anfragen. Entwickler befanden es als schnell.
Dieser Artikel führt Sie durch alles, was Sie für den Einstieg benötigen: Kontoerstellung, API-Schlüssel, funktionierende Codebeispiele in cURL, Python und Node.js sowie spezifische Ratschläge, wo dieses Modell am besten abschneidet.
Am Ende dieses Leitfadens wissen Sie genau, wie Sie Qwen 3.6 kostenlos aufrufen können, wozu es fähig ist und wo seine Grenzen liegen.
Was Qwen 3.6 gegenüber der 3.5er-Serie hinzufügt
Der Sprung von 3.5 auf 3.6 ist nicht inkrementell. Drei Dinge haben sich maßgeblich geändert.
1. Das Kontextfenster wuchs auf 1 Million Tokens
Qwen 3.5 hatte je nach Variante ein Kontextfenster von 32K bis 128K. Qwen 3.6 unterstützt einen Input von 1 Million Tokens.
Praktisch ausgedrückt: 1 Million Tokens sind ungefähr 750.000 Wörter. Das reicht aus, um dem Modell einen gesamten Codebestand, ein Jahr Slack-Protokolle, eine vollständige Bibliothek juristischer Dokumente oder einen großen Forschungskorpus in einer einzigen Anfrage zuzuführen.
Die meisten kostenlosen Modelle erreichen ihr Maximum bei 8K bis 32K. 1M Tokens kostenlos zu erhalten, ist ungewöhnlich.
2. Reasoning ist integriert, nicht optional
Qwen 3.6 verwendet obligatorische Reasoning-Tokens. Bevor das Modell seine endgültige Antwort generiert, erstellt es eine interne Gedankenkette (Chain-of-Thought). Sie müssen es nicht mit „denke Schritt für Schritt“ oder einer speziellen Anweisung auffordern.
Dies ist dasselbe Muster, das DeepSeek R1 populär gemacht hat. Der Unterschied besteht darin, dass Qwen 3.6 es auf Kodierungs-, Frontend- und allgemeine Problemlösungsaufgaben anwendet, nicht nur auf Mathematik.
3. Agentisches Verhalten ist zuverlässiger
Die Tool-Aufrufe in der 3.5er-Serie waren inkonsistent. Funktionen wurden mit falschen Argumenttypen aufgerufen, oder das Modell halluzinierte einen Funktionsaufruf, der nicht existierte.
Qwen 3.6 begegnet diesem Problem direkt. Laut der eigenen Beschreibung von Alibaba Cloud „liefert es ein stärkeres Reasoning und zuverlässigeres agentisches Verhalten im Vergleich zur 3.5er-Serie.“ In der Praxis bedeutet dies weniger fehlerhafte Tool-Aufrufe in mehrstufigen Workflows.
Das Modell ist speziell für drei Aufgaben optimiert:
- Agentische Kodierung (mehrstufige Code-Generierung mit Tool-Nutzung)
- Frontend-Entwicklung (HTML-, CSS-, JavaScript-Komponenten-Generierung)
- Komplexe Problemlösung (Forschung, Analyse, Zusammenfassung langer Kontexte)
So greifen Sie kostenlos auf Qwen 3.6 zu
Sie benötigen zwei Dinge: ein OpenRouter-Konto und einen API-Schlüssel. Für kostenlose Modelle ist keine Kreditkarte erforderlich.
Schritt 1: Erstellen Sie Ihr OpenRouter-Konto
Gehen Sie zu openrouter.ai und melden Sie sich mit E-Mail oder einem Google-Konto an. Der gesamte Vorgang dauert weniger als zwei Minuten.
Kostenlose Modelle erfordern keine Angabe einer Zahlungsmethode. Sie erhalten sofortigen Zugang nach der E-Mail-Verifizierung.
Schritt 2: Generieren Sie einen API-Schlüssel
- Klicken Sie oben rechts auf Ihr Profilbild
- Wählen Sie API-Schlüssel aus dem Dropdown-Menü
- Klicken Sie auf Schlüssel erstellen
- Geben Sie ihm einen Namen (z.B.
qwen-test) und klicken Sie auf Erstellen - Kopieren Sie den Schlüssel. Er beginnt mit
sk-or-v1-...

Bewahren Sie diesen sicher auf. OpenRouter wird ihn Ihnen nicht erneut anzeigen.
Schritt 3: Senden Sie Ihre erste Anfrage
Die Modell-ID lautet qwen/qwen3.6-plus-preview:free.
OpenRouter verwendet dasselbe Anfrageformat wie die OpenAI-API, daher funktioniert jeder OpenAI-kompatible Client ohne Modifikation.
cURL:
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer sk-or-v1-YOUR_KEY_HERE" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen/qwen3.6-plus-preview:free",
"messages": [
{
"role": "user",
"content": "Write a Python function that parses a JWT token and returns the payload as a dictionary."
}
]
}'
Python (requests-Bibliothek):
import requests
def call_qwen(prompt: str, api_key: str) -> str:
response = requests.post(
"https://openrouter.ai/api/v1/chat/completions",
headers={
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json",
},
json={
"model": "qwen/qwen3.6-plus-preview:free",
"messages": [{"role": "user", "content": prompt}],
},
timeout=60,
)
response.raise_for_status()
return response.json()["choices"][0]["message"]["content"]
result = call_qwen(
"Write a Python function that parses a JWT token and returns the payload.",
api_key="sk-or-v1-YOUR_KEY_HERE"
)
print(result)
Node.js (fetch):
async function callQwen(prompt, apiKey) {
const response = await fetch("https://openrouter.ai/api/v1/chat/completions", {
method: "POST",
headers: {
"Authorization": `Bearer ${apiKey}`,
"Content-Type": "application/json",
},
body: JSON.stringify({
model: "qwen/qwen3.6-plus-preview:free",
messages: [{ role: "user", content: prompt }],
}),
});
if (!response.ok) {
throw new Error(`OpenRouter error: ${response.status} ${await response.text()}`);
}
const data = await response.json();
return data.choices[0].message.content;
}
callQwen(
"Write a JavaScript function that validates an email address.",
"sk-or-v1-YOUR_KEY_HERE"
).then(console.log);
Python mit dem OpenAI SDK:
Wenn Sie bereits das OpenAI Python SDK verwenden, können Sie es ohne weitere Änderungen auf OpenRouter verweisen:
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-v1-YOUR_KEY_HERE",
)
response = client.chat.completions.create(
model="qwen/qwen3.6-plus-preview:free",
messages=[
{
"role": "system",
"content": "You are a senior backend engineer. Write clean, production-ready code."
},
{
"role": "user",
"content": "Write a Python function that retries a failed HTTP request up to 3 times with exponential backoff."
}
],
)
print(response.choices[0].message.content)
Tool-Nutzung und agentische Workflows
Die Tool-Nutzung ist der Bereich, in dem sich Qwen 3.6 im kostenlosen Bereich auszeichnet. Hier ist ein funktionierendes Beispiel:
from openai import OpenAI
import json
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-v1-YOUR_KEY_HERE",
)
# Define the tools available to the model
tools = [
{
"type": "function",
"function": {
"name": "search_api_docs",
"description": "Search the API documentation for a specific endpoint or parameter",
"parameters": {
"type": "object",
"properties": {
"query": {
"type": "string",
"description": "The search query"
},
"version": {
"type": "string",
"enum": ["v1", "v2", "v3"],
"description": "API version to search"
}
},
"required": ["query"]
}
}
},
{
"type": "function",
"function": {
"name": "run_api_test",
"description": "Execute a test request against an API endpoint",
"parameters": {
"type": "object",
"properties": {
"endpoint": {"type": "string"},
"method": {"type": "string", "enum": ["GET", "POST", "PUT", "DELETE"]},
"body": {"type": "object"}
},
"required": ["endpoint", "method"]
}
}
}
]
messages = [
{
"role": "user",
"content": "Find documentation for the /users endpoint and run a test GET request against it."
}
]
response = client.chat.completions.create(
model="qwen/qwen3.6-plus-preview:free",
messages=messages,
tools=tools,
tool_choice="auto",
)
message = response.choices[0].message
# Check whether the model wants to call a tool
if message.tool_calls:
for tool_call in message.tool_calls:
print(f"Tool: {tool_call.function.name}")
args = json.loads(tool_call.function.arguments)
print(f"Arguments: {json.dumps(args, indent=2)}")
else:
print(message.content)
Das Modell generiert einen strukturierten Funktionsaufruf, anstatt eine freiformatige Antwort zu halluzinieren. Sie führen die Funktion dann in Ihrem eigenen Code aus und speisen das Ergebnis im nächsten Durchlauf zurück.
So werden mehrstufige agentische Workflows aufgebaut: Das Modell ruft Tools auf, Ihr Code führt sie aus, und Sie wiederholen den Vorgang, bis die Aufgabe erledigt ist.
Verwendung des 1-Million-Token-Kontextfensters
Ein 1M-Token-Kontext ist für einfache Fragen nicht nützlich. Er wurde für Aufgaben entwickelt, bei denen Sie dem Modell eine große Menge Kontext auf einmal geben müssen.
Hier sind drei Muster, bei denen dies tatsächlich eine Rolle spielt:
Vollständige Codebasis-Überprüfung
Füttern Sie das Modell mit Ihrer gesamten Codebasis (innerhalb des Token-Limits) und bitten Sie es, Sicherheitsprobleme, inkonsistente Muster oder undokumentierte Funktionen zu identifizieren.
import os
from pathlib import Path
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-v1-YOUR_KEY_HERE",
)
def load_codebase(directory: str, extensions: list[str]) -> str:
"""Load all source files from a directory into a single string."""
content_parts = []
for path in Path(directory).rglob("*"):
if path.suffix in extensions and path.is_file():
try:
text = path.read_text(encoding="utf-8", errors="ignore")
content_parts.append(f"--- FILE: {path} ---\n{text}\n")
except Exception:
continue
return "\n".join(content_parts)
codebase = load_codebase("./src", [".py", ".js", ".ts"])
response = client.chat.completions.create(
model="qwen/qwen3.6-plus-preview:free",
messages=[
{
"role": "user",
"content": f"Review this codebase and identify:\n1. Security vulnerabilities\n2. Functions with no error handling\n3. Inconsistent naming conventions\n\nCodebase:\n{codebase}"
}
],
)
print(response.choices[0].message.content)
Analyse großer Dokumente
Geben Sie ein langes juristisches Dokument, einen Finanzbericht oder eine wissenschaftliche Arbeit ein und stellen Sie spezifische Fragen dazu.
with open("annual_report_2025.txt", "r") as f:
document = f.read()
response = client.chat.completions.create(
model="qwen/qwen3.6-plus-preview:free",
messages=[
{
"role": "user",
"content": f"Extract all mentions of API rate limits and pricing changes from this document:\n\n{document}"
}
],
)
Mehrstufige Konversation mit vollständigem Verlauf
Behalten Sie den gesamten Konversationsverlauf im Kontext ohne Kürzung, nützlich für lange Debugging-Sitzungen oder technische Interviews.
conversation = []
def chat(user_message: str) -> str:
conversation.append({"role": "user", "content": user_message})
response = client.chat.completions.create(
model="qwen/qwen3.6-plus-preview:free",
messages=conversation,
)
assistant_message = response.choices[0].message.content
conversation.append({"role": "assistant", "content": assistant_message})
return assistant_message
# Long back-and-forth debugging session
print(chat("I'm getting a 401 error from the GitHub API. Here's my code..."))
print(chat("I added the token but now I get a 403. The token has repo scope."))
print(chat("The repo is private. What scopes do I actually need?"))
Testen von OpenRouter API-Anfragen mit Apidog
Wenn Sie auf der OpenRouter API aufbauen, wird das Debuggen fehlgeschlagener Anfragen schnell mühsam. Sie stellen HTTP-Anfragen, prüfen JSON-Antworten und iterieren Ihre Prompts. Dies über die Kommandozeile oder Postman zu tun, ist langsam.

Apidog ist hier einen Versuch wert. Es ist ein kostenloser API-Client, der die Erstellung von Anfragen, die Überprüfung von Antworten und die Testautomatisierung an einem Ort handhabt.
So testen Sie den Qwen 3.6 Endpunkt in Apidog:
- Erstellen Sie eine neue POST-Anfrage an
https://openrouter.ai/api/v1/chat/completions - Fügen Sie Ihren
Authorization: Bearer sk-or-v1-...Header hinzu - Setzen Sie den Body auf JSON mit Ihren
model- undmessages-Feldern - Senden Sie die Anfrage und überprüfen Sie die Antwort
Sie können dies als Sammlung speichern, zwischen Modell-IDs wechseln, um Ausgaben zu vergleichen, und automatisierte Tests schreiben, die die Antwortstruktur überprüfen, sicherstellen, dass choices[0].message.content nicht leer ist, oder bestätigen, dass Tool-Aufrufe den erwarteten Funktionsnamen enthalten.
Wenn Sie eine App entwickeln, die OpenRouter aufruft, spart das frühzeitige Schreiben einiger Anfragetests in Apidog Zeit, wenn sich das Modell unerwartet verhält.
Limits des kostenlosen Tarifs, die Sie kennen sollten, bevor Sie darauf aufbauen
Qwen 3.6 ist jetzt kostenlos. Das wird nicht ewig so bleiben, und es gibt praktische Einschränkungen, die Sie berücksichtigen sollten.
Ratenbegrenzungen werden geteilt. Kostenlose Modelle auf OpenRouter teilen die Kapazität unter allen Benutzern auf. Während der Stoßzeiten (typischerweise abends in den USA) werden Sie höhere Latenzzeiten und gelegentliche Ratenbegrenzungsfehler feststellen. Implementieren Sie eine Wiederholungslogik in jeden Produktionscode.
import time
import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry
session = requests.Session()
retry_strategy = Retry(
total=3,
backoff_factor=2,
status_forcelist=[429, 500, 502, 503, 504],
)
adapter = HTTPAdapter(max_retries=retry_strategy)
session.mount("https://", adapter)
response = session.post(
"https://openrouter.ai/api/v1/chat/completions",
headers={"Authorization": "Bearer sk-or-v1-YOUR_KEY_HERE"},
json={
"model": "qwen/qwen3.6-plus-preview:free",
"messages": [{"role": "user", "content": "Hello"}],
},
timeout=30,
)
Daten werden protokolliert. Die Modellseite von OpenRouter besagt, dass „das Modell Prompt- und Completion-Daten sammelt, die zur Verbesserung des Modells verwendet werden können.“ Senden Sie keine API-Schlüssel, Passwörter oder persönlich identifizierbaren Informationen über diesen Endpunkt.
Vorschau-Status. Dies ist eine Vorabversion. Das Verhalten des Modells kann sich ändern. Wenn Sie es für die Produktionsinferenz verwenden, pinnen Sie Ihre Integrationstests an die aktuelle Modell-ID und überwachen Sie auf Regressionen.
Nur Text. Qwen 3.6 akzeptiert Texteingaben und erzeugt Textausgaben. Keine Bilder, kein Audio, keine Dateiuploads.
Anwendungsfälle aus der Praxis
Erstellung eines Code-Review-Agenten. Ein Team, das ein internes PR-Review-Tool entwickelte, speiste seine gesamten Pull-Request-Diffe (manchmal über 10.000 Zeilen) in Qwen 3.6 ein und erhielt detailliertes Feedback zu Logikfehlern, fehlenden Tests und Sicherheitsproblemen. Das 1M-Token-Fenster machte dies ohne Chunking möglich.
Frontend-Komponenten-Generierung. Ein Solo-Entwickler, der ein SaaS-Dashboard erstellte, nutzte Qwen 3.6, um React-Komponenten aus Designspezifikationen zu generieren. Das Modell erzeugte sauberes TypeScript mit korrekten Prop-Typen und responsivem CSS, ohne mehrere Korrekturzyklen zu benötigen.
Zusammenfassung von API-Dokumentationen. Ein Team, das zwischen Drittanbieter-Zahlungs-APIs migrierte, übergab die vollständige Dokumentation beider APIs (jeweils etwa 100.000 Tokens) in einer Anfrage und bat um einen Side-by-Side-Vergleich von Authentifizierungsmethoden, Webhook-Formaten und Ratenbegrenzungen. Das Modell lieferte eine strukturierte Tabelle in weniger als 30 Sekunden zurück.
Melden Sie sich unter openrouter.ai an, holen Sie sich Ihren Schlüssel und tauschen Sie qwen/qwen3.6-plus-preview:free für jedes Modell ein, für das Sie derzeit bezahlen.
FAQ
Ist Qwen 3.6 tatsächlich kostenlos nutzbar?
Ja. Stand März 2026 ist das Modell auf OpenRouter mit 0 $ pro Million Eingabe-Tokens und 0 $ pro Million Ausgabe-Tokens gelistet. Der kostenlose Status kann sich ändern, wenn die Vorschauphase endet. Überprüfen Sie daher die OpenRouter-Preisseite, bevor Sie etwas entwickeln, das davon abhängt, dass die Kosten bei null bleiben.
Was ist die Ratenbegrenzung für den kostenlosen Tarif?
OpenRouter veröffentlicht keine genauen Ratenbegrenzungen für kostenlose Modelle. In der Praxis teilen sich kostenlose Modelle die Kapazität und unterliegen bei hohem Datenverkehr einer Drosselung. Beginnen Sie mit einer Anfrage nach der anderen und fügen Sie eine Wiederholungslogik hinzu, bevor Sie die Parallelität erhöhen.
Kann ich Qwen 3.6 für kommerzielle Projekte nutzen?
Ja, OpenRouter erlaubt die kommerzielle Nutzung. Überprüfen Sie die Qwen-Modelllizenz von Alibaba Cloud auf Einschränkungen des zugrunde liegenden Modells selbst, insbesondere wenn Sie Ausgaben verteilen.
Warum benötigt Qwen 3.6 länger für die Antwort als andere Modelle?
Die obligatorischen Reasoning-Tokens erhöhen die Latenz. Bevor eine Antwort generiert wird, durchläuft das Modell eine interne Gedankenkette. Bei einfachen Prompts kann dies einige Sekunden hinzufügen. Bei komplexen Reasoning-Aufgaben ist die zusätzliche Latenz jedoch lohnenswert. Verwenden Sie Streaming, wenn Sie eine Teilausgabe anzeigen möchten, während sie generiert wird.
Gibt es eine Möglichkeit, die Reasoning-Tokens zu deaktivieren?
Im aktuellen Vorschauzustand ist Reasoning obligatorisch und kann nicht deaktiviert werden. Wenn Sie schnellere Antworten ohne Gedankenkette benötigen, versuchen Sie eine andere Modellvariante, sobald diese verfügbar ist, oder verwenden Sie ein kleineres kostenloses Modell wie LLaMA 3.1 8B für latenzkritische Aufgaben.
Wie beeinflusst das 1M-Token-Kontextfenster die Kosten?
Im kostenlosen Tarif hat es keine Auswirkungen. Sie zahlen 0 $, unabhängig davon, wie viele Tokens Sie senden. Beachten Sie, dass sehr große Anfragen länger dauern und im kostenlosen Tarif möglicherweise zu einem Timeout führen können. Beginnen Sie mit einem Timeout von 30-60 Sekunden und erhöhen Sie diesen für Anfragen über 100.000 Tokens.
