Qwen 3.7 Plus: Alibabas multimodales KI-Agentenmodell, Benchmarks und Preise

Alibaba hat Qwen 3.7 Plus nur wenige Tage nach Qwen3.7-Max veröffentlicht. Kurz gesagt: Plus ist Max mit Augen. Es behält denselben 1M-Token-Kontext und dasselbe agentische Grundgerüst bei, fügt Bild- und Videoeingaben hinzu und kostet etwa ein Sechstel des Preises von Max. Wenn Sie die Familie verfolgt haben, behandelt unser Leitfaden zu Qwen 3.7 das Text-Flaggschiff; dieser Beitrag handelt davon, was die neue Plus-Variante hinzufügt.

Eines vorab, da es entscheidet, für wen es relevant ist: Qwen 3.7 Plus ist nur über API verfügbar und proprietär. Es gibt keine offenen Gewichte, was eine Abkehr von Qwens Open-Source-Gewohnheit darstellt. Was das bedeutet, erfahren Sie weiter unten. Da Plus nur als API ausgeliefert wird, werden Sie Ihre Zeit damit verbringen, es aufzurufen und zu debuggen; hier kommt Apidog ins Spiel, das am Ende behandelt wird.

button

Die kurze Antwort

Qwen 3.7 Plus ist das multimodale, preisgünstige Geschwistermodell von Qwen3.7-Max. Geben Sie ihm einen Screenshot, einen Design-Mockup oder ein Video, und es verarbeitet diese als erstklassige Eingabe. Es wurde für Agenten entwickelt, die grafische Benutzeroberflächen steuern: Es kann einen App-Screenshot ansehen und exakte Pixelkoordinaten zum Klicken zurückgeben.

Bei reinem Text liegt Max immer noch leicht vorne. Bei allem mit einem visuellen Signal ist Plus die bessere Wahl, und es kostet ohnehin nur einen Bruchteil von Max. Der einzige wirkliche Nachteil sind die geschlossenen Gewichte.

Was ist neu im Vergleich zu Qwen 3.7 Max

Drei Änderungen sind entscheidend.

Es sieht. Max ist nur textbasiert. Plus akzeptiert Text, Bilder und Videos. Das ermöglicht Screenshot-Wahrnehmung, Dokumenten- und PDF-Lesen sowie Video-Verständnis aus einem einzigen Modell.

Es verankert GUIs. Plus wird als multimodaler interaktiver Agent positioniert, der Browser-Automatisierung, GUI-Navigation und hybride GUI-plus-CLI-Workflows handhabt. Es erstellt strukturierte Aktionspläne wie „Klicken bei (x=487, y=232)“, was Computer-Nutzungs-Agenten überhaupt erst funktionsfähig macht.

Es ist günstig. Plus läuft zu einem Preispunkt, der deutlich unter dem von Max liegt.

	Qwen 3.7 Plus	Qwen 3.7 Max
Eingabemodalitäten	Text, Bild, Video	Nur Text
Kontextfenster	1M Tokens (geteilt mit Vision)	1M Tokens
Input / Output pro 1M	$0.40 / $1.60	$2.50 / $7.50
Gecachter Input pro 1M	$0.08	$0.25
GUI-Verankerung (ScreenSpot Pro)	79.0	Keine
Terminal-Bench	70.3	69.7
Autonome Laufzeit (Obergrenze)	35 Stunden	35 Stunden

Benchmarks

Die Einführungszahlen, gestützt durch frühe praktische Tests, erzählen eine konsistente Geschichte: Plus erreicht oder übertrifft Max leicht bei Text, um dann den Vorsprung zu übernehmen, sobald Vision ins Spiel kommt.

ScreenSpot Pro: 79.0. Dies ist der GUI-Verankerungstest, die Fähigkeit des Modells, einen Screenshot zu analysieren und exakte Pixelkoordinaten zu liefern. 79.0 ist Spitzenklasse, und Max kann ihn überhaupt nicht ausführen.
Terminal-Bench: 70.3. Leicht vor Max' 69.7, selbst mit den zusätzlichen Vision-Parametern.
SWE-Bench Pro: etwa 60 %, im Wesentlichen gleichauf mit Max' 60.6 %.
MCP-Atlas: 76.4, ein Gleichstand mit Max bei der Orchestrierung der Werkzeugnutzung.
LM Arena: Plus liegt bei Text (#15 vs #13) und Codierung (#12 vs #10) etwas hinter Max. Für reine Textarbeiten behält Max einen kleinen Vorteil.

Das Muster ist klar. Wählen Sie Plus, wenn die Aufgabe ein visuelles Signal erfordert: einen Screenshot, einen Mockup, ein Diagramm. Für einen direkten Vergleich im Textbereich behandelt unser Qwen 3.7 vs. GPT-5.5 vs. Opus 4.7 Vergleich, wo die Familie im Vergleich zu den westlichen Flaggschiffen steht. Wie immer stammen die Benchmark-Zahlen vom Anbieter und frühen Testern, daher sollten sie eher als Orientierung denn als Evangelium betrachtet werden.

Preise: das preisgünstige multimodale Segment

Hier wird Plus interessant. Mit 0,40 $ für den Input und 1,60 $ für den Output pro Million Tokens ist es etwa sechsmal günstiger als Max beim Input und fast fünfmal günstiger beim Output. Gecachter Input sinkt auf 0,08 $. Sie erhalten Vision und einen 1M-Kontext für weniger, als die meisten rein textbasierten Modelle verlangen.

Ein Vorbehalt, den Sie in Ihr Kostenmodell einbeziehen sollten: Bilder und Videos teilen sich dieses 1M-Token-Budget. Ein hochauflösender Screenshot kann Tausende von Tokens verbrauchen, und Video-Frames summieren sich schnell, sodass Ihr effektiver Textspielraum schrumpft, wenn die visuelle Nutzlast zunimmt. Planen Sie dies ein. Für den breiteren Kontext, warum chinesische Labore weiterhin die Preise unterbieten, lesen Sie unsere Analyse des chinesischen LLM-Preiskriegs 2026.

Der Haken: proprietär und nur über API

Qwen hat seine Attraktivität für Unternehmen auf offenen Gewichten aufgebaut. Ein Großteil der früheren Qwen-Linie wurde unter Apache 2.0- oder Open-Use-Lizenzen ausgeliefert, sodass Teams Modelle herunterladen, feinabstimmen und in luftdichten Rechenzentren ausführen konnten. Qwen 3.7 Plus tut dies nicht.

Plus wird ausschließlich als verwaltete kommerzielle API über Alibaba Cloud Model Studio bereitgestellt. Sie können die Gewichte nicht herunterladen, Sie können es nicht selbst hosten, und Sie können es nicht offline ausführen. Für regulierte oder luftdichte Umgebungen ist das ein absolutes Kriterium. Eine Open-Weight-Plus-Variante wurde für Q3 2026 ins Gespräch gebracht, ist aber nicht bestätigt, und die proprietäre Ebene könnte geschlossen bleiben. Wenn offene Gewichte eine Anforderung sind, ist dieses Modell heute nicht Ihre Wahl; Konkurrenten wie Step 3.7 Flash werden unter Apache 2.0 ausgeliefert und unterbieten es im Preis.

So greifen Sie auf Qwen 3.7 Plus zu

Zwei Wege:

API: Rufen Sie es über Alibaba Cloud Model Studio auf. Der Endpunkt ist OpenAI-kompatibel, sodass die Anfragemuster des Basismodells übernommen werden; unser Leitfaden zur Nutzung der Qwen 3.7 API führt durch die Authentifizierung und den ersten Aufruf, und Sie fügen Bild- oder Videoteile zur Nachrichtennutzlast für multimodale Anfragen hinzu.
Chat: Testen Sie es im Browser unter chat.qwen.ai, bevor Sie Code schreiben. Wenn Sie die Familie ohne Kosten testen möchten, zeigt unser Qwen 3.7 kostenloser Leitfaden die kostenlosen Wege.

Ein minimaler multimodaler Aufruf verwendet das Standard-OpenAI-Nachrichtenformat, wobei ein Bildteil neben dem Text hinzugefügt wird:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Which button submits this form? Give pixel coordinates."},
            {"type": "image_url", "image_url": {"url": "https://example.com/screenshot.png"}},
        ],
    }],
)
print(resp.choices[0].message.content)

Prüfen Sie die Model Studio-Dokumentation für den genauen Modellidentifikator und die regionale Basis-URL, da diese zwischen den internationalen und chinesischen Endpunkten variieren.

Wer sollte es verwenden

Greifen Sie zu Qwen 3.7 Plus, wenn Ihre Arbeit wie folgt aussieht:

Computer-Nutzungs- und GUI-Agenten, die sich durch echte Schnittstellen von Screenshots klicken.
Screenshot-zu-Code und Mockup-zu-UI, wobei das Modell ein Design liest und das Frontend schreibt.
Dokumenten-, PDF- und Video-Verständnis zu geringen Kosten pro Token.
Lange agentische Läufe, bis zur 35-Stunden-Grenze mit Tausenden von sequenziellen Werkzeugaufrufen.

Bleiben Sie bei Max, wenn Sie rein auf SWE-Bench Pro-Textergebnisse optimieren oder die schnellste textbasierte Latenz benötigen, wo es auf kalten Pfaden etwas schneller läuft. Für die meisten gemischten Workloads ist die günstigere multimodale Option die vernünftige Standardeinstellung. Wenn Sie Plus gegen andere offene und preisgünstige Modelle abwägen, ist unser MiniMax M3 vs. DeepSeek V4 vs. Qwen 3.7 Vergleich eine nützliche Orientierungshilfe.

Qwen 3.7 Plus mit Apidog testen

Da Plus nur über API verfügbar ist, leben Sie in der API. Multimodale Anfragen sind knifflig: Sie kodieren Bilder, hängen Videos an und lesen strukturierte Aktionspläne zurück, oft innerhalb einer Werkzeugaufrufschleife, die Minuten oder Stunden läuft. Sie müssen genau sehen, was jede Anfrage sendet und was zurückkommt.

Apidog ist dafür gemacht. Senden Sie Qwen 3.7 Plus-Anfragen mit Bild- und Video-Nutzlasten, inspizieren Sie die Rohantworten, verwalten Sie Ihre Model Studio-Schlüssel über verschiedene Umgebungen hinweg und mocken Sie den Endpunkt, damit Ihre App weiterentwickelt werden kann, während Sie Prompts optimieren. Für die agentische Seite, bei der Plus Werkzeugaufrufe über einen GUI-und-CLI-Workflow verknüpft, zeigt Apidogs AI-Agenten-Debugger die gesamte Aufrufsequenz, damit Sie sehen können, wo ein Lauf schiefgegangen ist.

Laden Sie Apidog herunter, um die Qwen 3.7 Plus API zu testen, zu debuggen und zu mocken, bevor sie in Produktion geht.

FAQ

Ist Qwen 3.7 Plus Open Source? Nein. Es ist proprietär und nur als verwaltete API über Alibaba Cloud Model Studio verfügbar. Sie können die Gewichte nicht herunterladen oder selbst hosten. Eine Open-Weight-Variante wurde für Q3 2026 vorgeschlagen, ist aber nicht bestätigt.

Qwen 3.7 Plus oder Max, welches sollte ich verwenden? Verwenden Sie Plus, wenn Sie Vision (Screenshots, PDFs, Video) benötigen oder den niedrigeren Preis wünschen, was die meisten Workloads abdeckt. Verwenden Sie Max, wenn Sie auf reine Text-SWE-Bench Pro-Ergebnisse optimieren oder die schnellste reine Text-Latenz benötigen.

Wie viel kostet Qwen 3.7 Plus? 0,40 $ pro Million Input-Tokens, 1,60 $ pro Million Output-Tokens und 0,08 $ für gecachten Input. Das ist etwa sechsmal günstiger als Qwen3.7-Max.

Verarbeitet Qwen 3.7 Plus Videos? Ja. Es akzeptiert Text, Bilder und Videos als Input. Denken Sie daran, dass sich visuelle Tokens das 1M-Token-Kontextbudget teilen, sodass große Medien-Nutzlasten Ihren Text-Spielraum reduzieren.

Was ist das Kontextfenster? 1M Tokens, vom Max-Grundgerüst übernommen, auf Text-, Bild- und Video-Tokens aufgeteilt.

Wie greife ich auf Qwen 3.7 Plus zu? Über die Alibaba Cloud Model Studio API oder testen Sie es im Browser unter chat.qwen.ai.

Das Fazit

Qwen 3.7 Plus nimmt Alibabas agentisches Flaggschiff, rüstet es mit Vision aus und senkt den Preis auf ein Budget-Niveau. Für Entwickler, die Computer-Nutzungs-Agenten, screenshot-gesteuertes Codieren oder Video-Verständnis liefern, ist es eine der günstigsten multimodalen Optionen der Spitzenklasse, die verfügbar sind. Der Kompromiss, den Sie eingehen, sind geschlossene Gewichte und eine starke Abhängigkeit von Alibabas Cloud.

Wenn dieser Kompromiss für Sie funktioniert, ist der nächste Schritt die API selbst. Testen Sie sie, debuggen Sie die multimodalen Aufrufe und mocken Sie die Antworten in Apidog, damit das, was Sie liefern, unter realem Traffic standhält.

button