Qwen 3.7 Plus erreicht 79,0 Punkte bei ScreenSpot Pro, dem Benchmark zum Betrachten eines Screenshots und zur Rückgabe der exakten Pixelkoordinaten zum Klicken. Diese einzelne Fähigkeit verwandelt ein Chat-Modell in einen Computer-Nutzungs-Agenten: Software, die einen Bildschirm sieht, entscheidet, was zu tun ist, und es ausführt. Dieser Leitfaden erstellt einen funktionierenden Agenten in Python, von Anfang bis Ende.
Wir behandeln die Agenten-Schleife, den Prompt, der zuverlässige Aktionen aus dem Modell holt, ein lauffähiges Browser-Beispiel mit Playwright sowie die Kosten- und Sicherheitsvorkehrungen, die Sie benötigen, bevor Sie es auf etwas Reales anwenden. Wenn Sie zuerst den Modellhintergrund erfahren möchten, sehen Sie sich unsere Qwen 3.7 Plus Übersicht an; für das rohe Anfrageformat behandelt der Qwen 3.7 Plus API-Leitfaden multimodale Payloads. Sie werden die Aufrufe des Agenten unterwegs in Apidog testen.
TL;DR
Ein Computer-Nutzungs-Agent durchläuft eine Schleife: Er erstellt einen Screenshot des Bildschirms, sendet ihn zusammen mit einem Ziel an Qwen 3.7 Plus, erhält eine strukturierte Aktion wie click (x, y) zurück, führt diese Aktion mit einem Treiber wie Playwright aus und wiederholt dies, bis das Ziel erreicht ist. Plus ist aufgrund seiner GUI-Verankerung und des niedrigen multimodalen Preises eine gute Wahl. Die schwierigen Teile sind nicht das Modell; es sind das Begrenzen der Schleife, das Skalieren von Koordinaten, die Kontrolle der Token-Kosten und das Sandboxing von Aktionen, damit ein falscher Klick keinen Schaden anrichten kann.
Was ein Computer-Nutzungs-Agent tatsächlich tut
Ohne den Hype sind es vier sich wiederholende Schritte:
- Wahrnehmen: Erfassen Sie einen Screenshot des aktuellen Bildschirms oder der Seite.
- Entscheiden: Senden Sie den Screenshot und das Ziel an das Modell und erhalten Sie die nächste Aktion.
- Handeln: Führen Sie diese Aktion (Klicken, Tippen, Scrollen) über einen Automatisierungstreiber aus.
- Prüfen: Nehmen Sie einen neuen Screenshot auf und entscheiden Sie, ob das Ziel erreicht ist.
Das Modell ist der Schritt „Entscheiden“. Alles andere ist die von Ihnen gesteuerte Infrastruktur.
Warum Qwen 3.7 Plus passt
Drei Gründe. Seine GUI-Verankerung ist auf Spitzenniveau, sodass es verwendbare Koordinaten anstelle vager Beschreibungen zurückgibt. Es verarbeitet hybride GUI- und CLI-Workflows, sodass derselbe Agent einen Button klicken und einen Shell-Befehl ausführen kann. Und mit 0,40 $ pro Million Eingabe-Tokens ist es günstig genug, um die vielen Vision-Aufrufe auszuführen, die eine Agenten-Schleife benötigt. Wie es sich im Vergleich zum reinen Text-Flaggschiff schlägt, erfahren Sie in unserem Qwen 3.7 Plus vs Max Vergleich.

Der Entscheidungsschritt: Eine saubere Aktion erhalten
Der Trick besteht darin, das Modell auf ein kleines Aktionsvokabular zu beschränken und eine JSON-Ausgabe zu erzwingen. Freie Prosa ist schwer auszuführen; ein striktes Schema ist es nicht.
import os, json, base64
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
SYSTEM = """You are a GUI agent. You see a screenshot and a goal.
Reply with ONE JSON action and nothing else:
{"action": "click", "x": <int>, "y": <int>}
{"action": "type", "text": "<string>"}
{"action": "scroll", "dy": <int>}
{"action": "done", "reason": "<string>"}
Coordinates are pixels in the screenshot you were given."""
def next_action(goal, png_bytes):
b64 = base64.b64encode(png_bytes).decode()
resp = client.chat.completions.create(
model="qwen3.7-plus",
messages=[
{"role": "system", "content": SYSTEM},
{"role": "user", "content": [
{"type": "text", "text": f"Goal: {goal}"},
{"type": "image_url",
"image_url": {"url": f"data:image/png;base64,{b64}"}},
]},
],
)
return json.loads(resp.choices[0].message.content)
Bestätigen Sie die genaue Modell-ID in der Model Studio Dokumentation vor der Bereitstellung, da sich Bezeichner ändern können.
Die vollständige Schleife mit Playwright
Playwright steuert einen echten Browser, sodass der Agent auf tatsächlichen Seiten agiert. Ein Detail erspart Ihnen viel Ärger: Passen Sie die Screenshot-Auflösung an den Viewport an, damit die vom Modell zurückgegebenen Koordinaten eins zu eins übereinstimmen und Sie die Skalierungsberechnungen überspringen können.
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
browser = p.chromium.launch(headless=False)
page = browser.new_page(viewport={"width": 1280, "height": 800})
page.goto("https://example.com")
goal = "Open the pricing page and find the cheapest plan"
for step in range(15): # hard cap on steps
shot = page.screenshot() # 1280x800 PNG, matches viewport
action = next_action(goal, shot)
print(step, action)
if action["action"] == "done":
break
if action["action"] == "click":
page.mouse.click(action["x"], action["y"])
elif action["action"] == "type":
page.keyboard.type(action["text"])
elif action["action"] == "scroll":
page.mouse.wheel(0, action["dy"])
page.wait_for_timeout(800) # let the UI settle
browser.close()
Das ist ein echter Agent. Er wird eine Website zielgerichtet navigieren, eine begründete Aktion nach der anderen. Das gleiche Muster funktioniert für Desktop-Anwendungen, wenn Sie Playwright durch einen Desktop-Treiber ersetzen und stattdessen das Betriebssystemfenster als Screenshot erfassen.
Kosten und Zuverlässigkeit
Screenshots sind der teure Teil. Jeder wird in Tokens umgewandelt, und ein 1280 Pixel breites Bild entspricht einigen tausend Tokens, sodass eine 15-Schritte-Schleife echtes Geld über die API sendet. Halten Sie die Kosten niedrig:
- Herunterskalieren und zuschneiden. Senden Sie das kleinste Bild, das das Modell noch lesen kann. Schneiden Sie auf das relevante Panel zu, wenn möglich.
- Schleife begrenzen. Begrenzen Sie immer die Anzahl der Schritte, wie es das Beispiel zeigt, damit ein verwirrter Agent nicht ewig laufen kann.
- Nach der Aktion überprüfen. Behandeln Sie jede Aktion als Hypothese. Der nächste Screenshot bestätigt, ob es funktioniert hat, und die Schleife korrigiert sich selbst.
Unser Leitfaden zur Reduzierung der Agenten-Token-Kosten geht tiefer, und unsere Anmerkungen zur Verdrahtung von Agenten-Workflows behandeln, wo diese Schleifen in der Praxis versagen.
Wenn der Agent steckenbleibt
Drei Fehler treten ständig auf, und jeder hat eine kostengünstige Lösung:
- Das Modell gibt Prosa anstelle von JSON zurück. Fordern Sie erneut mit einer kurzen Erinnerung „nur mit JSON antworten“ auf und versuchen Sie es einmal, bevor Sie aufgeben. Ein strenges Schema plus ein Reparaturschritt fängt fast alle diese Fälle ab.
- Ein Klick verfehlt sein Ziel. Der nächste Screenshot zeigt, dass sich nichts geändert hat, also fügen Sie eine Regel hinzu, die es mit einem frischen Screenshot erneut versucht, anstatt blind dieselben Koordinaten zu wiederholen.
- Die Schleife dreht sich ohne Fortschritt. Verfolgen Sie die letzten Aktionen; wenn sie sich wiederholen, halten Sie an und zeigen Sie den Screenshot einem Menschen. Die Schrittbegrenzung ist Ihr letzter Ausweg.
Sicherheit
Ein Computer-Nutzungs-Agent klickt tatsächlich auf Dinge. Bevor er etwas Wichtiges berührt:
- Führen Sie ihn in einer Sandbox oder einem Einweg-Browserprofil aus, niemals in Ihrer angemeldeten Produktionssitzung.
- Verlangen Sie eine menschliche Bestätigung für destruktive Aktionen wie Löschen, Senden oder Bezahlen.
- Protokollieren Sie jede Aktion mit ihrem Screenshot, damit Sie überprüfen können, was der Agent getan hat und warum.
Testen Sie die Aufrufe des Agenten mit Apidog
Die meisten Agentenfehler lassen sich auf eine Frage zurückführen: Hat das Modell eine gültige Aktion zurückgegeben? Bevor Sie Playwright anschließen, klären Sie das. Verwenden Sie Apidog, um einen Beispiel-Screenshot an Qwen 3.7 Plus zu senden, überprüfen Sie das rohe JSON, das es zurückgibt, und optimieren Sie Ihren System-Prompt, bis das Aktionsschema jedes Mal sauber zurückkommt. Speichern Sie Ihren Model Studio-Schlüssel pro Umgebung und simulieren Sie den Endpunkt, damit Sie die Schleife aufbauen können, ohne bei jedem Testlauf Tokens zu verbrauchen. Wenn die vollständige Schleife Aufrufe verkettet, zeigt Apidogs AI-Agent-Debugger die Sequenz, damit Sie den Schritt finden können, der schiefgelaufen ist.

Um UI-Code aus einem Design zu generieren, anstatt ein solches zu steuern, lesen Sie unseren Begleitführer zu Screenshot-to-Code mit Qwen 3.7 Plus.
Laden Sie Apidog herunter, um die Modellaufrufe hinter Ihrem Agenten zu testen und zu debuggen.
FAQ
Was ist ein Computer-Nutzungs-Agent? Software, die einen Bildschirm mittels Screenshots wahrnimmt, mit einem Modell eine Aktion entscheidet und diese über einen Automatisierungstreiber ausführt, wobei sie sich wiederholt, bis ein Ziel erreicht ist.
Kann Qwen 3.7 Plus meinen Desktop steuern? Das Modell gibt nur Aktionen zurück. Sie führen diese mit einem Treiber aus. Kombinieren Sie es mit Playwright für Browser oder einer Desktop-Automatisierungsbibliothek für native Anwendungen.
Wie viel kostet jeder Schritt? Hauptsächlich der Screenshot. Ein einzelnes Bildschirmbild kann einige tausend Eingabe-Tokens zu 0,40 $ pro Million kosten, daher sind das Herunterskalieren und Begrenzen der Schleife die wichtigsten Kostenhebel.
Ist es zuverlässig genug für die Produktion? Für begrenzte, klar definierte Aufgaben mit Überprüfung nach jedem Schritt: ja. Für die offene Steuerung kritischer Systeme: Halten Sie einen Menschen in der Schleife und sandboxing Sie alles.
Muss ich die Koordinaten skalieren? Nicht, wenn Ihre Screenshot-Auflösung mit Ihrem Viewport übereinstimmt. Wenn sie sich unterscheiden, skalieren Sie die zurückgegebenen Koordinaten um das Verhältnis zwischen ihnen.
Fazit
Ein Computer-Nutzungs-Agent ist eine kurze Schleife um ein leistungsfähiges Modell, und Qwen 3.7 Plus bietet Ihnen die Grundlage und den Preis, um es auszuführen. Bauen Sie die Schleife auf, begrenzen Sie sie, sandboxing Sie sie und überprüfen Sie jeden Schritt. Testen Sie dann die Modellaufrufe in Apidog, damit der Schritt „Entscheiden“ stabil ist, bevor der Agent mit dem Klicken beginnt.
