Qwen 3.7 Plus: KI-Agent für PC-Automatisierung erstellen

Entwickeln Sie einen funktionierenden Computer-Nutzungs-/GUI-Agenten mit Qwen 3.7 Plus: die Wahrnehmen-Entscheiden-Handeln-Schleife, einen strikten JSON-Aktions-Prompt, ein lauffähiges Playwright-Beispiel sowie Schutzvorkehrungen für Kosten, Zuverlässigkeit und Sicherheit.

Ashley Innocent

Ashley Innocent

3 June 2026

Qwen 3.7 Plus: KI-Agent für PC-Automatisierung erstellen

Apidog für Unternehmen

On-Premises-Bereitstellung

SSO & RBAC

SOC 2 konform

Apidog Enterprise entdecken

Qwen 3.7 Plus erreicht 79,0 Punkte bei ScreenSpot Pro, dem Benchmark zum Betrachten eines Screenshots und zur Rückgabe der exakten Pixelkoordinaten zum Klicken. Diese einzelne Fähigkeit verwandelt ein Chat-Modell in einen Computer-Nutzungs-Agenten: Software, die einen Bildschirm sieht, entscheidet, was zu tun ist, und es ausführt. Dieser Leitfaden erstellt einen funktionierenden Agenten in Python, von Anfang bis Ende.

Wir behandeln die Agenten-Schleife, den Prompt, der zuverlässige Aktionen aus dem Modell holt, ein lauffähiges Browser-Beispiel mit Playwright sowie die Kosten- und Sicherheitsvorkehrungen, die Sie benötigen, bevor Sie es auf etwas Reales anwenden. Wenn Sie zuerst den Modellhintergrund erfahren möchten, sehen Sie sich unsere Qwen 3.7 Plus Übersicht an; für das rohe Anfrageformat behandelt der Qwen 3.7 Plus API-Leitfaden multimodale Payloads. Sie werden die Aufrufe des Agenten unterwegs in Apidog testen.

TL;DR

Ein Computer-Nutzungs-Agent durchläuft eine Schleife: Er erstellt einen Screenshot des Bildschirms, sendet ihn zusammen mit einem Ziel an Qwen 3.7 Plus, erhält eine strukturierte Aktion wie click (x, y) zurück, führt diese Aktion mit einem Treiber wie Playwright aus und wiederholt dies, bis das Ziel erreicht ist. Plus ist aufgrund seiner GUI-Verankerung und des niedrigen multimodalen Preises eine gute Wahl. Die schwierigen Teile sind nicht das Modell; es sind das Begrenzen der Schleife, das Skalieren von Koordinaten, die Kontrolle der Token-Kosten und das Sandboxing von Aktionen, damit ein falscher Klick keinen Schaden anrichten kann.

Was ein Computer-Nutzungs-Agent tatsächlich tut

Ohne den Hype sind es vier sich wiederholende Schritte:

  1. Wahrnehmen: Erfassen Sie einen Screenshot des aktuellen Bildschirms oder der Seite.
  2. Entscheiden: Senden Sie den Screenshot und das Ziel an das Modell und erhalten Sie die nächste Aktion.
  3. Handeln: Führen Sie diese Aktion (Klicken, Tippen, Scrollen) über einen Automatisierungstreiber aus.
  4. Prüfen: Nehmen Sie einen neuen Screenshot auf und entscheiden Sie, ob das Ziel erreicht ist.

Das Modell ist der Schritt „Entscheiden“. Alles andere ist die von Ihnen gesteuerte Infrastruktur.

0:00
/1:26

Warum Qwen 3.7 Plus passt

Drei Gründe. Seine GUI-Verankerung ist auf Spitzenniveau, sodass es verwendbare Koordinaten anstelle vager Beschreibungen zurückgibt. Es verarbeitet hybride GUI- und CLI-Workflows, sodass derselbe Agent einen Button klicken und einen Shell-Befehl ausführen kann. Und mit 0,40 $ pro Million Eingabe-Tokens ist es günstig genug, um die vielen Vision-Aufrufe auszuführen, die eine Agenten-Schleife benötigt. Wie es sich im Vergleich zum reinen Text-Flaggschiff schlägt, erfahren Sie in unserem Qwen 3.7 Plus vs Max Vergleich.

Der Entscheidungsschritt: Eine saubere Aktion erhalten

Der Trick besteht darin, das Modell auf ein kleines Aktionsvokabular zu beschränken und eine JSON-Ausgabe zu erzwingen. Freie Prosa ist schwer auszuführen; ein striktes Schema ist es nicht.

import os, json, base64
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

SYSTEM = """You are a GUI agent. You see a screenshot and a goal.
Reply with ONE JSON action and nothing else:
{"action": "click", "x": <int>, "y": <int>}
{"action": "type", "text": "<string>"}
{"action": "scroll", "dy": <int>}
{"action": "done", "reason": "<string>"}
Coordinates are pixels in the screenshot you were given."""

def next_action(goal, png_bytes):
    b64 = base64.b64encode(png_bytes).decode()
    resp = client.chat.completions.create(
        model="qwen3.7-plus",
        messages=[
            {"role": "system", "content": SYSTEM},
            {"role": "user", "content": [
                {"type": "text", "text": f"Goal: {goal}"},
                {"type": "image_url",
                 "image_url": {"url": f"data:image/png;base64,{b64}"}},
            ]},
        ],
    )
    return json.loads(resp.choices[0].message.content)

Bestätigen Sie die genaue Modell-ID in der Model Studio Dokumentation vor der Bereitstellung, da sich Bezeichner ändern können.

Die vollständige Schleife mit Playwright

Playwright steuert einen echten Browser, sodass der Agent auf tatsächlichen Seiten agiert. Ein Detail erspart Ihnen viel Ärger: Passen Sie die Screenshot-Auflösung an den Viewport an, damit die vom Modell zurückgegebenen Koordinaten eins zu eins übereinstimmen und Sie die Skalierungsberechnungen überspringen können.

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)
    page = browser.new_page(viewport={"width": 1280, "height": 800})
    page.goto("https://example.com")

    goal = "Open the pricing page and find the cheapest plan"

    for step in range(15):                 # hard cap on steps
        shot = page.screenshot()           # 1280x800 PNG, matches viewport
        action = next_action(goal, shot)
        print(step, action)

        if action["action"] == "done":
            break
        if action["action"] == "click":
            page.mouse.click(action["x"], action["y"])
        elif action["action"] == "type":
            page.keyboard.type(action["text"])
        elif action["action"] == "scroll":
            page.mouse.wheel(0, action["dy"])

        page.wait_for_timeout(800)         # let the UI settle

    browser.close()

Das ist ein echter Agent. Er wird eine Website zielgerichtet navigieren, eine begründete Aktion nach der anderen. Das gleiche Muster funktioniert für Desktop-Anwendungen, wenn Sie Playwright durch einen Desktop-Treiber ersetzen und stattdessen das Betriebssystemfenster als Screenshot erfassen.

Kosten und Zuverlässigkeit

Screenshots sind der teure Teil. Jeder wird in Tokens umgewandelt, und ein 1280 Pixel breites Bild entspricht einigen tausend Tokens, sodass eine 15-Schritte-Schleife echtes Geld über die API sendet. Halten Sie die Kosten niedrig:

Unser Leitfaden zur Reduzierung der Agenten-Token-Kosten geht tiefer, und unsere Anmerkungen zur Verdrahtung von Agenten-Workflows behandeln, wo diese Schleifen in der Praxis versagen.

Wenn der Agent steckenbleibt

Drei Fehler treten ständig auf, und jeder hat eine kostengünstige Lösung:

Sicherheit

Ein Computer-Nutzungs-Agent klickt tatsächlich auf Dinge. Bevor er etwas Wichtiges berührt:

Testen Sie die Aufrufe des Agenten mit Apidog

Die meisten Agentenfehler lassen sich auf eine Frage zurückführen: Hat das Modell eine gültige Aktion zurückgegeben? Bevor Sie Playwright anschließen, klären Sie das. Verwenden Sie Apidog, um einen Beispiel-Screenshot an Qwen 3.7 Plus zu senden, überprüfen Sie das rohe JSON, das es zurückgibt, und optimieren Sie Ihren System-Prompt, bis das Aktionsschema jedes Mal sauber zurückkommt. Speichern Sie Ihren Model Studio-Schlüssel pro Umgebung und simulieren Sie den Endpunkt, damit Sie die Schleife aufbauen können, ohne bei jedem Testlauf Tokens zu verbrauchen. Wenn die vollständige Schleife Aufrufe verkettet, zeigt Apidogs AI-Agent-Debugger die Sequenz, damit Sie den Schritt finden können, der schiefgelaufen ist.

Um UI-Code aus einem Design zu generieren, anstatt ein solches zu steuern, lesen Sie unseren Begleitführer zu Screenshot-to-Code mit Qwen 3.7 Plus.

Laden Sie Apidog herunter, um die Modellaufrufe hinter Ihrem Agenten zu testen und zu debuggen.

FAQ

Was ist ein Computer-Nutzungs-Agent? Software, die einen Bildschirm mittels Screenshots wahrnimmt, mit einem Modell eine Aktion entscheidet und diese über einen Automatisierungstreiber ausführt, wobei sie sich wiederholt, bis ein Ziel erreicht ist.

Kann Qwen 3.7 Plus meinen Desktop steuern? Das Modell gibt nur Aktionen zurück. Sie führen diese mit einem Treiber aus. Kombinieren Sie es mit Playwright für Browser oder einer Desktop-Automatisierungsbibliothek für native Anwendungen.

Wie viel kostet jeder Schritt? Hauptsächlich der Screenshot. Ein einzelnes Bildschirmbild kann einige tausend Eingabe-Tokens zu 0,40 $ pro Million kosten, daher sind das Herunterskalieren und Begrenzen der Schleife die wichtigsten Kostenhebel.

Ist es zuverlässig genug für die Produktion? Für begrenzte, klar definierte Aufgaben mit Überprüfung nach jedem Schritt: ja. Für die offene Steuerung kritischer Systeme: Halten Sie einen Menschen in der Schleife und sandboxing Sie alles.

Muss ich die Koordinaten skalieren? Nicht, wenn Ihre Screenshot-Auflösung mit Ihrem Viewport übereinstimmt. Wenn sie sich unterscheiden, skalieren Sie die zurückgegebenen Koordinaten um das Verhältnis zwischen ihnen.

Fazit

Ein Computer-Nutzungs-Agent ist eine kurze Schleife um ein leistungsfähiges Modell, und Qwen 3.7 Plus bietet Ihnen die Grundlage und den Preis, um es auszuführen. Bauen Sie die Schleife auf, begrenzen Sie sie, sandboxing Sie sie und überprüfen Sie jeden Schritt. Testen Sie dann die Modellaufrufe in Apidog, damit der Schritt „Entscheiden“ stabil ist, bevor der Agent mit dem Klicken beginnt.

Button

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen