Qwen 3.7 Plus, bir ekran görüntüsüne bakıp tıklanacak tam piksel koordinatlarını döndürme kıyaslama testi olan ScreenSpot Pro'da 79.0 puan aldı. Tek başına bu beceri, bir sohbet modelini bir bilgisayar kullanım aracısına dönüştüren şeydir: bir ekranı gören, ne yapacağına karar veren ve bunu yapan yazılım. Bu kılavuz, Python'da baştan sona çalışan bir tane oluşturur.
Aracı döngüsünü, modelden güvenilir eylemler elde eden istemi, Playwright ile çalıştırılabilir bir tarayıcı örneğini ve gerçek bir şeye yönlendirmeden önce ihtiyacınız olan maliyet ve güvenlik önlemlerini ele alacağız. Önce modelin arka planını öğrenmek isterseniz, Qwen 3.7 Plus genel bakışımıza bakın; ham istek formatı için Qwen 3.7 Plus API kılavuzu çok modlu yükleri kapsar. Aracı çağrılarını ilerledikçe Apidog'da test edeceksiniz.
TL;DR
Bir bilgisayar kullanım aracısı bir döngü çalıştırır: ekran görüntüsü alır, bunu bir hedefle Qwen 3.7 Plus'a gönderir, click (x, y) gibi yapılandırılmış bir eylem alır, bu eylemi Playwright gibi bir sürücüyle yürütür ve ardından hedef karşılanana kadar tekrar eder. Artı (Plus) modeli, GUI temellendirmesi ve düşük çok modlu fiyatı nedeniyle güçlü bir uyum sağlar. Zor kısımlar model değildir; döngüyü sınırlamak, koordinatları ölçeklendirmek, token maliyetini kontrol etmek ve yanlış bir tıklamanın zarar verememesi için eylemleri sanal alanda çalıştırmaktır.
Bir bilgisayar kullanım aracısı aslında ne yapar
Abartıyı bir kenara bırakırsak, dört adım tekrar tekrar uygulanır:
- Algıla: mevcut ekranın veya sayfanın bir ekran görüntüsünü yakala.
- Karar Ver: ekran görüntüsünü ve hedefi modele gönder ve bir sonraki eylemi al.
- Eyleme Geç: o eylemi (tıklama, yazma, kaydırma) bir otomasyon sürücüsü aracılığıyla yürüt.
- Kontrol Et: yeni bir ekran görüntüsü al ve hedefin tamamlanıp tamamlanmadığına karar ver.
Model, "Karar Ver" adımıdır. Diğer her şey sizin kontrol ettiğiniz altyapıdır.
Qwen 3.7 Plus neden uygun
Üç neden var. GUI temellendirmesi öncü seviyededir, bu nedenle belirsiz açıklamalar yerine kullanılabilir koordinatlar döndürür. Hibrit GUI ve CLI iş akışlarını yönetebilir, böylece aynı aracı bir düğmeye tıklayabilir ve bir kabuk komutu çalıştırabilir. Ve milyon giriş token'ı başına 0,40 dolar gibi bir fiyatla, bir aracı döngüsünün ihtiyaç duyduğu birçok görüş çağrısını çalıştırabilecek kadar ucuzdur. Yalnızca metin amiral gemisiyle nasıl karşılaştırıldığını görmek için Qwen 3.7 Plus vs Max karşılaştırmamıza bakın.

Karar adımı: temiz bir eylem elde etme
Püf nokta, modeli küçük bir eylem kelime dağarcığıyla sınırlamak ve JSON çıktısı almaya zorlamaktır. Serbest metinleri yürütmek zordur; katı bir şema ise değildir.
import os, json, base64
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
SYSTEM = """You are a GUI agent. You see a screenshot and a goal.
Reply with ONE JSON action and nothing else:
{"action": "click", "x": <int>, "y": <int>}
{"action": "type", "text": "<string>"}
{"action": "scroll", "dy": <int>}
{"action": "done", "reason": "<string>"}
Coordinates are pixels in the screenshot you were given."""
def next_action(goal, png_bytes):
b64 = base64.b64encode(png_bytes).decode()
resp = client.chat.completions.create(
model="qwen3.7-plus",
messages=[
{"role": "system", "content": SYSTEM},
{"role": "user", "content": [
{"type": "text", "text": f"Goal: {goal}"},
{"type": "image_url",
"image_url": {"url": f"data:image/png;base64,{b64}"}},
]},
],
)
return json.loads(resp.choices[0].message.content)
Tanımlayıcılar değiştiği için yayına almadan önce Model Studio belgelerindeki tam model kimliğini onaylayın.
Playwright ile tam döngü
Playwright gerçek bir tarayıcıyı yönetir, böylece aracı gerçek sayfalar üzerinde hareket eder. Bir ayrıntı size çok acıdan kurtarır: ekran görüntüsü çözünürlüğünü görünüm alanıyla eşleştirin, böylece modelin döndürdüğü koordinatlar bire bir eşleşir ve ölçeklendirme matematiğini atlamış olursunuz.
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
browser = p.chromium.launch(headless=False)
page = browser.new_page(viewport={"width": 1280, "height": 800})
page.goto("https://example.com")
goal = "Open the pricing page and find the cheapest plan"
for step in range(15): # hard cap on steps
shot = page.screenshot() # 1280x800 PNG, matches viewport
action = next_action(goal, shot)
print(step, action)
if action["action"] == "done":
break
if action["action"] == "click":
page.mouse.click(action["x"], action["y"])
elif action["action"] == "type":
page.keyboard.type(action["text"])
elif action["action"] == "scroll":
page.mouse.wheel(0, action["dy"])
page.wait_for_timeout(800) # let the UI settle
browser.close()
Bu gerçek bir aracıdır. Bir siteyi bir hedefe doğru, her seferinde bir temelli eylemle yönlendirecektir. Playwright'ı bir masaüstü sürücüsüyle değiştirir ve bunun yerine işletim sistemi penceresinin ekran görüntüsünü alırsanız, aynı desen masaüstü uygulamaları için de çalışır.
Maliyet ve güvenilirlik
Ekran görüntüleri maliyetli kısımdır. Her biri token'a dönüştürülür ve 1280 genişliğinde bir görüntü birkaç bin token'a denk gelir, bu nedenle 15 adımlık bir döngü API aracılığıyla gerçek para gönderir. Şunlara dikkat edin:
- Boyut küçült ve kırp. Modelin hala okuyabileceği en küçük görüntüyü gönderin. Mümkün olduğunda ilgili panele kırpın.
- Döngüyü sınırla. Örnekteki gibi adım sayısını her zaman sınırlayın, böylece karışık bir aracı sonsuza kadar çalışamaz.
- Eylemden sonra doğrula. Her eylemi bir hipotez olarak ele alın. Bir sonraki ekran görüntüsü çalışıp çalışmadığını doğrular ve döngü kendini düzeltir.
Aracı token maliyetlerini azaltma rehberimiz daha derinlemesine inceler ve aracı iş akışı bağlantıları hakkındaki notlarımız, bu döngülerin pratikte nerede bozulduğunu kapsar.
Aracı takılı kaldığında
Sürekli olarak üç hata ortaya çıkar ve her birinin ucuz bir çözümü vardır:
- Model JSON yerine düz yazı döndürür. Kısa bir "yalnızca JSON ile yanıtla" hatırlatıcısıyla yeniden isteyin ve vazgeçmeden önce bir kez daha deneyin. Katı bir şema artı bir onarım adımı bunların neredeyse tamamını yakalar.
- Bir tıklama hedefini ıskalar. Bir sonraki ekran görüntüsü hiçbir şeyin değişmediğini gösterir, bu yüzden aynı koordinatları körü körüne tekrarlamak yerine yeni bir ekran görüntüsüyle yeniden deneyen bir kural ekleyin.
- Döngü ilerlemeden dönmeye devam eder. Son birkaç eylemi takip edin; eğer tekrar ediyorlarsa, durun ve ekran görüntüsünü bir insana gösterin. Adım sınırı sizin son çarenizdir.
Güvenlik
Bir bilgisayar kullanım aracısı gerçekten bir şeylere tıklar. Önemli bir şeye dokunmadan önce:
- Onu bir sanal alanda veya tek kullanımlık bir tarayıcı profilinde çalıştırın, asla oturum açmış üretim oturumunuzda değil.
- Silme, gönderme veya ödeme gibi yıkıcı eylemler için insan onayı isteyin.
- Ne yaptığını ve neden yaptığını denetleyebilmeniz için her eylemi ekran görüntüsüyle birlikte kaydedin.
Aracının çağrılarını Apidog ile test edin
Çoğu aracı hatası tek bir soruya dayanır: model geçerli bir eylem döndürdü mü? Playwright'ı kurmadan önce bunu netleştirin. Apidog'u kullanarak Qwen 3.7 Plus'a örnek bir ekran görüntüsü gönderin, döndürdüğü ham JSON'u inceleyin ve eylem şeması her seferinde temiz dönene kadar sistem isteminizi ayarlayın. Model Studio anahtarınızı her ortam için saklayın ve her test çalıştırmasında token yakmadan döngüyü oluşturabilmeniz için uç noktayı taklit edin. Tam döngü çağrıları zincirlediğinde, Apidog'un yapay zeka aracı hata ayıklayıcısı sırayı gösterir, böylece raydan çıkan adımı bulabilirsiniz.

Bir tasarımı yönlendirmek yerine UI kodu oluşturmak için, Qwen 3.7 Plus ile ekran görüntüsünden koda adlı yardımcı kılavuzumuza bakın.
Aracınızın arkasındaki model çağrılarını test etmek ve hata ayıklamak için Apidog'u indirin.
SSS
Bilgisayar kullanım aracısı nedir? Ekran görüntüleri aracılığıyla bir ekranı algılayan, bir modelle bir eyleme karar veren ve bir otomasyon sürücüsü aracılığıyla bunu yürüten, bir hedefe ulaşılana kadar döngü yapan yazılım.
Qwen 3.7 Plus masaüstümü kontrol edebilir mi? Model yalnızca eylemler döndürür. Bunları bir sürücüyle yürütürsünüz. Tarayıcılar için Playwright ile veya yerel uygulamalar için bir masaüstü otomasyon kütüphanesiyle eşleştirin.
Her adımın maliyeti ne kadar? Çoğunlukla ekran görüntüsü. Tek bir ekran görüntüsü, milyon başına 0,40 dolardan birkaç bin giriş token'ına mal olabilir, bu nedenle boyut küçültme ve döngüyü sınırlama ana maliyet kaldıraçlarıdır.
Üretim için yeterince güvenilir mi? Her adımdan sonra doğrulama ile sınırlı, iyi tanımlanmış görevler için evet. Kritik sistemlerin açık uçlu kontrolü için, insanı döngüde tutun ve her şeyi sanal alanda çalıştırın.
Koordinatları ölçeklendirmem gerekiyor mu? Ekran görüntüsü çözünürlüğünüz görünüm alanınızla eşleşiyorsa hayır. Farklılık gösteriyorsa, döndürülen koordinatları aralarındaki orana göre ölçeklendirin.
Sonuç
Bir bilgisayar kullanım aracısı, tek bir yetenekli model etrafında kısa bir döngüdür ve Qwen 3.7 Plus size onu çalıştırmak için temel ve fiyatı sunar. Döngüyü oluşturun, sınırlayın, sanal alanda çalıştırın ve her adımı doğrulayın. Ardından, aracı tıklamaya başlamadan önce "karar ver" adımının sağlam olduğundan emin olmak için model çağrılarını Apidog'da test edin.
