Hướng dẫn xây dựng Agent điều khiển máy tính với Qwen 3.7 Plus

Xây dựng một tác nhân sử dụng máy tính/giao diện đồ họa (GUI) hoạt động được với Qwen 3.7 Plus: vòng lặp nhận thức-quyết định-hành động, một lời nhắc hành động JSON nghiêm ngặt, một ví dụ Playwright có thể chạy được, cùng với các biện pháp bảo vệ về chi phí, độ tin cậy và an toàn.

Ashley Innocent

Ashley Innocent

3 tháng 6 2026

Hướng dẫn xây dựng Agent điều khiển máy tính với Qwen 3.7 Plus

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

Qwen 3.7 Plus đạt 79.0 điểm trên ScreenSpot Pro, một tiêu chuẩn để xem ảnh chụp màn hình và trả về tọa độ pixel chính xác để nhấp. Kỹ năng đơn lẻ đó là điều biến một mô hình trò chuyện thành một tác nhân sử dụng máy tính: phần mềm nhìn thấy màn hình, quyết định phải làm gì và thực hiện điều đó. Hướng dẫn này sẽ xây dựng một tác nhân hoạt động hoàn chỉnh bằng Python.

Chúng ta sẽ tìm hiểu về vòng lặp tác nhân, lời nhắc tạo ra các hành động đáng tin cậy từ mô hình, một ví dụ trình duyệt có thể chạy được với Playwright, cùng với các biện pháp bảo vệ về chi phí và an toàn mà bạn cần trước khi áp dụng nó vào bất kỳ tác vụ thực tế nào. Nếu bạn muốn tìm hiểu về nền tảng mô hình trước, hãy xem Tổng quan về Qwen 3.7 Plus của chúng tôi; đối với định dạng yêu cầu thô, hướng dẫn API Qwen 3.7 Plus bao gồm các tải trọng đa phương thức. Bạn sẽ kiểm tra các lệnh gọi của tác nhân trong Apidog trong quá trình thực hiện.

Tóm tắt

Một tác nhân sử dụng máy tính chạy một vòng lặp: chụp ảnh màn hình, gửi nó đến Qwen 3.7 Plus với một mục tiêu, nhận lại một hành động có cấu trúc như click (x, y), thực thi hành động đó bằng một trình điều khiển như Playwright, sau đó lặp lại cho đến khi mục tiêu được hoàn thành. Plus rất phù hợp vì khả năng định vị GUI và giá đa phương thức thấp. Các phần khó không phải là mô hình; mà là giới hạn vòng lặp, điều chỉnh tọa độ, kiểm soát chi phí token và tạo vùng an toàn cho các hành động để một cú nhấp chuột sai không thể gây hại.

Một tác nhân sử dụng máy tính thực sự làm gì

Bỏ qua những lời quảng cáo thổi phồng, nó thực hiện bốn bước lặp đi lặp lại:

  1. Nhận diện: chụp ảnh màn hình hoặc trang hiện tại.
  2. Quyết định: gửi ảnh chụp màn hình và mục tiêu đến mô hình, và nhận hành động tiếp theo.
  3. Thực hiện: thực thi hành động đó (nhấp, gõ, cuộn) thông qua trình điều khiển tự động hóa.
  4. Kiểm tra: chụp ảnh màn hình mới và quyết định xem mục tiêu đã hoàn thành chưa.

Mô hình là bước “quyết định”. Mọi thứ khác là công việc phụ trợ bạn kiểm soát.

0:00
/1:26

Tại sao Qwen 3.7 Plus phù hợp

Có ba lý do. Khả năng định vị GUI của nó thuộc hàng tiên phong, vì vậy nó trả về tọa độ có thể sử dụng được thay vì các mô tả mơ hồ. Nó xử lý các quy trình làm việc kết hợp GUI và CLI, do đó cùng một tác nhân có thể nhấp vào một nút và chạy lệnh shell. Và với giá 0.40 USD cho mỗi triệu token đầu vào, nó đủ rẻ để thực hiện nhiều lệnh gọi thị giác mà một vòng lặp tác nhân yêu cầu. Để biết cách nó so sánh với phiên bản chỉ văn bản hàng đầu, hãy xem so sánh Qwen 3.7 Plus và Max của chúng tôi.

Bước quyết định: nhận một hành động rõ ràng

Bí quyết là giới hạn mô hình trong một bộ từ vựng hành động nhỏ và buộc xuất ra JSON. Văn xuôi lỏng lẻo khó thực hiện; một lược đồ chặt chẽ thì không.

import os, json, base64
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

SYSTEM = """You are a GUI agent. You see a screenshot and a goal.
Reply with ONE JSON action and nothing else:
{"action": "click", "x": <int>, "y": <int>}
{"action": "type", "text": "<string>"}
{"action": "scroll", "dy": <int>}
{"action": "done", "reason": "<string>"}
Coordinates are pixels in the screenshot you were given."""

def next_action(goal, png_bytes):
    b64 = base64.b64encode(png_bytes).decode()
    resp = client.chat.completions.create(
        model="qwen3.7-plus",
        messages=[
            {"role": "system", "content": SYSTEM},
            {"role": "user", "content": [
                {"type": "text", "text": f"Goal: {goal}"},
                {"type": "image_url",
                 "image_url": {"url": f"data:image/png;base64,{b64}"}},
            ]},
        ],
    )
    return json.loads(resp.choices[0].message.content)

Xác nhận ID mô hình chính xác trong tài liệu Model Studio trước khi triển khai, vì các định danh có thể thay đổi.

Vòng lặp hoàn chỉnh với Playwright

Playwright điều khiển một trình duyệt thực, vì vậy tác nhân hoạt động trên các trang thực tế. Một chi tiết sẽ giúp bạn tiết kiệm rất nhiều rắc rối: hãy làm cho độ phân giải ảnh chụp màn hình khớp với khung nhìn, để các tọa độ mà mô hình trả về tương ứng một đối một và bạn không cần phải tính toán tỷ lệ.

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)
    page = browser.new_page(viewport={"width": 1280, "height": 800})
    page.goto("https://example.com")

    goal = "Open the pricing page and find the cheapest plan"

    for step in range(15):                 # hard cap on steps
        shot = page.screenshot()           # 1280x800 PNG, matches viewport
        action = next_action(goal, shot)
        print(step, action)

        if action["action"] == "done":
            break
        if action["action"] == "click":
            page.mouse.click(action["x"], action["y"])
        elif action["action"] == "type":
            page.keyboard.type(action["text"])
        elif action["action"] == "scroll":
            page.mouse.wheel(0, action["dy"])

        page.wait_for_timeout(800)         # let the UI settle

    browser.close()

Đó là một tác nhân thực sự. Nó sẽ điều hướng một trang web hướng tới một mục tiêu, từng hành động cụ thể một. Mô hình tương tự cũng hoạt động với các ứng dụng máy tính để bàn nếu bạn thay thế Playwright bằng một trình điều khiển máy tính để bàn và chụp ảnh màn hình cửa sổ hệ điều hành.

Chi phí và độ tin cậy

Ảnh chụp màn hình là phần tốn kém nhất. Mỗi ảnh được chuyển đổi thành token, và một hình ảnh rộng 1280 pixel có thể tốn vài nghìn token, do đó một vòng lặp 15 bước sẽ tiêu tốn tiền thực thông qua API. Hãy giảm thiểu nó bằng cách:

Hướng dẫn của chúng tôi về giảm chi phí token tác nhân sẽ đi sâu hơn, và các ghi chú của chúng tôi về kết nối quy trình làm việc của tác nhân sẽ đề cập đến những điểm mà các vòng lặp này có thể bị hỏng trong thực tế.

Khi tác nhân bị kẹt

Ba lỗi thường xuyên xuất hiện, và mỗi lỗi đều có cách khắc phục đơn giản:

An toàn

Một tác nhân sử dụng máy tính thực sự nhấp vào các thứ. Trước khi nó chạm vào bất cứ thứ gì quan trọng:

Kiểm tra các lệnh gọi của tác nhân bằng Apidog

Hầu hết các lỗi của tác nhân đều xuất phát từ một câu hỏi: liệu mô hình có trả về một hành động hợp lệ không? Trước khi bạn kết nối Playwright, hãy làm rõ điều đó. Sử dụng Apidog để gửi một ảnh chụp màn hình mẫu đến Qwen 3.7 Plus, kiểm tra JSON thô mà nó trả về và điều chỉnh lời nhắc hệ thống của bạn cho đến khi lược đồ hành động luôn trả về rõ ràng. Lưu khóa Model Studio của bạn cho mỗi môi trường và giả lập điểm cuối để bạn có thể xây dựng vòng lặp mà không tốn token trong mỗi lần chạy thử nghiệm. Khi vòng lặp hoàn chỉnh đang nối chuỗi các lệnh gọi, trình gỡ lỗi tác nhân AI của Apidog sẽ hiển thị chuỗi để bạn có thể tìm thấy bước nào đã bị lỗi.

Để tạo mã giao diện người dùng từ một thiết kế thay vì điều khiển một cái, hãy xem hướng dẫn đi kèm của chúng tôi về chuyển đổi ảnh chụp màn hình sang mã với Qwen 3.7 Plus.

Tải xuống Apidog để kiểm tra và gỡ lỗi các lệnh gọi mô hình phía sau tác nhân của bạn.

Câu hỏi thường gặp

Tác nhân sử dụng máy tính là gì? Phần mềm nhận diện màn hình thông qua ảnh chụp màn hình, quyết định hành động bằng một mô hình và thực thi hành động đó thông qua trình điều khiển tự động hóa, lặp lại cho đến khi đạt được mục tiêu.

Qwen 3.7 Plus có thể điều khiển máy tính để bàn của tôi không? Mô hình chỉ trả về các hành động. Bạn thực thi chúng bằng một trình điều khiển. Kết hợp nó với Playwright cho trình duyệt hoặc thư viện tự động hóa máy tính để bàn cho các ứng dụng gốc.

Mỗi bước tốn bao nhiêu? Chủ yếu là ảnh chụp màn hình. Một hình ảnh màn hình có thể tốn vài nghìn token đầu vào với giá 0.40 USD/triệu, vì vậy việc giảm tỷ lệ và giới hạn vòng lặp là các yếu tố chính để kiểm soát chi phí.

Nó có đủ độ tin cậy để sử dụng trong sản xuất không? Đối với các tác vụ có giới hạn, được xác định rõ ràng với xác minh sau mỗi bước, thì có. Đối với việc kiểm soát các hệ thống quan trọng một cách mở, hãy luôn có con người giám sát và tạo vùng an toàn cho mọi thứ.

Tôi có cần điều chỉnh tỷ lệ tọa độ không? Không nếu độ phân giải ảnh chụp màn hình của bạn khớp với khung nhìn của bạn. Nếu chúng khác nhau, hãy điều chỉnh tỷ lệ tọa độ trả về theo tỷ lệ giữa chúng.

Kết luận

Một tác nhân sử dụng máy tính là một vòng lặp ngắn xoay quanh một mô hình có khả năng, và Qwen 3.7 Plus cung cấp cho bạn nền tảng và chi phí để chạy nó. Hãy xây dựng vòng lặp, giới hạn nó, tạo vùng an toàn cho nó và xác minh từng bước. Sau đó, kiểm tra các lệnh gọi mô hình trong Apidog để bước “quyết định” được vững chắc trước khi tác nhân bắt đầu nhấp chuột.

button

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API