วิธีสร้างเอเจนต์ AI ควบคุมคอมพิวเตอร์ด้วย Qwen 3.7 Plus

สร้างเอเจนต์สำหรับใช้งานคอมพิวเตอร์/GUI ที่ทำงานได้จริงด้วย Qwen 3.7 Plus: วงจรการรับรู้-ตัดสินใจ-กระทำ, พร้อมต์คำสั่งการทำงานในรูปแบบ JSON ที่เข้มงวด, ตัวอย่าง Playwright ที่เรียกใช้งานได้, พร้อมด้วยมาตรการป้องกันด้านต้นทุน, ความน่าเชื่อถือ และความปลอดภัย

Ashley Innocent

Ashley Innocent

3 June 2026

วิธีสร้างเอเจนต์ AI ควบคุมคอมพิวเตอร์ด้วย Qwen 3.7 Plus

Apidog สำหรับองค์กร

ติดตั้งภายในองค์กร

SSO & RBAC

รองรับ SOC 2

สำรวจ Apidog Enterprise

Qwen 3.7 Plus ได้คะแนน 79.0 บน ScreenSpot Pro ซึ่งเป็นเกณฑ์มาตรฐานสำหรับการดูภาพหน้าจอและส่งคืนพิกัดพิกเซลที่แน่นอนเพื่อคลิก ความสามารถเดียวนี้นี่เองที่เปลี่ยนโมเดลแชทให้กลายเป็นตัวแทนผู้ช่วยคอมพิวเตอร์ (computer-use agent): ซอฟต์แวร์ที่มองเห็นหน้าจอ ตัดสินใจว่าจะทำอะไร และลงมือทำ คู่มือนี้จะสร้างระบบที่ทำงานได้จริงด้วย Python แบบ end-to-end

เราจะครอบคลุมถึง agent loop, พร้อมท์ที่ทำให้ได้การกระทำที่เชื่อถือได้จากโมเดล, ตัวอย่างเบราว์เซอร์ที่รันได้ด้วย Playwright, รวมถึงค่าใช้จ่ายและการป้องกันความปลอดภัยที่คุณต้องมีก่อนที่จะนำไปใช้กับสถานการณ์จริง หากคุณต้องการข้อมูลพื้นฐานเกี่ยวกับโมเดลก่อน โปรดดู ภาพรวม Qwen 3.7 Plus ของเรา สำหรับรูปแบบคำขอแบบดิบ คู่มือ API ของ Qwen 3.7 Plus จะครอบคลุมถึงเพย์โหลดแบบมัลติโมดอล คุณจะได้ทดสอบการเรียกใช้งานของ agent ใน Apidog ในระหว่างขั้นตอน

สรุป (TL;DR)

ตัวแทนผู้ช่วยคอมพิวเตอร์ (computer-use agent) ทำงานแบบวนซ้ำ: ถ่ายภาพหน้าจอ, ส่งไปให้ Qwen 3.7 Plus พร้อมเป้าหมาย, ได้รับการกระทำที่มีโครงสร้างกลับมา เช่น click (x, y), ดำเนินการตามนั้นด้วยไดรเวอร์อย่าง Playwright, แล้วทำซ้ำจนกว่าจะบรรลุเป้าหมาย Plus เหมาะสมอย่างยิ่งเนื่องจากมีความเข้าใจ GUI เป็นอย่างดีและราคาของมัลติโมดอลที่ต่ำ ส่วนที่ยากไม่ใช่โมเดล แต่เป็นการจำกัดการวนซ้ำ, การปรับขนาดพิกัด, การควบคุมค่าใช้จ่ายโทเค็น และการแยกการกระทำออกจากกัน (sandboxing actions) เพื่อไม่ให้การคลิกผิดพลาดสร้างความเสียหายได้

ตัวแทนผู้ช่วยคอมพิวเตอร์ทำงานอย่างไรจริงๆ

ละทิ้งกระแสความนิยมออกไป มันคือสี่ขั้นตอนที่ทำซ้ำกัน:

  1. รับรู้ (Perceive): บันทึกภาพหน้าจอของหน้าจอหรือหน้าที่กำลังแสดงอยู่
  2. ตัดสินใจ (Decide): ส่งภาพหน้าจอและเป้าหมายไปยังโมเดล และรับการกระทำถัดไป
  3. ลงมือทำ (Act): ดำเนินการตามนั้น (คลิก, พิมพ์, เลื่อน) ผ่านไดรเวอร์อัตโนมัติ
  4. ตรวจสอบ (Check): ถ่ายภาพหน้าจอใหม่และตัดสินใจว่าเป้าหมายเสร็จสิ้นหรือไม่

โมเดลคือขั้นตอน "ตัดสินใจ" ส่วนที่เหลือคือระบบท่อ (plumbing) ที่คุณควบคุม

0:00
/1:26

ทำไม Qwen 3.7 Plus ถึงเหมาะสม

มีสามเหตุผล: การทำความเข้าใจ GUI ของมันอยู่ในระดับแนวหน้า ทำให้สามารถคืนค่าพิกัดที่ใช้งานได้จริงแทนที่จะเป็นคำอธิบายที่คลุมเครือ มันสามารถจัดการเวิร์กโฟลว์แบบผสมผสานระหว่าง GUI และ CLI ได้ ดังนั้น agent ตัวเดียวกันจึงสามารถคลิกปุ่มและรันคำสั่งเชลล์ได้ และด้วยราคา $0.40 ต่อล้านโทเค็นอินพุต มันถูกพอที่จะใช้สำหรับการเรียก vision จำนวนมากที่ agent loop ต้องการ สำหรับการเปรียบเทียบกับโมเดล Text-only ระดับเรือธง โปรดดู การเปรียบเทียบ Qwen 3.7 Plus vs Max ของเรา

ขั้นตอนตัดสินใจ: การกระทำที่ชัดเจน

เคล็ดลับคือการจำกัดโมเดลให้มีชุดคำสั่งการกระทำที่เล็ก และบังคับให้ส่งออกเป็น JSON การบรรยายแบบไม่เป็นทางการนั้นยากต่อการดำเนินการ แต่โครงสร้างที่เข้มงวดนั้นไม่ใช่

import os, json, base64
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

SYSTEM = """You are a GUI agent. You see a screenshot and a goal.
Reply with ONE JSON action and nothing else:
{"action": "click", "x": <int>, "y": <int>}
{"action": "type", "text": "<string>"}
{"action": "scroll", "dy": <int>}
{"action": "done", "reason": "<string>"}
Coordinates are pixels in the screenshot you were given."""

def next_action(goal, png_bytes):
    b64 = base64.b64encode(png_bytes).decode()
    resp = client.chat.completions.create(
        model="qwen3.7-plus",
        messages=[
            {"role": "system", "content": SYSTEM},
            {"role": "user", "content": [
                {"type": "text", "text": f"Goal: {goal}"},
                {"type": "image_url",
                 "image_url": {"url": f"data:image/png;base64,{b64}"}},
            ]},
        ],
    )
    return json.loads(resp.choices[0].message.content)

ยืนยัน ID โมเดลที่แน่นอนใน เอกสาร Model Studio ก่อนใช้งานจริง เนื่องจากตัวระบุอาจมีการเปลี่ยนแปลง

วนซ้ำเต็มรูปแบบด้วย Playwright

Playwright ขับเคลื่อนเบราว์เซอร์จริง ดังนั้น agent จึงดำเนินการบนหน้าเว็บจริง รายละเอียดหนึ่งที่ช่วยลดปัญหาให้คุณได้มาก: ทำให้ความละเอียดของภาพหน้าจอตรงกับ viewport เพื่อให้พิกัดที่โมเดลส่งกลับมาตรงกันแบบหนึ่งต่อหนึ่ง และคุณจะข้ามการคำนวณการปรับขนาดไปได้

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)
    page = browser.new_page(viewport={"width": 1280, "height": 800})
    page.goto("https://example.com")

    goal = "Open the pricing page and find the cheapest plan"

    for step in range(15):                 # จำกัดจำนวนขั้นตอน
        shot = page.screenshot()           # 1280x800 PNG, ตรงกับ viewport
        action = next_action(goal, shot)
        print(step, action)

        if action["action"] == "done":
            break
        if action["action"] == "click":
            page.mouse.click(action["x"], action["y"])
        elif action["action"] == "type":
            page.keyboard.type(action["text"])
        elif action["action"] == "scroll":
            page.mouse.wheel(0, action["dy"])

        page.wait_for_timeout(800)         # ให้ UI มีเวลาตั้งตัว

    browser.close()

นั่นคือ agent ที่แท้จริง มันจะนำทางเว็บไซต์ไปสู่เป้าหมาย ทีละขั้นตอน การกระทำแบบเดียวกันนี้ใช้ได้กับแอปพลิเคชันเดสก์ท็อป หากคุณเปลี่ยน Playwright เป็นไดรเวอร์เดสก์ท็อปและถ่ายภาพหน้าจอของหน้าต่าง OS แทน

ค่าใช้จ่ายและความน่าเชื่อถือ

ภาพหน้าจอเป็นส่วนที่มีราคาแพง ภาพแต่ละภาพจะถูกแปลงเป็นโทเค็น และภาพขนาด 1280 พิกเซลอาจใช้โทเค็นหลายพันโทเค็นที่ $0.40 ต่อล้านโทเค็น ดังนั้นการวนซ้ำ 15 ขั้นตอนจึงใช้เงินจริงผ่าน API จงควบคุมมันไว้:

คู่มือของเราเกี่ยวกับการลดค่าใช้จ่ายโทเค็นของ agent ลงลึกกว่านี้ และบันทึกของเราเกี่ยวกับ รูปแบบการเชื่อมต่อเวิร์กโฟลว์ของ agent และข้อผิดพลาด จะครอบคลุมถึงจุดที่การวนซ้ำเหล่านี้ล้มเหลวในทางปฏิบัติ

เมื่อ agent ติดขัด

ความล้มเหลวสามประการที่เกิดขึ้นตลอดเวลา และแต่ละอย่างมีวิธีแก้ไขราคาถูก:

ความปลอดภัย

ตัวแทนผู้ช่วยคอมพิวเตอร์คลิกสิ่งต่างๆ ได้จริงๆ ก่อนที่จะแตะต้องสิ่งสำคัญใดๆ:

ทดสอบการเรียกใช้งานของ agent ด้วย Apidog

ความล้มเหลวของ agent ส่วนใหญ่ย้อนกลับไปที่คำถามเดียว: โมเดลส่งคืนการกระทำที่ถูกต้องหรือไม่? ก่อนที่คุณจะเชื่อมต่อ Playwright ให้แก้ไขปัญหานั้น ใช้ Apidog เพื่อส่งภาพหน้าจอตัวอย่างไปยัง Qwen 3.7 Plus ตรวจสอบ JSON ดิบที่ส่งกลับมา และปรับแต่ง prompt ของระบบของคุณจนกว่าโครงสร้างการกระทำจะกลับมาอย่างชัดเจนทุกครั้ง จัดเก็บคีย์ Model Studio ของคุณตามสภาพแวดล้อม และจำลองปลายทางเพื่อให้คุณสามารถสร้าง loop ได้โดยไม่ต้องใช้โทเค็นในการทดสอบทุกครั้ง เมื่อ loop เต็มรูปแบบเชื่อมโยงการเรียกใช้งาน เครื่องมือดีบัก agent AI ของ Apidog จะแสดงลำดับเพื่อให้คุณสามารถค้นหาขั้นตอนที่ทำให้เกิดความผิดพลาดได้

หากต้องการสร้างโค้ด UI จากการออกแบบแทนที่จะขับเคลื่อน ให้ดูคู่มือของเราเกี่ยวกับการ แปลงภาพหน้าจอเป็นโค้ดด้วย Qwen 3.7 Plus

ดาวน์โหลด Apidog เพื่อทดสอบและดีบักการเรียกโมเดลที่อยู่เบื้องหลัง agent ของคุณ

คำถามที่พบบ่อย (FAQ)

ตัวแทนผู้ช่วยคอมพิวเตอร์ (computer-use agent) คืออะไร? ซอฟต์แวร์ที่รับรู้หน้าจอผ่านภาพหน้าจอ ตัดสินใจกระทำการด้วยโมเดล และดำเนินการผ่านไดรเวอร์อัตโนมัติ โดยวนซ้ำจนกว่าจะบรรลุเป้าหมาย

Qwen 3.7 Plus สามารถควบคุมเดสก์ท็อปของฉันได้หรือไม่? โมเดลจะส่งคืนการกระทำเท่านั้น คุณต้องดำเนินการด้วยไดรเวอร์ จับคู่กับ Playwright สำหรับเบราว์เซอร์ หรือไลบรารีอัตโนมัติสำหรับเดสก์ท็อปสำหรับแอปพลิเคชันพื้นฐาน

แต่ละขั้นตอนมีค่าใช้จ่ายเท่าไหร่? ส่วนใหญ่คือค่าภาพหน้าจอ รูปภาพหน้าจอเดียวสามารถใช้โทเค็นอินพุตได้หลายพันโทเค็นที่ $0.40 ต่อล้านโทเค็น ดังนั้นการลดขนาดและการจำกัดการวนซ้ำเป็นปัจจัยหลักในการควบคุมค่าใช้จ่าย

มีความน่าเชื่อถือเพียงพอสำหรับการใช้งานจริงหรือไม่? สำหรับงานที่มีขอบเขตชัดเจนและมีการตรวจสอบในแต่ละขั้นตอน ใช่ สำหรับการควบคุมระบบที่สำคัญแบบปลายเปิด ให้มนุษย์เข้ามามีส่วนร่วมและจำกัดทุกสิ่งใน sandbox

ฉันต้องปรับขนาดพิกัดหรือไม่? ไม่จำเป็นหากความละเอียดของภาพหน้าจอของคุณตรงกับ viewport หากแตกต่างกัน ให้ปรับขนาดพิกัดที่ส่งคืนตามอัตราส่วนระหว่างกัน

สรุป

ตัวแทนผู้ช่วยคอมพิวเตอร์คือวงจรวนซ้ำสั้นๆ รอบโมเดลที่มีประสิทธิภาพหนึ่งตัว และ Qwen 3.7 Plus ให้ความเข้าใจพื้นฐานและราคาที่เหมาะสมในการรันมัน สร้างวงจร จำกัดมัน แยกมันออกจากกัน และตรวจสอบแต่ละขั้นตอน จากนั้นทดสอบการเรียกโมเดลใน Apidog เพื่อให้ขั้นตอน "ตัดสินใจ" แข็งแกร่งก่อนที่ agent จะเริ่มคลิก

button

ฝึกการออกแบบ API แบบ Design-first ใน Apidog

ค้นพบวิธีที่ง่ายขึ้นในการสร้างและใช้ API