Qwen 3.7 Plus: โมเดล AI เอเจนต์มัลติโมดัลจาก Alibaba พร้อมผลการทดสอบและราคา

Alibaba ได้เปิดตัว Qwen 3.7 Plus เพียงไม่กี่วันหลังจาก Qwen 3.7-Max พูดง่ายๆ คือ Plus ก็คือ Max ที่มี "ดวงตา" นั่นเอง โดยยังคงความสามารถในการจดจำบริบท (context) 1 ล้านโทเค็นและโครงสร้างตัวแทน (agentic backbone) แบบเดิม แต่เพิ่มอินพุตภาพและวิดีโอเข้ามา และราคาประมาณหนึ่งในหกของ Max หากคุณติดตามตระกูล Qwen มาตลอด คู่มือของเราเกี่ยวกับ Qwen 3.7 ครอบคลุมรุ่นเรือธงด้านข้อความ ส่วนโพสต์นี้จะกล่าวถึงสิ่งที่รุ่น Plus ใหม่นี้เพิ่มเข้ามา

สิ่งหนึ่งที่ต้องแจ้งให้ทราบล่วงหน้า เพราะมันเปลี่ยนว่าใครควรใส่ใจ: Qwen 3.7 Plus สามารถใช้งานได้ผ่าน API เท่านั้นและเป็นลิขสิทธิ์เฉพาะ ไม่มีโอเพนเวท (open weights) ซึ่งแตกต่างจากธรรมเนียมโอเพนซอร์สของ Qwen เราจะพูดถึงความหมายของสิ่งนี้ด้านล่าง เนื่องจาก Plus ให้บริการเฉพาะ API เท่านั้น คุณจะใช้เวลาในการเรียกและแก้ไขข้อบกพร่อง และนั่นคือที่มาของ Apidog ซึ่งจะกล่าวถึงในตอนท้าย

ปุ่ม

คำตอบสั้นๆ

Qwen 3.7 Plus คือพี่น้องแบบหลายโมดอล (multimodal) ที่มีราคาประหยัดของ Qwen3.7-Max เพียงแค่ป้อนภาพหน้าจอ, แบบจำลองการออกแบบ หรือวิดีโอเข้าไป มันก็จะสามารถประมวลผลสิ่งเหล่านี้เป็นอินพุตหลักได้ ถูกสร้างขึ้นสำหรับเอเจนต์ที่ขับเคลื่อนอินเทอร์เฟซแบบกราฟิก: มันสามารถดูภาพหน้าจอแอปและส่งคืนพิกเซลที่แม่นยำเพื่อคลิก

ในด้านข้อความล้วน Max ยังคงเหนือกว่าเล็กน้อย แต่สำหรับสิ่งใดก็ตามที่มีสัญญาณภาพ Plus คือตัวเลือกที่คุณต้องการ และมีราคาเพียงเศษเสี้ยวของ Max ไม่ว่าจะกรณีใดก็ตาม ข้อเสียที่แท้จริงเพียงอย่างเดียวคือการปิดน้ำหนัก (closed weights)

มีอะไรใหม่เมื่อเทียบกับ Qwen 3.7 Max

มีการเปลี่ยนแปลงที่สำคัญสามประการ

มันมองเห็นได้ Max เป็นแบบข้อความเท่านั้น Plus รับทั้งข้อความ รูปภาพ และวิดีโอ ซึ่งปลดล็อกความสามารถในการรับรู้ภาพหน้าจอ การอ่านเอกสารและ PDF และความเข้าใจวิดีโอจากโมเดลเดียว

มันสามารถเชื่อมโยงกับ GUI ได้ Plus ถูกวางตำแหน่งให้เป็นเอเจนต์แบบโต้ตอบหลายโมดอลที่สามารถจัดการการทำงานอัตโนมัติของเบราว์เซอร์ การนำทาง GUI และเวิร์กโฟลว์แบบไฮบริด GUI-บวก-CLI มันสร้างแผนการดำเนินการที่มีโครงสร้าง เช่น "คลิกที่ (x=487, y=232)" ซึ่งเป็นสิ่งที่ทำให้เอเจนต์ที่ใช้งานคอมพิวเตอร์ทำงานได้อย่างแท้จริง

มันถูก Plus มีราคาที่อยู่ในระดับงบประมาณที่ต่ำกว่า Max มาก

	Qwen 3.7 Plus	Qwen 3.7 Max
Input modalities	ข้อความ, รูปภาพ, วิดีโอ	ข้อความเท่านั้น
Context window	1M โทเค็น (ใช้ร่วมกับภาพ)	1M โทเค็น
Input / output ต่อ 1M	$0.40 / $1.60	$2.50 / $7.50
Cached input ต่อ 1M	$0.08	$0.25
GUI grounding (ScreenSpot Pro)	79.0	ไม่มี
Terminal-Bench	70.3	69.7
Autonomous run ceiling	35 ชั่วโมง	35 ชั่วโมง

ผลการทดสอบ (Benchmarks)

ตัวเลขการเปิดตัวซึ่งได้รับการสนับสนุนจาก รีวิวการใช้งานจริงในช่วงแรก เล่าเรื่องราวที่สอดคล้องกัน: Plus มีประสิทธิภาพเท่ากับหรือตามหลัง Max เล็กน้อยในด้านข้อความ จากนั้นจะแซงหน้าทันทีที่ภาพเข้ามาเกี่ยวข้อง

ScreenSpot Pro: 79.0 นี่คือการทดสอบการเชื่อมโยงกับ GUI ซึ่งเป็นความสามารถของโมเดลในการดูภาพหน้าจอและสร้างพิกัดที่แม่นยำ 79.0 ถือเป็นระดับแนวหน้า และ Max ไม่สามารถรันได้เลย
Terminal-Bench: 70.3 สูงกว่า Max เล็กน้อยที่ 69.7 แม้จะมีพารามิเตอร์ด้านภาพเพิ่มเติม
SWE-Bench Pro: ประมาณ 60% โดยพื้นฐานแล้วอยู่ในระดับเดียวกับ Max ที่ 60.6%
MCP-Atlas: 76.4 เสมอกับ Max ในการจัดการการใช้เครื่องมือ
LM Arena: Plus อยู่เบื้องหลัง Max เล็กน้อยในด้านข้อความ (อันดับ 15 เทียบกับอันดับ 13) และการเขียนโค้ด (อันดับ 12 เทียบกับอันดับ 10) สำหรับงานข้อความล้วน Max ยังคงมีความได้เปรียบเล็กน้อย

รูปแบบนั้นชัดเจน เลือก Plus เมื่องานมีสัญญาณภาพ: ภาพหน้าจอ, แบบจำลอง, หรือแผนภูมิ สำหรับการเปรียบเทียบแบบตัวต่อตัวในด้านข้อความ การเปรียบเทียบ Qwen 3.7 vs GPT-5.5 vs Opus 4.7 ของเราครอบคลุมว่าตระกูลนี้อยู่ในตำแหน่งใดเมื่อเทียบกับเรือธงฝั่งตะวันตก เช่นเคย ตัวเลขการทดสอบมาจากผู้ขายและผู้รีวิวในช่วงแรก ดังนั้นให้ถือว่าเป็นการบอกทิศทางมากกว่าที่จะเป็นสัจธรรม

ราคา: ระดับ Multimodal แบบประหยัด

นี่คือจุดที่ Plus น่าสนใจ ด้วยราคาอินพุต $0.40 และเอาต์พุต $1.60 ต่อล้านโทเค็น มันมีราคาถูกกว่า Max ประมาณหกเท่าสำหรับอินพุต และเกือบห้าเท่าสำหรับเอาต์พุต อินพุตที่แคชไว้ลดลงเหลือ $0.08 คุณจะได้รับความสามารถด้านภาพและบริบท 1M ในราคาที่ถูกกว่าโมเดลแบบข้อความเท่านั้นส่วนใหญ่

ข้อควรระวังประการหนึ่งที่ควรพิจารณาในรูปแบบการคำนวณต้นทุนของคุณ: รูปภาพและวิดีโอใช้ร่วมงบประมาณ 1M โทเค็น ภาพหน้าจอที่มีความละเอียดสูงสามารถใช้โทเค็นหลายพันโทเค็นได้ และเฟรมวิดีโอก็เพิ่มขึ้นอย่างรวดเร็ว ดังนั้นพื้นที่ว่างสำหรับข้อความของคุณจะลดลงเมื่อโหลดภาพเพิ่มขึ้น วางแผนงบประมาณไว้ สำหรับบริบทที่กว้างขึ้นว่าทำไมห้องแล็บของจีนจึงยังคงลดราคาลงอย่างต่อเนื่อง ดูคำอธิบายของเราเกี่ยวกับ สงครามราคา LLM ของจีนปี 2026

ข้อเสีย: เป็นกรรมสิทธิ์และใช้งานได้เฉพาะ API เท่านั้น

Qwen สร้างความน่าเชื่อถือในองค์กรด้วยการเปิดน้ำหนัก (open weights) ไลน์ผลิตภัณฑ์ Qwen รุ่นก่อนหน้าส่วนใหญ่จัดส่งภายใต้ใบอนุญาต Apache 2.0 หรือใบอนุญาตการใช้งานแบบเปิด ทำให้ทีมสามารถดาวน์โหลด ปรับแต่ง และรันโมเดลภายในศูนย์ข้อมูลแบบ air-gapped ได้ แต่ Qwen 3.7 Plus ไม่ทำเช่นนั้น

Plus ให้บริการในรูปแบบ API เชิงพาณิชย์ที่มีการจัดการอย่างเคร่งครัดผ่าน Alibaba Cloud Model Studio คุณไม่สามารถดาวน์โหลดน้ำหนัก ไม่สามารถโฮสต์เองได้ และไม่สามารถรันแบบออฟไลน์ได้ สำหรับสภาพแวดล้อมที่มีการควบคุมหรือ air-gapped นี่คือจุดหยุดที่ชัดเจน รุ่น Plus แบบ open-weight มีการกล่าวถึงว่าจะเปิดตัวในไตรมาสที่ 3 ปี 2026 แต่ยังไม่ได้รับการยืนยัน และระดับที่เป็นกรรมสิทธิ์อาจยังคงปิดอยู่ หากน้ำหนักแบบเปิดเป็นข้อกำหนด โมเดลนี้ไม่เหมาะสมกับคุณในวันนี้ คู่แข่งอย่าง Step 3.7 Flash จัดส่งภายใต้ Apache 2.0 และมีราคาที่ถูกกว่า

วิธีการเข้าถึง Qwen 3.7 Plus

มีสองช่องทาง:

API: เรียกใช้ผ่าน Alibaba Cloud Model Studio จุดสิ้นสุดเข้ากันได้กับ OpenAI ดังนั้นรูปแบบการร้องขอจากโมเดลพื้นฐานจึงยังคงใช้ได้; คู่มือการใช้งาน Qwen 3.7 API ของเราจะอธิบายการยืนยันตัวตนและการเรียกใช้ครั้งแรก และคุณสามารถเพิ่มส่วนของรูปภาพหรือวิดีโอเข้าไปในเพย์โหลดข้อความสำหรับการร้องขอแบบมัลติโมดอล
Chat: ลองใช้ในเบราว์เซอร์ที่ chat.qwen.ai ก่อนที่คุณจะเขียนโค้ดใดๆ หากคุณต้องการทดสอบตระกูล Qwen โดยไม่มีค่าใช้จ่าย คู่มือการใช้ Qwen 3.7 ฟรี ของเราจะแสดงเส้นทางฟรี

การเรียกใช้มัลติโมดอลแบบน้อยที่สุดใช้รูปแบบข้อความ OpenAI มาตรฐาน โดยมีส่วนรูปภาพเพิ่มเข้ามาพร้อมกับข้อความ:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Which button submits this form? Give pixel coordinates."},
            {"type": "image_url", "image_url": {"url": "https://example.com/screenshot.png"}},
        ],
    }],
)
print(resp.choices[0].message.content)

ตรวจสอบเอกสาร Model Studio สำหรับตัวระบุโมเดลที่แน่นอนและ URL พื้นฐานประจำภูมิภาค เนื่องจากสิ่งเหล่านี้แตกต่างกันระหว่างปลายทางระหว่างประเทศและในจีน

ใครควรใช้

เลือกใช้ Qwen 3.7 Plus เมื่องานของคุณมีลักษณะดังนี้:

เอเจนต์ที่ใช้งานคอมพิวเตอร์และ GUI ที่คลิกผ่านอินเทอร์เฟซจริงจากภาพหน้าจอ
การแปลงภาพหน้าจอเป็นโค้ดและแบบจำลองเป็น UI โดยที่โมเดลอ่านการออกแบบและเขียนส่วนหน้า (front end)
การทำความเข้าใจเอกสาร, PDF และวิดีโอ ด้วยต้นทุนต่อโทเค็นที่ต่ำ
การรันเอเจนต์ระยะยาว สูงสุดถึง 35 ชั่วโมงพร้อมการเรียกใช้เครื่องมือตามลำดับหลายพันครั้ง

ยึดติดกับ Max หากคุณต้องการประสิทธิภาพสูงสุดสำหรับคะแนนข้อความ SWE-Bench Pro หรือต้องการความหน่วงต่ำสุดสำหรับข้อความเท่านั้น ซึ่ง Max ทำได้เร็วกว่าเล็กน้อยในเส้นทางเย็น (cold paths) สำหรับงานผสมส่วนใหญ่ ตัวเลือกมัลติโมดอลที่ถูกกว่าเป็นค่าเริ่มต้นที่สมเหตุสมผล หากคุณกำลังเปรียบเทียบ Plus กับโมเดลแบบเปิดและราคาประหยัดอื่นๆ การเปรียบเทียบ MiniMax M3 vs DeepSeek V4 vs Qwen 3.7 ของเราเป็นแผนที่ที่มีประโยชน์

การทดสอบ Qwen 3.7 Plus ด้วย Apidog

เนื่องจาก Plus เป็น API เท่านั้น คุณจึงต้องใช้ชีวิตอยู่ในโลกของ API คำขอแบบมัลติโมดอลนั้นยุ่งยาก: คุณกำลังเข้ารหัสรูปภาพ แนบวิดีโอ และอ่านแผนการดำเนินการที่มีโครงสร้างกลับมา ซึ่งมักจะอยู่ในวงจรการเรียกใช้เครื่องมือที่ใช้เวลาหลายนาทีหรือหลายชั่วโมง คุณจำเป็นต้องเห็นว่าคำขอแต่ละรายการส่งอะไรไปบ้างและมีอะไรกลับมาบ้างอย่างแม่นยำ

Apidog ถูกสร้างขึ้นมาเพื่อสิ่งนั้น ส่งคำขอ Qwen 3.7 Plus พร้อมเพย์โหลดรูปภาพและวิดีโอ ตรวจสอบการตอบกลับดิบ จัดการคีย์ Model Studio ของคุณในสภาพแวดล้อมต่างๆ และจำลองปลายทางเพื่อให้แอปของคุณยังคงสร้างต่อไปในขณะที่คุณปรับแต่งพรอมต์ สำหรับด้านเอเจนต์ที่ Plus เชื่อมโยงการเรียกใช้เครื่องมือในเวิร์กโฟลว์ GUI-และ-CLI ดีบักเกอร์เอเจนต์ AI ของ Apidog จะแสดงลำดับการเรียกใช้ทั้งหมด เพื่อให้คุณสามารถค้นหาว่าการรันผิดพลาดตรงไหน

ดาวน์โหลด Apidog เพื่อทดสอบ ดีบัก และจำลอง Qwen 3.7 Plus API ก่อนที่จะนำไปใช้งานจริง

คำถามที่พบบ่อย (FAQ)

Qwen 3.7 Plus เป็นโอเพนซอร์สหรือไม่? ไม่ใช่ มันเป็นกรรมสิทธิ์และใช้งานได้เฉพาะในรูปแบบ API ที่มีการจัดการผ่าน Alibaba Cloud Model Studio คุณไม่สามารถดาวน์โหลดหรือโฮสต์น้ำหนักเองได้ มีการเสนอว่าจะมีเวอร์ชันโอเพนเวทในไตรมาสที่ 3 ปี 2026 แต่ยังไม่ได้รับการยืนยัน

Qwen 3.7 Plus หรือ Max ควรใช้ตัวไหน? ใช้ Plus หากคุณต้องการความสามารถด้านภาพ (ภาพหน้าจอ, PDF, วิดีโอ) หรือต้องการราคาที่ถูกลง ซึ่งครอบคลุมงานส่วนใหญ่ ใช้ Max หากคุณต้องการประสิทธิภาพสูงสุดสำหรับคะแนนข้อความ SWE-Bench Pro หรือต้องการความหน่วงต่ำสุดสำหรับข้อความเท่านั้น

Qwen 3.7 Plus มีราคาเท่าไหร่? $0.40 ต่อล้านโทเค็นอินพุต, $1.60 ต่อล้านโทเค็นเอาต์พุต และ $0.08 สำหรับอินพุตที่แคชไว้ ซึ่งถูกกว่า Qwen 3.7-Max ประมาณหกเท่า

Qwen 3.7 Plus จัดการวิดีโอได้หรือไม่? ได้ มันรับข้อความ รูปภาพ และวิดีโอเป็นอินพุต โปรดจำไว้ว่าโทเค็นภาพจะใช้ร่วมกับงบประมาณบริบท 1 ล้านโทเค็น ดังนั้นเพย์โหลดสื่อขนาดใหญ่จะลดพื้นที่ว่างสำหรับข้อความของคุณ

หน้าต่างบริบท (context window) คืออะไร? 1 ล้านโทเค็น ซึ่งสืบทอดมาจากโครงสร้างหลักของ Max โดยใช้ร่วมกันระหว่างโทเค็นข้อความ รูปภาพ และวิดีโอ

ฉันจะเข้าถึง Qwen 3.7 Plus ได้อย่างไร? ผ่าน Alibaba Cloud Model Studio API หรือลองใช้ในเบราว์เซอร์ที่ chat.qwen.ai

สรุป

Qwen 3.7 Plus นำเอาเรือธงของ Alibaba ที่เน้นการทำงานแบบเอเจนต์ มาเพิ่มความสามารถในการมองเห็น และลดราคาลงสู่ระดับงบประมาณ สำหรับนักพัฒนาที่สร้างเอเจนต์ที่ใช้งานคอมพิวเตอร์ การเขียนโค้ดจากภาพหน้าจอ หรือการทำความเข้าใจวิดีโอ มันเป็นหนึ่งในตัวเลือกมัลติโมดอลระดับแนวหน้าที่ถูกที่สุดที่มีอยู่ ข้อแลกเปลี่ยนที่คุณยอมรับคือการปิดน้ำหนัก (closed weights) และการพึ่งพาระบบคลาวด์ของ Alibaba อย่างสมบูรณ์

หากข้อแลกเปลี่ยนนั้นเหมาะกับคุณ ขั้นตอนต่อไปคือ API เอง ทดสอบ ดีบักการเรียกใช้แบบมัลติโมดอล และจำลองการตอบกลับใน Apidog เพื่อให้สิ่งที่คุณนำไปใช้งานจริงสามารถรองรับปริมาณการใช้งานจริงได้

ปุ่ม