Qwen 3.7 Plus: Model Agen Multimodal Alibaba, Tolok Ukur dan Harga

Alibaba meluncurkan Qwen 3.7 Plus hanya beberapa hari setelah Qwen3.7-Max. Singkatnya: Plus adalah Max dengan kemampuan visual. Ia mempertahankan konteks 1 juta token dan kerangka agen yang sama, menambahkan input gambar dan video, dan harganya sekitar seperenam dari harga Max. Jika Anda telah mengikuti keluarga ini, panduan kami tentang apa itu Qwen 3.7 membahas model teks andalannya; postingan ini adalah tentang apa yang ditambahkan oleh varian Plus yang baru.

Satu hal yang perlu diperhatikan di awal, karena ini mengubah siapa yang harus peduli: Qwen 3.7 Plus hanya API dan bersifat proprietary. Tidak ada bobot terbuka (open weights), yang menyimpang dari kebiasaan Qwen yang open-source. Kita akan membahas artinya di bawah. Karena Plus hanya diluncurkan sebagai API, Anda akan menghabiskan waktu untuk memanggil dan men-debug-nya; di sinilah Apidog berperan, yang akan dibahas di akhir.

tombol

Jawaban singkatnya

Qwen 3.7 Plus adalah saudara multimodal dengan harga terjangkau dari Qwen3.7-Max. Berikan tangkapan layar, mockup desain, atau video, dan ia akan menalarinya sebagai input kelas satu. Model ini dibangun untuk agen yang menggerakkan antarmuka grafis: ia dapat melihat tangkapan layar aplikasi dan mengembalikan koordinat piksel yang tepat untuk diklik.

Untuk teks murni, Max masih sedikit mengunggulinya. Untuk apa pun yang memiliki sinyal visual, Plus adalah pilihan yang Anda inginkan, dan harganya jauh lebih murah daripada Max. Satu-satunya kerugian nyata adalah bobot tertutup (closed weights).

Apa yang baru dibandingkan Qwen 3.7 Max

Tiga perubahan yang penting.

Ia dapat melihat. Max hanya teks. Plus menerima teks, gambar, dan video. Ini membuka persepsi tangkapan layar, pembacaan dokumen dan PDF, serta pemahaman video dari satu model.

Ia mendukung GUI. Plus diposisikan sebagai agen interaktif multimodal yang menangani otomatisasi browser, navigasi GUI, dan alur kerja hibrida GUI-plus-CLI. Ia menghasilkan rencana tindakan terstruktur seperti "klik pada (x=487, y=232)," yang membuat agen penggunaan komputer benar-benar berfungsi.

Harganya murah. Plus beroperasi pada tingkat harga yang jauh di bawah Max.

	Qwen 3.7 Plus	Qwen 3.7 Max
Modalitas input	Teks, gambar, video	Hanya teks
Jendela konteks	1 Juta token (dibagikan dengan penglihatan)	1 Juta token
Input / output per 1 Juta	$0.40 / $1.60	$2.50 / $7.50
Input cache per 1 Juta	$0.08	$0.25
Grounding GUI (ScreenSpot Pro)	79.0	Tidak ada
Terminal-Bench	70.3	69.7
Batas waktu jalan otonom	35 jam	35 jam

Tolok Ukur

Angka peluncuran, didukung oleh ulasan langsung awal, menceritakan kisah yang konsisten: Plus menyamai atau sedikit tertinggal dari Max pada teks, kemudian unggul saat kemampuan visual mulai berperan.

ScreenSpot Pro: 79.0. Ini adalah uji grounding GUI, kemampuan model untuk melihat tangkapan layar dan menghasilkan koordinat piksel yang tepat. 79.0 adalah tingkat terdepan, dan Max sama sekali tidak dapat menjalankannya.
Terminal-Bench: 70.3. Sedikit di atas Max yang 69.7, bahkan dengan parameter visual tambahan.
SWE-Bench Pro: sekitar 60%, pada dasarnya setara dengan Max yang 60.6%.
MCP-Atlas: 76.4, seri dengan Max dalam orkestrasi penggunaan alat.
LM Arena: Plus sedikit tertinggal dari Max pada teks (#15 vs #13) dan pengkodean (#12 vs #10). Untuk pekerjaan teks murni, Max tetap unggul sedikit.

Polanya jelas. Pilih Plus ketika tugas memiliki sinyal visual: tangkapan layar, mockup, bagan. Untuk perbandingan langsung di sisi teks, perbandingan Qwen 3.7 vs GPT-5.5 vs Opus 4.7 kami membahas posisi keluarga ini dibandingkan model andalan Barat. Seperti biasa, angka tolok ukur berasal dari vendor dan pengulas awal, jadi perlakukan sebagai arah daripada kebenaran mutlak.

Harga: tingkat multimodal dengan anggaran terbatas

Di sinilah Plus menjadi menarik. Dengan input $0.40 dan output $1.60 per satu juta token, harganya kira-kira enam kali lebih murah daripada Max untuk input dan hampir lima kali lebih murah untuk output. Input yang di-cache turun menjadi $0.08. Anda mendapatkan kemampuan visual dan konteks 1 juta token dengan harga lebih rendah daripada sebagian besar model teks saja.

Satu peringatan yang patut dimasukkan ke dalam model biaya Anda: gambar dan video berbagi anggaran 1 juta token tersebut. Tangkapan layar resolusi tinggi dapat menghabiskan ribuan token, dan bingkai video cepat bertambah, sehingga ruang lingkup teks efektif Anda menyusut seiring bertambahnya beban visual. Anggarkan untuk itu. Untuk konteks yang lebih luas tentang mengapa laboratorium Tiongkok terus memangkas harga, lihat analisis kami tentang perang harga LLM Tiongkok 2026.

Kelemahan: proprietary dan hanya API

Qwen membangun daya tarik perusahaannya dengan bobot terbuka. Sebagian besar lini Qwen sebelumnya dirilis di bawah lisensi Apache 2.0 atau lisensi penggunaan terbuka, sehingga tim dapat mengunduh, menyetel halus, dan menjalankan model di dalam pusat data yang terisolasi. Qwen 3.7 Plus tidak melakukan itu.

Plus disediakan secara ketat sebagai API komersial terkelola melalui Alibaba Cloud Model Studio. Anda tidak dapat mengunduh bobotnya, Anda tidak dapat meng-host sendiri, dan Anda tidak dapat menjalankannya secara offline. Untuk lingkungan yang diatur atau terisolasi, ini adalah penghalang keras. Varian Plus dengan bobot terbuka telah diusulkan untuk Q3 2026, tetapi belum dikonfirmasi, dan tingkat proprietary mungkin tetap tertutup. Jika bobot terbuka adalah persyaratan, model ini bukan pilihan Anda hari ini; pesaing seperti Step 3.7 Flash diluncurkan di bawah Apache 2.0 dan mengalahkan harganya.

Cara mengakses Qwen 3.7 Plus

Dua jalur:

API: panggil melalui Alibaba Cloud Model Studio. Endpoint ini kompatibel dengan OpenAI, sehingga pola permintaan dari model dasar tetap berlaku; panduan cara menggunakan Qwen 3.7 API kami menjelaskan otentikasi dan panggilan pertama, dan Anda menambahkan bagian gambar atau video ke payload pesan untuk permintaan multimodal.
Chat: coba di browser di chat.qwen.ai sebelum Anda menulis kode apa pun. Jika Anda ingin menguji keluarga ini tanpa biaya, panduan Qwen 3.7 gratis kami menunjukkan rute gratisnya.

Panggilan multimodal minimal menggunakan format pesan OpenAI standar, dengan bagian gambar ditambahkan di samping teks:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Tombol mana yang mengirimkan formulir ini? Berikan koordinat pikselnya."},
            {"type": "image_url", "image_url": {"url": "https://example.com/screenshot.png"}},
        ],
    }],
)
print(resp.choices[0].message.content)

Periksa dokumen Model Studio untuk pengidentifikasi model yang tepat dan URL dasar regional, karena hal tersebut berbeda antara endpoint internasional dan Tiongkok.

Siapa yang harus menggunakannya

Gunakan Qwen 3.7 Plus ketika pekerjaan Anda seperti ini:

Agen penggunaan komputer dan GUI yang melakukan klik melalui antarmuka nyata dari tangkapan layar.
Tangkapan layar ke kode dan mockup ke UI, di mana model membaca desain dan menulis front-end.
Pemahaman dokumen, PDF, dan video dengan biaya per token yang rendah.
Jalankan agen yang panjang, hingga batas 35 jam dengan ribuan panggilan alat berurutan.

Tetap gunakan Max jika Anda hanya mengoptimalkan skor teks SWE-Bench Pro atau membutuhkan latensi teks-saja tercepat, di mana ia berjalan sedikit lebih cepat pada jalur dingin. Untuk sebagian besar beban kerja campuran, opsi multimodal yang lebih murah adalah pilihan default yang masuk akal. Jika Anda membandingkan Plus dengan model terbuka dan beranggaran lainnya, perbandingan MiniMax M3 vs DeepSeek V4 vs Qwen 3.7 kami adalah peta yang berguna.

Menguji Qwen 3.7 Plus dengan Apidog

Karena Plus hanya API, Anda akan berinteraksi di dalam API. Permintaan multimodal rumit: Anda menyandikan gambar, melampirkan video, dan membaca kembali rencana tindakan terstruktur, seringkali di dalam loop panggilan alat yang berjalan selama beberapa menit atau jam. Anda perlu melihat dengan tepat apa yang dikirim setiap permintaan dan apa yang kembali.

Apidog dibangun untuk itu. Kirim permintaan Qwen 3.7 Plus dengan payload gambar dan video, periksa respons mentahnya, kelola kunci Model Studio Anda di berbagai lingkungan, dan mock endpoint sehingga aplikasi Anda terus dibangun saat Anda menyetel prompt. Untuk sisi agen, di mana Plus merangkai panggilan alat di seluruh alur kerja GUI-dan-CLI, debugger agen AI Apidog menunjukkan urutan panggilan lengkap sehingga Anda dapat menemukan di mana jalannya proses salah.

Unduh Apidog untuk menguji, men-debug, dan me-mock Qwen 3.7 Plus API sebelum mencapai produksi.

Pertanyaan yang Sering Diajukan (FAQ)

Apakah Qwen 3.7 Plus open source? Tidak. Ini adalah proprietary dan hanya tersedia sebagai API terkelola melalui Alibaba Cloud Model Studio. Anda tidak dapat mengunduh atau meng-host sendiri bobotnya. Varian bobot terbuka telah disarankan untuk Q3 2026 tetapi belum dikonfirmasi.
Qwen 3.7 Plus atau Max, mana yang harus saya gunakan? Gunakan Plus jika Anda membutuhkan kemampuan visual (tangkapan layar, PDF, video) atau menginginkan harga yang lebih rendah, yang mencakup sebagian besar beban kerja. Gunakan Max jika Anda mengoptimalkan murni untuk skor teks SWE-Bench Pro atau membutuhkan latensi teks-saja tercepat.
Berapa harga Qwen 3.7 Plus? $0.40 per juta token input, $1.60 per juta token output, dan $0.08 untuk input yang di-cache. Itu kira-kira enam kali lebih murah dari Qwen3.7-Max.
Apakah Qwen 3.7 Plus menangani video? Ya. Ia menerima teks, gambar, dan video sebagai input. Ingat bahwa token visual berbagi anggaran konteks 1 juta token, sehingga payload media yang besar mengurangi ruang lingkup teks Anda.
Berapa jendela konteksnya? 1 juta token, diwarisi dari inti Max, dibagikan di seluruh token teks, gambar, dan video.
Bagaimana cara mengakses Qwen 3.7 Plus? Melalui API Alibaba Cloud Model Studio, atau coba di browser di chat.qwen.ai.

Intinya

Qwen 3.7 Plus mengambil model andalan agen Alibaba, menambahkan kemampuan visual, dan memangkas harga ke tingkat anggaran. Bagi pengembang yang membuat agen penggunaan komputer, pengkodean berbasis tangkapan layar, atau pemahaman video, ini adalah salah satu pilihan multimodal tingkat terdepan termurah yang tersedia. Kompromi yang Anda terima adalah bobot tertutup dan ketergantungan kuat pada cloud Alibaba.

Jika kompromi itu cocok untuk Anda, langkah selanjutnya adalah API itu sendiri. Uji, debug panggilan multimodal, dan mock respons di Apidog agar apa yang Anda kirimkan tetap berfungsi di bawah lalu lintas nyata.

tombol