Qwen 3.7 Plus: Model Agen Multimodal Alibaba, Tolok Ukur dan Harga

Qwen 3.7 Plus adalah varian multimodal Alibaba dari Qwen3.7-Max: input teks, gambar, dan video, konteks 1 juta, dukungan agen GUI, dan harga terjangkau sebesar $0.40/$1.60 per 1 juta token. Tolok ukur, akses, dan catatan hak milik.

Ashley Innocent

Ashley Innocent

3 June 2026

Qwen 3.7 Plus: Model Agen Multimodal Alibaba, Tolok Ukur dan Harga

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

Alibaba meluncurkan Qwen 3.7 Plus hanya beberapa hari setelah Qwen3.7-Max. Singkatnya: Plus adalah Max dengan kemampuan visual. Ia mempertahankan konteks 1 juta token dan kerangka agen yang sama, menambahkan input gambar dan video, dan harganya sekitar seperenam dari harga Max. Jika Anda telah mengikuti keluarga ini, panduan kami tentang apa itu Qwen 3.7 membahas model teks andalannya; postingan ini adalah tentang apa yang ditambahkan oleh varian Plus yang baru.

Satu hal yang perlu diperhatikan di awal, karena ini mengubah siapa yang harus peduli: Qwen 3.7 Plus hanya API dan bersifat proprietary. Tidak ada bobot terbuka (open weights), yang menyimpang dari kebiasaan Qwen yang open-source. Kita akan membahas artinya di bawah. Karena Plus hanya diluncurkan sebagai API, Anda akan menghabiskan waktu untuk memanggil dan men-debug-nya; di sinilah Apidog berperan, yang akan dibahas di akhir.

tombol

Jawaban singkatnya

Qwen 3.7 Plus adalah saudara multimodal dengan harga terjangkau dari Qwen3.7-Max. Berikan tangkapan layar, mockup desain, atau video, dan ia akan menalarinya sebagai input kelas satu. Model ini dibangun untuk agen yang menggerakkan antarmuka grafis: ia dapat melihat tangkapan layar aplikasi dan mengembalikan koordinat piksel yang tepat untuk diklik.

Untuk teks murni, Max masih sedikit mengunggulinya. Untuk apa pun yang memiliki sinyal visual, Plus adalah pilihan yang Anda inginkan, dan harganya jauh lebih murah daripada Max. Satu-satunya kerugian nyata adalah bobot tertutup (closed weights).

Apa yang baru dibandingkan Qwen 3.7 Max

Tiga perubahan yang penting.

Ia dapat melihat. Max hanya teks. Plus menerima teks, gambar, dan video. Ini membuka persepsi tangkapan layar, pembacaan dokumen dan PDF, serta pemahaman video dari satu model.

Ia mendukung GUI. Plus diposisikan sebagai agen interaktif multimodal yang menangani otomatisasi browser, navigasi GUI, dan alur kerja hibrida GUI-plus-CLI. Ia menghasilkan rencana tindakan terstruktur seperti "klik pada (x=487, y=232)," yang membuat agen penggunaan komputer benar-benar berfungsi.

Harganya murah. Plus beroperasi pada tingkat harga yang jauh di bawah Max.

Qwen 3.7 Plus Qwen 3.7 Max
Modalitas input Teks, gambar, video Hanya teks
Jendela konteks 1 Juta token (dibagikan dengan penglihatan) 1 Juta token
Input / output per 1 Juta $0.40 / $1.60 $2.50 / $7.50
Input cache per 1 Juta $0.08 $0.25
Grounding GUI (ScreenSpot Pro) 79.0 Tidak ada
Terminal-Bench 70.3 69.7
Batas waktu jalan otonom 35 jam 35 jam

Tolok Ukur

Angka peluncuran, didukung oleh ulasan langsung awal, menceritakan kisah yang konsisten: Plus menyamai atau sedikit tertinggal dari Max pada teks, kemudian unggul saat kemampuan visual mulai berperan.

Polanya jelas. Pilih Plus ketika tugas memiliki sinyal visual: tangkapan layar, mockup, bagan. Untuk perbandingan langsung di sisi teks, perbandingan Qwen 3.7 vs GPT-5.5 vs Opus 4.7 kami membahas posisi keluarga ini dibandingkan model andalan Barat. Seperti biasa, angka tolok ukur berasal dari vendor dan pengulas awal, jadi perlakukan sebagai arah daripada kebenaran mutlak.

Harga: tingkat multimodal dengan anggaran terbatas

Di sinilah Plus menjadi menarik. Dengan input $0.40 dan output $1.60 per satu juta token, harganya kira-kira enam kali lebih murah daripada Max untuk input dan hampir lima kali lebih murah untuk output. Input yang di-cache turun menjadi $0.08. Anda mendapatkan kemampuan visual dan konteks 1 juta token dengan harga lebih rendah daripada sebagian besar model teks saja.

Satu peringatan yang patut dimasukkan ke dalam model biaya Anda: gambar dan video berbagi anggaran 1 juta token tersebut. Tangkapan layar resolusi tinggi dapat menghabiskan ribuan token, dan bingkai video cepat bertambah, sehingga ruang lingkup teks efektif Anda menyusut seiring bertambahnya beban visual. Anggarkan untuk itu. Untuk konteks yang lebih luas tentang mengapa laboratorium Tiongkok terus memangkas harga, lihat analisis kami tentang perang harga LLM Tiongkok 2026.

Kelemahan: proprietary dan hanya API

Qwen membangun daya tarik perusahaannya dengan bobot terbuka. Sebagian besar lini Qwen sebelumnya dirilis di bawah lisensi Apache 2.0 atau lisensi penggunaan terbuka, sehingga tim dapat mengunduh, menyetel halus, dan menjalankan model di dalam pusat data yang terisolasi. Qwen 3.7 Plus tidak melakukan itu.

Plus disediakan secara ketat sebagai API komersial terkelola melalui Alibaba Cloud Model Studio. Anda tidak dapat mengunduh bobotnya, Anda tidak dapat meng-host sendiri, dan Anda tidak dapat menjalankannya secara offline. Untuk lingkungan yang diatur atau terisolasi, ini adalah penghalang keras. Varian Plus dengan bobot terbuka telah diusulkan untuk Q3 2026, tetapi belum dikonfirmasi, dan tingkat proprietary mungkin tetap tertutup. Jika bobot terbuka adalah persyaratan, model ini bukan pilihan Anda hari ini; pesaing seperti Step 3.7 Flash diluncurkan di bawah Apache 2.0 dan mengalahkan harganya.

Cara mengakses Qwen 3.7 Plus

Dua jalur:

Panggilan multimodal minimal menggunakan format pesan OpenAI standar, dengan bagian gambar ditambahkan di samping teks:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Tombol mana yang mengirimkan formulir ini? Berikan koordinat pikselnya."},
            {"type": "image_url", "image_url": {"url": "https://example.com/screenshot.png"}},
        ],
    }],
)
print(resp.choices[0].message.content)

Periksa dokumen Model Studio untuk pengidentifikasi model yang tepat dan URL dasar regional, karena hal tersebut berbeda antara endpoint internasional dan Tiongkok.

Siapa yang harus menggunakannya

Gunakan Qwen 3.7 Plus ketika pekerjaan Anda seperti ini:

Tetap gunakan Max jika Anda hanya mengoptimalkan skor teks SWE-Bench Pro atau membutuhkan latensi teks-saja tercepat, di mana ia berjalan sedikit lebih cepat pada jalur dingin. Untuk sebagian besar beban kerja campuran, opsi multimodal yang lebih murah adalah pilihan default yang masuk akal. Jika Anda membandingkan Plus dengan model terbuka dan beranggaran lainnya, perbandingan MiniMax M3 vs DeepSeek V4 vs Qwen 3.7 kami adalah peta yang berguna.

Menguji Qwen 3.7 Plus dengan Apidog

Karena Plus hanya API, Anda akan berinteraksi di dalam API. Permintaan multimodal rumit: Anda menyandikan gambar, melampirkan video, dan membaca kembali rencana tindakan terstruktur, seringkali di dalam loop panggilan alat yang berjalan selama beberapa menit atau jam. Anda perlu melihat dengan tepat apa yang dikirim setiap permintaan dan apa yang kembali.

Apidog dibangun untuk itu. Kirim permintaan Qwen 3.7 Plus dengan payload gambar dan video, periksa respons mentahnya, kelola kunci Model Studio Anda di berbagai lingkungan, dan mock endpoint sehingga aplikasi Anda terus dibangun saat Anda menyetel prompt. Untuk sisi agen, di mana Plus merangkai panggilan alat di seluruh alur kerja GUI-dan-CLI, debugger agen AI Apidog menunjukkan urutan panggilan lengkap sehingga Anda dapat menemukan di mana jalannya proses salah.

Unduh Apidog untuk menguji, men-debug, dan me-mock Qwen 3.7 Plus API sebelum mencapai produksi.

Pertanyaan yang Sering Diajukan (FAQ)

Intinya

Qwen 3.7 Plus mengambil model andalan agen Alibaba, menambahkan kemampuan visual, dan memangkas harga ke tingkat anggaran. Bagi pengembang yang membuat agen penggunaan komputer, pengkodean berbasis tangkapan layar, atau pemahaman video, ini adalah salah satu pilihan multimodal tingkat terdepan termurah yang tersedia. Kompromi yang Anda terima adalah bobot tertutup dan ketergantungan kuat pada cloud Alibaba.

Jika kompromi itu cocok untuk Anda, langkah selanjutnya adalah API itu sendiri. Uji, debug panggilan multimodal, dan mock respons di Apidog agar apa yang Anda kirimkan tetap berfungsi di bawah lalu lintas nyata.

tombol

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.