Tim Qwen Alibaba meluncurkan Qwen3.7-Max-Preview pada pertengahan Mei 2026, dan para pengembang segera menanyakan pertanyaan yang sama: bagaimana cara memanggilnya dari kode saya sendiri? Model ini adalah sistem penalaran unggulan dengan jendela konteks 1M-token dan jejak chain-of-thought yang eksplisit, sangat cocok untuk backend agen, analisis dokumen panjang, dan pembuatan kode. Namun, kata "preview" memiliki banyak arti dalam namanya itu. Aksesnya terbatas, permukaan API masih dalam pengembangan, dan detail yang Anda perlukan untuk menulis kode yang berfungsi tersebar di catatan rilis dan dokumen platform.
TL;DR
Qwen3.7-Max-Preview adalah model penalaran unggulan Alibaba, dirilis dalam pratinjau pada 14 Mei 2026, dengan jendela konteks 1M-token. Selama pratinjau, cara paling andal untuk menggunakannya adalah Qwen Chat (chat.qwen.ai); akses API produksi berjalan melalui Alibaba Cloud Model Studio (DashScope) menggunakan endpoint yang kompatibel dengan OpenAI, di mana Anda mengatur URL dasar, meneruskan kunci Anda sebagai token Bearer, dan memanggil /chat/completions. Karena tingkatan 3.7 hanya pratinjau, konfirmasikan ID model dan endpoint yang tepat dalam dokumen resmi sebelum Anda menggunakannya, dan gunakan Apidog untuk menguji dan mensimulasikan endpoint saat ketersediaannya stabil.
Cara mengakses Qwen 3.7 sekarang
Qwen menyediakan model-modelnya melalui beberapa antarmuka, dan tidak semuanya aktif secara bersamaan. Hingga akhir Mei 2026, berikut adalah status akses yang sebenarnya.
Qwen Chat (chat.qwen.ai). Cara tercepat untuk mencoba Qwen3.7-Max-Preview. Masuk dengan akun Qwen gratis, pilih qwen3.7-max-preview di pemilih model, dan aktifkan Thinking Mode untuk melihat jejak penalaran. Ada batasan laju penggunaan selama pratinjau, tetapi gratis dan tidak memerlukan pengaturan. Ini adalah produk berbasis browser, bukan API, jadi lebih untuk evaluasi daripada integrasi.
Alibaba Cloud Model Studio (DashScope). Di sinilah model Qwen menjadi API nyata. Model Studio mengekspos Qwen melalui endpoint yang kompatibel dengan OpenAI, sehingga kode apa pun yang sudah berbicara dengan OpenAI SDK dapat memanggil Qwen dengan menukar URL dasar dan kunci. Tingkatan yang lebih lama seperti qwen3.6-max-preview dan keluarga qwen-max sudah tersedia di sini. Tingkatan pratinjau 3.7 mungkin belum memiliki entri API publik saat Anda membaca ini; Qwen secara historis membuka akses API beberapa minggu setelah pratinjau obrolan.

Pola yang kompatibel dengan OpenAI. Setiap model Qwen terbaru di Model Studio mengikuti bentuk yang sama. Anda mengarahkan klien OpenAI standar ke URL dasar DashScope, mengautentikasi dengan token Bearer, dan memanggil rute penyelesaian obrolan. Pola itu stabil di berbagai versi, sehingga kode di bawah ini terus berfungsi saat ID model 3.7 tersedia; Anda sebagian besar hanya mengubah satu string.
Karena pengidentifikasi model dan endpoint dapat bergeser selama pratinjau, anggap dokumentasi resmi Qwen dan daftar model Model Studio sebagai sumber kebenaran. Untuk jalur tanpa biaya saat Anda menunggu akses API, panduan kami tentang cara menggunakan Qwen 3.7 secara gratis mencakup saluran pratinjau secara detail.
Metode akses sekilas
| Metode | Akses API | Biaya | Terbaik untuk |
|---|---|---|---|
| Qwen Chat (chat.qwen.ai) | Tidak | Gratis, terbatas laju | Evaluasi cepat, pengujian prompt |
| Alibaba Cloud Model Studio (DashScope) | Ya, kompatibel OpenAI | Bayar per token | Integrasi produksi |
| Qwen di Hugging Face | Bobot, saat dirilis | Gratis (self-host) | Model open-weight, bukan pratinjau Max |
| Gateway pihak ketiga | Bervariasi | Bervariasi | Perutean multi-model |
Satu perbedaan yang perlu diperhatikan: model Qwen open-weight tersedia di Hugging Face, tetapi tingkatan Max-Preview adalah proprietary, jadi jangan berharap ada bobot yang dapat diunduh untuk qwen3.7-max-preview.
Mendapatkan kunci API Qwen 3.7
Akses API melalui akun Alibaba Cloud. Langkah-langkahnya singkat.
- Buat akun Alibaba Cloud dan buka konsol Model Studio (
modelstudio.console.alibabacloud.com). - Aktifkan Model Studio untuk akun dan wilayah Anda. Kunci memiliki cakupan wilayah, jadi kunci untuk endpoint Singapura tidak akan mengautentikasi terhadap Beijing.
- Buka bagian kunci API di konsol dan hasilkan kunci. Ini terlihat seperti
sk-diikuti oleh serangkaian karakter. - Salin kunci sekali dan simpan seperti kata sandi.
Pilih wilayah Anda secara sengaja, karena ini akan menentukan URL dasar Anda:
| Wilayah | URL Dasar |
|---|---|
| Singapura | https://dashscope-intl.aliyuncs.com/compatible-mode/v1 |
| AS (Virginia) | https://dashscope-us.aliyuncs.com/compatible-mode/v1 |
| Beijing (Tiongkok) | https://dashscope.aliyuncs.com/compatible-mode/v1 |
Jangan pernah menyimpan kunci secara langsung dalam kode sumber yang Anda komit. Sebaliknya, letakkan di variabel lingkungan:
# macOS / Linux
export DASHSCOPE_API_KEY="sk-your-key-here"
# Windows PowerShell
setx DASHSCOPE_API_KEY "sk-your-key-here"
Kode Anda membaca DASHSCOPE_API_KEY saat runtime. Ini menjaga rahasia keluar dari repo Anda dan memungkinkan Anda merotasi kunci tanpa menyentuh kode. Kebiasaan yang sama berlaku untuk model apa pun yang Anda panggil; Anda akan melihat pola yang sama dalam panduan kami untuk API Gemini 3.5.
Permintaan pertama Anda: Python, curl, dan JavaScript
Endpoint Model Studio Qwen kompatibel dengan OpenAI, jadi Anda memiliki dua opsi: OpenAI SDK resmi yang diarahkan ke URL dasar DashScope, atau panggilan HTTP mentah. Keduanya dijelaskan di bawah ini.
Satu catatan sebelum kode. ID model qwen3.7-max-preview adalah pengidentifikasi yang digunakan Qwen Chat untuk model pratinjau. String yang tepat yang diharapkan API dapat berbeda selama jendela pratinjau, dan tingkatan yang lebih lama seperti qwen3.6-max-preview mungkin sudah aktif saat Anda mencoba ini. Konfirmasikan ID model saat ini di daftar model Model Studio, lalu masukkan ke bidang model. Bentuk permintaan tidak berubah.
Python dengan OpenAI SDK
Instal SDK dengan pip install openai, lalu kirim permintaan:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
# Use the base URL for your account's region
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
response = client.chat.completions.create(
# Confirm the live model ID in the Model Studio model list
model="qwen3.7-max-preview",
messages=[
{"role": "system", "content": "You are a precise coding assistant."},
{"role": "user", "content": "Write a Python function that reverses a linked list."},
],
)
print(response.choices[0].message.content)
Itu adalah permintaan lengkap. Array messages mengikuti pola peran standar: pesan system mengatur perilaku, lalu giliran user. Respons membawa teks yang dihasilkan dalam choices[0].message.content.
curl
Untuk pemeriksaan cepat dari terminal, atau untuk mengonfirmasi bahwa kunci berfungsi sebelum menulis kode aplikasi:
curl 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model": "qwen3.7-max-preview",
"messages": [
{"role": "user", "content": "Explain idempotency in REST APIs in two sentences."}
]
}'
Jika kunci dan ID model valid, Anda akan mendapatkan respons JSON dengan penyelesaian. Jika tidak, badan kesalahan akan memberitahu Anda apa yang harus diperbaiki; lebih lanjut tentang kesalahan di bawah ini.
JavaScript / Node.js
OpenAI SDK yang sama berfungsi di Node. Instal dengan npm install openai:
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DASHSCOPE_API_KEY,
baseURL: "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
});
const response = await client.chat.completions.create({
model: "qwen3.7-max-preview",
messages: [
{ role: "user", content: "List three trade-offs of GraphQL versus REST." },
],
});
console.log(response.choices[0].message.content);
Tiga bahasa, satu bentuk permintaan; itulah keuntungan dari API yang kompatibel dengan OpenAI.
Respons streaming
Untuk apa pun yang berhadapan dengan pengguna, Anda tidak ingin menunggu penyelesaian penuh sebelum menampilkan output. Streaming mengirimkan token saat token dihasilkan. Setel stream ke true dan ulangi potongan-potongannya.
stream = client.chat.completions.create(
model="qwen3.7-max-preview",
messages=[
{"role": "user", "content": "Summarize the CAP theorem."},
],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="", flush=True)
Di Node, respons streaming adalah iterable asinkron:
const stream = await client.chat.completions.create({
model: "qwen3.7-max-preview",
messages: [{ role: "user", content: "Summarize the CAP theorem." }],
stream: true,
});
for await (const chunk of stream) {
process.stdout.write(chunk.choices[0]?.delta?.content || "");
}
Streaming lebih penting dengan model penalaran daripada model obrolan biasa. Qwen 3.7 dapat menghabiskan waktu nyata untuk chain-of-thought-nya sebelum jawaban akhir, jadi tanpa streaming pengguna akan menatap layar kosong. Dengan streaming, Anda dapat menunjukkan jejak pemikiran, indikator pengetikan, atau jawaban saat terbentuk.
Parameter penalaran dan pemikiran
Qwen3.7-Max-Preview adalah model penalaran. Ini dapat menghasilkan chain of thought eksplisit di dalam blok <think> sebelum memberikan jawaban akhir. Jejak itu meningkatkan skornya pada masalah matematika dan multi-langkah yang sulit, dan membantu dalam debugging: Anda dapat melihat di mana logika model menyimpang.
Pada model Qwen terbaru yang dilayani melalui DashScope, perilaku berpikir dikontrol dengan flag enable_thinking. Konfirmasikan mekanisme dan nama parameter yang tepat untuk tingkatan pratinjau 3.7 terhadap referensi API saat ini, karena kontrol penalaran telah berubah di antara versi Qwen. Secara konseptual, permintaan terlihat seperti ini:
response = client.chat.completions.create(
model="qwen3.7-max-preview",
messages=[
{"role": "user", "content": "A train leaves at 2pm averaging 60mph. "
"A second leaves at 3pm at 75mph on the same route. "
"When does the second catch the first?"},
],
# Reasoning controls vary by Qwen version; confirm the current
# parameter in the Model Studio API reference before relying on it.
extra_body={"enable_thinking": True},
)
print(response.choices[0].message.content)
Beberapa catatan praktis:
- Pemikiran membutuhkan token dan waktu. Jejak penalaran adalah teks yang dihasilkan. Ini dihitung sebagai output dan menambah latensi. Untuk pencarian sederhana atau pemformatan, biarkan pemikiran nonaktif.
- Aktifkan untuk masalah sulit. Matematika multi-langkah, kode dengan kasus tepi yang rumit, perencanaan, dan analisis adalah di mana chain of thought membenarkan biayanya.
- Putuskan apakah akan menampilkan jejak. Beberapa aplikasi menampilkan konten
<think>agar pengguna melihat pekerjaan model; yang lain menghilangkannya dan hanya menampilkan jawaban akhir. Keduanya valid.
Jika Anda menimbang kualitas dan biaya penalaran terhadap model frontier lainnya, perbandingan kami antara Qwen 3.7 vs GPT-5.5 vs Opus 4.7 menyandingkan trade-off tersebut. Model penalaran dapat menghabiskan token dengan cepat dalam loop agen; jika itu situasi Anda, teknik dalam artikel kami tentang cara mengurangi biaya token agen berlaku secara langsung.
Penanganan kesalahan dan batas laju
Permintaan dapat gagal karena alasan yang dapat diprediksi. Tangani mereka agar aplikasi Anda berfungsi dengan baik.
| Status HTTP | Makna | Apa yang harus dilakukan |
|---|---|---|
| 400 | Permintaan buruk: JSON salah format, parameter tidak valid | Perbaiki badan permintaan; periksa ID model dan nama bidang |
| 401 | Kunci API tidak valid atau hilang | Verifikasi kunci dan pastikan cocok dengan wilayah endpoint |
| 403 | Tidak ada akses ke model | Tingkatan pratinjau mungkin dibatasi; konfirmasi akun Anda diaktifkan |
| 404 | Model tidak ditemukan | ID model salah atau tidak tersedia di wilayah Anda |
| 429 | Batas laju atau kuota terlampaui | Mundur dan coba lagi; periksa batas QPS dan saldo akun |
| 500 / 503 | Kesalahan sisi server | Coba lagi dengan backoff eksponensial |
Model pratinjau lebih sering memunculkan 403 dan 404 daripada model stabil, karena akses dibatasi dan pengidentifikasi bergerak. Jika Anda mendapatkan salah satu dari itu, masalahnya biasanya adalah akses atau string model, bukan kode Anda.
Batas laju di Model Studio ditetapkan per akun sebagai kueri per detik atau per menit, dan angka pastinya tergantung pada tingkatan akun dan model Anda; periksa konsol daripada mengasumsikan nilai tetap. Polanya sama terlepas dari itu: tangkap 429, tunggu, dan coba lagi dengan penundaan yang meningkat.
import time
from openai import OpenAI, RateLimitError, APIStatusError
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
def ask_qwen(prompt, max_retries=4):
for attempt in range(max_retries):
try:
response = client.chat.completions.create(
model="qwen3.7-max-preview",
messages=[{"role": "user", "content": prompt}],
)
return response.choices[0].message.content
except RateLimitError:
wait = 2 ** attempt # 1s, 2s, 4s, 8s
print(f"Rate limited. Retrying in {wait}s...")
time.sleep(wait)
except APIStatusError as e:
# 400/401/403/404 are not worth retrying; surface them
print(f"API error {e.status_code}: {e.message}")
raise
raise RuntimeError("Failed after retries")
Backoff eksponensial pada 429 dan 5xx, gagal cepat pada 4xx. Pemisahan itu mencegah Anda membebani API pada kesalahan yang tidak dapat diperbaiki dengan coba lagi.
Menguji dan memalsukan API Qwen dengan Apidog
Di sinilah API pratinjau menjadi sulit, dan di sinilah alat yang baik membuahkan hasil. Ketika akses dibatasi, ID model bergeser, dan batas laju ketat, Anda tidak ingin menguji dengan menjalankan seluruh aplikasi Anda dan membaca log. Anda ingin mengirim permintaan, melihat dengan tepat apa yang kembali, dan menyimpannya untuk dijalankan lagi. Apidog dibangun untuk lingkaran itu.

Palsukan endpoint saat Anda membangun. Ini adalah hal besar untuk pratinjau yang dibatasi. Server palsu Apidog mengembalikan respons realistis dari skema API, tanpa kunci dan tanpa batas laju. Jadi frontend atau agen Anda dapat mengembangkan terhadap endpoint Qwen pengganti yang selalu merespons secara instan, bahkan ketika akses pratinjau nyata diperlambat, tidak berfungsi, atau belum terbuka untuk akun Anda. Ketika API langsung siap, ubah URL dasar dari palsu ke DashScope dan kode Anda tidak berubah. Untuk lebih lanjut tentang alur kerja yang mengutamakan skema, lihat panduan mode spec-first kami.
Pola ini berlaku untuk API model apa pun. Loop pengujian dan pemalsuan yang sama di Apidog berfungsi apakah Anda memanggil Qwen, Gemini, atau API ERNIE 5.1; model pratinjau membuat langkah pemalsuan lebih berharga, karena endpoint asli adalah bagian yang paling tidak dapat diandalkan dari stack Anda.
Kesimpulan
Memanggil Qwen 3.7 mudah setelah Anda mengetahui jalurnya. Gesekannya adalah pembatasan pratinjau, bukan API.
Berhentilah menebak apa yang dikembalikan Qwen dan mulailah melihatnya. Unduh Apidog untuk mendesain endpoint Qwen, mengirim permintaan pengujian nyata, menyimpan skenario yang dapat digunakan kembali, dan memalsukan API saat Anda membangun. Gratis untuk memulai, dan ini mengubah pratinjau yang tidak stabil menjadi sesuatu yang dapat Anda kembangkan dengan kepercayaan diri.
