API Qwen3.6-Plus: Ungguli Claude dalam Benchmark Terminal

Inti Singkat

Qwen3.6-Plus diluncurkan secara resmi. Model ini meraih skor 78,8% pada SWE-bench Verified dan 61,6% pada Terminal-Bench 2.0, mengalahkan Claude Opus 4.5. Model ini memiliki jendela konteks 1 juta token, parameter preserve_thinking baru untuk loop agen, dan bekerja secara langsung dengan Claude Code, OpenClaw, serta Qwen Code melalui API yang kompatibel dengan OpenAI.

Dari pratinjau ke rilis

Jika Anda mengikuti panduan kami sebelumnya tentang Qwen 3.6 Plus Preview di OpenRouter, Anda sudah tahu kemampuan model ini. Pratinjau tersebut dirilis secara diam-diam pada 30 Maret tanpa daftar tunggu dan akses gratis melalui OpenRouter. Dalam dua hari pertamanya, model ini memproses lebih dari 400 juta token penyelesaian dari sekitar 400.000 permintaan.

Rilis resmi ini menghadirkan versi produksi lengkap. Ini bukan lagi hanya pratinjau. Model ini sekarang tersedia melalui Alibaba Cloud Model Studio dengan API yang stabil, waktu aktif yang didukung SLA, dan parameter API baru yang membuatnya secara signifikan lebih mampu untuk tugas agen multi-langkah.

Panduan ini mencakup apa yang berubah, cara memanggil API dengan benar, dan cara menguji integrasi Anda dengan Apidog sebelum deployment.

tombol

Apa itu Qwen3.6-Plus

Qwen3.6-Plus adalah model mixture-of-experts yang di-host dari tim Qwen Alibaba. Seperti seri Qwen3.5, model ini menggunakan aktivasi jarang (sparse activation), yang berarti hanya sebagian kecil parameter yang aktif per token. Hasilnya adalah kinerja yang kuat dengan biaya komputasi yang lebih rendah dibandingkan model padat (dense model) dengan kemampuan serupa.

Spesifikasi utama saat peluncuran:

Jendela konteks 1 juta token secara default
Penalaran rantai-pikiran (chain-of-thought) wajib (sama seperti pratinjau)
Parameter preserve_thinking baru untuk tugas-tugas agensi
Dukungan multimodal asli (penglihatan, video, pemahaman dokumen)
API yang kompatibel dengan OpenAI, API yang kompatibel dengan Anthropic, dan OpenAI Responses API

Varian-varian kecil sumber terbuka akan segera hadir dalam beberapa hari. Jika Anda memerlukan bobot untuk hosting mandiri, mereka sedang dalam perjalanan.

Hasil benchmark

Agen pengkodean

Qwen3.6-Plus berada sedikit di belakang Claude Opus 4.5 pada sebagian besar tugas SWE-bench, sementara mengalahkan setiap model dalam perbandingan pada operasi terminal.

Terminal-Bench 2.0 menguji operasi shell sungguhan: manajemen file, kontrol proses, alur kerja terminal multi-langkah di bawah batas waktu 3 jam dengan 32 inti CPU dan 48GB RAM. Skor Qwen3.6-Plus 61,6% dibandingkan 59,3% dari Claude Opus 4.5 adalah selisih yang signifikan pada jenis tugas yang dijalankan oleh pengembang.

Agen umum dan penggunaan alat

Benchmark	Claude Opus 4.5	Qwen3.6-Plus
TAU3-Bench	70,2%	70,7%
DeepPlanning	33,9%	41,5%
MCPMark	42,3%	48,2%
MCP-Atlas	71,8%	74,1%
WideSearch	76,4%	74,3%

MCPMark menguji pemanggilan alat GitHub MCP v0.30.3, dengan respons Playwright terpotong pada 32K token. Memimpin dengan 48,2% penting bagi siapa pun yang membangun peralatan berbasis MCP. DeepPlanning dengan 41,5% berbanding 33,9% untuk Claude menunjukkan perbedaan yang signifikan pada tugas perencanaan jangka panjang.

Penalaran dan pengetahuan

Benchmark	Claude Opus 4.5	Qwen3.6-Plus
GPQA	87,0%	90,4%
LiveCodeBench v6	84,8%	87,1%
IFEval strict	90,9%	94,3%
MMLU-Pro	89,5%	88,5%

GPQA adalah benchmark penalaran sains tingkat pascasarjana. IFEval strict mengukur seberapa baik sebuah model mengikuti instruksi pemformatan dan batasan yang tepat. Qwen3.6-Plus memimpin keduanya, yang penting untuk output terstruktur dan tugas-tugas agensi di mana model harus mengikuti instruksi kompleks tanpa menyimpang.

Multimodal

Qwen3.6-Plus adalah model multimodal asli. Model ini memimpin beberapa benchmark deteksi dokumen, spasial, dan objek.

Benchmark	Qwen3.6-Plus	Catatan
OmniDocBench 1.5	91,2%	Teratas di tabel
RefCOCO avg	93,5%	Teratas di tabel
We-Math	89,0%	Teratas di tabel
CountBench	97,6%	Teratas di tabel
OSWorld-Verified	62,5%	Di belakang Claude (66,3%)

OSWorld-Verified, benchmark penggunaan komputer desktop, menempatkan Claude Opus 4.5 unggul dengan 66,3% berbanding Qwen3.6-Plus dengan 62,5%. Untuk tugas pemahaman dokumen dan penentuan posisi spasial, Qwen3.6-Plus memimpin.

Cara memanggil API

Qwen3.6-Plus tersedia di Alibaba Cloud Model Studio. Dapatkan kunci API Anda di modelstudio.alibabacloud.com.

Tiga URL dasar regional:

Singapura: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
Beijing: https://dashscope.aliyuncs.com/compatible-mode/v1
US Virginia: https://dashscope-us.aliyuncs.com/compatible-mode/v1

Panggilan dasar dengan streaming

from openai import OpenAI
import os

client = OpenAI(
 api_key=os.environ["DASHSCOPE_API_KEY"],
 base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=[{"role": "user", "content": "Tinjau fungsi Python ini dan temukan bug."}],
 extra_body={"enable_thinking": True},
 stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
 if not chunk.choices:
 continue
 delta = chunk.choices[0].delta
 if hasattr(delta, "reasoning_content") and delta.reasoning_content:
 if not is_answering:
 reasoning += delta.reasoning_content
 if delta.content:
 if not is_answering:
 is_answering = True
 answer += delta.content
 print(delta.content, end="", flush=True)

Parameter preserve_thinking

Versi pratinjau hanya menyimpan penalaran dari giliran saat ini. Rilis resmi menambahkan preserve_thinking.

Saat Anda mengatur preserve_thinking: true, model mempertahankan rantai-pikiran dari semua giliran sebelumnya dalam percakapan. Alibaba secara khusus merekomendasikannya untuk skenario agen. Alasannya adalah: agen yang mengerjakan tugas multi-langkah akan mendapat manfaat dari melihat pemikirannya sebelumnya. Ini membuat keputusan yang lebih baik pada langkah 5 ketika dapat melihat mengapa ia membuat pilihan tersebut pada langkah 2.

Ini dinonaktifkan secara default untuk mengontrol penggunaan token. Aktifkan untuk loop agen.

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=conversation_history,
 extra_body={
 "enable_thinking": True,
 "preserve_thinking": True, # pertahankan penalaran di semua giliran
 },
 stream=True
)

Gunakan Qwen3.6-Plus dengan Claude Code

API Qwen mendukung protokol Anthropic. Anda dapat menjalankan Claude Code terhadap Qwen3.6-Plus tanpa mengubah konfigurasi Claude Code apa pun selain variabel lingkungan.

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude

Gunakan Qwen3.6-Plus dengan OpenClaw

OpenClaw (sebelumnya Moltbot / Clawdbot) adalah agen pengkodean sumber terbuka yang di-host sendiri. Instal dan arahkan ke Model Studio:

# Instal (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard

Edit ~/.openclaw/openclaw.json dan gabungkan field-field ini (jangan menimpa seluruh file):

{
 "models": {
 "providers": [{
 "name": "alibaba-coding-plan",
 "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
 "apiKey": "${DASHSCOPE_API_KEY}",
 "models": [{"id": "qwen3.6-plus", "reasoning": true}]
 }]
 },
 "agents": {
 "defaults": {"models": ["qwen3.6-plus"]}
 }
}

Gunakan Qwen3.6-Plus dengan Qwen Code

Qwen Code adalah agen terminal sumber terbuka milik Alibaba, yang dibangun khusus untuk seri Qwen. Ini memberi Anda 1.000 panggilan API gratis per hari saat Anda masuk dengan Qwen Code OAuth.

npm install -g @qwen-code/qwen-code@latest
qwen
# Ketik /auth untuk masuk dan mengaktifkan tingkatan gratis

Mengapa preserve_thinking mengubah perilaku agen

Sebagian besar API LLM memperlakukan setiap giliran secara independen. Model menghasilkan jawaban, penalaran dibuang, dan giliran berikutnya dimulai dari awal. Untuk Tanya Jawab sederhana, itu tidak masalah. Untuk agen yang menjalankan tugas 10-20 langkah, ini menimbulkan masalah: model tidak dapat melihat mengapa ia membuat keputusan sebelumnya, sehingga ia menyimpang.

Parameter preserve_thinking menjaga seluruh rantai penalaran dari semua giliran sebelumnya tetap terlihat saat menghasilkan respons berikutnya. Efek praktisnya: agen yang mengerjakan tugas tingkat repositori yang kompleks pada langkah 8 dapat melihat analisanya dari langkah 2, 4, dan 6. Ini membuat keputusan yang lebih konsisten dan menghasilkan lebih sedikit kontradiksi.

Benchmark Alibaba menunjukkan bahwa ini juga mengurangi penalaran yang berlebihan. Ketika model tidak perlu lagi mendapatkan kembali konteks yang sudah ditetapkan, model menggunakan lebih sedikit token per giliran secara rata-rata untuk alur kerja multi-langkah yang kompleks.

Gunakan pola ini untuk loop agen:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# Contoh: agen tinjauan kode multi-langkah
result = agent_step("Analisis modul otentikasi untuk masalah keamanan.")
result = agent_step("Sekarang sarankan perbaikan untuk 3 masalah teratas yang Anda temukan.")
result = agent_step("Tulis tes yang memvalidasi setiap perbaikan.")

Tanpa preserve_thinking, model pada langkah 3 tidak mengetahui 3 masalah mana yang diidentifikasi pada langkah 1. Dengan itu, rantai penalaran tetap utuh.

Untuk apa ini paling baik

Perbaikan bug tingkat repositori. SWE-bench Verified sebesar 78,8% dan SWE-bench Pro sebesar 56,6% sangat kompetitif dengan apa pun yang tersedia saat ini. Jika Anda menjalankan perbaikan kode otomatis atau alur tinjauan, Qwen3.6-Plus layak di-benchmark dengan pengaturan Anda saat ini.
Otomatisasi terminal. Kepemimpinan Terminal-Bench 2.0 menjadikannya model terkuat yang tersedia untuk alur kerja yang banyak menggunakan shell. Operasi file multi-langkah, manajemen proses, pipeline build.
Pemanggilan alat MCP. MCPMark pada 48,2% (hasil teratas) menjadikannya pilihan terbaik saat ini untuk integrasi alat berbasis MCP.
Analisis dokumen konteks panjang. Jendela 1 juta token dengan skor LongBench v2 yang kuat menangani tinjauan basis kode lengkap, dokumen spesifikasi besar, dan analisis multi-file dalam satu panggilan.
Pembuatan kode frontend. QwenWebBench internal tim Qwen (peringkat Elo, 7 kategori: Desain Web, Aplikasi Web, Game, SVG, Visualisasi Data, Animasi, 3D) memberikan Qwen3.6-Plus skor 1501,7 berbanding 1517,9 milik Claude Opus 4.5. Secara efektif setara untuk kualitas pembuatan frontend.
Multibahasa. WMT24++ pada 84,3% (teratas), MAXIFE pada 88,2% di 23 pengaturan bahasa. Kuat di seluruh kasus penggunaan non-Inggris.

Menguji panggilan API Qwen3.6-Plus dengan Apidog

Endpoint ini kompatibel dengan OpenAI, sehingga Anda dapat mengimpornya langsung ke Apidog dan mengujinya seperti API lainnya.

Siapkan permintaan POST ke https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions. Tambahkan kunci API Anda sebagai variabel lingkungan: Authorization: Bearer {{DASHSCOPE_API_KEY}}.

Tulis pernyataan respons (response assertions) untuk memvalidasi struktur dan konten:

pm.test("Respons berisi pilihan", () => {
 const body = pm.response.json();
 pm.expect(body).to.have.property("choices");
 pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("Tidak ada penalaran kosong saat pemikiran diaktifkan", () => {
 const choice = pm.response.json().choices[0];
 if (choice.message.reasoning_content !== undefined) {
 pm.expect(choice.message.reasoning_content).to.not.be.empty;
 }
});

Gunakan Smart Mock Apidog untuk menghasilkan respons pengujian selama pengembangan. Ini berarti kode orkestrasi agen Anda dapat diuji tanpa memanggil API langsung setiap kali dijalankan, menghemat token, dan menjaga siklus pengujian tetap cepat.

Jika Anda membangun agen multi-giliran, buat Skenario Pengujian di Apidog yang merangkai beberapa permintaan bersama-sama. Validasi bahwa preserve_thinking membawa penalaran melintasi giliran dengan memeriksa struktur respons pada setiap langkah sebelum Anda menjalankan loop penuh dalam produksi.

Unduh Apidog gratis untuk menyiapkan pengujian ini.

tombol

Apa yang akan datang selanjutnya

Tim Qwen mengonfirmasi varian sumber terbuka yang lebih kecil akan dikirim dalam beberapa hari. Ini akan mengikuti pola Qwen3.5: model MoE jarang dengan bobot Apache 2.0 publik.

Peta jalan juga mencakup:

Tugas tingkat repositori berjangka panjang, menargetkan penyelesaian masalah multi-file yang semakin kompleks
Pengembangan agen multimodal yang berkelanjutan, dengan agen GUI dan pengkodean visual sebagai kemampuan kelas satu, bukan fitur sampingan

Varian sumber terbuka Qwen3.5 menjadi beberapa model yang paling banyak digunakan secara mandiri dalam beberapa minggu setelah dirilis. Jika Qwen3.6 mengikuti pola yang sama, varian yang lebih kecil kemungkinan akan menjadi pilihan default untuk agen pengkodean yang di-host sendiri tak lama setelah dirilis.

Kesimpulan

Qwen3.6-Plus menutup celah dengan Claude Opus 4.5 pada tugas pengkodean dan membuka keunggulan yang jelas pada operasi terminal, pemanggilan alat MCP, serta perencanaan jangka panjang. Konteks 1 juta token, kompatibilitas protokol Anthropic, dan preserve_thinking untuk loop agen menjadikannya pilihan praktis untuk sistem agensi produksi saat ini.

Periode pratinjau gratis di OpenRouter adalah cara yang berguna untuk mengevaluasi model. API resmi menghadirkan stabilitas, cakupan SLA, dan parameter baru yang berfokus pada agen yang membuat alur kerja multi-giliran lebih andal.

Apidog menangani sisi pengujian: impor endpoint yang kompatibel dengan OpenAI, tulis pernyataan respons, mock selama pengembangan, dan jalankan pengujian regresi setiap kali Anda memperbarui model atau menaikkan versi API.

tombol

FAQ

Apa perbedaan antara Qwen3.6-Plus dan pratinjau?Pratinjau (qwen/qwen3.6-plus-preview) diluncurkan di OpenRouter pada 30 Maret 2026. Rilis resmi menambahkan parameter preserve_thinking, waktu aktif yang didukung SLA, dan dukungan penuh Model Studio. Varian sumber terbuka yang lebih kecil juga akan segera hadir.

Apa itu preserve_thinking dan kapan saya harus menggunakannya?Secara default, hanya penalaran dari giliran saat ini yang disimpan. Saat preserve_thinking: true diatur, model mempertahankan rantai-pikiran dari semua giliran percakapan sebelumnya. Gunakan ini untuk loop agen multi-langkah di mana penalaran masa lalu model harus menginformasikan tindakan berikutnya.

Bagaimana perbandingan Qwen3.6-Plus dengan Claude Opus 4.5?Claude Opus 4.5 memimpin pada SWE-bench Verified (80,9% berbanding 78,8%) dan OSWorld-Verified (66,3% berbanding 62,5%). Qwen3.6-Plus memimpin pada Terminal-Bench 2.0 (61,6% berbanding 59,3%), MCPMark (48,2% berbanding 42,3%), DeepPlanning (41,5% berbanding 33,9%), dan GPQA (90,4% berbanding 87,0%).

Bisakah saya menggunakan Qwen3.6-Plus dengan Claude Code?Ya. Atur ANTHROPIC_BASE_URL ke endpoint Dashscope yang kompatibel dengan Anthropic, ANTHROPIC_MODEL ke qwen3.6-plus, dan ANTHROPIC_AUTH_TOKEN ke kunci API Dashscope Anda.

Apakah Qwen3.6-Plus sumber terbuka?Model API yang di-host bukan open-weight. Varian yang lebih kecil dengan bobot publik dipastikan akan dirilis dalam beberapa hari.

Bagaimana cara mendapatkan akses gratis?Instal Qwen Code (npm install -g @qwen-code/qwen-code@latest), jalankan qwen, lalu /auth. Masuk dengan Qwen Code OAuth untuk 1.000 panggilan API gratis per hari terhadap Qwen3.6-Plus.

Jendela konteks apa yang didukungnya?1 juta token secara default. Beberapa benchmark dalam laporan resmi menggunakan 256K untuk perbandingan standar, tetapi default API adalah 1M.

Bagaimana cara menguji integrasi API sebelum deployment?Impor endpoint ke Apidog, tambahkan kunci API Anda sebagai variabel lingkungan, tulis pernyataan respons, dan gunakan Smart Mock untuk pengembangan offline. Rangkai permintaan ke dalam Skenario Pengujian untuk memvalidasi perilaku agen multi-giliran secara menyeluruh.