Selama sebagian besar dua tahun terakhir, pertanyaan “apa model pengkodean terbaik?” memiliki jawaban Barat. Anda memilih GPT, Claude, atau Gemini, membayar tarif per-token, dan menerima bahwa bobotnya tetap terkunci di pusat data orang lain. Itu bukan lagi satu-satunya jalan. Serangkaian laboratorium Tiongkok kini meluncurkan model yang setara dengan model terdepan dalam pengkodean, baik dengan mempublikasikan bobotnya maupun menetapkan harga API yang sangat rendah sehingga mengubah perhitungan pada setiap agen yang Anda jalankan.
MiniMax M3 diluncurkan pada 1 Juni 2026, dan ini adalah sinyal paling jelas sejauh ini. Model ini berbobot terbuka (open-weight), dibangun untuk pengkodean dan pekerjaan agensi, memiliki jendela konteks 1.000.000 token, dan menambahkan multimodalitas asli di atasnya. Ini adalah kandidat open-weight serius ketiga yang tiba dalam beberapa minggu terakhir, bersama dengan keluarga V4 DeepSeek dan Qwen 3.7 Alibaba. Jika Anda menginginkan bobot terbuka, biaya rendah, dan tanpa keterikatan vendor, Anda sekarang memiliki daftar pilihan nyata alih-alih hanya satu opsi.
Tiga kandidat
MiniMax M3 adalah pendatang baru. MiniMax memposisikannya sebagai model pengkodean terdepan dengan jendela konteks 1 juta token dan multimodalitas asli, yang berarti ia dapat menangani input gambar dan video serta dapat mendorong tugas penggunaan komputer, bukan hanya teks. Ini berjalan pada arsitektur MSA yang baru. MiniMax mengatakan bobot terbuka dan laporan teknis akan menyusul dalam waktu sekitar sepuluh hari setelah peluncuran, dan belum mengungkapkan jumlah parameter. Rincian lengkapnya ada di apa itu MiniMax M3.
DeepSeek V4-Pro adalah kuda pekerja untuk penalaran dan pengkodean. Ini adalah model berpikir: ia mengembalikan rantai pemikiran `reasoning_content` sebelum jawaban akhirnya, yang menangkap ketergantungan multi-file yang dilewatkan oleh model penyelesaian datar. DeepSeek memiliki sejarah panjang dan terdokumentasi dalam mempublikasikan bobot terbuka di seluruh lini R1 dan V3-nya, dan ia memasangkan V4-Pro dengan varian V4-Flash yang lebih murah dan tidak berpikir. Yang menonjol adalah harga, yang akan kita bahas nanti. DeepSeek menjalankan situs resmi dan API-nya di deepseek.com.
Qwen 3.7 adalah model andalan Alibaba, dipimpin oleh Qwen3.7-Max-Preview. Ini adalah model penalaran dengan jendela konteks 1 juta token, yang sangat ditekankan untuk pekerjaan agen jangka panjang. Satu peringatan jujur berada di pusat perbandingan ini: pada peluncurannya pertengahan Mei 2026, model andalan Qwen3.7-Max adalah berpemilik (proprietary) dan berbobot tertutup (closed-weight). Alibaba memiliki rekam jejak yang kuat dalam melakukan open-source pada tingkatan di bawah model andalannya, jadi bobot 3.7 yang terbuka mungkin saja ada nanti, tetapi belum ada yang diluncurkan. Detail lengkapnya ada di apa itu Qwen 3.7. Repositori open-source Alibaba ada di github.com/QwenLM.
Tabel Spesifikasi
| Spesifikasi | MiniMax M3 | DeepSeek V4-Pro | Qwen3.7-Max-Preview |
|---|---|---|---|
| Vendor | MiniMax | DeepSeek | Alibaba (Qwen) |
| Dirilis | 1 Juni 2026 | 2026 | Mei 2026 (pratinjau) |
| Bobot terbuka | Ya (bobot dalam ~10 hari) | Ya (rekam jejak DeepSeek di R1/V3) | Belum (andalan berbobot tertutup) |
| Jendela konteks | 1.000.000 token | Tidak disebutkan di sini | 1.000.000 token |
| Multimodal | Ya (gambar + video, penggunaan komputer) | Tidak (teks + penalaran) | Penalaran berfokus teks |
| Mode penalaran / berpikir | Ya | Ya (`reasoning_content`) | Ya (pemikiran diperpanjang) |
| Jumlah parameter | Tidak diungkapkan | Tidak diungkapkan di sini | Tidak diungkapkan di sini |
| Arsitektur | MSA | Tidak disebutkan di sini | Tidak disebutkan di sini |
Catatan mengenai baris “bobot terbuka” itu, karena inilah tulang punggung perbandingan ini. M3 berkomitmen untuk mempublikasikan bobot dan laporan teknis dalam waktu sekitar sepuluh hari setelah peluncuran. DeepSeek telah berulang kali meluncurkan bobot terbuka. Model andalan Qwen 3.7 saat ini berbobot tertutup. Jika bobot terbuka adalah persyaratan mutlak saat ini, itu akan mempersempit pilihan Anda sebelum Anda membaca satu pun tolok ukur.
Kekuatan pengkodean dan agensi
Di sinilah data menjadi tidak merata, jadi kami akan memulai dengan apa yang terverifikasi dan tetap kualitatif di mana tidak.
MiniMax M3 diluncurkan dengan serangkaian lengkap tolok ukur pengkodean dan agensi yang dilaporkan vendor. Ini adalah angka-angka MiniMax sendiri, jadi perlakukan sebagai klaim vendor pada hari peluncuran sampai pihak ketiga mereproduksinya:
| Tolok Ukur (dilaporkan vendor, MiniMax) | MiniMax M3 |
|---|---|
| SWE-Bench Pro | 59,0% |
| Terminal-Bench 2.1 | 66,0% |
| SWE-fficiency | 34,8% |
| KernelBench Hard | 28,8% |
| MCP Atlas | 74,2% |
| PostTrainBench | 0,37 |
| SVG-Bench | Dilaporkan di atas Opus 4.7 |
| OmniDocBench | Dilaporkan di atas Gemini 3.1 Pro |
| Claw-Eval | Dilaporkan tertinggi di setnya |
SWE-Bench Pro dan Terminal-Bench mengukur tugas rekayasa perangkat lunak nyata: menyelesaikan masalah GitHub, bekerja di terminal. MCP Atlas mengukur penggunaan alat dan orkestrasi agen. Bersama-sama, mereka menggambarkan model yang dibangun untuk melakukan pekerjaan pengkodean agensi, bukan hanya pelengkapan otomatis. Anda dapat memverifikasi bidang SWE-Bench di papan peringkat SWE-Bench.
Untuk DeepSeek V4-Pro dan Qwen 3.7, angka pengkodean agensi yang sebanding tidak dipublikasikan dalam format yang sama, jadi pencocokan sel-per-sel langsung akan dibuat-buat, dan kami tidak akan melakukan itu. Apa yang didokumentasikan:
- DeepSeek V4-Pro mencapai kemampuan pengkodeannya dalam beberapa poin tolok ukur dari GPT-5.5 menurut perbandingan pihak ketiga, sementara biayanya hanya sebagian kecil dari harga. Rantai penalaran-nya adalah keunggulan praktis: pada refaktor multi-file yang kompleks, perubahan nama, dan perubahan tanda tangan, proses berpikirnya menangkap dependensi dalam satu kali percobaan yang memerlukan tiga putaran bagi model datar untuk menanganinya. Detail pengaturan dan perhitungan biaya ada di cara menggunakan DeepSeek V4-Pro dengan Cursor.
- Qwen 3.7 meraih skor 57 pada Artificial Analysis Intelligence Index, sebuah komposit yang memadukan penalaran, pengetahuan, matematika, dan pengkodean, dilaporkan sebagai hasil #1 pada papan peringkat tersebut saat peluncuran, ditambah sekitar 1.475 Elo di LM Arena dengan penempatan sepuluh besar dalam kategori pengkodean. Klaim Alibaba adalah pekerjaan agen jangka panjang: operasi otonom berkelanjutan dan penggunaan alat berat melalui banyak langkah.
Penjelasan jujur: M3 hadir dengan bukti pengkodean agensi paling transparan saat ini karena mempublikasikan angka tingkat tugas. Kekuatan DeepSeek adalah kualitas kode berbasis penalaran dengan harga rendah. Kekuatan Qwen adalah intelijen komposit dan ketahanan pada rantai agen yang panjang. Hingga DeepSeek dan Qwen melaporkan pada tugas SWE-Bench Pro dan Terminal-Bench yang sama, jalankan beban kerja Anda sendiri melalui ketiganya, yang akan kami bahas di akhir. Perbandingan terdepan yang lebih luas untuk Qwen ada di Qwen 3.7 vs GPT-5.5 vs Opus 4.7.
Jendela konteks dan biaya konteks panjang
Dua dari tiga model mengiklankan jendela konteks 1.000.000 token: MiniMax M3 dan Qwen3.7-Max. Konteks V4-Pro DeepSeek tidak direproduksi di sini, jadi kami tidak akan menyebutkan angkanya.
Satu juta token kira-kira setara dengan 700.000 hingga 750.000 kata. Itu cukup untuk menampung repositori berukuran sedang, tumpukan PDF panjang, atau percakapan berbulan-bulan dalam satu permintaan, tanpa pembagian manual dan tanpa lapisan pengambilan yang harus dikelola. Untuk penalaran seluruh repositori, ini menghilangkan banyak kerumitan.
Dua peringatan menjaga kejujuran ini. Pertama, jendela besar adalah batas, bukan jaminan. Model sering kali mengambil dan bernalar kurang andal saat jendela terisi, dan pengujian konteks panjang independen untuk rilis baru ini masih tipis. Kedua, konteks besar membutuhkan biaya. Setiap token yang Anda kirim akan ditagih, jadi perintah satu juta token adalah perintah yang mahal.
Di sinilah arsitektur MSA M3 seharusnya menjadi penting. MiniMax mengklaimnya dibangun untuk efisiensi konteks panjang, dengan tarif API standar hingga 512K token input dan tarif konteks panjang terpisah di atas ambang batas itu. Pemisahan ini dengan jelas menunjukkan realitas ekonomi: konteks panjang adalah tingkatan premium, pada setiap model yang memilikinya. Pertahanan praktisnya sama terlepas dari model mana yang Anda pilih. Gunakan jendela penuh hanya saat tugas membutuhkannya, dan pangkas secara agresif saat tidak. Taktik konkret untuk menjaga konteks agen tetap ramping ada di cara mengurangi biaya token agen.
Harga dan akses
Harga adalah alasan perbandingan ini ada. Beban kerja yang sama yang menelan biaya nyata pada model andalan Barat berjalan dengan biaya jauh lebih rendah di sini, dan kesenjangan itulah yang menjadi pendorong di balik perang harga LLM Tiongkok 2026.
DeepSeek V4-Pro mempublikasikan angka per-token paling jelas dari ketiganya. Tarif standar, permanen per Mei 2026:
| Jenis token | Tarif DeepSeek V4-Pro per 1 juta token |
|---|---|
| Input (cache miss) | $0,435 |
| Input (cache hit) | $0,003625 |
| Output | $0,87 |
Tarif output tersebut kira-kira 1/34 dari biaya output GPT-5.5. Varian V4-Flash yang tidak berpikir bahkan lebih murah lagi yaitu $0,14 / $0,28 per juta input/output. Penggunaan asisten pengkodean yang intensif dalam sehari sekitar $1. Angka itulah yang membuat DeepSeek sulit diabaikan untuk lalu lintas agen bervolume tinggi.
MiniMax M3 menjual paket token daripada harga per-token tunggal yang dipublikasikan: Plus seharga $20, Max seharga $50, dan Ultra seharga $120. API-nya menggunakan tarif standar untuk input hingga 512K token dan tarif konteks panjang di atas ambang batas itu. MiniMax belum mempublikasikan angka per-token yang tepat, jadi kami tidak akan mengutipnya. Struktur paket ini cocok untuk tim yang menginginkan pengeluaran bulanan yang dapat diprediksi daripada tagihan berdasarkan meteran. Detail koneksi ada di cara menggunakan API MiniMax M3.
Qwen 3.7 ditagih per token melalui Alibaba Cloud, di mana pratinjau Max mulai tersedia pada Mei 2026. Alibaba telah menetapkan harga rilis Qwen baru-baru ini secara agresif sebagai bagian dari perang harga yang sama, tetapi tarif pasti model pratinjau dapat berubah, jadi periksa dokumen model Alibaba Cloud saat ini untuk mengetahui angka terbarunya.
Mengenai akses, sudut pandang bobot terbuka mengubah batas biaya sepenuhnya. Bobot M3 yang dipublikasikan dan rilis terbuka DeepSeek berarti Anda dapat melakukan self-host dan hanya membayar untuk perangkat keras, tanpa meteran per-token sama sekali. Qwen3.7-Max tidak dapat di-self-host hari ini karena bobot model andalannya belum dipublikasikan, jadi setiap akses ke sana melalui API Alibaba. Jika menghindari keterikatan vendor adalah tujuannya, itu adalah pembeda yang nyata.
Mana yang harus dipilih
Model yang tepat tergantung pada apa yang Anda optimalkan. Sesuaikan prioritas Anda dengan kolom.
| Prioritas Anda | Paling cocok | Mengapa |
|---|---|---|
| Pengkodean agensi dengan tolok ukur yang dipublikasikan | MiniMax M3 | Angka SWE-Bench Pro / Terminal-Bench / MCP Atlas yang transparan saat peluncuran (dilaporkan vendor) |
| Input multimodal (gambar, video, penggunaan komputer) | MiniMax M3 | Satu-satunya dari ketiganya dengan multimodalitas asli |
| Biaya terendah pada lalu lintas API bervolume tinggi | DeepSeek V4-Pro | ~$0,87/1 juta output, dengan varian Flash yang lebih murah dan harga cache-hit |
| Kualitas kode berbasis penalaran pada refaktor sulit | DeepSeek V4-Pro | Rantai berpikir menangkap ketergantungan multi-file dalam satu kali jalan |
| Skor intelijen komposit teratas di papan publik | Qwen3.7-Max | AA Intelligence Index 57, dilaporkan #1 saat peluncuran |
| Operasi agen otonom jangka panjang | Qwen3.7-Max atau MiniMax M3 | Keduanya mengunggulkan ketahanan dan penggunaan alat berat; M3 juga mempublikasikan MCP Atlas |
| Self-hosting / tanpa keterikatan vendor saat ini | MiniMax M3 atau DeepSeek V4-Pro | Keduanya mempublikasikan bobot terbuka; model andalan Qwen tertutup |
Beberapa bacaan sederhana. Jika bobot terbuka dan bukti pengkodean agensi adalah dua prioritas utama Anda, M3 adalah pilihan paling jelas saat ini, dengan catatan bahwa bobot dan laporan teknisnya masih beberapa hari lagi saat peluncuran dan tolok ukurnya dilaporkan vendor. Jika Anda menjalankan volume API yang tinggi dan menginginkan tagihan terendah, harga DeepSeek V4-Pro adalah yang utama. Jika Anda menginginkan skor komposit publik teratas dan Anda nyaman tetap menggunakan API yang di-hosting, Qwen3.7-Max cocok, selama Anda tidak memerlukan self-hosting.
Uji sendiri
Papan peringkat memberi tahu Anda bagaimana kinerja suatu model pada tugas orang lain. Itu tidak memberi tahu Anda bagaimana kinerjanya pada tugas Anda. Ketiga model ini menyediakan API, dan cara tercepat untuk memutuskan pilihan adalah menjalankan prompt yang identik pada masing-masing model dan membandingkan responsnya secara berdampingan.
Itu adalah pekerjaan untuk Apidog. Siapkan satu proyek Apidog dengan tiga lingkungan, satu untuk setiap API model, dan impor skema Penyelesaian Obrolan yang kompatibel dengan OpenAI yang digunakan masing-masing. Kemudian Anda dapat:
- Kirim batch prompt yang sama ke M3, V4-Pro, dan Qwen3.7-Max dan bandingkan perbedaannya (diff) di satu tempat.
- Rekam respons "emas" dan putar ulang pada setiap perubahan prompt untuk mendeteksi penyimpangan.
- Validasi bentuk `tool_calls` dan `reasoning_content` dengan pernyataan JSON Schema, agar pengeditan prompt sistem yang buruk tidak merusak agen Anda secara diam-diam.
Unduh Apidog, arahkan tiga lingkungan ke tiga endpoint model, dan Anda memiliki bangku perbandingan yang berfungsi dalam beberapa menit. Spesifikasi pengaturan API untuk model terbaru ada di cara menggunakan API MiniMax M3.
Pertanyaan yang sering diajukan
Manakah model pengkodean berbobot terbuka terbaik di tahun 2026 saat ini?
Untuk bukti pengkodean agensi yang dapat diverifikasi saat peluncuran, MiniMax M3 memimpin, karena mempublikasikan tolok ukur tingkat tugas seperti SWE-Bench Pro 59,0% dan Terminal-Bench 2.1 66,0% (dilaporkan vendor). DeepSeek V4-Pro adalah pilihan bernilai: pengkodean dalam beberapa poin dari GPT-5.5 dengan harga output kira-kira 1/34. Qwen3.7-Max menduduki puncak papan peringkat komposit tetapi belum berbobot terbuka. Jawaban jujurnya adalah angka pengkodean langsung tidak secara langsung sebanding di antara ketiganya, jadi jalankan beban kerja Anda sendiri sebelum berkomitmen.
Apakah ketiganya benar-benar berbobot terbuka (open-weight)?
Belum. MiniMax M3 berbobot terbuka, dengan bobot dan laporan teknis yang akan dirilis dalam waktu sekitar sepuluh hari setelah peluncurannya pada 1 Juni 2026. DeepSeek memiliki catatan panjang dalam mempublikasikan bobot terbuka di seluruh keluarga R1 dan V3-nya. Qwen3.7-Max-Preview, model andalan yang kebanyakan orang maksud dengan “Qwen 3.7,” adalah berpemilik (proprietary) dan berbobot tertutup (closed-weight) per pertengahan Mei 2026. Alibaba mungkin akan melakukan open-source pada tingkatan di bawahnya nanti, tetapi anggap itu sebagai kemungkinan, bukan konfirmasi. Detailnya ada di apa itu Qwen 3.7.
Mana yang memiliki jendela konteks terbesar?
MiniMax M3 dan Qwen3.7-Max keduanya mengiklankan jendela 1.000.000 token, kira-kira 700.000 hingga 750.000 kata. Konteks DeepSeek V4-Pro tidak disebutkan di sini. Ingatlah bahwa jendela besar adalah batas, bukan janji ingatan yang sempurna, dan setiap token di dalamnya ditagih.
Mana yang paling murah untuk dijalankan?
Berdasarkan tarif per-token yang dipublikasikan, DeepSeek V4-Pro adalah pemimpin yang jelas: sekitar $0,87 per juta token output, dengan varian V4-Flash yang tidak berpikir yang lebih murah seharga $0,14 / $0,28. MiniMax M3 menjual paket token bulanan ($20 / $50 / $120) daripada harga per-token yang dipublikasikan. Qwen3.7-Max ditagih per token di Alibaba Cloud. Jika Anda dapat melakukan self-host, model berbobot terbuka menurunkan biaya marjinal Anda hanya ke perangkat keras. Gambaran harga yang lebih luas ada di perang harga LLM Tiongkok 2026.
Apakah MiniMax M3 sebenarnya lebih baik daripada DeepSeek V4-Pro dalam pengkodean?
Angka tolok ukur belum dapat dibandingkan secara langsung. M3 mempublikasikan hasil SWE-Bench Pro dan Terminal-Bench saat peluncuran; DeepSeek belum melaporkan tugas-tugas yang sama dalam format yang sama. Keunggulan M3 saat ini adalah bukti yang dipublikasikan ditambah multimodalitas. Keunggulan DeepSeek adalah harga dan rantai penalaran yang kuat pada refaktor multi-file. Ketiganya berbicara API yang kompatibel dengan OpenAI, jadi tes yang adil adalah menjalankan prompt yang identik pada masing-masing model di repositori Anda sendiri sebelum memutuskan.
Versi singkat
Tiga kandidat berbobot terbuka kini mencapai batas terdepan dalam pengkodean, dan pilihan tergantung pada apa yang Anda optimalkan. Pilih MiniMax M3 jika Anda menginginkan tolok ukur pengkodean agensi yang dipublikasikan, konteks 1 juta, dan multimodalitas, serta Anda bisa menunggu beberapa hari hingga bobotnya dirilis. Pilih DeepSeek V4-Pro jika biaya rendah dan kualitas kode berbasis penalaran paling penting, karena harga per-tokennya adalah yang terendah dari ketiganya dan bobotnya tersedia. Pertimbangkan Qwen3.7-Max jika Anda menginginkan skor komposit publik teratas dan Anda nyaman menggunakan API yang di-hosting, dengan mengetahui bahwa model andalannya belum berbobot terbuka saat ini.
Angka tolok ukur akan terus bergerak, dan beberapa angka M3 masih dilaporkan vendor. Saran yang tetap berlaku tidak berubah: jalankan prompt yang sama pada ketiga API dalam satu proyek Apidog, perhatikan output dan tagihannya, dan biarkan beban kerja Anda sendiri yang memilih pemenangnya.
