Laboratorium Tiongkok menurunkan harga API LLM enam kali pada paruh pertama tahun 2026, dan tiga dari penurunan tersebut dinyatakan permanen. DeepSeek V4-Pro kini berharga $0,87 per juta token keluaran. Xiaomi MiMo V2.5 baru saja meratakan tingkat konteks panjangnya menjadi $3 keluaran. Qwen3 Max dari Alibaba dijual seharga $3,90. Kimi K2.6 dari Moonshot mempertahankan batas bawah cache-hit sebesar $0,07. GLM-5 dari Zhipu berada di $3,20 keluaran. Di bawah ini adalah rincian harga lengkap untuk lima API perbatasan teratas dari Tiongkok pada Mei 2026, dengan catatan kemampuan dan matriks pembeli di akhir sehingga Anda dapat memilih yang tepat untuk beban kerja Anda.
tombol
TL;DR
- Termurah per token (keluaran): DeepSeek V4-Pro seharga $0,87/MTok. Sekitar 34x lebih murah dari GPT-5.5.
- Termurah pada konteks 1 juta: Xiaomi MiMo V2.5 Pro seharga $3/MTok keluaran, tetap tidak peduli panjang masukan.
- Keseimbangan harga-kualitas terbaik untuk produksi umum: Alibaba Qwen3 Max seharga $3,90/MTok keluaran, konteks 262K.
- Batas bawah cache-hit terendah (prompt sistem panjang): Moonshot Kimi K2.6 seharga $0,07/MTok yang di-cache.
- Beban kerja yang membutuhkan penalaran berat: Zhipu GLM-5 seharga $3,20/MTok keluaran, konteks 200K, terkuat dalam rantai pemikiran terstruktur.
- Kelima laboratorium bersaing dalam harga. Tiga di antaranya (DeepSeek, MiMo, Kimi) menganggap pemotongan harga tahun 2026 mereka sebagai permanen.
Bagaimana perang harga LLM Tiongkok 2026 berlangsung
Pola ini dimulai pada Q4 2025 dan dipercepat pada Q2 2026. Garis waktu singkatnya:
- Q4 2025: DeepSeek V3.2 diluncurkan dengan harga $0,28/MTok masukan, jauh di bawah harga perbatasan AS. Kimi K2.6 menyusul dengan harga berbasis tingkat yang sadar konteks dan tarif cache-hit industri terendah $0,07/MTok.
- Maret 2026: Xiaomi meluncurkan MiMo V2-Pro di OpenRouter dengan tarif kompetitif tetapi berbasis tingkat.
- April 2026: DeepSeek V4 diluncurkan dengan diskon promosi 75% yang dijadwalkan berakhir pada 31 Mei.
- 22 Mei 2026: DeepSeek mengumumkan diskon 75% bersifat permanen. V4-Pro tetap di $0,435/$0,87 tanpa batas waktu. Rincian lengkapnya ada di sini.
- 27 Mei 2026: Xiaomi membuat harga MiMo V2.5 permanen di $1/$3, menghapus pengali konteks panjang. Lebih lanjut tentang pemotongan harga MiMo.
Pemotongan ini tidak acak. Setiap laboratorium menargetkan celah kompetitif tertentu. DeepSeek mengejar biaya-per-token mentah. MiMo mengejar beban kerja konteks panjang yang harganya melambung pada model lain. Qwen dan GLM mempertahankan harga menengah dan bersaing dalam kemampuan. Kimi bersaing dalam alur kerja agen dan pengkodean melalui batas bawah cache-hit.
Sekilas: 5 API LLM Tiongkok teratas pada Mei 2026
| Model | Masukan ($/MTok) | Keluaran ($/MTok) | Cache hit | Konteks | Terbaik pada |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | $0.435 | $0.87 | $0.003625 | 128K | Termurah per token, pengkodean |
| Xiaomi MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M | RAG dokumen panjang, agen repositori |
| Alibaba Qwen3 Max | $0.78 | $3.90 | $0.156 | 262K | Keseimbangan produksi |
| Moonshot Kimi K2.6 | $0.16–$2.00 (bertingkat) | ~$2.50 | $0.07 | 128K | Prompt sistem panjang, agen pengkodean |
| Zhipu GLM-5 | $1.00 | $3.20 | (didefinisikan penyedia) | 200K | Penalaran terstruktur |
Beberapa detail untuk dibaca dari tabel:
- DeepSeek dan MiMo adalah tarif tetap. Setiap laboratorium lain dalam set ini masih menggunakan beberapa bentuk harga bertingkat atau pengali konteks. Harga tetap membuat perencanaan kapasitas produksi dapat diprediksi. Harga bertingkat dapat mengejutkan Anda pada bulan-bulan dengan konteks panjang.
- Tingkat cache-hit bervariasi secara luas. $0,07 Kimi K2.6 dan $0,003625 DeepSeek V4-Pro adalah dua pengecualian. Untuk agen apa pun dengan prompt sistem yang stabil, ini adalah tarif yang harus Anda bandingkan, bukan daftar harga cache-miss. Lihat penjelasan mendalam kami tentang prompt caching untuk mekanismenya.
- Jendela konteks terbagi tajam. MiMo V2.5 sendiri memberi Anda 1 juta token pada tingkat murah. Yang terbesar berikutnya dalam set ini adalah Qwen3 Max pada 262K. Jika beban kerja Anda membutuhkan >300K token, MiMo tidak opsional.
Di bawah: setiap model mendapatkan bagian dengan harga, kemampuan, dan beban kerja di mana ia unggul.
DeepSeek: termurah per token
Model: V4-Pro ($0,435 masuk / $0,87 keluar / $0,003625 cache hit, konteks 128K), V4-Flash ($0,14 / $0,28).
DeepSeek V4-Pro adalah batas bawah harga tier perbatasan Tiongkok. Pemotongan permanen pada 22 Mei menempatkan token keluaran pada $0,87/MTok, kira-kira 34x di bawah GPT-5.5 dan 17x di bawah Claude Opus 4.7. Cache-hit pada $0,003625/MTok adalah tarif pihak pertama terendah dari laboratorium besar mana pun. Dikonfirmasi terhadap halaman harga resmi DeepSeek.
Di mana V4-Pro unggul:
- Beban kerja yang banyak menghasilkan keluaran (pembuatan kode, rantai agen, alat konten) di mana Anda menghabiskan 70%+ dari anggaran token Anda untuk keluaran.
- Apa pun dengan prompt sistem 5K hingga 10K-token yang stabil. Cache hit mendorong biaya masukan efektif mendekati nol.
- Produksi yang sensitif biaya di mana Anda dapat menyerap 3 hingga 7 poin celah benchmark dibandingkan GPT-5.5.
Di mana ia tidak cocok:
- Beban kerja dokumen panjang (>128K konteks). MiMo V2.5 adalah pilihan yang lebih murah secara absolut bahkan dengan tarif per-token yang lebih tinggi karena DeepSeek tidak dapat menampung prompt tersebut.
- Obrolan waktu nyata yang kritis latensi. V4-Pro adalah model berpikir dengan waktu-ke-token-pertama 600 hingga 900ms.
Untuk liputan lebih dalam: Pemotongan harga permanen DeepSeek V4-Pro, Apa itu DeepSeek V4, Bagaimana cara menggunakan API DeepSeek V4.
Xiaomi MiMo: opsi konteks 1 juta termurah
Model: MiMo V2.5 Pro ($1,00 masuk / $3,00 keluar / $0,20 cache, konteks 1 juta), MiMo V2 Flash (~$0,10 / ~$0,40, konteks 256K).
Pemotongan permanen Xiaomi pada 27 Mei meratakan harga MiMo V2.5 di seluruh jendela konteks. Tingkat konteks panjang lama, yang mengenakan pengali curam di atas 256K token masukan, telah dihapus. Harga baru menerapkan tarif $1/$3 yang sama apakah Anda mengirim 5K atau 950K token. Pemberitahuan pembaruan harga resmi melabeli pemotongan tersebut "permanen."
Di mana V2.5 Pro unggul:
- RAG dokumen panjang, analisis kode seluruh repositori, ringkasan multi-dokumen, beban kerja apa pun yang sesuai dengan konteks 300K hingga 1 juta token.
- Pemrosesan dokumen bervolume tinggi di mana prediktabilitas harga lebih penting daripada batas absolut.
Di mana ia tidak cocok:
- Obrolan prompt pendek. V2.5 Pro lebih mahal daripada DeepSeek V4-Pro pada panjang konteks apa pun yang dapat ditangani DeepSeek.
- Beban kerja yang kritis latensi. Model Tiongkok yang lebih cepat ada untuk anggaran respons di bawah satu detik.
Jendela konteks 1 juta ditambah tingkat cache yang kompetitif memberi MiMo tempat yang unik secara struktural di pasar. Sampai DeepSeek memperluas konteks melampaui 128K atau Alibaba meratakan harga Qwen, MiMo menguasai kuadran murah-dan-panjang.
Untuk liputan lebih dalam: Berapa Biaya Menggunakan Xiaomi MiMo V2.5 pada Tahun 2026, Harga MiMo V2-Pro & Omni dan cara menggunakan API, Program token gratis Xiaomi MiMo Orbit 100T.
Alibaba Qwen: mesin produksi utama
Model: Qwen3 Max ($0,78 masuk / $3,90 keluar / $0,156 cache, konteks 262K). Qwen 3.7 Max yang lebih baru dengan $2,50/MTok masukan dengan konteks 1 juta sedang dalam peluncuran awal. Tarif diverifikasi terhadap lembar Qwen3 Max pricepertoken.
Qwen3 Max adalah unggulan Alibaba dan model Tiongkok yang paling banyak digunakan dalam produksi internasional. Harganya kompetitif tetapi tidak pada tingkat terendah: 1,8x DeepSeek V4-Pro pada masukan, 4,5x pada keluaran. Premium ini membayar ekosistem alat terlengkap (drop-in protokol Anthropic, kompatibel dengan OpenAI, hosting perusahaan Alibaba Cloud) dan jendela konteks 262K yang menangani sebagian besar beban kerja dokumen perusahaan.
Di mana Qwen3 Max unggul:
- Produksi multibahasa. Korpus pelatihan Qwen sangat condong ke Mandarin dan bahasa-bahasa Asia, menjadikannya pemain non-Inggris terkuat dalam set ini.
- Skenario kepatuhan perusahaan. SLA perusahaan Alibaba dan opsi wilayah cloud adalah yang paling matang dari laboratorium Tiongkok mana pun.
- Beban kerja yang membutuhkan konteks 200K hingga 262K tetapi tidak membenarkan pita kualitas premium MiMo.
Di mana ia tidak cocok:
- Beban kerja yang banyak menghasilkan keluaran dan sensitif biaya. Pada $3,90/MTok keluaran, Anda membayar 4,5x tarif DeepSeek. Jika beban kerja Anda mentolerir kualitas DeepSeek, beralihlah.
Untuk liputan lebih dalam: Qwen 3 vs OpenAI & DeepSeek: perbandingan teknis mendalam untuk pengembang API.
Moonshot Kimi: spesialis pengkodean
Model: Kimi K2.6 dengan harga masukan bertingkat konteks ($0,16 hingga $2,00/MTok di seluruh pita 8K, 32K, 64K, dan 128K), batas bawah cache hit $0,07/MTok, tarif keluaran sekitar $2,50/MTok di pita tengah.
Kimi K2.6 adalah juara cache-hit. Tingkat $0,07/MTok pada hit adalah angka pihak pertama terendah dari laboratorium besar mana pun. Dikombinasikan dengan panggilan alat Kimi yang kuat dan dukungan agen yang berjalan lama, K2.6 adalah model yang unggul dalam alur kerja di mana Anda menggunakan kembali prompt sistem tebal di banyak putaran: agen pengkodean, chatbot dukungan pelanggan dengan prompt persona stabil, pipeline pengambilan dengan blok konteks stabil.
Di mana K2.6 unggul:
- Agen pengkodean (alur kerja bergaya Claude Code). Kepatuhan format panggilan alat yang kuat dan batas bawah cache-hit terendah membuat pola konteks berulang hampir gratis.
- Sesi obrolan berjalan lama di mana prompt sistem dan contoh sedikit-shot stabil.
Di mana ia tidak cocok:
- Beban kerja yang meledak-ledak dan bervariasi di mana prefiks berubah setiap permintaan. Harga masukan bertingkat berarti kejutan panjang konteks dapat melonjakkan tagihan Anda.
- Penganggaran yang dapat diprediksi. Transisi tingkat pada 32K, 64K, dan 128K token masukan berarti jenis kueri yang sama dapat berharga 4x lebih mahal pada hari yang panjang daripada pada hari yang pendek.
Untuk liputan lebih dalam: Apakah harga API Kimi K2 benar-benar sepadan dengan gembar-gembornya bagi pengembang pada tahun 2026.
Zhipu GLM: penantang penalaran
Model: GLM-5 ($1,00 masuk / $3,20 keluar, konteks 200K), GLM-5.1 ($0,98 / $3,08, konteks 200K). Tarif diverifikasi terhadap gambaran harga resmi Z.AI.
GLM-5 Zhipu diluncurkan dengan kenaikan harga 30% dibandingkan GLM-4.7 (langkah kontrarian di pasar yang berlomba-lomba untuk menembus dasar), lalu merilis GLM-5.1 dengan diskon marjinal. Penetapan harga mencerminkan posisi Zhipu: bukan yang termurah, tetapi terkuat dalam penalaran terstruktur dan tugas rantai pemikiran.
Di mana GLM-5 unggul:
- Matematika, penalaran formal, tugas rantai pemikiran terstruktur. GLM-5 memegang papan peringkat pada beberapa benchmark kelas GPQA di antara model-model perbatasan Tiongkok.
- Beban kerja di mana biaya marjinal kecil relatif terhadap biaya jawaban yang salah (analisis keuangan, ringkasan hukum, penalaran ilmiah).
- Alur kerja agen multi-langkah yang mendapat manfaat dari jejak penalaran yang bersih.
Di mana ia tidak cocok:
- Aplikasi yang sensitif biaya. GLM-5 adalah opsi termahal dalam set ini pada masukan dan keluaran gabungan. Jika biaya mentah adalah yang Anda optimalkan, cari di tempat lain.
- Beban kerja yang tidak menghargai penalaran yang kuat. Untuk pembuatan konten atau ringkasan langsung, premium GLM tidak sepadan.
Untuk liputan lebih dalam: GLM-5 vs DeepSeek V3 vs GPT-5: kecepatan, biaya, dan perbandingan pengembang praktis, GLM-5.1 vs Claude, GPT, Gemini, DeepSeek.
Termurah per beban kerja: matriks pembeli
Untuk lima beban kerja produksi umum, berikut adalah model yang unggul:
| Beban Kerja | Pemenang | Mengapa |
|---|---|---|
| Pembuatan kode (banyak keluaran) | DeepSeek V4-Pro | Keluaran $0,87/MTok tidak tertandingi |
| RAG dokumen panjang (konteks >300K) | Xiaomi MiMo V2.5 Pro | Satu-satunya opsi konteks 1 juta dengan harga tetap |
| Agen pengkodean dengan prompt sistem stabil | Kimi K2.6 | Batas bawah cache hit $0,07/MTok |
| Dukungan pelanggan multibahasa | Alibaba Qwen3 Max | Performa non-Inggris terkuat |
| Matematika, penalaran formal, analisis terstruktur | Zhipu GLM-5 | Kualitas rantai pemikiran terbaik |
Tiga pola gabungan yang patut dicatat:
- Routing dua model. Banyak tim produksi mengarahkan 70 hingga 85% lalu lintas ke DeepSeek V4-Pro dan mempertahankan model sekunder mereka pada ujung yang sulit. Penghematannya besar dan penurunan kualitas kecil untuk sebagian besar beban kerja.
- Segmentasi konteks panjang. Jika beban kerja Anda terbagi antara konteks pendek dan panjang, arahkan yang pendek ke DeepSeek dan yang panjang ke MiMo. Rasa sakit penagihan terpadu itu nyata tetapi arbitrase biayanya terlalu besar untuk diabaikan.
- Konsolidasi prefiks cache. Model apa pun yang Anda pilih, audit prompt sistem Anda. Cache hit adalah kemenangan murah yang bertahan dari setiap pertukaran model.
Catatan kualitas dan benchmark
Catatan tentang kualitas, karena harga tidak berarti apa-apa jika model tidak dapat melakukan pekerjaan.
Menurut Artificial Analysis, kelima model dalam perbandingan ini mengelompok dalam jarak 5 hingga 10 poin persentase satu sama lain pada sebagian besar benchmark publik. Perbedaan ujung yang menarik:
- DeepSeek V4-Pro: Kuat dalam pengkodean (SWE-bench Pro sekitar 55%) dan penalaran (GPQA sekitar 90%). Sedikit celah ke GPT-5.5 pada tugas agen jangka panjang.
- MiMo V2.5 Pro: Kuat dalam pengambilan konteks panjang (>95% akurasi jarum pada 800K), rata-rata dalam pengkodean.
- Qwen3 Max: Performa non-Inggris terbaik, kualitas produksi umum yang kuat.
- Kimi K2.6: Kepatuhan format panggilan alat terkuat, terutama untuk panggilan alat paralel.
- GLM-5: Kualitas penalaran rantai pemikiran terbaik dalam set ini.
Jalankan evaluasi 100 sampel Anda sendiri sebelum berkomitmen. Benchmark publik berguna secara direktif tetapi celah yang penting adalah yang ada pada lalu lintas Anda.
Menguji kelima model dengan Apidog
Penyebaran produksi multi-model membutuhkan uji coba multi-model. Apidog menangani kelima API Tiongkok dari satu ruang kerja karena kelimanya menerima badan permintaan OpenAI Chat Completions, dengan sedikit keanehan kompatibilitas. Alur kerjanya:

- Buat satu lingkungan per penyedia di Apidog:
api.deepseek.com,platform.xiaomimimo.com, Alibaba Cloud Model Studio,api.moonshot.cnmilik Moonshot, danopen.bigmodel.cnmilik Zhipu. - Impor skema OpenAI Chat Completion sekali. Ganti URL dasar per lingkungan.
- Jalankan skenario uji yang sama di kelima model dengan satu klik. Bandingkan respons, skor, dan latensi.
- Hubungkan validasi Skema JSON terhadap bentuk
tool_callsuntuk menangkap keanehan format streaming yang unik untuk setiap penyedia.
Unduh Apidog, impor kasus uji Anda, dan Anda memiliki perbandingan lima arah yang berfungsi dalam waktu kurang dari lima belas menit. Alur kerja yang sama kami rekomendasikan dalam ulasan mendalam per model: pemotongan permanen DeepSeek V4-Pro, biaya MiMo V2.5, harga Kimi K2.
Ke mana arah perang harga selanjutnya
Batas bawah harga bergerak dua kali pada bulan Mei. Dua pergerakan lagi kemungkinan akan terjadi sebelum Q3 berakhir.
- Respons Qwen. Alibaba jarang menjadi yang pertama memotong harga, tetapi secara konsisten mengikuti dalam beberapa minggu. Harapkan revisi Qwen3 Max atau pengumuman Qwen 3.8 pada bulan Juli.
- Respons GLM. Kenaikan 30% Zhipu pada GLM-5 terlihat semakin kontrarian. GLM-5.2 dengan pemotongan struktural adalah hal yang masuk akal.
- Penyederhanaan struktural Kimi. Harga konteks bertingkat mulai tidak populer. Moonshot mungkin akan meratakan K2.6 agar sesuai dengan struktur MiMo.
Bangunlah dengan sesuai. Tiga langkah selanjutnya:
- Audit tiga beban kerja teratas Anda terhadap matriks pembeli di atas. Pilih satu untuk uji migrasi minggu ini.
- Kunci prefiks cache Anda. Itu adalah kemenangan terlepas dari model mana yang Anda pilih.
- Hubungkan rangkaian regresi Apidog yang mengarah ke kelima penyedia sehingga putaran pemotongan berikutnya membutuhkan waktu berjam-jam untuk dievaluasi, bukan berminggu-minggu.
Batas bawah harga belum selesai jatuh. Posisikan tumpukan Anda untuk apa yang akan datang.
