Berapa Biaya Menggunakan Xiaomi MiMo V2.5 di Tahun 2026?

Harga API Xiaomi MiMo V2.5 turun menjadi $1 per juta token masukan dan $3 per juta token keluaran pada tanggal 27 Mei 2026, dan tim membuat tarif baru ini permanen. Tingkat konteks panjang yang lama, di mana _prompt_ di atas 256K token memiliki pengganda yang tinggi dari tarif dasar, sudah tidak ada lagi. Sekarang hanya ada satu harga, terlepas dari panjang konteks. Untuk sebagian besar beban kerja, intinya adalah satu kalimat: MiMo V2.5 adalah salah satu dari tiga model dengan konteks 1 juta token termurah dalam produksi, dan akan tetap seperti itu.

Ringkasan Cepat

Harga permanen Xiaomi MiMo V2.5 mulai 27 Mei 2026: masukan $1,00, keluaran $3,00, _cached_ $0,20 per juta token, dengan jendela konteks 1 juta token.
Klaim "diskon hingga 99%" adalah nyata pada tingkat konteks panjang. Jadwal sebelumnya meningkat tajam di atas 256K token masukan. Tarif tetap yang baru menghilangkan pengganda tersebut.
Pelanggan Paket Token mendapatkan peningkatan kuota 5x hingga 8x dan _reset_ penuh kredit yang telah digunakan dalam periode validitas mereka.
Pemotongan ini permanen, bukan promosi. Pemberitahuan resmi Xiaomi menyatakan “secara permanen merenovasi seluruh sistem penetapan harga model.”
Konteks: Xiaomi adalah laboratorium Tiongkok kedua yang melakukan pemotongan tingkat _frontier_ permanen minggu ini. DeepSeek menjadikan V4-Pro permanen dengan harga 1/4 dari harga daftar tiga hari sebelumnya.

Apa yang Berubah pada 27 Mei 2026

Pemberitahuan pembaruan harga resmi Xiaomi menjelaskan tiga perubahan. Ketiganya mulai berlaku pada pukul 00:00 waktu Beijing tanggal 27 Mei, yaitu pukul 16:00 UTC tanggal 26 Mei.

1. Harga tetap di semua jendela konteks. Jadwal MiMo V2.5 yang lama menggunakan tarif berjenjang: harga dasar untuk _prompt_ hingga 32K token masukan, pengganda untuk rentang 32K hingga 256K, dan tarif yang lebih tinggi di atas 256K. Jadwal baru memiliki satu angka per jenis token. Aplikasi konteks panjang berhenti membayar 'pajak' konteks panjang.

2. Permanen, bukan promosi. Pemberitahuan tersebut menggunakan frasa “Penurunan Harga Permanen” dua kali dan “secara permanen merenovasi seluruh sistem penetapan harga model” sekali. Tidak ada tanggal kedaluwarsa. Tidak ada klausa pembalikan. Perlakukan ini sebagai harga daftar baru.

3. _Reset_ hadiah Paket Token. Jika Anda menggunakan Paket Token (sistem kuota prabayar Xiaomi), saldo kredit Anda ditingkatkan 5 hingga 8 kali dan setiap kredit yang telah Anda konsumsi dalam periode validitas Anda dikembalikan. Periode validitas itu sendiri tidak diperpanjang, jadi paket yang ada mendapatkan keuntungan anggaran tetapi tidak lebih banyak waktu.

Klaim utama “diskon hingga 99%” berlaku khusus untuk rentang konteks panjang. Harga sebelumnya untuk 256K+ token masukan cukup tinggi sehingga meratakannya menjadi $1/M menghasilkan pengurangan lebih dari 90%. Untuk beban kerja yang berada di tingkat dasar, pemotongan lebih kecil tetapi tetap signifikan.

Daftar Harga Permanen Baru

Harga per 1 juta token, USD, berlaku segera dan permanen:

Model	Masukan	Keluaran	_Cached_	Konteks
MiMo V2.5 Pro	$1,00	$3,00	$0,20	1 juta token
MiMo V2 Flash	~$0,10	~$0,40	$0,02	256 ribu token

Beberapa detail yang tidak dijelaskan secara gamblang oleh tabel:

Tingkat _cache_ ($0,20/M untuk V2.5 Pro) adalah 5x tingkat masukan. Itu rasio yang lebih buruk daripada _input-miss-to-input-hit_ DeepSeek yang 120:1. _Cache_ Xiaomi masih berguna untuk _system prompt_ yang berulang, tetapi penghematannya lebih kecil dalam nilai absolut.
Jendela konteks 1 juta token adalah bagian yang sering diabaikan oleh sebagian besar artikel. Kebanyakan model _frontier_ yang di-hosting di AS memiliki batas 200K hingga 400K. MiMo V2.5 Pro dapat menangani dokumen penuh.
Pemberitahuan tersebut menyebutkan tetapi tidak merinci varian V2.5 Omni dan TTS. Verifikasi hal tersebut secara terpisah di platform.

Untuk harga V2-Pro yang lebih lama sebagai titik referensi, lihat panduan harga MiMo V2-Pro & Omni kami yang permanen.

Apa yang Ditawarkan MiMo V2.5 Selain Harga yang Lebih Murah

Pengumuman 27 Mei adalah peristiwa penetapan harga, tetapi V2.5 sendiri juga merupakan peningkatan yang signifikan dari V2-Pro yang diluncurkan pada bulan April. Tiga perubahan yang patut dicatat:

Konteks praktis yang lebih panjang. V2.5 Pro mempertahankan jendela teoretis 1 juta token, tetapi Xiaomi memperketat kualitas _retrieval_ dalam rentang 200K hingga 800K di mana sebagian besar model konteks panjang mengalami penurunan kinerja. Akurasi _needle-in-haystack_ tetap di atas 95% hingga 800K token.
Kepatuhan format pemanggilan alat yang lebih baik. V2-Pro memiliki masalah yang diketahui dengan pemanggilan alat paralel yang mengembalikan JSON yang salah bentuk di dalam respons _streamed_. V2.5 mengurangi kegagalan tersebut, meskipun tidak sampai nol. Rencanakan validasi skema JSON bagaimanapun caranya.
Korpus pelatihan yang diperbarui. V2.5 dilatih dengan data hingga Q1 2026. Kutipan dan batas pengetahuan sekitar tiga bulan lebih maju dari V2-Pro.

Tidak ada di antara ini yang merupakan tolok ukur utama, tetapi inilah perubahan yang muncul dalam penerapan produksi nyata. Padukan harga yang lebih murah dengan jendela konteks yang lebih panjang dan andal, dan Anda memiliki pilihan yang belum ada untuk pekerjaan dokumen panjang yang serius sebelum 27 Mei.

Bagaimana MiMo V2.5 Bersaing dengan Model Lain di Pasaran

Perbandingan yang menarik bukanlah dengan V2.5 versi lama. Ini adalah perbandingan dengan opsi API _frontier-tier_ lainnya yang tersedia pada Mei 2026:

Model	Masukan ($/MTok)	Keluaran ($/MTok)	Konteks
Xiaomi MiMo V2.5 Pro	$1,00	$3,00	1 Juta
DeepSeek V4-Pro	$0,435	$0,87	128 Ribu
GPT-5.5	$5,00	$30,00	200 Ribu
Claude Opus 4.7	$3,00	$15,00	200 Ribu
Gemini 3.5 Flash	~$1,50	~$9,00	1 Juta

Tiga poin penting:

DeepSeek V4-Pro masih lebih murah daripada MiMo V2.5 per tokennya. Sekitar 2,3x lebih murah untuk masukan dan 3,5x lebih murah untuk keluaran. Jika biaya per token mentah adalah satu-satunya metrik Anda, DeepSeek menang.
MiMo V2.5 unggul dalam beban kerja konteks 1 juta token. Gemini 3.5 Flash adalah satu-satunya opsi konteks 1 juta token lain dalam tabel, dan 1,5x lebih mahal untuk masukan dan 3x lebih mahal untuk keluaran.
MiMo V2.5 5x lebih murah daripada GPT-5.5 untuk masukan dan 10x lebih murah untuk keluaran, dengan kinerja tolok ukur yang sebanding menurut Artificial Analysis.

Untuk perbandingan sisi DeepSeek ini, lihat Pemotongan Harga Permanen DeepSeek V4-Pro sebesar 75%. Kedua artikel ini adalah bacaan pelengkap. Keduanya membahas pemotongan harga _frontier-tier_ permanen minggu ini dari laboratorium Tiongkok.

Tiga Beban Kerja, Tiga Tagihan Baru

Tiga kasus konkret menggunakan tarif permanen baru:

1. RAG dokumen panjang atas PDF perusahaan. 50.000 _query_/hari, konteks 800K token per _query_, jawaban 1K token. MiMo V2.5 tingkat konteks panjang lama (perkiraan tarif efektif $50/M): sekitar $60.000/bulan. Tarif tetap baru: sekitar $1.225/bulan. Penghematan: $58.775/bulan.

2. Agen peninjau kode. 5.000 _pull request_/hari, konteks repo 30K token, keluaran komentar 2K token. Tagihan bulanan GPT-5.5 lama: sekitar $5.250. MiMo V2.5 baru: sekitar $510. Penghematan: $4.740/bulan.

3. _Chatbot_ dukungan pelanggan. 200.000 putaran/hari, _system prompt_ 4K token, respons 300 token. Tagihan bulanan Claude Opus 4.7 lama: sekitar $11.250. MiMo V2.5 baru: sekitar $805. Penghematan: $10.445/bulan.

Beban kerja #1 adalah di mana MiMo V2.5 membedakan diri dari yang lain. Pekerjaan konteks panjang sangat mahal di setiap API _frontier_ sebelum pemotongan ini. Sekarang tidak lagi. Dokumen yang sama yang dulu dikirim ke _summarizer_ dan _chunking pipeline_ kini dapat langsung masuk ke model secara utuh, tanpa _gymnastics_ anggaran token.

Catatan Singkat tentang _Cache Hits_

Tarif masukan _cached_ $0,20/M 5x lebih murah daripada tarif _cache-miss_ $1,00. Itu adalah diskon _cache_ yang lebih kecil dibandingkan rasio 120:1 DeepSeek, tetapi masih signifikan untuk agen apa pun yang menggunakan kembali _system prompt_ yang stabil.

Contoh penerapan. Misalkan asisten Anda menggunakan _system prompt_ 6.000 token dan menangani 80.000 giliran obrolan per hari, dengan rata-rata pesan pengguna 250 token masukan dan rata-rata respons 600 token keluaran:

Tanpa _cache hits_: 80.000 giliran × 6.250 masukan × $1,00 / 1.000.000 = $500 per hari hanya untuk masukan.
Dengan 60% _cache hits_ pada _prefix system-prompt_: 80.000 × (250 × $1,00 + 6.000 × (0,6 × $0,20 + 0,4 × $1,00)) / 1.000.000 = sekitar $271 per hari. Pengurangan 46%.

Itu bukan 88% yang diberikan oleh _caching_ DeepSeek, tetapi pada beban kerja yang menghabiskan $500/hari untuk masukan, setengah harga adalah uang sungguhan. Tetapkan _system prompt_, urutkan konteks yang diambil secara stabil, dan jangan menyuntikkan _timestamp_ per permintaan ke dalam _prefix_. Aturan yang sama yang menghasilkan _cache hits_ di tempat lain juga berlaku di sini.

Kapan MiMo V2.5 Tepat Digunakan, dan Kapan Tidak

Harga baru menjadikan MiMo V2.5 pilihan _default_ untuk dua kelas beban kerja dan pilihan yang buruk untuk satu kelas.

Pilihan tepat:

RAG dokumen panjang, agen berbasis kode, refaktor seluruh repo. Apa pun yang secara alami cocok dengan konteks >200K token. Harga tetap ditambah jendela 1 juta token tidak tertandingi di tingkat harga murah.
Pemrosesan dokumen bervolume tinggi. Penetapan harga dapat diprediksi dan tarif _cached_ ($0,20/M) memungkinkan Anda memproses _prefix_ identik secara _batch_ dengan murah. Lihat Bagaimana _prompt caching_ meningkatkan kinerja LLM dan mengurangi biaya untuk mekanisme _cache_ di berbagai penyedia.

Pilihan buruk:

Obrolan interaktif yang kritis terhadap latensi. MiMo V2.5 Pro bukanlah model _first-token_ tercepat. Untuk _typeahead_, _autocomplete_, atau obrolan di bawah satu detik, DeepSeek V4-Flash atau Gemini 3.5 Flash memiliki profil latensi yang lebih baik dengan biaya yang serupa.

Peringatan:

Residensi data. Panggilan diarahkan melalui infrastruktur Xiaomi di Tiongkok. Pembicaraan pengadaan yang sama dengan DeepSeek.
Keandalan. API pihak pertama Xiaomi memiliki riwayat operasional yang lebih singkat dibandingkan model _frontier_ yang di-hosting di AS. Untuk produksi yang didukung SLA, arahkan melalui OpenRouter atau _aggregator_ lainnya.
Paritas pemanggilan fungsi. Kompatibel dengan OpenAI pada tingkat skema, dengan kasus-kasus khusus seputar argumen alat yang di-_stream_ dan pemanggilan alat paralel. Uji sebelum Anda _deploy_.

Untuk konteks peluncuran V2-Pro yang menjadi dasar V2.5, lihat Xiaomi Baru Saja Merilis Model AI-nya Sendiri, dan Gratis di OpenRouter. Untuk akses tingkat gratis, program 100T token gratis Xiaomi MiMo Orbit mencakup kelayakan dan pendaftaran.

Menguji MiMo V2.5 dengan Apidog

Kompatibilitas platform dengan OpenAI baik, tetapi tidak sempurna. Verifikasi integrasi Anda sebelum Anda mengarahkan lalu lintas produksi.

Apidog memungkinkan Anda mengarahkan permintaan Chat Completions ke https://platform.xiaomimimo.com/v1 dengan kunci API MiMo Anda, kemudian:

Rekam respons emas dari V2.5 Pro dan putar ulang pada setiap perubahan _prompt_ agar _drift_ terlihat sebelum pengguna melihatnya.
Validasi bentuk `tool_calls` dengan pernyataan Skema JSON. Argumen fungsi _streaming_ adalah di mana celah kompatibilitas OpenAI cenderung terlihat.
Jalankan perbandingan berdampingan terhadap model Anda saat ini (GPT-5.5, Claude, DeepSeek V4-Pro) dengan _batch_ masukan yang sama menggunakan skenario pengujian Apidog.

Unduh Apidog, impor skema OpenAI Chat Completion, ubah URL dasar, dan Anda memiliki _test harness_ V2.5 yang berfungsi dalam waktu kurang dari sepuluh menit. Alur kerja yang sama kami rekomendasikan di Cara menggunakan API DeepSeek V4.

Bagaimana Perang Harga LLM 2026 Terjadi

MiMo V2.5 adalah pemotongan harga _frontier-tier_ permanen kedua dari laboratorium Tiongkok dalam satu minggu. DeepSeek menjadikan V4-Pro permanen dengan harga 1/4 dari harga daftar pada 22 Mei. Kimi K2 memotong harga lebih awal di Q1. OpenAI O3 turun 80% pada bulan Februari. Polanya jelas:

Laboratorium Tiongkok bersaing dalam harga. Pemotongan ini bukan tanda promosi. Ini adalah perubahan struktural.
Laboratorium AS bersaing dalam kapabilitas dan _bundling_. OpenAI dan Anthropic mempertahankan harga tingkat _flagship_ mereka dan mengirimkan fitur (mode berpikir, server MCP, alur kerja agensi) untuk membenarkan premium.
Kesenjangan tolok ukur cukup kecil sehingga sebagian besar beban kerja harus diuji ulang. Tolok ukur publik menempatkan MiMo V2.5 dalam persentase _single-digit_ dari GPT-5.5 pada sebagian besar tugas _coding_ dan penalaran menurut Artificial Analysis.

Untuk gambaran selengkapnya:

Pemotongan harga permanen DeepSeek V4-Pro membahas langkah serupa dari lab Tiongkok.
Harga API Kimi K2 menjelaskan pemotongan besar ketiga dari Tiongkok pada tahun 2026.
Penurunan harga OpenAI O3 mencakup respons AS pada bulan Februari.
Biaya API Gemini 3.0 memetakan strategi tingkat Google.
Rincian biaya API Claude lengkap menjelaskan posisi Opus, Sonnet, dan Haiku. MiMo-7B berada di ceruk yang berbeda; lihat tolok ukur MiMo-7B-RL untuk lini model kecil Xiaomi.

Dampak pada Pengembangan Anda

Pemotongan harga MiMo V2.5 bukanlah _stunt_ pemasaran. Ini adalah penyesuaian harga struktural pada tingkat konteks 1 juta token, dan pemotongan ini permanen. Jika Anda menunda RAG dokumen panjang, agen kode di seluruh repo, atau beban kerja apa pun yang membutuhkan konteks >200K token karena alasan biaya, anggaran yang Anda perkirakan kuartal lalu mungkin melebih-lebihkan kebutuhan kuartal ini hingga satu tingkat besaran.

Tiga langkah konkret selanjutnya:

Ambil tiga beban kerja teratas Anda berdasarkan volume token dan hitung ulang biayanya dengan tarif tetap baru. Yang menjalankan konteks panjang akan mengejutkan Anda.
Jalankan evaluasi 100 sampel terhadap V2.5 Pro dan model Anda saat ini dengan _prompt_ yang identik. Sebagian besar tim menemukan bahwa rentang kualitas dapat diterima untuk 70% hingga 85% lalu lintas.
Siapkan _suite_ regresi Apidog agar pemotongan harga berikutnya, dan itu pasti akan ada, membutuhkan waktu berjam-jam untuk dievaluasi daripada berminggu-minggu.

Batas harga dasar bergerak lagi. Bangunlah sesuai dengan itu.