Intinya
MiniMax M2.5 adalah model AI garis depan yang dirilis pada 12 Februari 2026, mencapai performa canggih (state-of-the-art) dalam pengkodean (80,2% pada SWE-Bench Verified), penggunaan alat agentik, dan tugas produktivitas kantor. Dengan harga hanya $0,30 per jam pada throughput 50 token/detik, harganya sepersepuluh hingga seperduapuluh dari kompetitor seperti Claude Opus 4.6 dan GPT-5, menjadikannya model garis depan pertama yang "kecerdasan terlalu murah untuk diukur" (intelligence too cheap to meter). Model ini menyelesaikan tugas pengkodean yang kompleks 37% lebih cepat dari pendahulunya, menyamai kecepatan Claude Opus 4.6 sambil menghemat 90% biaya per tugas.
Pendahuluan
MiniMax baru saja memperkenalkan M2.5, sebuah model garis depan yang menantang semua yang kita ketahui tentang trade-off biaya-kinerja dalam model bahasa besar. Pengumuman resmi menyediakan detail teknis lengkap. Dengan skor 80,2% pada SWE-Bench Verified—standar emas untuk kemampuan pengkodean—M2.5 tidak hanya kompetitif dengan model-model tingkat atas seperti Claude Opus 4.6 dan GPT-5. Dalam banyak metrik, M2.5 melampaui mereka.
Namun inilah yang membuat pengumuman ini benar-benar mengganggu: harga. Dengan $0,30 per jam untuk berjalan terus-menerus pada 50 token per detik, atau hanya $1 per jam pada 100 token per detik, MiniMax mengklaim M2.5 memberikan "kecerdasan yang terlalu murah untuk diukur." Bagi pengembang dan bisnis, hambatan untuk menyebarkan agen AI canggih baru saja runtuh.
Apa itu MiniMax M2.5?
MiniMax M2.5 adalah model unggulan terbaru dari perusahaan AI Tiongkok MiniMax, yang mewakili iterasi ketiga dalam seri M2 perusahaan yang dirilis hanya dalam tiga setengah bulan (M2 pada akhir Oktober, M2.1 pada akhir 2025, dan M2.5 pada Februari 2026).

Yang membedakan M2.5 adalah fokusnya pada produktivitas dunia nyata daripada sekadar performa benchmark. Dilatih secara ekstensif dengan pembelajaran penguatan (reinforcement learning) di ratusan ribu lingkungan dunia nyata yang kompleks, M2.5 dirancang untuk menangani tugas-tugas bernilai ekonomi yang dihadapi pengembang dan pekerja pengetahuan setiap hari.

Model ini hadir dalam dua varian:
- M2.5: Throughput 50 token per detik, setengah biaya Lightning
- M2.5-Lightning: 100 token per detik, dioptimalkan untuk kecepatan
Kedua versi mendukung caching konteks dan secara fungsional identik dalam kemampuan, hanya berbeda dalam kecepatan dan harga.
Sekilas Spesifikasi Utama
| Spesifikasi | Nilai |
|---|---|
| Tanggal Rilis | 12 Februari 2026 |
| SWE-Bench Verified | 80,2% |
| Multi-SWE-Bench | 51,3% |
| BrowseComp | 76,3% |
| Throughput (Standar) | 50 TPS |
| Throughput (Lightning) | 100 TPS |
| Harga Input | $0,30 per juta token |
| Harga Output | $2,40 per juta token |
Kemampuan Pengkodean
Jika ada satu area di mana MiniMax M2.5 menunjukkan kekuatannya secara dramatis, itu adalah pengkodean. Model ini mencapai 80,2% pada SWE-Bench Verified—sebuah benchmark yang menguji kemampuan untuk menyelesaikan masalah GitHub dunia nyata—angka yang menempatkannya dengan kokoh dalam kategori canggih (state-of-the-art).

Namun, skor benchmark mentah tidak menceritakan keseluruhan cerita. Yang membuat M2.5 sangat menarik bagi pengembang adalah kemampuan pemikiran arsitekturalnya. Selama pelatihan, model ini mengembangkan apa yang digambarkan MiniMax sebagai "kecenderungan penulisan spesifikasi"—sebelum menulis kode apa pun, M2.5 secara aktif menguraikan dan merencanakan fitur, struktur, dan desain UI dari perspektif arsitek perangkat lunak yang berpengalaman.
Keunggulan Pemrograman Multibahasa
M2.5 dilatih pada lebih dari 10 bahasa pemrograman di lebih dari 200.000 lingkungan dunia nyata:
- Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, dan Ruby
Ini bukan hanya tentang memperbaiki bug. Model ini menangani seluruh siklus pengembangan:
- 0-ke-1: Desain sistem dan penyiapan lingkungan
- 1-ke-10: Pengembangan sistem
- 10-ke-90: Iterasi fitur
- 90-ke-100: Tinjauan kode komprehensif dan pengujian sistem
Pengembangan Full-Stack Lintas Platform
Tidak seperti banyak asisten pengkodean yang fokus terutama pada demo frontend, M2.5 menangani proyek full-stack di berbagai platform: Web, Android, iOS, dan Windows. M2.5 menangani API sisi server, logika bisnis, database, dan arsitektur sistem yang kompleks—bukan hanya komponen halaman web.
Performa Benchmark Melawan Kompetitor
MiniMax menguji M2.5 pada berbagai kerangka agen pengkodean untuk mengevaluasi generalisasi di seluruh lingkungan out-of-distribution:
| Kerangka | M2.5 | Opus 4.6 |
|---|---|---|
| Droid | 79,7% | 78,9% |
| OpenCode | 76,1% | 75,9% |
M2.5 sedikit unggul dari Claude Opus 4.6 pada kedua kerangka agen populer, menunjukkan kemampuan generalisasi yang kuat.
Saat membangun aplikasi bertenaga AI dengan M2.5, Anda perlu menguji API yang menghubungkan aplikasi Anda ke model. Apidog memungkinkan Anda membuat skenario pengujian yang memvalidasi penanganan permintaan/respons, alur autentikasi, dan penanganan kesalahan—penting untuk aplikasi AI produksi.
Penggunaan Alat Agentik dan Pencarian
AI modern bukan hanya tentang menjawab pertanyaan—ini tentang mengambil tindakan. M2.5 menunjukkan kemampuan agentik yang kuat, terutama dalam panggilan alat dan pencarian otonom.
BrowseComp dan Pencarian Luas
Pada benchmark seperti BrowseComp dan Wide Search, M2.5 mencapai performa terkemuka di industri. Namun yang lebih penting, MiniMax membangun RISE (Realistic Interactive Search Evaluation) untuk menguji tugas pencarian profesional dunia nyata—jenis tugas yang membutuhkan eksplorasi mendalam di seluruh halaman web padat informasi, bukan hanya kueri pencarian sederhana.
Pengambilan Keputusan yang Efisien
Mungkin aspek paling mengesankan dari kemampuan agentik M2.5 adalah efisiensinya. Di berbagai tugas agentik termasuk BrowseComp, Wide Search, dan RISE, M2.5 mencapai hasil yang lebih baik dengan sekitar 20% lebih sedikit putaran penalaran dibandingkan dengan M2.1. Ini menunjukkan model tidak hanya mendapatkan jawaban yang benar—ia menemukan jalur yang efisien untuk mencapainya.
Ini memiliki implikasi praktis: panggilan API yang lebih sedikit, biaya yang lebih rendah, dan penyelesaian tugas yang lebih cepat saat menerapkan M2.5 sebagai agen otonom.
Fitur Produktivitas Kantor
Pengkodean bukan satu-satunya area di mana M2.5 unggul. MiniMax secara khusus merancang model ini untuk produktivitas kantor dunia nyata, berkolaborasi dengan para profesional senior di bidang keuangan, hukum, dan ilmu sosial untuk melatih model ini pada output yang benar-benar dapat disampaikan.
Penguasaan Word, PowerPoint, dan Excel
M2.5 menunjukkan peningkatan kemampuan yang signifikan dalam skenario ruang kerja bernilai tinggi:
- Word: Pembuatan dokumen, pemformatan, dan penulisan profesional
- PowerPoint: Desain presentasi dan pembuatan slide
- Excel: Pemodelan keuangan dan operasi spreadsheet kompleks
MiniMax membangun kerangka evaluasi internal yang disebut GDPval-MM yang menilai kualitas output dan profesionalisme seluruh alur kerja agen. Dalam perbandingan langsung dengan model mainstream lainnya, M2.5 mencapai tingkat kemenangan rata-rata 59,0%.
Spesialisasi Pemodelan Keuangan
Model ini secara khusus dilatih pada masalah pemodelan keuangan yang dibuat oleh pakar industri. Ini melibatkan tugas penelitian dan analisis end-to-end yang dilakukan melalui alat Excel, dinilai menggunakan rubrik yang dirancang oleh pakar. Bagi para profesional keuangan, ini bisa mewakili lompatan produktivitas yang signifikan.
Performa dan Kecepatan
Kecepatan penting dalam penerapan dunia nyata. Model yang lebih cerdas tetapi lebih lambat seringkali memberikan pengalaman pengguna yang lebih buruk daripada alternatif yang sedikit kurang mampu tetapi lebih cepat.
Kecepatan Generasi Token
M2.5 disajikan secara asli pada 100 token per detik untuk varian Lightning—hampir dua kali lebih cepat dari model garis depan lainnya. Keunggulan throughput asli ini meningkat secara signifikan saat menangani tugas agentik yang berjalan lama.
Perbandingan Waktu Eksekusi SWE-Bench
| Metrik | M2.1 | M2.5 | Opus 4.6 |
|---|---|---|---|
| Rata-rata token/tugas | 3,72M | 3,52M | - |
| Rata-rata waktu eksekusi | 31,3 menit | 22,8 menit | 22,9 menit |
| Peningkatan kecepatan | - | -37% | - |

M2.5 menyelesaikan evaluasi SWE-Bench Verified 37% lebih cepat dari M2.1, menyamai waktu eksekusi Claude Opus 4.6 sambil menggunakan hanya 3,52 juta token per tugas (dibandingkan dengan 3,72 juta token M2.1).
Harga dan Efisiensi Biaya
Di sinilah M2.5 menjadi benar-benar mengganggu. MiniMax telah memposisikan model ini sebagai AI garis depan pertama di mana pengguna "tidak perlu khawatir tentang biaya."
Struktur Harga
| Model | Throughput | Harga Input | Harga Output |
|---|---|---|---|
| M2.5 | 50 TPS | $0,30/juta token | $2,40/juta token |
| M2.5-Lightning | 100 TPS | $0,60/juta token | $4,80/juta token |
Perbandingan Biaya
Pada throughput output penuh:
- $1 per jam pada 100 TPS (Lightning)
- $0,30 per jam pada 50 TPS (standar)
Ini berarti sekitar sepersepuluh hingga seperduapuluh biaya Opus, Gemini 3 Pro, dan GPT-5 berdasarkan harga output.
Contoh Biaya Dunia Nyata
Menjalankan M2.5 secara terus-menerus selama satu jam hanya membutuhkan biaya $1 dengan kecepatan penuh. Pada 50 TPS, itu turun menjadi $0,30. Sebagai konteks, Anda dapat menjalankan empat instance M2.5 secara terus-menerus selama setahun penuh dengan biaya $10.000.
Untuk bisnis yang menerapkan agen AI dalam skala besar, harga ini secara fundamental mengubah ekonomi. Tugas-tugas yang sebelumnya sangat mahal menjadi layak. Proyek-proyek eksperimental yang akan menghabiskan batasan anggaran menjadi eksplorasi yang terjangkau.
Arsitektur Teknis
Pembelajaran Penguatan Skala Besar
Pendorong utama kemampuan M2.5 adalah peningkatan pembelajaran penguatan. MiniMax mengubah sebagian besar tugas dan ruang kerja perusahaan menjadi lingkungan pelatihan—ratusan ribu skenario dunia nyata di mana model belajar melalui coba-coba.
Forge: Kerangka Kerja RL Asli Agen
MiniMax mengembangkan Forge, sebuah kerangka kerja RL asli agen internal yang memperkenalkan lapisan perantara yang sepenuhnya memisahkan mesin pelatihan-inferensi yang mendasari dari agen. Ini mendukung integrasi agen arbitrer dan memungkinkan optimasi di berbagai kerangka agen dan alat.

Optimasi utama meliputi:
- Strategi penjadwalan asinkron yang menyeimbangkan throughput dengan off-policyness sampel
- Strategi penggabungan berstruktur pohon untuk sampel pelatihan
- Peningkatan kecepatan pelatihan sekitar 40x tercapai
Algoritma CISPO
Untuk stabilitas algoritma selama pelatihan MoE (Mixture of Experts) skala besar, M2.5 terus menggunakan algoritma CISPO yang diusulkan MiniMax pada awal 2025. Untuk mengatasi tantangan penugasan kredit dalam konteks panjang, mereka memperkenalkan mekanisme penghargaan proses untuk pemantauan end-to-end kualitas generasi.
Skala Lingkungan Pelatihan
Berdasarkan angka:
- Ratusan ribu lingkungan pelatihan dunia nyata
- 10+ bahasa pemrograman
- 200.000+ lingkungan kode
- Tugas yang mencakup pengembangan web, Android, iOS, dan Windows
Integrasi Agen MiniMax
M2.5 bukan hanya sebuah API—ia sudah mendukung produk-produk MiniMax sendiri.
Integrasi Keterampilan Kantor
MiniMax menyaring kemampuan pemrosesan informasi inti menjadi Keterampilan Kantor standar yang terintegrasi secara mendalam di dalam MiniMax Agent. Dalam mode MAX, saat menangani pemformatan Word, pengeditan PowerPoint, dan perhitungan Excel, Agen secara otomatis memuat Keterampilan Kantor yang sesuai berdasarkan jenis file.
Pembuatan Ahli
Pengguna dapat menggabungkan Keterampilan Kantor dengan keahlian industri khusus domain untuk membuat Ahli yang dapat digunakan kembali untuk skenario tugas tertentu. Contohnya:
- Riset industri: Gabungkan SOP kerangka riset dengan Keterampilan Word untuk secara otomatis mengambil data, mengatur logika, dan menghasilkan laporan yang terformat
- Pemodelan keuangan: Gabungkan standar pemodelan proprietary dengan Keterampilan Excel untuk mengikuti logika kontrol risiko dan standar perhitungan tertentu
Metrik Adopsi
- Lebih dari 10.000 Ahli dibuat di MiniMax Agent
- 30% dari total tugas MiniMax diselesaikan secara otonom oleh M2.5
- 80% dari kode yang baru di-commit di MiniMax dihasilkan oleh M2.5
Ini bukan kemampuan teoretis—ini adalah teknologi yang telah teruji produksi.
Bagaimana M2.5 Dibandingkan dengan Pesaing
vs Claude Opus 4.6
| Metrik | M2.5 | Opus 4.6 |
|---|---|---|
| SWE-Bench Verified | 80,2% | ~77% |
| Kerangka Droid | 79,7% | 78,9% |
| Kerangka OpenCode | 76,1% | 75,9% |
| Waktu Eksekusi di SWE-Bench | 22,8 menit | 22,9 menit |
| Biaya/tugas | ~$1,50 | ~$15+ |
M2.5 menyamai atau melampaui Opus 4.6 pada benchmark pengkodean sambil menghabiskan biaya sekitar 10% per tugas.
vs GPT-5
- Biaya yang jauh lebih rendah (1/10 hingga 1/20 harga)
- Benchmark pengkodean yang kompetitif
- Fitur produktivitas kantor asli
- Kecepatan inferensi lebih cepat (100 TPS vs. tipikal 30-50 TPS)
vs Gemini 3 Pro
- Harga yang jauh lebih rendah
- Skor SWE-Bench lebih tinggi
- Integrasi produktivitas kantor yang lebih baik
- Pendekatan penskalaan RL yang lebih agresif
Kesimpulan
MiniMax M2.5 mewakili pergeseran paradigma sejati dalam lanskap AI. Untuk pertama kalinya, kita memiliki model garis depan yang menggabungkan kemampuan canggih dengan harga yang memungkinkan penerapan tak terbatas.
Poin-poin penting:
- Performa pengkodean tingkat atas (80,2% SWE-Bench, mengungguli Opus 4.6 pada banyak kerangka)
- Efisiensi agentik (20% lebih sedikit putaran penalaran, 37% lebih cepat dari M2.1)
- Produktivitas kantor (tingkat kemenangan 59% melawan pesaing pada tugas kantor dunia nyata)
- Harga tak tertandingi ($0,30-$1/jam, 1/10 hingga 1/20 dari pesaing)
- Siap produksi (sudah mendukung produk MiniMax sendiri, menghasilkan 80% kode perusahaan)
Pertanyaannya bukan apakah M2.5 patut dicoba—tetapi apakah Anda mampu untuk tidak mencobanya.
Siap membangun dan menguji API bertenaga AI? Unduh Apidog secara gratis dan buat rangkaian pengujian komprehensif untuk integrasi MiniMax Anda. Impor koleksi Postman Anda yang sudah ada dengan satu klik dan mulai pengujian dalam hitungan menit.
FAQ
Apa itu MiniMax M2.5?
MiniMax M2.5 adalah model AI garis depan yang dirilis pada Februari 2026 yang mencapai performa canggih (state-of-the-art) dalam pengkodean, tugas agentik, dan produktivitas kantor. Ini menonjol karena kombinasi benchmark tingkat atas dan harga yang sangat rendah.
Bagaimana MiniMax M2.5 Dibandingkan dengan Claude Opus 4.6?
M2.5 menyamai atau melampaui Claude Opus 4.6 pada sebagian besar benchmark pengkodean (80,2% vs. ~77% pada SWE-Bench Verified) sambil menghabiskan biaya sekitar 90% lebih murah per tugas. Ini menyamai kecepatan waktu eksekusi Opus 4.6 (22,8 vs. 22,9 menit pada SWE-Bench).
Berapa Harga MiniMax M2.5?
M2.5 berharga $0,30 per juta token input dan $2,40 per juta token output (pada 50 TPS). Pada throughput penuh, menjalankan M2.5 terus-menerus selama satu jam hanya berharga $0,30-$1,00, tergantung pada variannya.
Bahasa Pemrograman Apa yang Didukung M2.5?
M2.5 dilatih pada lebih dari 10 bahasa termasuk Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, dan Ruby di lebih dari 200.000 lingkungan dunia nyata.
Apakah MiniMax M2.5 Baik untuk Pekerjaan Kantor?
Ya. M2.5 secara khusus dilatih untuk tugas produktivitas kantor termasuk pemodelan keuangan Word, PowerPoint, dan Excel. Ini mencapai tingkat kemenangan 59% melawan model mainstream lainnya pada tugas kantor dalam evaluasi internal MiniMax.
Bisakah Saya Menggunakan MiniMax M2.5 melalui API?
Ya. MiniMax menyediakan akses API melalui platform mereka di minimax.io. API mendukung varian standar M2.5 (50 TPS) dan M2.5-Lightning (100 TPS).
Apa yang Membuat MiniMax M2.5 Istimewa?
M2.5 adalah "model garis depan" pertama di mana biayanya cukup rendah sehingga pengguna tidak perlu khawatir—perusahaan mengklaimnya sebagai "kecerdasan yang terlalu murah untuk diukur." Dikombinasikan dengan benchmark pengkodean tingkat atas dan kemampuan agentik, ini membuatnya layak untuk penerapan agen berskala besar.
Seberapa Cepat MiniMax M2.5?
M2.5-Lightning menghasilkan 100 token per detik—hampir dua kali lebih cepat dari model garis depan lainnya. Bahkan M2.5 standar berjalan pada 50 TPS. Pada tugas SWE-Bench, ia menyelesaikan evaluasi 37% lebih cepat dari M2.1.
