Apa itu MiniMax M2.5?

Intinya

MiniMax M2.5 adalah model AI garis depan yang dirilis pada 12 Februari 2026, mencapai performa canggih (state-of-the-art) dalam pengkodean (80,2% pada SWE-Bench Verified), penggunaan alat agentik, dan tugas produktivitas kantor. Dengan harga hanya $0,30 per jam pada throughput 50 token/detik, harganya sepersepuluh hingga seperduapuluh dari kompetitor seperti Claude Opus 4.6 dan GPT-5, menjadikannya model garis depan pertama yang "kecerdasan terlalu murah untuk diukur" (intelligence too cheap to meter). Model ini menyelesaikan tugas pengkodean yang kompleks 37% lebih cepat dari pendahulunya, menyamai kecepatan Claude Opus 4.6 sambil menghemat 90% biaya per tugas.

Pendahuluan

MiniMax baru saja memperkenalkan M2.5, sebuah model garis depan yang menantang semua yang kita ketahui tentang trade-off biaya-kinerja dalam model bahasa besar. Pengumuman resmi menyediakan detail teknis lengkap. Dengan skor 80,2% pada SWE-Bench Verified—standar emas untuk kemampuan pengkodean—M2.5 tidak hanya kompetitif dengan model-model tingkat atas seperti Claude Opus 4.6 dan GPT-5. Dalam banyak metrik, M2.5 melampaui mereka.

Namun inilah yang membuat pengumuman ini benar-benar mengganggu: harga. Dengan $0,30 per jam untuk berjalan terus-menerus pada 50 token per detik, atau hanya $1 per jam pada 100 token per detik, MiniMax mengklaim M2.5 memberikan "kecerdasan yang terlalu murah untuk diukur." Bagi pengembang dan bisnis, hambatan untuk menyebarkan agen AI canggih baru saja runtuh.

💡

Saat membangun aplikasi yang terintegrasi dengan model AI seperti MiniMax M2.5, Anda perlu menguji integrasi API Anda secara menyeluruh. Apidog menyediakan platform pengujian API komprehensif yang mendukung endpoint HTTP, WebSocket, dan GraphQL—sempurna untuk memvalidasi aplikasi bertenaga AI.

Apa itu MiniMax M2.5?

MiniMax M2.5 adalah model unggulan terbaru dari perusahaan AI Tiongkok MiniMax, yang mewakili iterasi ketiga dalam seri M2 perusahaan yang dirilis hanya dalam tiga setengah bulan (M2 pada akhir Oktober, M2.1 pada akhir 2025, dan M2.5 pada Februari 2026).

Yang membedakan M2.5 adalah fokusnya pada produktivitas dunia nyata daripada sekadar performa benchmark. Dilatih secara ekstensif dengan pembelajaran penguatan (reinforcement learning) di ratusan ribu lingkungan dunia nyata yang kompleks, M2.5 dirancang untuk menangani tugas-tugas bernilai ekonomi yang dihadapi pengembang dan pekerja pengetahuan setiap hari.

Model ini hadir dalam dua varian:

M2.5: Throughput 50 token per detik, setengah biaya Lightning
M2.5-Lightning: 100 token per detik, dioptimalkan untuk kecepatan

Kedua versi mendukung caching konteks dan secara fungsional identik dalam kemampuan, hanya berbeda dalam kecepatan dan harga.

Sekilas Spesifikasi Utama

Spesifikasi	Nilai
Tanggal Rilis	12 Februari 2026
SWE-Bench Verified	80,2%
Multi-SWE-Bench	51,3%
BrowseComp	76,3%
Throughput (Standar)	50 TPS
Throughput (Lightning)	100 TPS
Harga Input	$0,30 per juta token
Harga Output	$2,40 per juta token

Kemampuan Pengkodean

Jika ada satu area di mana MiniMax M2.5 menunjukkan kekuatannya secara dramatis, itu adalah pengkodean. Model ini mencapai 80,2% pada SWE-Bench Verified—sebuah benchmark yang menguji kemampuan untuk menyelesaikan masalah GitHub dunia nyata—angka yang menempatkannya dengan kokoh dalam kategori canggih (state-of-the-art).

Namun, skor benchmark mentah tidak menceritakan keseluruhan cerita. Yang membuat M2.5 sangat menarik bagi pengembang adalah kemampuan pemikiran arsitekturalnya. Selama pelatihan, model ini mengembangkan apa yang digambarkan MiniMax sebagai "kecenderungan penulisan spesifikasi"—sebelum menulis kode apa pun, M2.5 secara aktif menguraikan dan merencanakan fitur, struktur, dan desain UI dari perspektif arsitek perangkat lunak yang berpengalaman.

Keunggulan Pemrograman Multibahasa

M2.5 dilatih pada lebih dari 10 bahasa pemrograman di lebih dari 200.000 lingkungan dunia nyata:

Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, dan Ruby

Ini bukan hanya tentang memperbaiki bug. Model ini menangani seluruh siklus pengembangan:

0-ke-1: Desain sistem dan penyiapan lingkungan
1-ke-10: Pengembangan sistem
10-ke-90: Iterasi fitur
90-ke-100: Tinjauan kode komprehensif dan pengujian sistem

Pengembangan Full-Stack Lintas Platform

Tidak seperti banyak asisten pengkodean yang fokus terutama pada demo frontend, M2.5 menangani proyek full-stack di berbagai platform: Web, Android, iOS, dan Windows. M2.5 menangani API sisi server, logika bisnis, database, dan arsitektur sistem yang kompleks—bukan hanya komponen halaman web.

Performa Benchmark Melawan Kompetitor

MiniMax menguji M2.5 pada berbagai kerangka agen pengkodean untuk mengevaluasi generalisasi di seluruh lingkungan out-of-distribution:

Kerangka	M2.5	Opus 4.6
Droid	79,7%	78,9%
OpenCode	76,1%	75,9%

M2.5 sedikit unggul dari Claude Opus 4.6 pada kedua kerangka agen populer, menunjukkan kemampuan generalisasi yang kuat.

Saat membangun aplikasi bertenaga AI dengan M2.5, Anda perlu menguji API yang menghubungkan aplikasi Anda ke model. Apidog memungkinkan Anda membuat skenario pengujian yang memvalidasi penanganan permintaan/respons, alur autentikasi, dan penanganan kesalahan—penting untuk aplikasi AI produksi.

Penggunaan Alat Agentik dan Pencarian

AI modern bukan hanya tentang menjawab pertanyaan—ini tentang mengambil tindakan. M2.5 menunjukkan kemampuan agentik yang kuat, terutama dalam panggilan alat dan pencarian otonom.

BrowseComp dan Pencarian Luas

Pada benchmark seperti BrowseComp dan Wide Search, M2.5 mencapai performa terkemuka di industri. Namun yang lebih penting, MiniMax membangun RISE (Realistic Interactive Search Evaluation) untuk menguji tugas pencarian profesional dunia nyata—jenis tugas yang membutuhkan eksplorasi mendalam di seluruh halaman web padat informasi, bukan hanya kueri pencarian sederhana.

Pengambilan Keputusan yang Efisien

Mungkin aspek paling mengesankan dari kemampuan agentik M2.5 adalah efisiensinya. Di berbagai tugas agentik termasuk BrowseComp, Wide Search, dan RISE, M2.5 mencapai hasil yang lebih baik dengan sekitar 20% lebih sedikit putaran penalaran dibandingkan dengan M2.1. Ini menunjukkan model tidak hanya mendapatkan jawaban yang benar—ia menemukan jalur yang efisien untuk mencapainya.

Ini memiliki implikasi praktis: panggilan API yang lebih sedikit, biaya yang lebih rendah, dan penyelesaian tugas yang lebih cepat saat menerapkan M2.5 sebagai agen otonom.

Fitur Produktivitas Kantor

Pengkodean bukan satu-satunya area di mana M2.5 unggul. MiniMax secara khusus merancang model ini untuk produktivitas kantor dunia nyata, berkolaborasi dengan para profesional senior di bidang keuangan, hukum, dan ilmu sosial untuk melatih model ini pada output yang benar-benar dapat disampaikan.

Penguasaan Word, PowerPoint, dan Excel

M2.5 menunjukkan peningkatan kemampuan yang signifikan dalam skenario ruang kerja bernilai tinggi:

Word: Pembuatan dokumen, pemformatan, dan penulisan profesional
PowerPoint: Desain presentasi dan pembuatan slide
Excel: Pemodelan keuangan dan operasi spreadsheet kompleks

MiniMax membangun kerangka evaluasi internal yang disebut GDPval-MM yang menilai kualitas output dan profesionalisme seluruh alur kerja agen. Dalam perbandingan langsung dengan model mainstream lainnya, M2.5 mencapai tingkat kemenangan rata-rata 59,0%.

Spesialisasi Pemodelan Keuangan

Model ini secara khusus dilatih pada masalah pemodelan keuangan yang dibuat oleh pakar industri. Ini melibatkan tugas penelitian dan analisis end-to-end yang dilakukan melalui alat Excel, dinilai menggunakan rubrik yang dirancang oleh pakar. Bagi para profesional keuangan, ini bisa mewakili lompatan produktivitas yang signifikan.

Performa dan Kecepatan

Kecepatan penting dalam penerapan dunia nyata. Model yang lebih cerdas tetapi lebih lambat seringkali memberikan pengalaman pengguna yang lebih buruk daripada alternatif yang sedikit kurang mampu tetapi lebih cepat.

Kecepatan Generasi Token

M2.5 disajikan secara asli pada 100 token per detik untuk varian Lightning—hampir dua kali lebih cepat dari model garis depan lainnya. Keunggulan throughput asli ini meningkat secara signifikan saat menangani tugas agentik yang berjalan lama.

Perbandingan Waktu Eksekusi SWE-Bench

Metrik	M2.1	M2.5	Opus 4.6
Rata-rata token/tugas	3,72M	3,52M	-
Rata-rata waktu eksekusi	31,3 menit	22,8 menit	22,9 menit
Peningkatan kecepatan	-	-37%	-

M2.5 menyelesaikan evaluasi SWE-Bench Verified 37% lebih cepat dari M2.1, menyamai waktu eksekusi Claude Opus 4.6 sambil menggunakan hanya 3,52 juta token per tugas (dibandingkan dengan 3,72 juta token M2.1).

Harga dan Efisiensi Biaya

Di sinilah M2.5 menjadi benar-benar mengganggu. MiniMax telah memposisikan model ini sebagai AI garis depan pertama di mana pengguna "tidak perlu khawatir tentang biaya."

Struktur Harga

Model	Throughput	Harga Input	Harga Output
M2.5	50 TPS	$0,30/juta token	$2,40/juta token
M2.5-Lightning	100 TPS	$0,60/juta token	$4,80/juta token

Perbandingan Biaya

Pada throughput output penuh:

$1 per jam pada 100 TPS (Lightning)
$0,30 per jam pada 50 TPS (standar)

Ini berarti sekitar sepersepuluh hingga seperduapuluh biaya Opus, Gemini 3 Pro, dan GPT-5 berdasarkan harga output.

Contoh Biaya Dunia Nyata

Menjalankan M2.5 secara terus-menerus selama satu jam hanya membutuhkan biaya $1 dengan kecepatan penuh. Pada 50 TPS, itu turun menjadi $0,30. Sebagai konteks, Anda dapat menjalankan empat instance M2.5 secara terus-menerus selama setahun penuh dengan biaya $10.000.

Untuk bisnis yang menerapkan agen AI dalam skala besar, harga ini secara fundamental mengubah ekonomi. Tugas-tugas yang sebelumnya sangat mahal menjadi layak. Proyek-proyek eksperimental yang akan menghabiskan batasan anggaran menjadi eksplorasi yang terjangkau.

Arsitektur Teknis

Pembelajaran Penguatan Skala Besar

Pendorong utama kemampuan M2.5 adalah peningkatan pembelajaran penguatan. MiniMax mengubah sebagian besar tugas dan ruang kerja perusahaan menjadi lingkungan pelatihan—ratusan ribu skenario dunia nyata di mana model belajar melalui coba-coba.

Forge: Kerangka Kerja RL Asli Agen

MiniMax mengembangkan Forge, sebuah kerangka kerja RL asli agen internal yang memperkenalkan lapisan perantara yang sepenuhnya memisahkan mesin pelatihan-inferensi yang mendasari dari agen. Ini mendukung integrasi agen arbitrer dan memungkinkan optimasi di berbagai kerangka agen dan alat.

Optimasi utama meliputi:

Strategi penjadwalan asinkron yang menyeimbangkan throughput dengan off-policyness sampel
Strategi penggabungan berstruktur pohon untuk sampel pelatihan
Peningkatan kecepatan pelatihan sekitar 40x tercapai

Algoritma CISPO

Untuk stabilitas algoritma selama pelatihan MoE (Mixture of Experts) skala besar, M2.5 terus menggunakan algoritma CISPO yang diusulkan MiniMax pada awal 2025. Untuk mengatasi tantangan penugasan kredit dalam konteks panjang, mereka memperkenalkan mekanisme penghargaan proses untuk pemantauan end-to-end kualitas generasi.

Skala Lingkungan Pelatihan

Berdasarkan angka:

Ratusan ribu lingkungan pelatihan dunia nyata
10+ bahasa pemrograman
200.000+ lingkungan kode
Tugas yang mencakup pengembangan web, Android, iOS, dan Windows

Integrasi Agen MiniMax

M2.5 bukan hanya sebuah API—ia sudah mendukung produk-produk MiniMax sendiri.

Integrasi Keterampilan Kantor

MiniMax menyaring kemampuan pemrosesan informasi inti menjadi Keterampilan Kantor standar yang terintegrasi secara mendalam di dalam MiniMax Agent. Dalam mode MAX, saat menangani pemformatan Word, pengeditan PowerPoint, dan perhitungan Excel, Agen secara otomatis memuat Keterampilan Kantor yang sesuai berdasarkan jenis file.

Pembuatan Ahli

Pengguna dapat menggabungkan Keterampilan Kantor dengan keahlian industri khusus domain untuk membuat Ahli yang dapat digunakan kembali untuk skenario tugas tertentu. Contohnya:

Riset industri: Gabungkan SOP kerangka riset dengan Keterampilan Word untuk secara otomatis mengambil data, mengatur logika, dan menghasilkan laporan yang terformat
Pemodelan keuangan: Gabungkan standar pemodelan proprietary dengan Keterampilan Excel untuk mengikuti logika kontrol risiko dan standar perhitungan tertentu

Metrik Adopsi

Lebih dari 10.000 Ahli dibuat di MiniMax Agent
30% dari total tugas MiniMax diselesaikan secara otonom oleh M2.5
80% dari kode yang baru di-commit di MiniMax dihasilkan oleh M2.5

Ini bukan kemampuan teoretis—ini adalah teknologi yang telah teruji produksi.

Bagaimana M2.5 Dibandingkan dengan Pesaing

vs Claude Opus 4.6

Metrik	M2.5	Opus 4.6
SWE-Bench Verified	80,2%	~77%
Kerangka Droid	79,7%	78,9%
Kerangka OpenCode	76,1%	75,9%
Waktu Eksekusi di SWE-Bench	22,8 menit	22,9 menit
Biaya/tugas	~$1,50	~$15+

M2.5 menyamai atau melampaui Opus 4.6 pada benchmark pengkodean sambil menghabiskan biaya sekitar 10% per tugas.

vs GPT-5

Biaya yang jauh lebih rendah (1/10 hingga 1/20 harga)
Benchmark pengkodean yang kompetitif
Fitur produktivitas kantor asli
Kecepatan inferensi lebih cepat (100 TPS vs. tipikal 30-50 TPS)

vs Gemini 3 Pro

Harga yang jauh lebih rendah
Skor SWE-Bench lebih tinggi
Integrasi produktivitas kantor yang lebih baik
Pendekatan penskalaan RL yang lebih agresif

Kesimpulan

MiniMax M2.5 mewakili pergeseran paradigma sejati dalam lanskap AI. Untuk pertama kalinya, kita memiliki model garis depan yang menggabungkan kemampuan canggih dengan harga yang memungkinkan penerapan tak terbatas.

Poin-poin penting:

Performa pengkodean tingkat atas (80,2% SWE-Bench, mengungguli Opus 4.6 pada banyak kerangka)
Efisiensi agentik (20% lebih sedikit putaran penalaran, 37% lebih cepat dari M2.1)
Produktivitas kantor (tingkat kemenangan 59% melawan pesaing pada tugas kantor dunia nyata)
Harga tak tertandingi ($0,30-$1/jam, 1/10 hingga 1/20 dari pesaing)
Siap produksi (sudah mendukung produk MiniMax sendiri, menghasilkan 80% kode perusahaan)

Pertanyaannya bukan apakah M2.5 patut dicoba—tetapi apakah Anda mampu untuk tidak mencobanya.

Siap membangun dan menguji API bertenaga AI? Unduh Apidog secara gratis dan buat rangkaian pengujian komprehensif untuk integrasi MiniMax Anda. Impor koleksi Postman Anda yang sudah ada dengan satu klik dan mulai pengujian dalam hitungan menit.

button

FAQ

Apa itu MiniMax M2.5?

MiniMax M2.5 adalah model AI garis depan yang dirilis pada Februari 2026 yang mencapai performa canggih (state-of-the-art) dalam pengkodean, tugas agentik, dan produktivitas kantor. Ini menonjol karena kombinasi benchmark tingkat atas dan harga yang sangat rendah.

Bagaimana MiniMax M2.5 Dibandingkan dengan Claude Opus 4.6?

M2.5 menyamai atau melampaui Claude Opus 4.6 pada sebagian besar benchmark pengkodean (80,2% vs. ~77% pada SWE-Bench Verified) sambil menghabiskan biaya sekitar 90% lebih murah per tugas. Ini menyamai kecepatan waktu eksekusi Opus 4.6 (22,8 vs. 22,9 menit pada SWE-Bench).

Berapa Harga MiniMax M2.5?

M2.5 berharga $0,30 per juta token input dan $2,40 per juta token output (pada 50 TPS). Pada throughput penuh, menjalankan M2.5 terus-menerus selama satu jam hanya berharga $0,30-$1,00, tergantung pada variannya.

Bahasa Pemrograman Apa yang Didukung M2.5?

M2.5 dilatih pada lebih dari 10 bahasa termasuk Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, dan Ruby di lebih dari 200.000 lingkungan dunia nyata.

Apakah MiniMax M2.5 Baik untuk Pekerjaan Kantor?

Ya. M2.5 secara khusus dilatih untuk tugas produktivitas kantor termasuk pemodelan keuangan Word, PowerPoint, dan Excel. Ini mencapai tingkat kemenangan 59% melawan model mainstream lainnya pada tugas kantor dalam evaluasi internal MiniMax.

Bisakah Saya Menggunakan MiniMax M2.5 melalui API?

Ya. MiniMax menyediakan akses API melalui platform mereka di minimax.io. API mendukung varian standar M2.5 (50 TPS) dan M2.5-Lightning (100 TPS).

Apa yang Membuat MiniMax M2.5 Istimewa?

M2.5 adalah "model garis depan" pertama di mana biayanya cukup rendah sehingga pengguna tidak perlu khawatir—perusahaan mengklaimnya sebagai "kecerdasan yang terlalu murah untuk diukur." Dikombinasikan dengan benchmark pengkodean tingkat atas dan kemampuan agentik, ini membuatnya layak untuk penerapan agen berskala besar.

Seberapa Cepat MiniMax M2.5?

M2.5-Lightning menghasilkan 100 token per detik—hampir dua kali lebih cepat dari model garis depan lainnya. Bahkan M2.5 standar berjalan pada 50 TPS. Pada tugas SWE-Bench, ia menyelesaikan evaluasi 37% lebih cepat dari M2.1.