Benchmark dan Spesifikasi GLM-5.2: SWE-bench Pro, Terminal-Bench, serta Arti Angka-angka

GLM-5.2 dari Z.ai (Zhipu AI) hadir dengan serangkaian angka benchmark, dan beberapa di antaranya benar-benar mencolok. Berita utamanya adalah SWE-bench Pro di 62,1, mengungguli GPT-5.5. Cerita yang lebih besar tersembunyi satu baris di bawahnya: Terminal-Bench melompat dari 62,0 menjadi 81,0 hanya dalam satu generasi. Postingan ini membahas setiap skor benchmark GLM-5.2, menjelaskan apa yang sebenarnya diukur oleh tes tersebut, dan menunjukkan di mana keunggulannya nyata versus di mana itu hanyalah kesalahan pembulatan.

Semua angka peluncuran di sini adalah hasil yang dipublikasikan oleh Z.ai kecuali dinyatakan lain. Ketika sebuah model mengklaim mengalahkan bidangnya berdasarkan kartu skornya sendiri, Anda membacanya dengan skeptis. Jadi, kami akan spesifik tentang apa yang dibuktikan dan tidak dibuktikan oleh setiap benchmark.

💡

Jika Anda membangun atau menguji API saat mengevaluasi model seperti ini, Apidog adalah platform all-in-one yang kami gunakan untuk merancang, men-debug, mem-mock, dan mendokumentasikan endpoint yang dipanggil oleh model-model ini. Lebih lanjut tentang itu nanti, tetapi ini relevan: banyak peningkatan GLM-5.2 muncul dalam pekerjaan agenik dan penggunaan alat, yang merupakan wilayah API.

tombol

Versi singkat: Skor benchmark GLM-5.2 secara sekilas

Berikut adalah tabel benchmark GLM-5.2 lengkap, dengan pesaing terdekat untuk konteks. Perlakukan kolom perbandingan sebagai angka yang dilaporkan Z.ai untuk model-model tersebut, bukan hasil pengujian ulang independen.

Benchmark	Apa yang diukurnya	GLM-5.2	GLM-5.1	GPT-5.5	Claude Opus 4.8
SWE-bench Pro	Perbaikan bug repositori dunia nyata	62.1	58.4	58.6	n/a
Terminal-Bench 2.1	Tugas shell/agen multi-langkah	81.0	62.0	n/a	n/a
MCP-Atlas	Penggunaan alat melalui server MCP	77.0	n/a	75.3	77.8
Ujian Terakhir Kemanusiaan (dengan alat)	Penalaran ahli yang sulit	54.7	n/a	52.2	n/a
AIME 2026	Matematika kompetisi	99.2	n/a	n/a	n/a
GPQA-Diamond	Sains tingkat pascasarjana	91.2	n/a	n/a	n/a

Z.ai juga melaporkan GLM-5.2 sebagai model open-source dengan skor tertinggi di FrontierSWE, PostTrainBench, dan SWE-Marathon. Kita akan membahas apa arti kualifikasi ("open-source") tersebut.

Untuk versi bahasa yang mudah dipahami tentang model ini, lihat Ikhtisar GLM-5.2. Untuk bagaimana ia bersaing dengan model-model proprietary lainnya, ada pembahasan khusus GLM-5.2 vs GPT-5.5, Opus, dan Gemini.

SWE-bench Pro: 62.1 dan apa yang sebenarnya diberitahukannya kepada Anda

SWE-bench Pro adalah versi yang lebih sulit dan dikurasi dari SWE-bench asli. Ia memberikan model masalah GitHub nyata ditambah repositori lengkap, dan memintanya untuk menghasilkan patch yang membuat rangkaian pengujian tersembunyi proyek lulus. Tidak ada pilihan ganda, tidak ada fungsi mainan. Anda memperbaiki bug di seluruh file nyata atau tidak sama sekali.

GLM-5.2 mencetak 62,1. GPT-5.5 berada di 58,6 dan GLM-5.1 di 58,4, menurut Z.ai. Jadi ada dua poin penting yang jujur:

Keunggulan 3,5 poin atas GPT-5.5 signifikan tetapi bukan jurang pemisah. Pada benchmark yang berisik ini, beberapa poin dapat bergeser karena detail test-harness, anggaran coba ulang, dan perancah prompt. Sebut saja "kompetitif di puncak," bukan "dominan."
Peningkatan 3,7 poin dibandingkan GLM-5.1 adalah sinyal yang lebih dapat diandalkan, karena lab yang sama mengukur dengan cara yang sama di dua modelnya sendiri. Perbedaan antar-generasi adalah pembacaan paling bersih yang Anda dapatkan.

Mengapa peduli dengan SWE-bench Pro sama sekali? Karena ini adalah proxy publik terdekat untuk "bisakah model ini melakukan pekerjaan saya yang sebenarnya." Memperbaiki bug dalam codebase yang luas membutuhkan pembacaan kode yang tidak dikenal, menemukan file yang tepat, dan mengedit tanpa merusak tiga hal lainnya. Itulah realitas sehari-hari pekerjaan perangkat lunak, itulah sebabnya model yang berorientasi kode dinilai berdasarkan ini terlebih dahulu.

Terminal-Bench 2.1: 81.0 adalah angka pahlawan

Jika Anda membaca satu baris di tabel, bacalah yang ini. Terminal-Bench mengevaluasi sebuah model sebagai agen dalam shell nyata: menginstal dependensi, menjalankan perintah, mengurai output, pulih dari kesalahan, dan menyelesaikan tugas multi-langkah dari awal hingga akhir. Ia menghargai ketekunan dan disiplin alat, bukan kecerdasan satu kali.

GLM-5.1 mencetak 62,0. GLM-5.2 mencetak 81,0. Itu adalah lompatan 19 poin dalam satu generasi, dan itu adalah statistik kinerja GLM-5.2 yang menonjol karena suatu alasan. Pergi dari "gagal sekitar empat dari sepuluh tugas" menjadi "menyelesaikan sekitar empat dari lima" adalah perbedaan antara model yang Anda pantau dan model yang dapat Anda serahkan ke terminal.

Di sinilah cerita arsitektur terhubung dengan cerita benchmark. Z.ai memuji sparse attention "IndexShare" GLM-5.2, yang menggunakan kembali satu indeks di setiap empat lapisan sparse-attention untuk menjaga biaya perhatian tetap rendah pada konteks yang panjang. Tugas agen berjangka panjang menghasilkan transkrip panjang: perintah, output, perintah, output, selama puluhan giliran. Model yang mempertahankan konteks itu dengan murah dan akurat adalah model yang tidak kehilangan alur di tengah-tengah pembangunan. Lompatan Terminal-Bench adalah hasil praktis dari desain itu. Untuk perbandingan generasi lengkap, lihat GLM-5.2 vs GLM-5.1.

Satu peringatan jujur: Terminal-Bench adalah angka yang dilaporkan Z.ai, dan benchmark agenik sensitif terhadap perancah di sekitar model (batas waktu, percobaan ulang yang diizinkan, prompt harness). Lompatan ini cukup besar sehingga perancah saja tidak mungkin menjelaskannya, tetapi verifikasi pada beban kerja Anda sendiri sebelum mengandalkannya dalam pipeline.

MCP-Atlas: 77.0, dan hasil imbang yang jujur di puncak

MCP-Atlas mengukur penggunaan alat melalui Model Context Protocol, cara standar model memanggil alat dan server eksternal. Ini adalah benchmark yang paling langsung terhubung dengan pekerjaan agen dan API: dapatkah model memilih alat yang tepat, memformat panggilan dengan benar, membaca hasilnya, dan terus bekerja.

GLM-5.2 mencapai 77,0. GPT-5.5 berada di 75,3, dan Claude Opus 4.8 di 77,8, menurut Z.ai. Ini adalah baris di mana Anda harus menahan diri untuk menyatakan pemenang. GLM-5.2 mengalahkan GPT-5.5 sebesar 1,7 dan tertinggal dari Opus 4.8 sebesar 0,8. Itu adalah margin kesalahan pembulatan. Pernyataan yang adil adalah bahwa pada penggunaan alat gaya MCP, ketiganya berada dalam persaingan ketat, dan GLM-5.2 telah mendapatkan tempatnya di kelompok itu.

Itu penting karena penggunaan alat adalah tempat model pengkodean bertemu dengan tumpukan Anda. Setiap panggilan MCP, secara fungsional, adalah interaksi API: permintaan terstruktur, respons untuk diurai, kesalahan untuk ditangani. Jika Anda menghubungkan model ke layanan nyata, Anda menginginkan kebersihan yang sama dengan yang akan Anda terapkan pada integrasi lainnya. Di sinilah tepatnya Apidog cocok. Anda dapat mendefinisikan dan mem-mock endpoint yang akan dijangkau agen, kemudian men-debug payload permintaan dan respons aktual yang dihasilkan model, sebelum Anda membiarkannya bebas di produksi. Unduh Apidog jika Anda ingin menguji panggilan alat tersebut dengan cara yang sama seperti Anda akan menguji API lainnya.

Penalaran dan matematika: HLE 54.7, AIME 99.2, GPQA-Diamond 91.2

Pengkodean bukanlah keseluruhan cerita. GLM-5.2 juga menunjukkan angka penalaran yang kuat.

Ujian Terakhir Kemanusiaan (dengan alat): 54.7. HLE adalah ujian yang sengaja brutal yang mencakup pertanyaan tingkat ahli di banyak bidang, dibangun untuk menahan saturasi yang mudah. Pengaturan "dengan alat" memungkinkan model untuk mencari dan menghitung daripada menjawab secara langsung. Skor GLM-5.2 sebesar 54,7 mengungguli GPT-5.5 sebesar 52,2 (menurut Z.ai). Pada benchmark yang sesulit ini, angka berapa pun di kisaran 50-an adalah hasil yang serius.
AIME 2026: 99.2. AIME adalah matematika kompetisi untuk siswa SMA yang kuat. Skor 99,2 secara efektif adalah skor tertinggi, yang sebagian besar memberi tahu Anda bahwa tes tersebut tidak lagi membedakan model-model terdepan. Ini lebih merupakan sinyal "tidak ada kelemahan di sini" daripada pembeda.
GPQA-Diamond: 91.2. GPQA-Diamond adalah bagian tersulit dari set pertanyaan & jawaban sains tingkat pascasarjana, disaring sehingga non-ahli tidak dapat memecahkannya bahkan dengan akses web. Skor 91,2 menempatkan GLM-5.2 kokoh di wilayah terdepan dalam penalaran teknis.

Pola di antara ini: GLM-5.2 bukanlah spesialis kode sempit yang berantakan dalam matematika atau sains. Dua tingkat upaya berpikir (High dan Max, dengan Max direkomendasikan untuk pengkodean) memungkinkan Anda menukar latensi dengan kedalaman pada masalah yang lebih sulit. Jika Anda menginginkan sudut pandang matematika dan penalaran yang lebih dalam di samping pengkodean, artikel benchmark GLM-5.2 vs para pesaing membawa perbandingan itu lebih jauh.

Klaim “open-source tertinggi”, dibedah

Z.ai melaporkan GLM-5.2 sebagai model open-source teratas di FrontierSWE, PostTrainBench, dan SWE-Marathon. Bacalah kualifikasi itu dengan cermat, karena itu memiliki arti penting.

"Open-source tertinggi" adalah klaim yang lebih sempit daripada "tertinggi, titik." Bidang open-weights adalah kerangka yang relevan di sini: GLM-5.2 dikirimkan di bawah lisensi MIT dengan bobot terbuka dan tanpa batasan regional, yang merupakan proposisi yang berbeda dari model API tertutup yang Anda sewa. Terhadap model open-weights lainnya, menjadi yang teratas di FrontierSWE (tugas perangkat lunak tingkat frontier), PostTrainBench (kemampuan pasca-pelatihan), dan SWE-Marathon (pekerjaan perangkat lunak yang panjang dan berkelanjutan) adalah klaim yang kuat, dan itu adalah klaim yang penting jika batasan Anda adalah "harus bisa di-host sendiri."

Itu tidak sama dengan mengungguli setiap model proprietary pada tes-tes tersebut. Di mana GLM-5.2 benar-benar mengalahkan GPT-5.5, seperti SWE-bench Pro dan HLE, Z.ai mengatakannya secara langsung tanpa embel-embel open-source. Jadi model mentalnya adalah: di atau mendekati batas secara keseluruhan, dan jelas yang pertama di antara model yang dapat Anda unduh dan jalankan sendiri. VentureBeat menyatakan nilainya secara blak-blak, melaporkan bahwa GLM-5.2 "mengalahkan GPT-5.5 dalam pengkodean jangka panjang dengan biaya sekitar seperenam." Itu adalah karakterisasi VentureBeat, yang patut dikaitkan daripada ditegaskan sebagai fakta terukur.

Spesifikasi GLM-5.2 secara sekilas

Benchmark hanya berarti sesuatu dibandingkan dengan realitas perangkat keras dan lisensi. Berikut adalah spesifikasi GLM-5.2 yang membentuk bagaimana skor tersebut diterjemahkan ke pengaturan Anda.

Spesifikasi	Nilai
Parameter	Total ~753B, mixture-of-experts (MoE)
Presisi	BF16
Atensi	Atensi jarang IndexShare (satu indeksir dibagikan per 4 lapisan jarang)
Jendela konteks	1M token (1.048.576)
Output maks	Hingga 128K per dokumen z.ai (verifikasi langsung; OpenRouter tidak mencantumkan angka)
Modalitas	Teks masuk, teks keluar (tidak ada varian visi yang dikonfirmasi)
Upaya berpikir	Tinggi dan Maks; dapat dinonaktifkan
Lisensi	MIT, bobot terbuka, tanpa batasan regional
ID Model	HF `zai-org/GLM-5.2`, API `glm-5.2`, Ollama `glm-5.2`, OpenRouter `z-ai/glm-5.2`

Beberapa catatan tentang membaca bilah sisi ini. Jumlah parameter ~753B adalah ukuran MoE total, bukan jumlah aktif per token, jadi jangan membacanya sebagai "membutuhkan komputasi padat senilai 753B per forward pass," itulah tujuan MoE. Konteks 1M-token adalah spesifikasi yang membuat hasil Terminal-Bench dapat dipercaya: jalannya agen yang panjang membutuhkan tempat untuk menyimpan semua riwayat itu. Pada output maks, berhati-hatilah. Dokumen Z.ai menyebutkan hingga 128K (per Juni 2026, verifikasi batas saat ini di z.ai), tetapi tidak secara konsisten tercantum di seluruh penyedia, jadi perlakukan itu sebagai batas yang didokumentasikan daripada yang dijamin. Dan tidak ada model visi GLM-5.2. Jika Anda melihat "GLM-5.2V" di suatu tempat, itu bukan sesuatu yang telah dikonfirmasi Z.ai.

Penetapan harga mengikuti logika open-weights: OpenRouter mencantumkan $1,40 per 1M token input dan $4,40 per 1M output, dengan input yang di-cache sekitar $0,26 per 1M (angka VentureBeat). Profil biaya itu adalah tulang punggung dari pernyataan "seperenam biaya". Untuk rincian biaya lengkap termasuk tingkatan GLM Coding Plan, lihat halaman harga GLM-5.2, dan jika Anda ingin menjalankannya tanpa membayar per token, cara menggunakan GLM-5.2 secara gratis mencakup jalur self-host.

Cara memverifikasi benchmark ini sendiri

Kartu skor vendor adalah titik awal, bukan putusan. Tiga hal yang harus dilakukan sebelum mempercayai angka-angka ini untuk keputusan nyata:

Baca sumber utama. Blog Z.ai GLM-5.2 dan dokumen Z.ai memuat metodologi resmi. Kartu model Hugging Face memiliki bobot dan konfigurasi jika Anda ingin memeriksa arsitektur secara langsung.
Periksa daftar pihak ketiga. Halaman OpenRouter mengkonfirmasi harga dan ID model, dan entri pustaka Ollama mengkonfirmasi jalur jalankan lokal. Liputan VentureBeat menambahkan kerangka luar pada cerita biaya.
Jalankan evaluasi Anda sendiri. Satu-satunya benchmark yang sepenuhnya penting adalah beban kerja Anda. Hubungkan GLM-5.2 ke tugas nyata, idealnya yang bersifat agen dengan panggilan alat, dan amati bagaimana kinerjanya dalam banyak giliran. Untuk konteks generasi sebelumnya pada latihan yang persis sama ini, tulisan GLM-5.1 dan perbandingan kecepatan dan biaya GLM-5 vs DeepSeek vs GPT-5 adalah dasar yang berguna.

Ketika Anda menjalankan evaluasi beban kerja sendiri, panggilan alat adalah tempat model-model diam-diam bermasalah, JSON yang salah format, pemilihan alat yang salah, penanganan kesalahan yang terabaikan. Mem-mock endpoint tersebut di Apidog memungkinkan Anda mengamati permintaan dan respons aktual model tanpa membebani layanan langsung, yang merupakan cara tercepat untuk membedakan pahlawan benchmark dari model yang bekerja di tumpukan Anda.

Kesimpulan

Lembar benchmark GLM-5.2 tahan terhadap pengawasan lebih baik daripada kebanyakan kartu skor peluncuran. Lompatan Terminal-Bench dari 62,0 ke 81,0 adalah angka yang benar-benar besar, keunggulan SWE-bench Pro atas GPT-5.5 adalah nyata meskipun sederhana, dan hasil MCP-Atlas adalah hasil imbang tiga arah yang jujur di puncak. Gabungkan skor-skor itu dengan bobot terbuka, lisensi MIT, konteks 1M-token, dan ekonomi sekitar seperenam biaya, dan Anda mendapatkan model yang layak mendapatkan evaluasi serius daripada sekadar pandangan sopan.

Benchmark mengarahkan Anda ke model yang tepat. Beban kerja Anda sendiri yang akan mengkonfirmasinya. Ketika Anda menjalankan pengujian itu dan melibatkan panggilan API dan alat nyata, atur endpoint di Apidog sehingga Anda dapat melihat dengan tepat apa yang dikirim dan diterima model, lalu putuskan berdasarkan apa yang dilakukannya di tumpukan Anda, bukan berdasarkan skornya di tumpukan orang lain.