Harga GLM-5.2: Biaya API, Masukan Cache, dan Tingkatan Paket Coding GLM (2026)

GLM-5.2 adalah cara murah untuk menjalankan model coding kelas frontier. Z.ai (Zhipu AI) merilisnya dengan bobot terbuka di bawah lisensi MIT, jendela konteks 1M-token, dan kartu tarif API yang jauh lebih murah dibandingkan laboratorium tertutup besar. Halaman ini adalah halaman uang. Anda akan mendapatkan biaya API per-token yang tepat, cara kerja diskon input yang di-cache, contoh dolar yang dikerjakan untuk sesi coding nyata, tingkatan langganan GLM Coding Plan, dan ulasan jujur tentang apakah GLM-5.2 lebih murah daripada GPT-5.5 untuk cara Anda bekerja.

Catatan sebelum angka-angka: Harga AI bergerak cepat, dan beberapa tingkatan GLM Coding Plan bertentangan di seluruh sumber sekunder. Jika suatu angka tidak pasti, itu akan ditandai. Anggap setiap angka yang ditandai sebagai perkiraan dan konfirmasikan harga langsung di z.ai sebelum Anda mengalokasikan anggaran.

tombol

Sekilas biaya API GLM-5.2

Tarif API bayar-sesuai-pakai adalah tempat paling jelas untuk memulai, karena telah dikonfirmasi oleh daftar publik OpenRouter.

Item	Harga	Sumber
Token masukan	$1.40 / 1M	Dikonfirmasi (OpenRouter)
Token keluaran	$4.40 / 1M	Dikonfirmasi (OpenRouter)
Masukan di-cache	~$0.26 / 1M	VentureBeat (atribut)

Jadi, biaya GLM-5.2 per token utama adalah $0.0000014 per token masukan dan $0.0000044 per token keluaran. Keluaran kira-kira 3,1 kali lipat dari harga masukan, yang merupakan bentuk normal untuk model penalaran: token yang dihasilkannya (termasuk jejak pemikirannya) lebih mahal daripada token yang Anda berikan.

Tarif input yang di-cache sekitar $0.26 per 1M token adalah pengungkit yang mengubah segalanya untuk beban kerja agentic dan chat, dan itu dibahas di bagian tersendiri di bawah ini. Angka tersebut berasal dari laporan VentureBeat daripada kartu tarif pihak pertama, jadi atribusikanlah dengan sesuai.

Tidak ada jalur OpenRouter gratis untuk glm-5.2. Jika Anda melihatnya diklaim di tempat lain, itu salah. Anda dapat menjalankan bobot terbuka sendiri dengan biaya perangkat keras Anda sendiri, yang merupakan jenis "gratis" yang berbeda. Untuk jalur itu, lihat panduan pendamping tentang cara menggunakan GLM-5.2 secara gratis dan tulisan sebelumnya tentang menjalankan GLM-5 secara lokal secara gratis.

Cara kerja diskon input yang di-cache

Caching prompt adalah kontrol biaya terbesar pada lembar harga GLM-5.2, dan sebagian besar orang melewatkannya.

Begini mekanismenya. Ketika Anda berulang kali mengirimkan awalan yang panjang dan stabil (prompt sistem, definisi alat agen coding, file besar yang terus Anda referensikan), penyedia dapat meng-cache awalan yang telah diproses. Pada panggilan berikutnya, bagian yang di-cache akan dikenakan tarif input yang di-cache (~$0.26 / 1M) alih-alih tarif input penuh ($1.40 / 1M). Itu adalah diskon sekitar 81% untuk bagian prompt Anda yang berulang.

Di mana ini membuahkan hasil:

Agen coding. Alat seperti Claude Code, Cline, dan Cursor mengirim ulang pembukaan stabil yang besar (instruksi, skema alat, konteks repo) di setiap giliran. Meng-cache pembukaan itu secara dramatis memotong biaya input per giliran. Detail penyiapan ada di panduan GLM-5.2 dengan Claude Code, Cline, dan Cursor.
RAG dan Q&A dokumen. Jika Anda mengajukan banyak pertanyaan terhadap dokumen panjang yang sama, cache dokumen itu sekali dan hanya bayar harga penuh untuk setiap pertanyaan pendek ditambah jawabannya.
Percakapan panjang. Riwayat obrolan yang berkembang adalah awalan stabil yang berkembang. Caching menjaga biaya "mengingat" percakapan tetap rendah.

Dua aturan praktis. Pertama, simpan konten yang digunakan kembali di awal prompt dan konten variabel di akhir; cache berfungsi berdasarkan awalan. Kedua, cache kedaluwarsa, jadi diskon berlaku untuk panggilan yang terjadi berdekatan, bukan untuk permintaan yang Anda buat sekali dalam satu jam.

Menonaktifkan pemikiran sebagai kontrol biaya

GLM-5.2 adalah model penalaran dengan dua tingkat upaya berpikir, Tinggi dan Maks. Z.ai merekomendasikan Maks untuk coding. Tetapi token berpikir adalah token keluaran, dan keluaran adalah sisi mahal dari tagihan dengan $4.40 / 1M. Lebih banyak berpikir berarti lebih banyak token yang dihasilkan berarti tagihan yang lebih besar.

Anda memiliki tuas langsung untuk ini. Dalam API, Anda dapat menonaktifkan pemikiran sepenuhnya:

{
  "model": "glm-5.2",
  "messages": [
    { "role": "user", "content": "Reformat this JSON and return it." }
  ],
  "thinking": { "type": "disabled" }
}

Gunakan level-level tersebut secara sengaja:

Pemikiran dinonaktifkan untuk pekerjaan mekanis yang murah: pemformatan, ekstraksi, penulisan ulang sederhana, klasifikasi. Anda melewatkan jejak penalaran dan hanya membayar untuk jawaban singkat.
Upaya tinggi untuk coding dan analisis sehari-hari di mana Anda menginginkan penalaran yang baik tanpa pengeluaran token maksimal.
Upaya maksimal untuk coding dan matematika yang sulit dan berjangka panjang, di mana pemikiran ekstra benar-benar menguntungkan biaya dalam kebenarannya.

Menyesuaikan tingkat upaya dengan tugas adalah perbedaan antara tagihan keluaran $4.40 dan $1 pada prompt yang sama. Referensi parameter lengkap, termasuk reasoning_effort dan streaming, ada di panduan API GLM-5.2, dan panduan API GLM-5 sebelumnya mencakup bentuk yang kompatibel dengan OpenAI yang sama jika Anda sedang melakukan migrasi.

Contoh biaya yang dikerjakan

Tarif per-token yang abstrak tidak banyak berarti sampai Anda memetakannya ke pekerjaan nyata. Berikut adalah tiga sesi, dengan harga sesuai tarif yang dikonfirmasi.

Contoh 1: satu sesi coding 100K-token. Misalkan Anda menjalankan tugas coding agen yang membaca 100K token konteks (repo Anda, instruksi, konten file) dan menghasilkan 20K token kode dan penalaran.

Input: 100.000 × $1.40 / 1.000.000 = $0.140
Output: 20.000 × $4.40 / 1.000.000 = $0.088
Total: ~$0.23

Contoh 2: sesi yang sama dengan caching. Sekarang asumsikan 80K dari 100K input tersebut adalah awalan stabil (prompt sistem, definisi alat, file yang tidak berubah) yang disajikan dari cache, dan 20K adalah yang baru.

Input yang di-cache: 80.000 × $0.26 / 1.000.000 = $0.021
Input baru: 20.000 × $1.40 / 1.000.000 = $0.028
Output: 20.000 × $4.40 / 1.000.000 = $0.088
Total: ~$0.14

Meng-cache awalan stabil memotong biaya sesi sekitar 40%, dan penghematan akan bertambah semakin banyak giliran yang Anda ambil terhadap konteks yang sama.

Contoh 3: asisten obrolan melakukan ekstraksi dengan pemikiran dimatikan. Bot dukungan memproses 500 pesan sehari. Setiap panggilan mengirimkan 2K token input dan mengembalikan 300 token output, pemikiran dinonaktifkan.

Input: 500 × 2.000 × $1.40 / 1.000.000 = $1.40
Output: 500 × 300 × $4.40 / 1.000.000 = $0.66
Total: ~$2.06 / hari, sekitar $62 sebulan untuk beban kerja 500 panggilan sehari.

Ini adalah perkiraan tarif daftar. Tagihan Anda yang sebenarnya tergantung pada seberapa banyak pemikiran yang Anda izinkan dan berapa banyak input Anda yang masuk ke cache.

Tingkatan GLM Coding Plan

Jika Anda menghabiskan sepanjang hari di dalam agen coding, jalur langganan biasanya lebih murah daripada panggilan API terukur. Z.ai menjual GLM Coding Plan dengan tingkatan bernama (Lite, Pro, Max, ditambah Team), yang terekspos ke Claude Code dan alat serupa melalui endpoint yang kompatibel dengan Anthropic.

Kunci paket adalah kredensial yang berbeda dari kunci API standar. Untuk menyambungkan GLM-5.2 ke Claude Code, Anda mengarahkannya ke endpoint coding dan memilih varian konteks 1M melalui sufiks model [1m]:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

Nilai API_TIMEOUT_MS itu penting. Tanpa batas waktu yang lama, Claude Code dapat menghentikan panggilan konteks besar yang panjang sebelum GLM-5.2 selesai. Beberapa sumber menunjukkan URL dasar coding sebagai open.z.ai/api/paas/v4 sebagai gantinya, jadi verifikasi host yang tepat secara langsung. Penyiapan agen lengkap, termasuk Cline dan Cursor, ada di panduan agen coding GLM-5.2, dan tulisan GLM-5.1 dengan Claude Code sebelumnya mencakup pola yang sama untuk generasi sebelumnya.

Apakah GLM-5.2 lebih murah daripada GPT-5.5?

Ya, pada API terukur, dan dengan selisih yang lebar. Pembingkaian paling jelas datang dari VentureBeat, yang melaporkan bahwa GLM-5.2 "mengalahkan GPT-5.5 dalam coding berjangka panjang dengan sekitar 1/6 biaya." Klaim itu adalah milik VentureBeat, bukan pengukuran Apidog, dan itu menggabungkan kinerja benchmark dengan harga, jadi bacalah sebagai pernyataan nilai direktif daripada rasio per-token.

Pada tingkat kartu tarif, berikut adalah perbandingan tingkat tinggi. GLM-5.2 terdaftar pada $1.40 input / $4.40 output per 1M token. Model frontier tertutup dari OpenAI, Anthropic, dan Google umumnya berada jauh di atas itu untuk tingkatan penalaran teratas mereka, itulah sebabnya pembingkaian "sebagian kecil dari biaya" terus muncul. Untuk rincian kecepatan-dan-biaya yang mengutamakan angka di seluruh model, lihat GLM-5 vs DeepSeek vs GPT-5 tentang kecepatan dan biaya dan perbandingan GLM-5.1 vs Claude, GPT, Gemini, dan DeepSeek yang lebih luas.

Perbandingan langganan lebih bernuansa. Tingkatan GLM Coding Plan yang berat dengan perkiraan ~$80/bulan berada pada kisaran yang sama dengan langganan coding satu kursi termahal dari vendor lain, sehingga faktor penentu menjadi kualitas model pada tugas Anda dan bagaimana paket mengukur penggunaan. Pertanyaan paket-versus-paket (GLM Plan versus Claude Code, Codex, Cursor, dan MiniMax) dibahas secara rinci dalam Claude Code vs Codex vs Cursor vs MiniMax Plan vs GLM Plan.

Satu peringatan tentang benchmark: hasil peluncuran yang memotivasi usulan nilai (SWE-bench Pro 62.1, Terminal-Bench 2.1 pada 81.0, MCP-Atlas 77.0) adalah hasil yang diterbitkan Z.ai. Set lengkapnya diuraikan dalam ulasan mendalam benchmark GLM-5.2, dan perbandingan langsung dengan lab tertutup ada di GLM-5.2 vs GPT-5.5, Claude Opus, dan Gemini.

Jalur penetapan harga mana yang harus Anda pilih?

Panduan keputusan singkat:

Penggunaan yang tidak teratur atau volume rendah: API bayar-sesuai-pakai. Anda hanya membayar untuk apa yang Anda jalankan, dan tarifnya cukup rendah sehingga penggunaan ringan tetap murah.
Coding sepanjang hari dalam agen: Tingkatan GLM Coding Plan. Biaya bulanan yang dapat diprediksi mengalahkan penagihan terukur setelah Anda membuat ratusan panggilan sehari. Verifikasi harga tingkatan terlebih dahulu.
Privasi, offline, atau biaya marginal nol: host sendiri bobot terbuka. Tidak ada tagihan per-token sama sekali, hanya komputasi Anda sendiri. Mulailah dengan menjalankan GLM-5 secara lokal secara gratis atau GLM-5 secara gratis dengan Ollama.

Jalur mana pun yang Anda pilih, dua pengungkit biaya tetap sama: cache awalan stabil Anda, dan kurangi upaya berpikir untuk pekerjaan yang tidak memerlukannya.

Menguji biaya GLM-5.2 sebelum Anda berkomitmen

Sebelum Anda memilih paket, ada baiknya untuk melihat berapa biaya prompt Anda yang sebenarnya dan berapa lama waktu yang dibutuhkan. Anda dapat mengarahkan klien yang kompatibel dengan OpenAI ke endpoint GLM-5.2 dan mengamati penggunaan token per panggilan. Apidog sangat berguna di sini: ini adalah platform API lengkap untuk merancang, men-debug, menguji, dan mendokumentasikan API, sehingga Anda dapat mengirim permintaan ke https://api.z.ai/api/paas/v4/chat/completions, memeriksa respons dan jumlah token, dan menyimpan panggilan sebagai koleksi yang dapat digunakan kembali saat Anda membandingkan tingkat pemikiran dan perilaku caching. Unduh Apidog jika Anda ingin membandingkan kartu tarif dengan lalu lintas Anda sendiri alih-alih mempercayai contoh yang dikerjakan.

tombol

Versi singkatnya: tarif API GLM-5.2 yang dikonfirmasi sebesar $1.40 untuk input dan $4.40 untuk output adalah angka yang harus menjadi patokan. Cache awalan Anda, kelola upaya berpikir, dan verifikasi harga tingkatan Coding Plan secara langsung sebelum Anda berkomitmen.