Claude Opus 4.8 berharga $5 per juta token masukan dan $25 per juta token keluaran dalam mode standar. Itu tarif yang sama dengan Opus 4.7, jadi jika Anda sudah menganggarkan untuk 4.7, tidak ada yang berubah saat Anda meningkatkan. Bagian yang menarik adalah segala sesuatu di sekitar angka utama itu: mode yang lebih cepat, pengatur pengeluaran token, caching, dan diskon batch yang mengubah tagihan Anda yang sebenarnya jauh lebih banyak daripada tarif dasar.
Panduan ini menguraikan apa yang sebenarnya Anda bayar, dengan contoh-contoh. Untuk ikhtisar model, lihat apa itu Claude Opus 4.8. Untuk mulai membangun, lihat panduan API.
Kartu tarif
| Mode | Masukan (per 1M token) | Keluaran (per 1M token) | Kecepatan |
|---|---|---|---|
| Standar | $5 | $25 | dasar |
| Cepat | $10 | $50 | keluaran 2,5x lebih cepat |
Dua hal menonjol. Pertama, token keluaran berharga lima kali lebih mahal daripada token masukan, sehingga panjang respons Claude yang mengendalikan tagihan Anda, bukan ukuran prompt Anda. Kedua, mode cepat menggandakan tarif untuk keluaran 2,5x lebih cepat. Anthropic mencatat bahwa mode cepat sekitar tiga kali lebih murah dibandingkan dengan model sebelumnya, sehingga premium untuk kecepatan telah turun dari generasi ke generasi.
Anda dapat mengkonfirmasi tarif saat ini di dokumen harga Anthropic.
Untuk apa mode cepat itu
Mode standar adalah default dan pilihan yang tepat untuk sebagian besar beban kerja. Mode cepat ada untuk kasus-kasus di mana latensi adalah produk: asisten pengkodean langsung, agen interaktif, apa pun di mana pengguna sedang melihat kursor. Anda membayar dua kali lipat per token untuk keluaran yang mengalir 2,5x lebih cepat.
Keputusannya sederhana. Jika manusia menunggu respons secara real time, mode cepat bisa sangat berharga. Jika pekerjaan berjalan di latar belakang, loop agen, pekerjaan batch, tugas terjadwal, tetap gunakan mode standar dan hemat uang.
Bagaimana upaya mengubah tagihan Anda
Ini adalah tuas yang sering dilewatkan sebagian besar tim. Parameter effort Opus 4.8 mengontrol berapa banyak token yang dihabiskan model untuk seluruh respons, termasuk panggilan alat. Karena keluaran adalah bagian yang mahal, menurunkan upaya pada pekerjaan yang tidak memerlukan penalaran mendalam akan memangkas biaya secara langsung.
Lima tingkatan, dari yang termurah hingga termahal dalam hal token:
low: jawaban singkat, panggilan alat paling sedikit, pengeluaran terendahmedium: seimbanghigh: default, menyeluruhxhigh: penalaran mendalam, lebih banyak panggilan alat, direkomendasikan untuk pengkodeanmax: tanpa batasan, pengeluaran tertinggi
Tugas klasifikasi dengan upaya low mungkin menggunakan sepersepuluh dari token keluaran yang akan digunakan pada high. Model yang sama, tarif yang sama, sebagian kecil dari tagihan. Panduan upaya Anthropic mencakup di mana setiap tingkat mempertahankan kualitas. Intinya: sesuaikan upaya dengan tugas daripada membayar high di mana-mana.
Skenario biaya yang dihitung
Semua angka menggunakan harga standar ($5 masukan, $25 keluaran per juta token). Ini bersifat ilustratif; jumlah token Anda yang sebenarnya akan bervariasi.
Skenario 1: giliran chatbot. 1.000 token masukan, 500 token keluaran.
- Masukan: 1.000 / 1.000.000 x $5 = $0,005
- Keluaran: 500 / 1.000.000 x $25 = $0,0125
- Total: sekitar $0,018 per giliran
Pada upaya low, keluaran menyusut, menarik biaya per giliran di bawah satu sen.
Skenario 2: tugas pengkodean agen. 50.000 token masukan konteks repo, 8.000 token keluaran pada xhigh.
- Masukan: 50.000 / 1.000.000 x $5 = $0,25
- Keluaran: 8.000 / 1.000.000 x $25 = $0,20
- Total: sekitar $0,45 per tugas
Jika konteks 50K itu berulang di seluruh panggilan, caching prompt menurunkan biaya masukan menjadi sekitar $0,025, memotong total menjadi sekitar $0,23.
Skenario 3: pekerjaan batch semalam. 1.000.000 token masukan, 200.000 token keluaran, dijalankan melalui Batch API dengan diskon 50%.
- Masukan: 1.000.000 / 1.000.000 x $5 x 0,5 = $2,50
- Keluaran: 200.000 / 1.000.000 x $25 x 0,5 = $2,50
- Total: sekitar $5,00 untuk seluruh batch
Untuk perbandingan harga dengan model yang lebih murah, lihat rincian harga Gemini 3.5 Flash dan biaya API Xiaomi MiMo v2.5.
Caching prompt: penghematan tunggal terbesar
Jika Anda mengirim prompt sistem, dokumen, atau codebase yang sama pada setiap panggilan, Anda membayar harga masukan penuh untuk token yang sudah dilihat model. Caching prompt memperbaiki hal itu. Pembacaan masukan yang di-cache dikenakan biaya sebagian kecil dari tarif masukan normal, kira-kira sepersepuluh, setelah penulisan cache awal.
Agen dengan konteks panjang paling banyak menghemat. Prompt sistem 50K-token yang ditagih dengan tarif penuh pada setiap panggilan itu mahal; di-cache, bagian yang berulang hampir tidak berharga. Panggilan pertama menulis cache, setiap panggilan setelahnya membacanya dengan murah.
Batch API dan keluaran besar
Batch API menjalankan pekerjaan dengan diskon saat Anda tidak membutuhkan jawaban real-time. Kirim serangkaian permintaan, dapatkan hasilnya kembali dalam jendela batch, bayar lebih sedikit per token. Ini juga meningkatkan batas keluaran: Opus 4.8 mendukung hingga 300K token keluaran melalui Batch API dengan header beta output-300k-2026-03-24, dibandingkan 128K pada endpoint sinkron.
Gunakan untuk evaluasi, ringkasan massal, pelabelan data, dan setiap pipeline di mana latensi beberapa menit tidak menjadi masalah.
Harga Opus lintas generasi
Opus 4.8 mempertahankan harga. Kisahnya adalah seberapa jauh harga turun dua generasi yang lalu:
| Model | Masukan (per 1M) | Keluaran (per 1M) |
|---|---|---|
| Opus 4.1 | $15 | $75 |
| Opus 4.5 | $5 | $25 |
| Opus 4.6 | $5 | $25 |
| Opus 4.7 | $5 | $25 |
| Opus 4.8 | $5 | $25 |
Opus turun dari $15/$75 menjadi $5/$25 pada generasi 4.5 dan tetap di sana sejak itu, sementara model di balik harga terus meningkat. Anda mendapatkan kualitas 4.8 dengan tarif 4.5. Untuk perbandingan langsung dengan produk unggulan vendor lain, lihat Opus 4.8 vs GPT-5.5 vs Gemini 3.5.
Daftar periksa optimasi biaya
Sebelum Anda menskalakan Opus 4.8, kerjakan daftar ini:
- Atur upaya per tugas. Jangan membayar
highuntuk klasifikasi atauxhighuntuk pencarian. - Cache konteks berulang. Prompt sistem, dokumen, dan basis kode harus di-cache.
- Batch yang tidak mendesak. Pindahkan evaluasi dan pekerjaan massal ke Batch API.
- Batasi
max_tokenssecara wajar. Ini membatasi biaya keluaran kasus terburuk per panggilan. - Tetap gunakan mode standar kecuali jika manusia sedang menunggu secara real time.
- Perhatikan tingkat penggunaan. Batas tarif dan pengeluaran naik bersamaan; perubahan batas mingguan Claude Code adalah pengingat untuk melacak kuota.
Lacak pengeluaran Anda yang sebenarnya dengan Apidog
Estimasi biaya dan biaya sebenarnya menyimpang dengan cepat setelah Anda dalam produksi, karena respons sebenarnya bervariasi dalam panjang dan jumlah panggilan alat. Cara untuk tetap jujur adalah dengan memeriksa objek usage yang dikembalikan setiap respons Messages API, yang melaporkan jumlah token masukan dan keluaran per panggilan.

Apidog membuatnya terlihat:
- Kirim permintaan Opus 4.8 asli dan baca blok
usagedalam respons - Bandingkan jumlah token di berbagai tingkat
effortpada prompt yang sama untuk melihat perbedaan biaya secara langsung - Simpan permintaan untuk setiap beban kerja dan jalankan kembali saat prompt Anda berubah
- Mengejek endpoint sehingga Anda dapat membangun dan menguji tanpa menghabiskan satu token pun
Unduh Apidog, arahkan permintaan ke endpoint Messages, dan jalankan prompt yang sama pada low, high, dan xhigh. Jumlah token akan memberi tahu Anda dengan tepat berapa biaya setiap tingkat upaya sebelum Anda menerapkannya dalam produksi.
FAQ
Berapa biaya Claude Opus 4.8? $5 per juta token masukan dan $25 per juta token keluaran dalam mode standar. Mode cepat adalah $10 dan $50 untuk keluaran 2,5x lebih cepat.
Apakah Opus 4.8 lebih mahal dari Opus 4.7? Tidak. Tarif per token identik, jadi peningkatan dari 4.7 tidak mengubah tagihan Anda.
Apa perbedaan antara harga mode standar dan mode cepat? Mode cepat menggandakan tarif per token sebagai ganti keluaran yang mengalir sekitar 2,5x lebih cepat. Gunakan hanya ketika latensi penting bagi pengguna yang menunggu.
Bagaimana cara menurunkan biaya Opus 4.8 saya? Turunkan tingkat effort pada tugas yang lebih sederhana, cache konten prompt yang berulang, batch pekerjaan yang tidak mendesak, dan jaga max_tokens agar ketat. Token keluaran adalah pendorong biaya utama.
Apakah caching prompt benar-benar menghemat uang? Ya. Setelah panggilan pertama menulis cache, masukan yang berulang dibaca dengan tarif sekitar sepersepuluh dari tarif masukan normal. Agen dengan konteks panjang paling banyak menghemat.
Berapa banyak token keluaran yang dapat dihasilkan Opus 4.8? Hingga 128K pada Messages API sinkron, dan hingga 300K melalui Batch API dengan header beta output-300k-2026-03-24.
Di mana saya melihat penggunaan token per panggilan? Dalam objek usage pada setiap respons Messages API. Alat seperti Apidog menampilkannya sehingga Anda dapat membandingkan biaya di berbagai tingkat upaya.
