Harga API DeepSeek V4

DeepSeek menerbitkan harga V4 pada hari yang sama model-model tersebut dirilis, 23 April 2026, dan angka-angka tersebut menetapkan standar baru untuk AI terdepan. V4-Flash beroperasi dengan biaya $0,14 per juta token input dan $0,28 per juta token output. V4-Pro beroperasi dengan biaya $1,74 input dan $3,48 output. Keduanya memiliki jendela konteks 1 juta token dan hingga 384 ribu token output. Keduanya juga menawarkan diskon cache-hit yang agresif yang memangkas biaya input sebesar 80% hingga 90% untuk prompt yang berulang.

Panduan ini mencakup daftar harga lengkap, bagaimana caching konteks mengubah biaya per panggilan yang sebenarnya, perbandingan jujur dengan GPT-5.5 dan Claude Opus, dan empat cara untuk menjaga pengeluaran tetap dapat diprediksi di dalam Apidog.

tombol

Untuk gambaran umum produk, lihat apa itu DeepSeek V4. Untuk panduan developer, lihat cara menggunakan DeepSeek V4 API. Untuk jalur tanpa biaya, lihat cara menggunakan DeepSeek V4 secara gratis.

TL;DR

V4-Flash: $0,14 / Juta input (cache miss), $0,028 / Juta input (cache hit), $0,28 / Juta output.
V4-Pro: $1,74 / Juta input (cache miss), $0,145 / Juta input (cache hit), $3,48 / Juta output.
Jendela konteks: 1 Juta token input, 384 Ribu token output, pada kedua varian.
Diskon cache-hit: sekitar 80% untuk Flash, 92% untuk Pro pada awalan yang berulang.
`deepseek-chat` dan `deepseek-reasoner` akan dihentikan pada 24 Juli 2026; penagihan dipetakan ke V4-Flash.
Pada tingkat cache-miss, V4-Pro ~2,9x lebih murah daripada GPT-5.5 pada input dan ~8,6x lebih murah pada output.

Daftar Harga Lengkap

Model	Input (cache miss)	Input (cache hit)	Output	Konteks
`deepseek-v4-flash`	$0,14 / Juta	$0,028 / Juta	$0,28 / Juta	1 Juta / 384 Ribu
`deepseek-v4-pro`	$1,74 / Juta	$0,145 / Juta	$3,48 / Juta	1 Juta / 384 Ribu
`deepseek-chat` (dihentikan 2026-07-24)	dipetakan ke V4-Flash non-thinking	—	—	—
`deepseek-reasoner` (dihentikan 2026-07-24)	dipetakan ke V4-Flash thinking	—	—	—

Tiga detail lebih penting daripada angka mentah.

Pertama, harga sama apakah Anda dalam mode berpikir (thinking mode) atau mode non-berpikir (non-thinking mode). ID model menetapkan tarif; mode penalaran hanya mengubah berapa banyak token yang Anda gunakan pada tarif tersebut.

Kedua, harga cache-hit otomatis. Setiap permintaan dengan awalan yang berulang pada akun yang sama akan mendapatkan manfaat; Anda tidak perlu ikut serta atau melakukan pengaturan apa pun. Awalan harus setidaknya sepanjang 1.024 token dan harus cocok byte-per-byte.

Ketiga, ID `deepseek-chat` dan `deepseek-reasoner` yang lebih lama kini ditagih sebagai alias V4-Flash. Jika Anda belum bermigrasi, Anda sudah mendapatkan kualitas V4-Flash dengan harga V4-Flash; batas waktu penghentian ID adalah 24 Juli 2026.

Context Caching dalam Bahasa Sederhana

Caching adalah tuas biaya terbesar di DeepSeek V4. Polanya sederhana: apa pun yang berulang di seluruh panggilan, terutama prompt sistem yang panjang, skema alat agen, dan konteks RAG, akan ditagih dengan sebagian kecil dari tarif input penuh pada panggilan kedua dan selanjutnya.

Contoh konkret. Anda menjalankan agen dengan prompt sistem 20.000 token yang tidak pernah berubah, lalu mengajukan 100 pertanyaan pengguna yang berbeda masing-masing 200 token.

Tanpa caching:

Input: 100 panggilan × 20.200 token × $1,74 / Juta = $3,52
Output: 100 panggilan × 500 token × $3,48 / Juta = $0,17
Total: $3,69

Dengan caching (panggilan pertama miss, 99 berikutnya hit):

Input panggilan pertama: 20.200 × $1,74 / Juta = $0,035
99 awalan cache-hit berikutnya: 99 × 20.000 × $0,145 / Juta = $0,287
99 giliran pengguna cache-miss berikutnya: 99 × 200 × $1,74 / Juta = $0,034
Output: 100 × 500 × $3,48 / Juta = $0,174
Total: $0,53

Sekitar 7x lebih murah pada beban kerja yang identik. Efek caching bahkan lebih dramatis pada V4-Flash, di mana tarif mentahnya sudah rendah.

Perbandingan dengan GPT-5.5 dan Claude

Perbandingan yang paling diperhatikan oleh sebagian besar tim:

Model	Input (standar)	Input (cached)	Output	Konteks
DeepSeek V4-Flash	$0,14 / Juta	$0,028 / Juta	$0,28 / Juta	1 Juta
DeepSeek V4-Pro	$1,74 / Juta	$0,145 / Juta	$3,48 / Juta	1 Juta
GPT-5.5	$5 / Juta	$1,25 / Juta	$30 / Juta	1 Juta
GPT-5.5 Pro	$30 / Juta	—	$180 / Juta	1 Juta
Claude Opus 4.6	$15 / Juta	$1,50 / Juta	$75 / Juta	200 Ribu

Tiga interpretasi dari tabel ini.

Pada token output, V4-Pro sekitar 8,6x lebih murah daripada GPT-5.5 dan 21x lebih murah daripada Claude Opus 4.6. Output adalah tempat sebagian besar beban kerja agen menghabiskan anggaran mereka; selisih ini berlipat ganda.
Pada input yang di-cache, V4-Pro sekitar 10x lebih murah daripada GPT-5.5 yang di-cache dan 10x lebih murah daripada Claude yang di-cache. Prompt sistem yang panjang, skema alat, dan konteks RAG yang berulang paling berdampak di sini.
Pada rasio benchmark mentah, V4-Pro menyamai atau mengungguli GPT-5.5 pada LiveCodeBench (93,5 vs tingkatan teratas) dan Codeforces (3206 vs 3168) dengan biaya sebagian kecil. Itulah inti dari proposisi nilai open-weights. Lihat apa itu DeepSeek V4 untuk tabel benchmark lengkap.

Peringatan jujur: Claude masih mengungguli V4-Pro pada benchmark pengambilan konteks panjang, dan Gemini 3.1 Pro masih memimpin MMLU-Pro. Jika beban kerja Anda bergantung pada pengambilan informasi yang sangat spesifik (needle-in-a-haystack) di antara jutaan token, penghematan per token mungkin tidak menutupi kesenjangan kualitas.

Pemodelan Biaya untuk Beban Kerja Umum

Empat jenis beban kerja mencakup sebagian besar kasus penggunaan produksi. Berikut adalah biaya masing-masing pada V4-Pro (dasar cache-miss; penghematan cache-hit akan bertambah di atasnya).

1. Perulangan coding agentik (konteks 50K, output 2K, 20 panggilan per tugas)

Input: 50.000 × 20 × $1,74 / Juta = $1,74
Output: 2.000 × 20 × $3,48 / Juta = $0,14
Biaya per tugas: ~$1,88

Bandingkan dengan GPT-5.5 yang kira-kira $6,20 per tugas dengan bentuk yang sama.

2. Q&A Dokumen Panjang (konteks 500K, output 1K)

Input: 500.000 × $1,74 / Juta = $0,87
Output: 1.000 × $3,48 / Juta = $0,003
Biaya per panggilan: ~$0,87

Bandingkan dengan GPT-5.5 yang kira-kira $2,53 per panggilan.

3. Klasifikasi Volume Tinggi (konteks 2K, output 200, 10.000 panggilan)

Gunakan V4-Flash di sini; V4-Pro terlalu berlebihan.

Input: 2.000 × 10.000 × $0,14 / Juta = $2,80
Output: 200 × 10.000 × $0,28 / Juta = $0,56
Biaya eksekusi: ~$3,36

Bandingkan dengan GPT-5.5 yang kira-kira $110 untuk eksekusi yang sama.

4. Chatbot dengan prompt berulang (prompt sistem 10K, 500 token pengguna, 1K output, 1.000 sesi)

Input panggilan pertama: 10.500 × $1,74 / Juta = $0,018
Input cache-hit: 999 × 10.000 × $0,145 / Juta = $1,45
Giliran pengguna cache-miss: 999 × 500 × $1,74 / Juta = $0,87
Output: 1.000 × 1.000 × $3,48 / Juta = $3,48
Biaya eksekusi sesi: ~$5,82

Bandingkan dengan GPT-5.5 dengan caching yang kira-kira $26,35 pada beban kerja yang sama.

Biaya Tersembunyi yang Perlu Diperhatikan

Harga yang tertera bukanlah keseluruhan cerita. Empat item ini seringkali menjadi masalah bagi tim setelah bulan pertama:

Inflasi token mode berpikir. `thinking_max` menghabiskan 3x hingga 10x lebih banyak token output daripada `non-thinking` pada prompt yang sama. Token penalaran tersebut ditagih dengan tarif output. Batasi Think Max dengan sebuah flag.
Pertumbuhan konteks yang senyap. Perulangan agen seringkali mengumpan seluruh percakapan kembali ke setiap giliran. Dengan konteks 1 juta token, ini membengkak dengan cepat. Potong atau rangkum secara agresif.
Badai percobaan ulang. Perulangan yang salah yang mencoba ulang pada setiap respons 500 dapat menggandakan tagihan Anda dalam satu jam. Tambahkan exponential backoff dan batas percobaan ulang yang ketat per permintaan.
Perubahan pengembangan. Mengulang prompt melalui curl akan menjalankan ulang konteks penuh setiap saat. Menggunakan Apidog memangkas ini hingga mendekati nol karena substitusi variabel membuat penyesuaian prompt dapat dicoba ulang secara gratis tanpa mengetik ulang seluruh payload.

Lacak biaya di Apidog

Alur kerja yang sebagian besar tim gunakan setelah tagihan menjadi nyata:

Unduh Apidog dan simpan `DEEPSEEK_API_KEY` sebagai variabel rahasia per lingkungan.
Simpan satu permintaan POST ke `https://api.deepseek.com/v1/chat/completions`.
Di panel respons, sematkan `usage.prompt_tokens`, `usage.completion_tokens`, dan `usage.reasoning_tokens`. Setiap panggilan menampilkan perhitungan biaya pada layar yang sama dengan output.
Parameterisasi `model` dan `thinking_mode` sehingga Anda dapat melakukan A/B test V4-Flash vs V4-Pro, dan Non-Think vs Think Max, tanpa menduplikasi permintaan.
Cerminkan koleksi yang sama untuk GPT-5.5 (panduan API GPT-5.5 yang sesuai mendokumentasikan pengaturannya). Satu jendela, kedua penyedia, biaya terlihat.

Alur kerja tersebut menangkap sekitar 80% kejutan biaya yang muncul di faktur akhir bulan.

Empat aturan yang menjaga pengeluaran tetap dapat diprediksi

Default ke V4-Flash. Beralih ke V4-Pro hanya jika Anda telah mengukur celah kualitas yang memengaruhi pendapatan.
Default ke Non-Think. Tingkatkan ke Think High pada tugas yang sulit. Cadangkan Think Max untuk pekerjaan yang sangat kritis kebenarannya.
Batasi `max_tokens`. Batas output 384K adalah pengaman, bukan target. Sebagian besar jawaban produksi cocok dalam 2K.
Kirim telemetri penggunaan. Catat `prompt_tokens`, `completion_tokens`, dan `reasoning_tokens` pada setiap panggilan. Beri peringatan pada lonjakan reasoning-token; mereka menandakan prompt yang secara tidak sengaja masuk ke wilayah Think Max.

FAQ

Apakah ada tingkatan gratis?
Tidak ada tingkatan API bebas penggunaan, tetapi akun baru kadang-kadang menerima sedikit kredit percobaan. Untuk jalur tanpa biaya di luar API, lihat cara menggunakan DeepSeek V4 secara gratis.

Bagaimana cara kerja harga cache-hit?
Awalan 1.024 token atau lebih yang berulang di seluruh permintaan dalam akun yang sama akan ditagih dengan tarif cache-hit. Panggilan pertama membayar tarif cache-miss; panggilan awalan identik berikutnya membayar tarif diskon. Caching bersifat otomatis.

Apakah mode berpikir lebih mahal?
Tarif per token sama. Mode berpikir mengonsumsi lebih banyak token karena model menulis jejak penalaran. Lacak `reasoning_tokens` dalam objek `usage` untuk mengukur biaya sebenarnya.

Apakah harga stabil?
DeepSeek mengubah harga secara berkala. Tarif V3.2 berlaku sepanjang tahun 2025; harga V4 tidak memiliki tanggal akhir yang dipublikasikan. Periksa halaman harga langsung sebelum membuat anggaran.

Apakah V4-Pro dan V4-Flash ditagih dengan tarif output yang sama?
Tidak. Output V4-Pro adalah $3,48 / Juta; output V4-Flash adalah $0,28 / Juta. Rasio 12,4x adalah alasan terbesar untuk default ke V4-Flash.

Apakah endpoint format Anthropic mengubah harga?
Tidak. `https://api.deepseek.com/anthropic` menggunakan tarif yang sama dengan endpoint format OpenAI. Format tidak memengaruhi penagihan.