DeepSeek mengubah diskon sementara paling agresif dalam harga LLM tahun 2026 menjadi harga normal baru. Pada 22 Mei, tim mengumumkan bahwa penawaran diskon 75% untuk DeepSeek-V4-Pro, yang semula akan berakhir pada 31 Mei 2026 pukul 15:59 UTC, tidak akan dikembalikan ke harga semula. Tarif promosi tersebut menjadi harga jual permanen. Input turun menjadi $0,435 per juta token, output menjadi $0,87, dan cache hits menjadi $0,003625. Di bawah ini, kami menguraikan apa yang berubah, apa yang tetap sama, dan apa yang harus dipertimbangkan kembali oleh setiap pengembang API minggu ini.
TL;DR
- Harga API DeepSeek-V4-Pro kini permanen menjadi 1/4 dari harga jual asli: input $0,435/MTok, output $0,87/MTok, cache hit $0,003625/MTok.
- Diskon promosi 75% yang semula akan berakhir pada 31 Mei 2026 kini menjadi tarif reguler. Tidak ada pengembalian harga. Tidak ada kejutan kedaluwarsa.
- V4-Pro kini sekitar 34x lebih murah daripada GPT-5.5 untuk output, sementara kualitasnya berada dalam ~95% dari GPT-5.5 pada sebagian besar benchmark pengkodean dan penalaran.
- Harga cache hit sebesar $0,003625/MTok, potongan 90% di atas potongan utama, adalah detail yang diremehkan. Prompt sistem yang panjang kini hampir gratis di bagian awalan.
- Jika Anda menentukan harga fitur AI Anda berdasarkan GPT-5.5 atau Claude Opus 4.7 pada kuartal lalu, perhitungan pengembangan telah bergeser minggu ini.
Mengapa ini penting sekarang
Harga LLM biasanya bergerak dalam satu arah: turun, perlahan, dengan catatan kaki. DeepSeek melewatkan catatan kaki tersebut. Tim menjalankan promosi agresif sepanjang bulan Mei, melihat lalu lintas pengembang meningkat, dan memutuskan untuk mengunci harga daripada membiarkannya kembali ke harga semula. Itu adalah sinyal struktural tentang arah ekonomi model-model frontier Tiongkok, bukan hanya trik sesaat.
Jika Anda meluncurkan produk apa pun yang memanggil LLM di jalur utama (pelengkapan otomatis, obrolan dengan peningkatan pengambilan, tinjauan kode, loop agen), perbedaan antara $3,48 dan $0,87 per juta token output akan terlihat pada tagihan Anda bulan ini. Kirim 50 juta token output per hari, beban realistis untuk agen apa pun dengan pengguna yang tidak sedikit, dan harga baru ini memotong tagihan LLM bulanan Anda dari sekitar $5.200 menjadi $1.300. Itu setara dengan merekrut tenaga penjualan, atau satu tahun kredit GPU.
Membangun di atas DeepSeek? Apidog memungkinkan Anda membuat, menguji, dan memantau panggilan API V4-Pro dalam satu ruang kerja, termasuk streaming, panggilan alat, dan validasi skema JSON. Unduh Apidog dan Anda dapat mengkloning permintaan dalam artikel ini dalam waktu kurang dari satu menit.
Di sisa postingan ini, Anda akan melihat lembar harga baru yang lengkap, perbandingan langsung dengan GPT-5.5 dan Claude Opus 4.7, perhitungan cache hit yang terlewatkan oleh sebagian besar artikel, tiga skenario tagihan nyata, dan kerangka kerja keputusan lima langkah untuk apakah akan bermigrasi hari ini.
Apa yang berubah: pengumuman diuraikan
Pemberitahuan harga resmi DeepSeek singkat, tetapi setiap baris mengubah angka. Tiga fakta yang patut dicermati:
- Diskon 75% bersifat permanen. Promo yang berlaku hingga 31 Mei 2026 pukul 15:59 UTC seharusnya kembali ke harga jual peluncuran pada 1 Juni. Itu tidak akan terjadi. Tarif promosi adalah tarif jual baru, berlaku surut sejak peluncuran dan seterusnya tanpa batas waktu.
- Pemotongan hanya berlaku untuk V4-Pro. DeepSeek-V4-Flash, dengan $0,14 / $0,28 per juta token, sudah murah. V4-Pro, model tingkat frontier, adalah yang harganya turun. Lihat Apa itu DeepSeek V4 untuk perincian Flash vs Pro.
- Harga cache hit dipotong menjadi 1/10 dari harga peluncuran, berlaku mulai 26 April 2026 pukul 12:15 UTC. Ini adalah perubahan terpisah dari pemotongan utama 75%, dan keduanya saling menumpuk. Hasilnya: cache hit seharga $0,003625/MTok, harga cache model frontier pihak pertama terendah di pasar pada tahun 2026.
Secara bersamaan, pengumuman tersebut menyatakan: DeepSeek bersedia menyerap margin kotor pada model utama untuk mempertahankan minat pengembang. Langkah cache hit menyatakan: mereka ingin Anda membangun agen dan alat konteks panjang secara khusus di V4-Pro. Kedua langkah tersebut mengarah pada strategi yang sama. Menangkan beban kerja inferensi sekarang, monetisasi platform nanti.
Lembar harga permanen baru
Harga per 1 juta token, USD, berlaku segera dan permanen:
| Jenis token | Harga lama | Harga permanen baru | Potongan |
|---|---|---|---|
| Input (cache miss) | $1.74 | $0.435 | 75% |
| Input (cache hit) | $0.0145 | $0.003625 | 75% |
| Output | $3.48 | $0.87 | 75% |
Beberapa poin penting yang tersembunyi dalam tabel:
- Penurunan harga output adalah yang paling memengaruhi tagihan Anda, karena token output mendominasi setiap loop agen di mana model melakukan penalaran atau menulis kode.
- Baris cache hit terlihat kecil karena angka absolutnya kecil. Rasio itulah yang menunjukkan penghematan. Input miss ke input hit kira-kira 120:1. Prompt sistem yang dirancang dengan baik yang mencapai cache 90% dari waktu hampir tidak membayar apa pun untuk input, yang merupakan kunci bagi setiap agen dengan kerangka kerja yang stabil.
- Tarif ini hanya berlaku untuk API. Obrolan web DeepSeek tetap gratis untuk individu.
Untuk konteks historis yang lebih mendalam tentang tingkatan harga V4 dan perbandingan Flash-vs-Pro, lihat referensi Harga API DeepSeek V4 kami.
Bagaimana V4-Pro sekarang dibandingkan dengan GPT-5.5, Claude Opus 4.7, dan Gemini 3.5 Flash
Perbandingan menarik bukanlah dengan V4-Pro yang lama. Melainkan dengan model-model frontier lainnya.
| Model | Input ($/MTok) | Output ($/MTok) | SWE-bench Pro |
|---|---|---|---|
| DeepSeek-V4-Pro (baru) | $0.435 | $0.87 | 55.4% |
| GPT-5.5 | $5.00 | $30.00 | 58.6% |
| Claude Opus 4.7 | $3.00 | $15.00 | ~62% |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | ~48% |
| DeepSeek-V4-Flash | $0.14 | $0.28 | ~42% |
Dua angka yang perlu diingat. Untuk token output, item yang paling memengaruhi tagihan Anda, DeepSeek-V4-Pro 34x lebih murah daripada GPT-5.5 dan 17x lebih murah daripada Claude Opus 4.7. Dalam benchmark, V4-Pro berada dalam jarak 3 hingga 7 poin persentase dari GPT-5.5 pada sebagian besar evaluasi pengkodean dan penalaran publik, menurut perbandingan DataCamp.
Jika beban kerja Anda toleran terhadap latensi dan kualitasnya dapat diterima dalam rentang kecil itu, migrasi adalah masalah matematika dengan satu jawaban. Untuk beban kerja di mana 5 poin terakhir dari skor benchmark penting (keandalan alat agen, perencanaan jangka panjang, matematika sulit), V4-Pro masih lebih murah untuk digunakan sebagai model draf di balik pola speculative-decoding atau kritik.
Untuk ulasan perbandingan langsung yang lebih mendalam, lihat DeepSeek V4 vs Claude Opus 4.5 untuk pengkodean dan GLM-5 vs DeepSeek V3 vs GPT-5: kecepatan, biaya, dan perbandingan pengembang praktis.
Sudut pandang cache hit yang terlewatkan sebagian besar artikel
Semua orang mengutip angka output $0,87. Hanya sedikit yang menjelaskan apa dampak harga input cache hit sebesar $0,003625 terhadap desain sistem.
Cache prompt DeepSeek aktif ketika awalan permintaan Anda identik secara byte dengan permintaan sebelumnya yang baru-baru ini, dalam rentang waktu sekitar 30 menit. Untuk agen obrolan dan pipeline pengambilan, awalan biasanya adalah prompt sistem Anda ditambah definisi alat ditambah kerangka instruksi. Itu biasanya 4.000 hingga 10.000 token yang tidak berubah antar giliran.
Contoh konkret. Misalkan asisten Anda menggunakan prompt sistem 6.000 token dan menangani 100.000 giliran obrolan per hari, dengan pesan pengguna rata-rata 200 token input dan respons rata-rata 800 token output.
- Tanpa cache hits: 100.000 giliran × 6.200 token input × $0,435 / 1.000.000 = $269,70 per hari hanya untuk input.
- Dengan 90% dari token prompt sistem tersebut mencapai cache: 100.000 giliran yang sama membayar 200 × $0,435 ditambah 6.000 × (0,9 × $0,003625 + 0,1 × $0,435) per juta token. Itu menghasilkan sekitar $32 per hari. Pengurangan 88% pada biaya input.
Itu bukan kesalahan pembulatan. Itu adalah perbedaan antara model menjadi item yang berkelanjutan dan item mewah. Untuk lebih lanjut tentang bagaimana caching awalan bekerja di berbagai penyedia, pembahasan mendalam tentang prompt caching kami menjelaskan mekanismenya.
Tiga pola untuk mendapatkan cache hits pada agen nyata:
- Sematkan awalan. Pertahankan prompt sistem, skema alat, dan contoh few-shot dalam satu blok di awal setiap permintaan. Jangan menyisipkan teks khusus sesi ke dalam awalan.
- Urutkan atau hash konteks dinamis. Jika Anda menambahkan potongan yang diambil, urutkan secara stabil atau hash permintaan dan arahkan hash yang identik ke node yang sama. Pergeseran sidik jari kecil dapat menghilangkan cache.
- Lakukan panggilan pemanasan. Saat agen dimulai, kirim satu permintaan dengan awalan lengkap untuk menempatkannya di cache penyedia sebelum lalu lintas pengguna datang.
Apa yang harus Anda lakukan minggu ini
Keputusan migrasi bukanlah biner. Itu tergantung pada jenis beban kerja LLM yang Anda jalankan. Kerangka kerja lima langkah:
1. Ukur rasio output:input Anda saat ini. Jika Anda menghabiskan 80% anggaran token Anda untuk output (agen apa pun, generator kode, atau alat konten), penghematan dari V4-Pro besar. Jika Anda menghabiskan 80% untuk input (RAG pada dokumen panjang), penghematannya lebih kecil tetapi tetap nyata setelah cache hits terjadi.
2. Jalankan evaluasi 100 sampel pada beban kerja nyata Anda. Jangan percaya benchmark publik. Ambil 100 jejak dari lalu lintas produksi Anda, jalankan terhadap V4-Pro dan model Anda saat ini dengan prompt yang identik, dan nilai dengan penilai Anda sendiri. Sebagian besar tim menemukan V4-Pro "cukup baik" untuk 70% hingga 85% lalu lintas mereka.
3. Cocokkan pola berdasarkan rute. Arahkan 70% hingga 85% ke V4-Pro dan pertahankan model premium Anda pada bagian yang sulit. Perubahan tunggal ini memberikan 70%+ penghematan biaya dengan regresi kualitas mendekati nol.
4. Kunci awalan cache. Audit prompt sistem Anda. Apa pun yang bervariasi per permintaan (timestamp, ID pengguna, ID sesi) termasuk dalam pesan pengguna, bukan prompt sistem. Pindahkan.
5. Siapkan pengujian regresi sebelum Anda meluncurkan. Di sinilah Apidog membuktikan nilainya. Rekam respons emas dari model Anda saat ini, lalu putar ulang permintaan yang sama terhadap V4-Pro dan bandingkan keluarannya. Validasi skema JSON Apidog menangkap pergeseran dalam bentuk panggilan alat sebelum mencapai produksi. Unduh Apidog, impor koleksi yang kompatibel dengan OpenAI Anda, ubah URL dasar menjadi https://api.deepseek.com, dan Anda dapat menjalankan uji asap berdampingan dalam waktu kurang dari sepuluh menit.
Untuk panduan langsung mengenai bentuk endpoint V4-Pro, lihat Cara menggunakan DeepSeek V4 API.
Bagaimana V4-Pro dibandingkan dengan penurunan harga lainnya di tahun 2026
DeepSeek bukan satu-satunya laboratorium yang memangkas harga. Pasar LLM 2026 berada dalam fase kompresi margin yang jelas:
- OpenAI O3 turun 80% awal tahun ini. Lihat perincian harga O3 kami untuk perhitungannya.
- Kimi K2 melakukan repricing agresif untuk bersaing dengan tier V3 DeepSeek. Harga API Kimi K2 mencakup detailnya.
- Anthropic Claude mempertahankan harga Opus tetapi memperkenalkan tier Haiku dan Sonnet yang lebih murah. Perincian biaya API Claude lengkap menjelaskan posisi setiap tier.
Pemotongan V4-Pro adalah yang paling agresif tahun ini karena menargetkan rentang kapabilitas frontier, bukan tier anggaran. Itulah mengapa pengumuman ini mengatur ulang pasar dan yang lainnya tidak.
Perhitungan pengembangan telah bergeser
DeepSeek tidak hanya menurunkan harga. Mereka menggambar ulang kurva. Kapabilitas frontier dengan harga output di bawah satu dolar kini menjadi dasar, bukan pengecualian, dan sisa pasar akan merespons. Jika Anda telah menunda fitur LLM karena alasan biaya, anggaran 2026 yang Anda perkirakan kuartal lalu mungkin melebih-lebihkan kebutuhan Anda hingga 4x.
Tiga langkah selanjutnya:
- Audit tiga beban kerja LLM utama Anda terhadap kerangka kerja di atas dan pilih salah satu untuk dimigrasikan minggu ini.
- Kunci awalan cache Anda. Itu adalah kemenangan murah terlepas dari model mana yang Anda gunakan.
- Siapkan rangkaian regresi Apidog sehingga pemotongan harga berikutnya, dan pasti akan ada, membutuhkan waktu berjam-jam untuk dievaluasi, bukan berminggu-minggu.
Bendera promo telah dilepas. Namun diskonnya tidak.
