Potongan Harga Permanen 75% DeepSeek V4-Pro: Dampaknya bagi Developer (2026)

Ashley Innocent

Ashley Innocent

25 May 2026

Potongan Harga Permanen 75% DeepSeek V4-Pro: Dampaknya bagi Developer (2026)

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

DeepSeek mengubah diskon sementara paling agresif dalam harga LLM tahun 2026 menjadi harga normal baru. Pada 22 Mei, tim mengumumkan bahwa penawaran diskon 75% untuk DeepSeek-V4-Pro, yang semula akan berakhir pada 31 Mei 2026 pukul 15:59 UTC, tidak akan dikembalikan ke harga semula. Tarif promosi tersebut menjadi harga jual permanen. Input turun menjadi $0,435 per juta token, output menjadi $0,87, dan cache hits menjadi $0,003625. Di bawah ini, kami menguraikan apa yang berubah, apa yang tetap sama, dan apa yang harus dipertimbangkan kembali oleh setiap pengembang API minggu ini.

TL;DR

Mengapa ini penting sekarang

Harga LLM biasanya bergerak dalam satu arah: turun, perlahan, dengan catatan kaki. DeepSeek melewatkan catatan kaki tersebut. Tim menjalankan promosi agresif sepanjang bulan Mei, melihat lalu lintas pengembang meningkat, dan memutuskan untuk mengunci harga daripada membiarkannya kembali ke harga semula. Itu adalah sinyal struktural tentang arah ekonomi model-model frontier Tiongkok, bukan hanya trik sesaat.

Jika Anda meluncurkan produk apa pun yang memanggil LLM di jalur utama (pelengkapan otomatis, obrolan dengan peningkatan pengambilan, tinjauan kode, loop agen), perbedaan antara $3,48 dan $0,87 per juta token output akan terlihat pada tagihan Anda bulan ini. Kirim 50 juta token output per hari, beban realistis untuk agen apa pun dengan pengguna yang tidak sedikit, dan harga baru ini memotong tagihan LLM bulanan Anda dari sekitar $5.200 menjadi $1.300. Itu setara dengan merekrut tenaga penjualan, atau satu tahun kredit GPU.

Membangun di atas DeepSeek? Apidog memungkinkan Anda membuat, menguji, dan memantau panggilan API V4-Pro dalam satu ruang kerja, termasuk streaming, panggilan alat, dan validasi skema JSON. Unduh Apidog dan Anda dapat mengkloning permintaan dalam artikel ini dalam waktu kurang dari satu menit.

tombol

Di sisa postingan ini, Anda akan melihat lembar harga baru yang lengkap, perbandingan langsung dengan GPT-5.5 dan Claude Opus 4.7, perhitungan cache hit yang terlewatkan oleh sebagian besar artikel, tiga skenario tagihan nyata, dan kerangka kerja keputusan lima langkah untuk apakah akan bermigrasi hari ini.

Apa yang berubah: pengumuman diuraikan

Pemberitahuan harga resmi DeepSeek singkat, tetapi setiap baris mengubah angka. Tiga fakta yang patut dicermati:

  1. Diskon 75% bersifat permanen. Promo yang berlaku hingga 31 Mei 2026 pukul 15:59 UTC seharusnya kembali ke harga jual peluncuran pada 1 Juni. Itu tidak akan terjadi. Tarif promosi adalah tarif jual baru, berlaku surut sejak peluncuran dan seterusnya tanpa batas waktu.
  2. Pemotongan hanya berlaku untuk V4-Pro. DeepSeek-V4-Flash, dengan $0,14 / $0,28 per juta token, sudah murah. V4-Pro, model tingkat frontier, adalah yang harganya turun. Lihat Apa itu DeepSeek V4 untuk perincian Flash vs Pro.
  3. Harga cache hit dipotong menjadi 1/10 dari harga peluncuran, berlaku mulai 26 April 2026 pukul 12:15 UTC. Ini adalah perubahan terpisah dari pemotongan utama 75%, dan keduanya saling menumpuk. Hasilnya: cache hit seharga $0,003625/MTok, harga cache model frontier pihak pertama terendah di pasar pada tahun 2026.

Secara bersamaan, pengumuman tersebut menyatakan: DeepSeek bersedia menyerap margin kotor pada model utama untuk mempertahankan minat pengembang. Langkah cache hit menyatakan: mereka ingin Anda membangun agen dan alat konteks panjang secara khusus di V4-Pro. Kedua langkah tersebut mengarah pada strategi yang sama. Menangkan beban kerja inferensi sekarang, monetisasi platform nanti.

Lembar harga permanen baru

Harga per 1 juta token, USD, berlaku segera dan permanen:

Jenis token Harga lama Harga permanen baru Potongan
Input (cache miss) $1.74 $0.435 75%
Input (cache hit) $0.0145 $0.003625 75%
Output $3.48 $0.87 75%

Beberapa poin penting yang tersembunyi dalam tabel:

Untuk konteks historis yang lebih mendalam tentang tingkatan harga V4 dan perbandingan Flash-vs-Pro, lihat referensi Harga API DeepSeek V4 kami.

Bagaimana V4-Pro sekarang dibandingkan dengan GPT-5.5, Claude Opus 4.7, dan Gemini 3.5 Flash

Perbandingan menarik bukanlah dengan V4-Pro yang lama. Melainkan dengan model-model frontier lainnya.

Model Input ($/MTok) Output ($/MTok) SWE-bench Pro
DeepSeek-V4-Pro (baru) $0.435 $0.87 55.4%
GPT-5.5 $5.00 $30.00 58.6%
Claude Opus 4.7 $3.00 $15.00 ~62%
Gemini 3.5 Flash ~$1.50 ~$9.00 ~48%
DeepSeek-V4-Flash $0.14 $0.28 ~42%

Dua angka yang perlu diingat. Untuk token output, item yang paling memengaruhi tagihan Anda, DeepSeek-V4-Pro 34x lebih murah daripada GPT-5.5 dan 17x lebih murah daripada Claude Opus 4.7. Dalam benchmark, V4-Pro berada dalam jarak 3 hingga 7 poin persentase dari GPT-5.5 pada sebagian besar evaluasi pengkodean dan penalaran publik, menurut perbandingan DataCamp.

Jika beban kerja Anda toleran terhadap latensi dan kualitasnya dapat diterima dalam rentang kecil itu, migrasi adalah masalah matematika dengan satu jawaban. Untuk beban kerja di mana 5 poin terakhir dari skor benchmark penting (keandalan alat agen, perencanaan jangka panjang, matematika sulit), V4-Pro masih lebih murah untuk digunakan sebagai model draf di balik pola speculative-decoding atau kritik.

Untuk ulasan perbandingan langsung yang lebih mendalam, lihat DeepSeek V4 vs Claude Opus 4.5 untuk pengkodean dan GLM-5 vs DeepSeek V3 vs GPT-5: kecepatan, biaya, dan perbandingan pengembang praktis.

Sudut pandang cache hit yang terlewatkan sebagian besar artikel

Semua orang mengutip angka output $0,87. Hanya sedikit yang menjelaskan apa dampak harga input cache hit sebesar $0,003625 terhadap desain sistem.

Cache prompt DeepSeek aktif ketika awalan permintaan Anda identik secara byte dengan permintaan sebelumnya yang baru-baru ini, dalam rentang waktu sekitar 30 menit. Untuk agen obrolan dan pipeline pengambilan, awalan biasanya adalah prompt sistem Anda ditambah definisi alat ditambah kerangka instruksi. Itu biasanya 4.000 hingga 10.000 token yang tidak berubah antar giliran.

Contoh konkret. Misalkan asisten Anda menggunakan prompt sistem 6.000 token dan menangani 100.000 giliran obrolan per hari, dengan pesan pengguna rata-rata 200 token input dan respons rata-rata 800 token output.

Itu bukan kesalahan pembulatan. Itu adalah perbedaan antara model menjadi item yang berkelanjutan dan item mewah. Untuk lebih lanjut tentang bagaimana caching awalan bekerja di berbagai penyedia, pembahasan mendalam tentang prompt caching kami menjelaskan mekanismenya.

Tiga pola untuk mendapatkan cache hits pada agen nyata:

Apa yang harus Anda lakukan minggu ini

Keputusan migrasi bukanlah biner. Itu tergantung pada jenis beban kerja LLM yang Anda jalankan. Kerangka kerja lima langkah:

1. Ukur rasio output:input Anda saat ini. Jika Anda menghabiskan 80% anggaran token Anda untuk output (agen apa pun, generator kode, atau alat konten), penghematan dari V4-Pro besar. Jika Anda menghabiskan 80% untuk input (RAG pada dokumen panjang), penghematannya lebih kecil tetapi tetap nyata setelah cache hits terjadi.

2. Jalankan evaluasi 100 sampel pada beban kerja nyata Anda. Jangan percaya benchmark publik. Ambil 100 jejak dari lalu lintas produksi Anda, jalankan terhadap V4-Pro dan model Anda saat ini dengan prompt yang identik, dan nilai dengan penilai Anda sendiri. Sebagian besar tim menemukan V4-Pro "cukup baik" untuk 70% hingga 85% lalu lintas mereka.

3. Cocokkan pola berdasarkan rute. Arahkan 70% hingga 85% ke V4-Pro dan pertahankan model premium Anda pada bagian yang sulit. Perubahan tunggal ini memberikan 70%+ penghematan biaya dengan regresi kualitas mendekati nol.

4. Kunci awalan cache. Audit prompt sistem Anda. Apa pun yang bervariasi per permintaan (timestamp, ID pengguna, ID sesi) termasuk dalam pesan pengguna, bukan prompt sistem. Pindahkan.

5. Siapkan pengujian regresi sebelum Anda meluncurkan. Di sinilah Apidog membuktikan nilainya. Rekam respons emas dari model Anda saat ini, lalu putar ulang permintaan yang sama terhadap V4-Pro dan bandingkan keluarannya. Validasi skema JSON Apidog menangkap pergeseran dalam bentuk panggilan alat sebelum mencapai produksi. Unduh Apidog, impor koleksi yang kompatibel dengan OpenAI Anda, ubah URL dasar menjadi https://api.deepseek.com, dan Anda dapat menjalankan uji asap berdampingan dalam waktu kurang dari sepuluh menit.

Untuk panduan langsung mengenai bentuk endpoint V4-Pro, lihat Cara menggunakan DeepSeek V4 API.

Bagaimana V4-Pro dibandingkan dengan penurunan harga lainnya di tahun 2026

DeepSeek bukan satu-satunya laboratorium yang memangkas harga. Pasar LLM 2026 berada dalam fase kompresi margin yang jelas:

Pemotongan V4-Pro adalah yang paling agresif tahun ini karena menargetkan rentang kapabilitas frontier, bukan tier anggaran. Itulah mengapa pengumuman ini mengatur ulang pasar dan yang lainnya tidak.

Perhitungan pengembangan telah bergeser

DeepSeek tidak hanya menurunkan harga. Mereka menggambar ulang kurva. Kapabilitas frontier dengan harga output di bawah satu dolar kini menjadi dasar, bukan pengecualian, dan sisa pasar akan merespons. Jika Anda telah menunda fitur LLM karena alasan biaya, anggaran 2026 yang Anda perkirakan kuartal lalu mungkin melebih-lebihkan kebutuhan Anda hingga 4x.

Tiga langkah selanjutnya:

Bendera promo telah dilepas. Namun diskonnya tidak.

tombol

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.

Potongan Harga Permanen 75% DeepSeek V4-Pro: Dampaknya bagi Developer (2026)