DeepSeek merilis V4 pada 23 April 2026, dan ini bukanlah rilis poin minor. Laboratorium Hangzhou merilis empat checkpoint sekaligus, dipuncaki oleh DeepSeek-V4-Pro dengan total 1,6 triliun parameter, lisensi MIT, dan jendela konteks 1 juta token. Adik yang lebih kecil, DeepSeek-V4-Flash, hadir dengan 284 miliar parameter dengan konteks yang sama dan bobot terbuka yang sama. Benchmark menempatkan varian Pro di depan Claude Opus 4.6 pada LiveCodeBench dan Codeforces, dan hampir setara dengan GPT-5.4 xHigh pada MMLU-Pro.
Jika Anda sedang memutuskan apakah akan beralih dari Claude, GPT-5.5, atau Qwen ke DeepSeek V4, panduan ini mencakup apa itu model, apa yang berubah dari V3.2, pilihan arsitektur yang mendorong kisah benchmark, dan di mana menjalankannya hari ini.
Untuk panduan developer yang sesuai, kami memiliki panduan API DeepSeek V4, panduan akses gratis, dan panduan penggunaan DeepSeek V4 lengkap. Bentuk permintaan sangat sesuai dengan format OpenAI, sehingga Anda dapat membuat koleksi di Apidog sebelum kunci mendarat di kotak masuk Anda.
Intinya
- DeepSeek V4 adalah keluarga Mixture-of-Experts yang dirilis pada 23 April 2026 di bawah lisensi MIT.
- Empat checkpoint dikirimkan saat peluncuran: V4-Pro, V4-Pro-Base, V4-Flash, dan V4-Flash-Base.
- V4-Pro memiliki total 1.6T parameter dengan 49B aktif; V4-Flash memiliki total 284B dengan 13B aktif.
- Kedua varian membawa jendela konteks 1M token dan tiga mode penalaran: Non-Think, Think High, dan Think Max.
- Skor utama: LiveCodeBench 93.5, Codeforces 3206, MMLU-Pro 87.5 (varian Pro).
- API sudah tersedia di
api.deepseek.comdengandeepseek-v4-prodandeepseek-v4-flashsebagai ID model; bobot tersedia di Hugging Face dan ModelScope.
Apa sebenarnya DeepSeek V4 itu
DeepSeek V4 adalah penerus seri V3 dan V3.2 yang menjadikan laboratorium ini dikenal luas tahun lalu. Arsitekturnya masih Mixture-of-Experts, tetapi bentuk modelnya telah berubah. V4-Pro hanya mengaktifkan 49 miliar dari 1,6 triliun parameternya per token, sehingga biaya komputasi per token terlihat lebih dekat ke model padat 50B daripada sistem batas triliun parameter. Baca laporan teknis lengkap di kartu model DeepSeek V4.

Empat checkpoint dikirimkan saat peluncuran:
- DeepSeek-V4-Pro — unggulan utama. Total 1.6T, 49B aktif, konteks 1M. Ini adalah yang akan paling sering dipanggil oleh sebagian besar tim melalui API.
- DeepSeek-V4-Pro-Base — basis pra-pelatihan tanpa pasca-pelatihan. Ditujukan untuk peneliti dan tim yang membangun fine-tune kustom.
- DeepSeek-V4-Flash — varian efisiensi. Total 284B, 13B aktif, konteks 1M yang sama. Menargetkan beban kerja yang sensitif terhadap latensi dan penerapan lokal pada dua atau tiga H100.
- DeepSeek-V4-Flash-Base — checkpoint basis yang cocok untuk Flash.
Keempatnya dirilis di bawah lisensi MIT, yang merupakan kisah menarik. GPT-5.5 bersifat tertutup dan berbiaya $5 per juta token input; Claude Opus 4.6 bersifat tertutup dan harganya mendekati $15. DeepSeek V4-Pro memiliki bobot terbuka yang dapat Anda unduh, cerminkan, sesuaikan, dan terapkan pada perangkat keras Anda sendiri tanpa biaya lisensi.
Apa yang berubah dari V3.2
V3 sudah kompetitif dalam penalaran dan kode. V4 menulis ulang tumpukan perhatian (attention stack) dan jalur pelatihan untuk mendorong konteks panjang dan efisiensi secara bersamaan.
| Kapabilitas | V3.2 | V4-Pro |
|---|---|---|
| Total parameter | 685B | 1.6T |
| Parameter aktif | 37B | 49B |
| Jendela konteks | 128K | 1M |
| FLOP inferensi (konteks 1M) | baseline | 27% dari V3.2 |
| Cache KV (konteks 1M) | baseline | 10% dari V3.2 |
| Presisi | FP8 | FP4 + FP8 campuran |
| Lisensi | Lisensi DeepSeek | MIT |
| Mode penalaran | tunggal | tiga |
Tiga hal mendorong lompatan ini. Pertama, tumpukan perhatian hibrida baru yang menggabungkan Compressed Sparse Attention dengan Heavily Compressed Attention; dari sinilah angka 10% cache KV berasal. Kedua, Manifold-Constrained Hyper-Connections yang menstabilkan gradien pada kedalaman yang dibutuhkan V4. Ketiga, beralih ke optimizer Muon untuk konvergensi yang lebih cepat. Korpus pelatihan juga tumbuh melampaui 32 triliun token, dan pasca-pelatihan menggunakan pipeline dua tahap yang pertama-tama mengembangkan ahli spesifik domain, kemudian mengonsolidasikannya dengan distilasi berbasis kebijakan.

Benchmark yang penting
Angka yang dilaporkan DeepSeek menempatkan V4-Pro di papan terdepan untuk pengkodean dan pengetahuan, dengan celah pada pengambilan konteks panjang.

Untuk V4-Flash, varian yang lebih kecil, DeepSeek melaporkan MMLU-Pro 86.2, GPQA Diamond 88.1, LiveCodeBench 91.6, Codeforces 3052, dan SWE Verified 79.0. Itu adalah wilayah batas untuk model aktif 13B, dan itulah alasan Flash menjadi checkpoint yang menarik bagi siapa pun yang menerapkan pada perangkat keras mereka sendiri. Lihat kartu DeepSeek V4-Flash untuk tabel lengkapnya.
Pembacaan jujur: V4-Pro unggul dalam kode, unggul dalam pengingatan fakta terbuka, tertinggal dari Gemini 3.1 Pro dalam pengetahuan umum, dan tertinggal dari Claude Opus dalam benchmark pengambilan 1M token. Jika beban kerja Anda adalah pengkodean agentik atau analisis yang sangat bergantung pada penalaran, V4-Pro adalah pilihan yang relevan. Jika itu adalah pengambilan "jarum dalam tumpukan jerami" di seluruh satu juta token, Claude masih lebih unggul.
Tiga mode penalaran
Setiap checkpoint V4 mengekspos tiga upaya penalaran, dan memilih yang tepat adalah pengungkit biaya terbesar.
- Non-Think — jalur cepat. Generasi satu-kali, tanpa chain-of-thought, tanpa token penalaran tambahan. Gunakan untuk klasifikasi, perutean, ringkasan singkat, dan apa pun di mana latensi lebih penting daripada akurasi.
- Think High — default untuk pekerjaan sulit. Model menulis token penalaran sebelum jawaban, merencanakan panggilan alat, dan memeriksa keluarannya. Cocok dengan apa yang disebut GPT-5.5 sebagai "mode berpikir" dan apa yang disebut Claude sebagai "pemikiran diperpanjang."
- Think Max — batas atas. Jejak penalaran yang lebih panjang, kritik diri yang lebih agresif, dan rekomendasi jendela konteks minimum 384K token. Inilah yang menghasilkan angka LiveCodeBench 93.5; harapkan lonjakan biaya token yang serupa.
Beralih di antara mode-mode ini dengan satu parameter thinking_mode di API atau flag di skrip inferensi lokal. Rekomendasi sampling DeepSeek adalah temperature=1.0, top_p=1.0 di ketiga mode.
Arsitektur dalam bahasa sederhana
Makalah arsitektur V4 padat, tetapi tiga pilihan menjelaskan kisah efisiensinya.
- Perhatian hibrida. Sebagian besar lapisan transformer menggunakan Compressed Sparse Attention, yang menjaga kumpulan kecil token bernilai tinggi tetap diperhatikan sepenuhnya dan mengompresi sisanya. Beberapa lapisan menggunakan Heavily Compressed Attention, yang lebih dekat ke biaya linear dalam panjang urutan. Kombinasi inilah yang menghasilkan angka 27% FLOP dan 10% cache KV pada 1M token.
- Manifold-Constrained Hyper-Connections. Alih-alih koneksi residual biasa, V4 membungkus residual setiap lapisan dalam batasan yang menjaga aktivasi pada manifold yang stabil. Efek praktisnya adalah Anda dapat menumpuk lebih banyak lapisan tanpa kekacauan gradien.
- Optimizer Muon. Menggantikan AdamW untuk sebagian besar pelatihan. Muon berkonvergensi lebih cepat dan menangani norma gradien besar yang dihasilkan model MoE lebih baik daripada AdamW.
Tidak ada ide-ide ini yang sepenuhnya baru secara individual. Kontribusi V4 adalah membuat ketiganya bekerja sama pada skala triliun parameter tanpa mengganggu pelatihan.
Ketersediaan hari ini
DeepSeek meluncurkan keempat checkpoint dan API pada hari yang sama. Berikut adalah gambaran pada 24 April 2026.
| Platform | Akses |
|---|---|
| chat.deepseek.com | Obrolan web gratis, V4-Pro default, diperlukan login |
| DeepSeek API | Tersedia di api.deepseek.com; ID model deepseek-v4-pro, deepseek-v4-flash |
| Bobot Hugging Face | V4-Pro, V4-Flash, keduanya MIT |
| ModelScope | Bobot yang dicerminkan untuk pengguna di Tiongkok |
| OpenRouter dan agregator | Diharapkan dalam beberapa hari; pola peluncuran DeepSeek yang khas |
deepseek-chat / deepseek-reasoner |
Dihentikan pada 24 Juli 2026 |
Pemberitahuan penghentian ini patut diperhatikan. Jika Anda masih memanggil deepseek-chat dalam produksi, Anda memiliki waktu tiga bulan untuk bermigrasi ke deepseek-v4-pro atau deepseek-v4-flash.
Perbandingan dengan GPT-5.5 dan Claude
Perbandingan tiga arah yang paling diperhatikan oleh sebagian besar tim:
- Biaya. V4-Pro dan V4-Flash memiliki bobot terbuka. GPT-5.5 dan Claude Opus 4.6 tidak. Jika Anda dapat menghosting sendiri, V4 unggul dalam ekonomi unit pada skala serius apa pun.
- Pengkodean. Skor V4-Pro 93.5 pada LiveCodeBench dan 3206 pada Codeforces mengalahkan benchmark GPT-5.5 dan Claude Opus pada suite yang sama.
- Luas pengetahuan. Gemini 3.1 Pro masih memimpin MMLU-Pro dengan 91.0. GPT-5.5 dan V4-Pro seri pada 87.5. Pada SimpleQA-Verified, V4 mengalahkan GPT-5.5 dan Claude dengan selisih dua digit.
- Pengambilan konteks panjang. Claude Opus memenangkan MRCR 1M dengan selisih sekitar 9 poin. Jika beban kerja Anda adalah "menemukan satu kalimat dalam sejuta token", Claude masih merupakan pilihan yang lebih aman.
- Lisensi. MIT berarti Anda dapat mengirimkan V4-Pro dalam suatu produk tanpa perjanjian penggunaan. Tidak ada yang ditawarkan OpenAI atau Anthropic yang menyamai itu.
Apa yang bisa dibangun dengannya
Empat beban kerja sangat sesuai dengan kekuatan V4:
- Lingkaran pengkodean agentik. Angka SWE Verified 79.0 dan Codeforces 3206 secara langsung menunjukkan debugging multi-file, refaktor yang sadar repo, dan perbaikan uji mandiri. Pasangkan dengan klien API yang baik seperti Apidog untuk memeriksa setiap permintaan dan respons saat Anda menyetel prompt.
- Penalaran atas dokumen panjang. 1M token cukup untuk sebagian besar monorepo, sebagian besar kontrak, dan sebagian besar korpus penelitian. Think High adalah mode yang tepat untuk ini.
- Produk AI yang dihosting sendiri. Jika cerita kepatuhan Anda membutuhkan inferensi on-prem, V4-Flash adalah model bobot terbuka pertama yang bersaing dengan API batas tertutup dalam hal kualitas.
- Penelitian dan fine-tuning. Checkpoint Base ada khusus untuk pelatihan kustom. Pasangkan dengan dataset domain Anda dan Anda akan mendapatkan model spesialis kelas produksi.
Di mana itu tidak cocok: klasifikasi volume tinggi, pengambilan embedding, atau obrolan prompt singkat. V4-Flash masih berlebihan untuk itu, dan checkpoint DeepSeek yang lebih lama lebih murah.
Harga dalam satu baris
DeepSeek belum mempublikasikan kartu tarif API final pada saat penulisan. V3.2 beroperasi kira-kira $0.28 per juta token input dan $0.42 per juta token output, dan laboratorium ini memiliki rekam jejak dalam menjaga harga seri-V mendekati batas bawah tersebut. Harapkan V4-Flash dalam kisaran yang sama dan V4-Pro dengan premi yang moderat. Pesaing tertutup menetapkan harga $5 hingga $15 per juta token input, jadi bahkan lonjakan 3x dari V3.2 masih menempatkan DeepSeek jauh di bawah median API batas. Lacak angka langsung di halaman harga DeepSeek.
Cara menguji V4 hari ini
Tiga jalur, diurutkan berdasarkan waktu-ke-token-pertama.
- Obrolan web. Buka chat.deepseek.com dan masuk. V4-Pro adalah default; alihkan ke Think High di UI. Gratis, tanpa kartu, berfungsi sekarang.
- API. Dapatkan kunci, arahkan klien Anda ke
https://api.deepseek.com, atur"model": "deepseek-v4-pro", dan mulai. Bentuk permintaannya kompatibel dengan OpenAI, jadi klien OpenAI yang ada dapat berfungsi dengan mengganti URL dasar. Panduan lengkap tersedia di panduan API DeepSeek V4. - Bobot lokal. Ambil dari Hugging Face atau ModelScope. V4-Flash berjalan pada 2 hingga 4 H100; V4-Pro membutuhkan cluster yang serius. Kode inferensi berada di folder
/inferencerepositori model.
Untuk panduan lengkap termasuk iterasi prompt berbasis Apidog, lihat cara menggunakan DeepSeek V4. Untuk menjaga pengeluaran tetap nol, lihat cara menggunakan DeepSeek V4 secara gratis. Unduh Apidog dan buat koleksi Anda sebelumnya; format yang kompatibel dengan OpenAI berarti satu permintaan berfungsi di DeepSeek, OpenAI, dan setiap API batas lainnya.
FAQ
- Apakah DeepSeek V4 benar-benar open source?Ya. Keempat checkpoint membawa lisensi MIT, yang mengizinkan penggunaan komersial, modifikasi, dan redistribusi tanpa perjanjian penggunaan terpisah.
- Apakah saya memerlukan cluster GPU untuk menjalankan V4-Flash?Anda memerlukan dua hingga empat H100 atau H200 untuk V4-Flash pada presisi penuh, lebih sedikit jika Anda melakukan kuantisasi. V4-Pro membutuhkan cluster yang sesungguhnya. Jika Anda ingin mencoba V4 tanpa perangkat keras, gunakan API atau chat.deepseek.com.
- Kapan V4 tersedia di DeepSeek API?Sudah tersedia sejak 23 April 2026. ID modelnya adalah
deepseek-v4-prodandeepseek-v4-flash. IDdeepseek-chatdandeepseek-reasoneryang lebih lama dihentikan pada 24 Juli 2026. - Bagaimana V4 dibandingkan dengan Kimi dan Qwen?V4-Pro mencatat angka LiveCodeBench dan Codeforces yang lebih tinggi daripada Kimi K2 dan Qwen 3 Max pada tabel yang dilaporkan DeepSeek. Ketiganya adalah sistem MoE bobot terbuka dengan profil penerapan serupa. Pilihlah berdasarkan benchmark yang paling mendekati beban kerja Anda.
- Bisakah saya melakukan fine-tune V4 pada data saya sendiri?Ya. Checkpoint Base ada untuk itu; pasangkan dengan data domain Anda dan pipeline SFT standar. Lisensi MIT mencakup redistribusi komersial dari model yang dihasilkan.
- Akankah V4 berfungsi dengan alat saya yang kompatibel dengan OpenAI?Ya. API menerima format pesan OpenAI dan Anthropic masing-masing di
https://api.deepseek.comdanhttps://api.deepseek.com/anthropic. Sebagian besar klien OpenAI yang ada dapat berfungsi dengan satu perubahan URL dasar. Lihat panduan API GPT-5.5 yang sesuai untuk pola paralel.
