DeepSeek V4: Apa Itu dan Kegunaannya?

Ashley Innocent

Ashley Innocent

24 April 2026

DeepSeek V4: Apa Itu dan Kegunaannya?

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

DeepSeek merilis V4 pada 23 April 2026, dan ini bukanlah rilis poin minor. Laboratorium Hangzhou merilis empat checkpoint sekaligus, dipuncaki oleh DeepSeek-V4-Pro dengan total 1,6 triliun parameter, lisensi MIT, dan jendela konteks 1 juta token. Adik yang lebih kecil, DeepSeek-V4-Flash, hadir dengan 284 miliar parameter dengan konteks yang sama dan bobot terbuka yang sama. Benchmark menempatkan varian Pro di depan Claude Opus 4.6 pada LiveCodeBench dan Codeforces, dan hampir setara dengan GPT-5.4 xHigh pada MMLU-Pro.

Jika Anda sedang memutuskan apakah akan beralih dari Claude, GPT-5.5, atau Qwen ke DeepSeek V4, panduan ini mencakup apa itu model, apa yang berubah dari V3.2, pilihan arsitektur yang mendorong kisah benchmark, dan di mana menjalankannya hari ini.

Untuk panduan developer yang sesuai, kami memiliki panduan API DeepSeek V4, panduan akses gratis, dan panduan penggunaan DeepSeek V4 lengkap. Bentuk permintaan sangat sesuai dengan format OpenAI, sehingga Anda dapat membuat koleksi di Apidog sebelum kunci mendarat di kotak masuk Anda.

tombol

Intinya

Apa sebenarnya DeepSeek V4 itu

DeepSeek V4 adalah penerus seri V3 dan V3.2 yang menjadikan laboratorium ini dikenal luas tahun lalu. Arsitekturnya masih Mixture-of-Experts, tetapi bentuk modelnya telah berubah. V4-Pro hanya mengaktifkan 49 miliar dari 1,6 triliun parameternya per token, sehingga biaya komputasi per token terlihat lebih dekat ke model padat 50B daripada sistem batas triliun parameter. Baca laporan teknis lengkap di kartu model DeepSeek V4.

Empat checkpoint dikirimkan saat peluncuran:

Keempatnya dirilis di bawah lisensi MIT, yang merupakan kisah menarik. GPT-5.5 bersifat tertutup dan berbiaya $5 per juta token input; Claude Opus 4.6 bersifat tertutup dan harganya mendekati $15. DeepSeek V4-Pro memiliki bobot terbuka yang dapat Anda unduh, cerminkan, sesuaikan, dan terapkan pada perangkat keras Anda sendiri tanpa biaya lisensi.

Apa yang berubah dari V3.2

V3 sudah kompetitif dalam penalaran dan kode. V4 menulis ulang tumpukan perhatian (attention stack) dan jalur pelatihan untuk mendorong konteks panjang dan efisiensi secara bersamaan.

Kapabilitas V3.2 V4-Pro
Total parameter 685B 1.6T
Parameter aktif 37B 49B
Jendela konteks 128K 1M
FLOP inferensi (konteks 1M) baseline 27% dari V3.2
Cache KV (konteks 1M) baseline 10% dari V3.2
Presisi FP8 FP4 + FP8 campuran
Lisensi Lisensi DeepSeek MIT
Mode penalaran tunggal tiga

Tiga hal mendorong lompatan ini. Pertama, tumpukan perhatian hibrida baru yang menggabungkan Compressed Sparse Attention dengan Heavily Compressed Attention; dari sinilah angka 10% cache KV berasal. Kedua, Manifold-Constrained Hyper-Connections yang menstabilkan gradien pada kedalaman yang dibutuhkan V4. Ketiga, beralih ke optimizer Muon untuk konvergensi yang lebih cepat. Korpus pelatihan juga tumbuh melampaui 32 triliun token, dan pasca-pelatihan menggunakan pipeline dua tahap yang pertama-tama mengembangkan ahli spesifik domain, kemudian mengonsolidasikannya dengan distilasi berbasis kebijakan.

Benchmark yang penting

Angka yang dilaporkan DeepSeek menempatkan V4-Pro di papan terdepan untuk pengkodean dan pengetahuan, dengan celah pada pengambilan konteks panjang.

Untuk V4-Flash, varian yang lebih kecil, DeepSeek melaporkan MMLU-Pro 86.2, GPQA Diamond 88.1, LiveCodeBench 91.6, Codeforces 3052, dan SWE Verified 79.0. Itu adalah wilayah batas untuk model aktif 13B, dan itulah alasan Flash menjadi checkpoint yang menarik bagi siapa pun yang menerapkan pada perangkat keras mereka sendiri. Lihat kartu DeepSeek V4-Flash untuk tabel lengkapnya.

Pembacaan jujur: V4-Pro unggul dalam kode, unggul dalam pengingatan fakta terbuka, tertinggal dari Gemini 3.1 Pro dalam pengetahuan umum, dan tertinggal dari Claude Opus dalam benchmark pengambilan 1M token. Jika beban kerja Anda adalah pengkodean agentik atau analisis yang sangat bergantung pada penalaran, V4-Pro adalah pilihan yang relevan. Jika itu adalah pengambilan "jarum dalam tumpukan jerami" di seluruh satu juta token, Claude masih lebih unggul.

Tiga mode penalaran

Setiap checkpoint V4 mengekspos tiga upaya penalaran, dan memilih yang tepat adalah pengungkit biaya terbesar.

Beralih di antara mode-mode ini dengan satu parameter thinking_mode di API atau flag di skrip inferensi lokal. Rekomendasi sampling DeepSeek adalah temperature=1.0, top_p=1.0 di ketiga mode.

Arsitektur dalam bahasa sederhana

Makalah arsitektur V4 padat, tetapi tiga pilihan menjelaskan kisah efisiensinya.

  1. Perhatian hibrida. Sebagian besar lapisan transformer menggunakan Compressed Sparse Attention, yang menjaga kumpulan kecil token bernilai tinggi tetap diperhatikan sepenuhnya dan mengompresi sisanya. Beberapa lapisan menggunakan Heavily Compressed Attention, yang lebih dekat ke biaya linear dalam panjang urutan. Kombinasi inilah yang menghasilkan angka 27% FLOP dan 10% cache KV pada 1M token.
  2. Manifold-Constrained Hyper-Connections. Alih-alih koneksi residual biasa, V4 membungkus residual setiap lapisan dalam batasan yang menjaga aktivasi pada manifold yang stabil. Efek praktisnya adalah Anda dapat menumpuk lebih banyak lapisan tanpa kekacauan gradien.
  3. Optimizer Muon. Menggantikan AdamW untuk sebagian besar pelatihan. Muon berkonvergensi lebih cepat dan menangani norma gradien besar yang dihasilkan model MoE lebih baik daripada AdamW.

Tidak ada ide-ide ini yang sepenuhnya baru secara individual. Kontribusi V4 adalah membuat ketiganya bekerja sama pada skala triliun parameter tanpa mengganggu pelatihan.

Ketersediaan hari ini

DeepSeek meluncurkan keempat checkpoint dan API pada hari yang sama. Berikut adalah gambaran pada 24 April 2026.

Platform Akses
chat.deepseek.com Obrolan web gratis, V4-Pro default, diperlukan login
DeepSeek API Tersedia di api.deepseek.com; ID model deepseek-v4-pro, deepseek-v4-flash
Bobot Hugging Face V4-Pro, V4-Flash, keduanya MIT
ModelScope Bobot yang dicerminkan untuk pengguna di Tiongkok
OpenRouter dan agregator Diharapkan dalam beberapa hari; pola peluncuran DeepSeek yang khas
deepseek-chat / deepseek-reasoner Dihentikan pada 24 Juli 2026

Pemberitahuan penghentian ini patut diperhatikan. Jika Anda masih memanggil deepseek-chat dalam produksi, Anda memiliki waktu tiga bulan untuk bermigrasi ke deepseek-v4-pro atau deepseek-v4-flash.

Perbandingan dengan GPT-5.5 dan Claude

Perbandingan tiga arah yang paling diperhatikan oleh sebagian besar tim:

Apa yang bisa dibangun dengannya

Empat beban kerja sangat sesuai dengan kekuatan V4:

  1. Lingkaran pengkodean agentik. Angka SWE Verified 79.0 dan Codeforces 3206 secara langsung menunjukkan debugging multi-file, refaktor yang sadar repo, dan perbaikan uji mandiri. Pasangkan dengan klien API yang baik seperti Apidog untuk memeriksa setiap permintaan dan respons saat Anda menyetel prompt.
  2. Penalaran atas dokumen panjang. 1M token cukup untuk sebagian besar monorepo, sebagian besar kontrak, dan sebagian besar korpus penelitian. Think High adalah mode yang tepat untuk ini.
  3. Produk AI yang dihosting sendiri. Jika cerita kepatuhan Anda membutuhkan inferensi on-prem, V4-Flash adalah model bobot terbuka pertama yang bersaing dengan API batas tertutup dalam hal kualitas.
  4. Penelitian dan fine-tuning. Checkpoint Base ada khusus untuk pelatihan kustom. Pasangkan dengan dataset domain Anda dan Anda akan mendapatkan model spesialis kelas produksi.

Di mana itu tidak cocok: klasifikasi volume tinggi, pengambilan embedding, atau obrolan prompt singkat. V4-Flash masih berlebihan untuk itu, dan checkpoint DeepSeek yang lebih lama lebih murah.

Harga dalam satu baris

DeepSeek belum mempublikasikan kartu tarif API final pada saat penulisan. V3.2 beroperasi kira-kira $0.28 per juta token input dan $0.42 per juta token output, dan laboratorium ini memiliki rekam jejak dalam menjaga harga seri-V mendekati batas bawah tersebut. Harapkan V4-Flash dalam kisaran yang sama dan V4-Pro dengan premi yang moderat. Pesaing tertutup menetapkan harga $5 hingga $15 per juta token input, jadi bahkan lonjakan 3x dari V3.2 masih menempatkan DeepSeek jauh di bawah median API batas. Lacak angka langsung di halaman harga DeepSeek.

Cara menguji V4 hari ini

Tiga jalur, diurutkan berdasarkan waktu-ke-token-pertama.

  1. Obrolan web. Buka chat.deepseek.com dan masuk. V4-Pro adalah default; alihkan ke Think High di UI. Gratis, tanpa kartu, berfungsi sekarang.
  2. API. Dapatkan kunci, arahkan klien Anda ke https://api.deepseek.com, atur "model": "deepseek-v4-pro", dan mulai. Bentuk permintaannya kompatibel dengan OpenAI, jadi klien OpenAI yang ada dapat berfungsi dengan mengganti URL dasar. Panduan lengkap tersedia di panduan API DeepSeek V4.
  3. Bobot lokal. Ambil dari Hugging Face atau ModelScope. V4-Flash berjalan pada 2 hingga 4 H100; V4-Pro membutuhkan cluster yang serius. Kode inferensi berada di folder /inference repositori model.

Untuk panduan lengkap termasuk iterasi prompt berbasis Apidog, lihat cara menggunakan DeepSeek V4. Untuk menjaga pengeluaran tetap nol, lihat cara menggunakan DeepSeek V4 secara gratis. Unduh Apidog dan buat koleksi Anda sebelumnya; format yang kompatibel dengan OpenAI berarti satu permintaan berfungsi di DeepSeek, OpenAI, dan setiap API batas lainnya.

FAQ

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.