Cara Menggunakan DeepSeek V4: Web Chat, API, dan Self-Hosted

DeepSeek V4 dirilis pada 23 April 2026 dengan empat checkpoint, API langsung, dan bobot berlisensi MIT di Hugging Face. Kombinasi itu berarti tidak ada "cara yang tepat" tunggal untuk menggunakannya; jalur terbaik tergantung pada apakah Anda ingin akses instan, panggilan API produksi, atau penerapan on-prem. Panduan ini menjelaskan ketiganya, dengan pro dan kontra, jebakan, dan alur kerja prompt siap produksi yang dapat Anda gunakan kembali.

Jika Anda hanya menginginkan ikhtisar tingkat produk, baca apa itu DeepSeek V4 terlebih dahulu. Untuk panduan API murni, lihat panduan API DeepSeek V4. Untuk jalur tanpa biaya, lihat cara menggunakan DeepSeek V4 secara gratis. Ketika Anda siap untuk menguji permintaan nyata, unduh Apidog dan bangun koleksinya terlebih dahulu.

button

TL;DR

Jalur tercepat: chat.deepseek.com. Obrolan web gratis, V4-Pro default, tiga mode penalaran.
Jalur produksi: https://api.deepseek.com/v1/chat/completions dengan ID model deepseek-v4-pro atau deepseek-v4-flash.
Jalur self-hosted: tarik bobot dari Hugging Face, jalankan skrip /inference di repo.
Pilih Non-Think untuk perutean dan klasifikasi, Think High untuk kode dan analisis, Think Max hanya ketika akurasi lebih penting daripada biaya.
Rekomendasi sampling dari DeepSeek: temperature=1.0, top_p=1.0. Jangan ragu.
Gunakan Apidog sebagai klien API; format yang kompatibel dengan OpenAI berarti satu permintaan tersimpan dapat diputar ulang di DeepSeek, OpenAI, dan Anthropic.

DeepSeek V4 - Apa itu dan bagaimana cara menggunakannya

Pilih jalur yang tepat untuk beban kerja Anda

Ada empat jalur realistis. Masing-masing unggul dalam hal yang berbeda.

Jalur	Biaya	Waktu persiapan	Terbaik untuk
chat.deepseek.com	Gratis	30 detik	Tes cepat, pekerjaan ad-hoc
DeepSeek API	Penagihan per token	5 menit	Produksi, agen, pekerjaan batch
V4-Flash self-hosted	Hanya biaya perangkat keras	Beberapa jam	Kepatuhan on-prem, inferensi offline
V4-Pro self-hosted	Hanya biaya klaster	Satu hari	Penelitian, fine-tune kustom
OpenRouter / agregator	Penagihan per token	2 menit	Cadangan multi-penyedia

Jalur 1: Gunakan V4 di obrolan web

Cara tercepat untuk membentuk opini tentang V4 adalah antarmuka obrolan resminya.

Buka chat.deepseek.com.
Masuk dengan email, Google, atau WeChat.
V4-Pro adalah model default. Tombol di bagian atas komposer beralih antara Non-Think, Think High, dan Think Max.
Mulai mengetik.

Obrolan web mendukung unggahan file, pencarian web, dan konteks 1M-token penuh. Batas tarif berlaku di tingkat akun; penggunaan berat dapat memperlambat respons tetapi jarang memblokir sepenuhnya.

Tugas yang baik untuk UI web: menempelkan jejak kesalahan untuk mendiagnosis, mengunggah PDF 200 halaman untuk ringkasan, membandingkan dengan prompt yang sama yang Anda jalankan melalui GPT-5.5 atau Claude. Tugas yang buruk: apa pun yang ingin Anda otomatisasi atau putar ulang.

Jalur 2: Gunakan API DeepSeek

Ini adalah jalur yang akan dipilih oleh sebagian besar tim. API tersedia, bentuk permintaan kompatibel dengan OpenAI, dan ID model adalah ID yang akan dipertahankan DeepSeek setelah depresiasi deepseek-chat pada Juli 2026.

Dapatkan kunci

Daftar di platform.deepseek.com.
Tambahkan metode pembayaran. Pengisian ulang mulai dari $2.
Buat kunci API di bawah API Keys dan salin sekali; Anda tidak akan melihat rahasianya lagi.

Ekspor kunci agar setiap klien dapat mengambilnya:

export DEEPSEEK_API_KEY="sk-..."

Permintaan minimum yang layak

DeepSeek mengekspos dua URL dasar. Antarmuka yang kompatibel dengan OpenAI adalah yang harus dijadikan default.

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
    ],
    "thinking_mode": "thinking"
  }'

Ganti deepseek-v4-pro dengan deepseek-v4-flash jika Anda menginginkan varian yang lebih murah. Ganti thinking dengan non-thinking jika Anda menginginkan jalur cepat.

Klien Python

SDK openai resmi berfungsi dengan satu override URL dasar. Itu adalah keunggulan tersembunyi dari endpoint yang kompatibel dengan OpenAI; setiap pustaka wrapper, termasuk LangChain, LlamaIndex, dan DSPy, berfungsi tanpa perubahan.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a concise senior engineer."},
        {"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Klien Node

Pola yang sama di Node:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

Detail endpoint lengkap, tabel parameter, dan penanganan kesalahan ada di panduan API DeepSeek V4.

Jalur 3: Berulang dengan Apidog

Curl baik untuk satu panggilan. Setelah itu, setiap pengulangan membuang kredit dan mengacaukan terminal Anda. Apidog memecahkan kedua masalah tersebut.

button

Unduh Apidog untuk Mac, Windows, atau Linux.
Buat proyek API baru, tambahkan permintaan POST yang mengarah ke https://api.deepseek.com/v1/chat/completions.
Tambahkan Authorization: Bearer {{DEEPSEEK_API_KEY}} sebagai header dan simpan kunci dalam variabel lingkungan, bukan badan permintaan.
Tempel badan JSON pertama Anda dan simpan. Setiap perubahan dari sini cukup satu klik untuk memutar ulang.
Gunakan penampil respons bawaan untuk membandingkan jejak penalaran antara Non-Think dan Think Max pada prompt yang sama.

Koleksi yang sama dapat menampung permintaan OpenAI GPT-5.5, permintaan Claude, dan permintaan DeepSeek V4 secara berdampingan. Itu membuat pengujian A/B di seluruh penyedia menjadi mudah dan menjaga tagihan Anda tetap terlihat dalam satu jendela. Untuk tim yang sudah menggunakan Apidog dengan API AI lainnya, alur kerja dipetakan satu-ke-satu; koleksi API GPT-5.5 yang tersimpan menjadi koleksi V4 dengan satu perubahan URL dasar.

Jalur 4: Self-host V4-Flash

Jika kepatuhan, persyaratan air-gap, atau ekonomi unit mendorong Anda menjauh dari API yang dihosting, lisensi MIT berarti Anda sepenuhnya memiliki jalur ini.

Perangkat keras

V4-Flash (13B aktif, 284B total): 2 hingga 4 kartu H100 / H200 / MI300X pada FP8. Terkuantisasi ke INT4, ia muat pada satu kartu 80GB dengan batch ketat.
V4-Pro (49B aktif, 1.6T total): wilayah klaster sejati. 16 hingga 32 H100 adalah batas realistis untuk inferensi produksi.

Dapatkan bobotnya

# Instal CLI sekali
pip install -U "huggingface_hub[cli]"

# Masuk jika repo digembok (V4 bersifat publik, tetapi login membantu dengan batas tarif)
huggingface-cli login

# Tarik V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Harapkan pengunduhan memakan waktu. V4-Flash kira-kira 500GB pada FP8; V4-Pro berada dalam kisaran multi-terabyte.

Jalankan inferensi

Folder /inference di repo model memiliki kode referensi. Untuk pengujian cepat, vLLM dan SGLang telah menerbitkan cabang dukungan V4 dalam sehari setelah rilis.

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

Setelah vLLM aktif, arahkan klien yang kompatibel dengan OpenAI ke http://localhost:8000/v1. Koleksi Apidog yang sama, URL dasar yang berbeda.

Memprompt V4 secara efektif

V4 merespons prompt secara berbeda dari GPT-5.5 atau Claude. Tiga pola yang berhasil:

Minta mode penalaran yang Anda inginkan secara eksplisit. Setel thinking_mode agar sesuai dengan tugas. Jangan bergantung pada model untuk memilih.
Gunakan prompt sistem untuk persona, bukan bentuk tugas. V4-Pro mengikuti prompt sistem dengan baik untuk nada dan batasan; itu kurang dapat diandalkan ketika Anda mencoba memasukkan seluruh spesifikasi tugas ke dalam pesan sistem. Letakkan tugas di pesan pengguna.
Berikan tugas kode dengan test harness. Skor 93,5 LiveCodeBench berasal dari evaluasi dengan kasus uji yang jelas. Tugas kode Anda akan mendapatkan manfaat yang sama; tempelkan tes yang gagal dan model akan menulis kode yang membuatnya lulus lebih sering daripada jika Anda meminta "fungsi yang melakukan X."

Untuk pekerjaan konteks panjang (ratusan ribu token), simpan materi yang paling relevan di dekat bagian atas dan bawah jendela input. Perhatian hibrida V4 efisien, tetapi bias kebaruan dan keutamaan masih muncul.

Kontrol biaya

Meskipun dengan harga token V4 yang rendah, agen yang tidak terkendali dapat menghabiskan anggaran dengan cepat. Tiga pelindung:

Default ke V4-Flash. Gunakan V4-Pro hanya jika Anda telah mengukur celah kualitas yang penting.
Default ke Non-Think. Eskalasi ke Think High untuk tugas-tugas sulit; cadangkan Think Max untuk pekerjaan yang kritis terhadap kebenaran.
Batas max_tokens. Konteks 1M adalah batas atas, bukan target. Sebagian besar jawaban muat dalam 2.000 token output.

Di dalam Apidog, atur variabel lingkup lingkungan untuk DEEPSEEK_API_KEY agar uji coba mencapai akun penagihan terpisah dari produksi. Apidog juga mencatat jumlah token pada setiap respons, yang merupakan cara termudah untuk melihat prompt yang terlalu panjang.

Bermigrasi dari DeepSeek V3 atau model lain

Tiga jalur migrasi mencakup sebagian besar tim:

Dari deepseek-chat / deepseek-reasoner: tukar ID model ke deepseek-v4-pro atau deepseek-v4-flash. ID yang lebih lama akan didepresiasi pada 24 Juli 2026. Lakukan migrasi ini sebelum itu.
Dari OpenAI GPT-5.x: ubah URL dasar ke https://api.deepseek.com/v1, ubah ID model, biarkan semuanya tetap sama. Lihat panduan API GPT-5.5 yang cocok untuk bentuk permintaan paralel.
Dari Anthropic Claude: arahkan ke https://api.deepseek.com/anthropic untuk menjaga format pesan Anthropic, atau bentuk ulang ke format OpenAI dan gunakan endpoint utama.

FAQ

Apakah saya perlu akun berbayar untuk menggunakan V4?Obrolan web gratis. API membutuhkan pengisian ulang, tetapi minimumnya adalah $2. Lihat cara menggunakan DeepSeek V4 secara gratis untuk jalur tanpa biaya.

Varian mana yang harus saya jadikan default?Mulai dengan V4-Flash dalam mode Non-Think. Ukur kualitas. Eskalasi hanya jika itu membuahkan hasil.

Bisakah saya menjalankan V4 di MacBook saya?V4-Flash akan berjalan di M3 Max atau M4 Max dengan memori terpadu 128GB pada kuantisasi berat, tetapi lambat. V4-Pro tidak akan. Untuk eksperimen tingkat laptop, gunakan API atau obrolan web.

Apakah V4 mendukung penggunaan alat dan pemanggilan fungsi?Ya. Endpoint yang kompatibel dengan OpenAI menerima array tools standar; respons membawa tool_calls kembali dalam bentuk yang sama. Endpoint format Anthropic menggunakan skema penggunaan alat Anthropic asli.

Bagaimana cara melakukan streaming respons?Setel stream: true di badan permintaan. Responsnya adalah aliran SSE standar yang kompatibel dengan OpenAI; pustaka apa pun yang menangani streaming OpenAI berfungsi tanpa perubahan.

Apakah ada batas tarif?API yang dihosting menerbitkan batas per tingkat di api-docs.deepseek.com. V4 yang di-host sendiri tidak memiliki batas per permintaan selain perangkat keras Anda.