DeepSeek V4 diluncurkan dengan API yang langsung aktif di hari pertama. ID modelnya adalah deepseek-v4-pro dan deepseek-v4-flash, endpoint-nya kompatibel dengan OpenAI, dan URL dasarnya adalah https://api.deepseek.com. Ini berarti setiap klien yang sudah Anda gunakan untuk GPT-5.5 atau API bentuk OpenAI lainnya dapat bekerja dengan V4 hanya dengan mengganti URL dasar.

Panduan ini mencakup autentikasi, setiap parameter penting, contoh Python dan Node, matematika mode berpikir, panggilan alat (tool calling), streaming, dan alur kerja berbasis Apidog yang menjaga biaya tetap terlihat saat Anda melakukan iterasi.
Untuk ikhtisar tingkat produk, lihat apa itu DeepSeek V4. Untuk jalur tanpa biaya, lihat cara menggunakan DeepSeek V4 secara gratis.
TL;DR (Ringkasan Cepat)
- DeepSeek V4 tersedia di endpoint yang kompatibel dengan OpenAI di
https://api.deepseek.com/v1/chat/completionsdan endpoint yang kompatibel dengan Anthropic dihttps://api.deepseek.com/anthropic. - ID Model:
deepseek-v4-pro(total 1.6T, aktif 49B) dandeepseek-v4-flash(total 284B, aktif 13B). - Kedua varian mendukung konteks 1M-token dan tiga mode penalaran:
non-thinking,thinking,thinking_max. - Gunakan
temperature=1.0, top_p=1.0seperti yang direkomendasikan DeepSeek; jangan mengimpor default GPT-5.5 atau Claude. - ID lama
deepseek-chatdandeepseek-reasonerakan tidak digunakan lagi pada 24 Juli 2026; migrasi sebelum tanggal tersebut. - Unduh Apidog untuk memutar ulang permintaan, membandingkan mode berpikir, dan menjaga kunci Anda dari riwayat shell.

Prasyarat
Sebelum permintaan pertama, siapkan empat hal.
- Akun pengembang DeepSeek di platform.deepseek.com dengan setidaknya top-up $2. Tanpa saldo, panggilan akan mengembalikan
402 Insufficient Balance. - Kunci API yang terlingkup pada proyek yang akan Anda gunakan untuk penagihan. Kunci yang terlingkup pada proyek lebih aman daripada kunci akun untuk penggunaan produksi.
- SDK yang dapat mencapai URL dasar yang kompatibel dengan OpenAI. Python
openai>=1.30.0dan Nodeopenai@4.xkeduanya berfungsi tanpa modifikasi. - Klien API yang dapat memutar ulang permintaan tanpa membanjiri terminal. curl berfungsi untuk satu panggilan; setelah itu, gunakan Apidog.
Ekspor kunci sekali:
export DEEPSEEK_API_KEY="sk-..."
Endpoint dan autentikasi
Dua URL dasar mencakup dua bentuk permintaan.
POST https://api.deepseek.com/v1/chat/completions # format OpenAI
POST https://api.deepseek.com/anthropic/v1/messages # format Anthropic
Pilih yang kompatibel dengan OpenAI kecuali Anda memiliki basis kode berbentuk Anthropic yang sudah ada. Sisa panduan ini menggunakan format OpenAI.
Autentikasi adalah token pembawa pada header Authorization standar. Permintaan minimum yang berfungsi:
curl https://api.deepseek.com/v1/chat/completions \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "user", "content": "Jelaskan perutean MoE dalam dua kalimat."}
]
}'
Respons yang berhasil mengembalikan badan JSON dengan array choices, blok usage yang dipecah menjadi token input dan output (dan reasoning_tokens jika mode berpikir diaktifkan), dan id yang dapat Anda gunakan untuk pelacakan. Kegagalan mengembalikan amplop OpenAI standar dengan error.code dan error.message.
Parameter permintaan
Setiap bidang memetakan ke biaya atau perilaku. Berikut adalah peta untuk deepseek-v4-pro dan deepseek-v4-flash.
| Parameter | Tipe | Nilai | Catatan |
|---|---|---|---|
model |
string | deepseek-v4-pro, deepseek-v4-flash |
Wajib. |
messages |
array | pasangan peran/konten | Wajib. Skema sama dengan OpenAI. |
thinking_mode |
string | non-thinking, thinking, thinking_max |
Default adalah non-thinking. |
temperature |
float | 0 hingga 2 | DeepSeek merekomendasikan 1.0. |
top_p |
float | 0 hingga 1 | DeepSeek merekomendasikan 1.0. |
max_tokens |
int | 1 hingga 131.072 | Membatasi panjang output. |
stream |
boolean | true atau false | Mengaktifkan streaming SSE. |
tools |
array | spesifikasi alat OpenAI | Untuk panggilan fungsi. |
tool_choice |
string atau objek | auto, required, none, atau alat tertentu |
Mengontrol penggunaan alat. |
response_format |
objek | {"type": "json_object"} |
Output mode JSON. |
seed |
int | integer apa pun | Untuk reproduktibilitas. |
presence_penalty |
float | -2 hingga 2 | Menghukum topik yang berulang. |
frequency_penalty |
float | -2 hingga 2 | Menghukum token yang berulang. |
thinking_mode adalah pengungkit biaya terbesar. non-thinking melewati seluruh jejak penalaran dan mengembalikan token dengan kecepatan kira-kira V3.2. thinking mengaktifkan blok penalaran yang memerlukan token tambahan tetapi meningkatkan akurasi pada kode dan matematika. thinking_max menghasilkan skor di tabel utama DeepSeek; mode ini juga menghabiskan token paling banyak dan merupakan satu-satunya mode yang membutuhkan anggaran konteks 384K+.
Klien Python
SDK openai resmi berfungsi dengan penggantian URL dasar. Setiap pembungkus yang kompatibel dengan OpenAI yang sudah ada, termasuk LangChain, LlamaIndex, dan DSPy, juga berfungsi.
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/v1",
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": "Balas hanya dalam kode."},
{"role": "user", "content": "Tulis fungsi Rust yang melakukan debouncing event."},
],
extra_body={"thinking_mode": "thinking"},
temperature=1.0,
top_p=1.0,
max_tokens=2048,
)
choice = response.choices[0]
print("Konten:", choice.message.content)
print("Token penalaran:", response.usage.reasoning_tokens)
print("Total token:", response.usage.total_tokens)
Trik extra_body adalah cara Anda meneruskan parameter khusus DeepSeek melalui SDK OpenAI tanpa menambal pustaka.
Klien Node
Struktur yang sama pada Node:
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com/v1",
});
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [
{ role: "user", content: "Jelaskan optimizer Muon dalam bahasa Inggris sederhana." },
],
thinking_mode: "thinking",
temperature: 1.0,
top_p: 1.0,
});
console.log(response.choices[0].message.content);
console.log("Penggunaan:", response.usage);
SDK Node menerima bidang yang tidak dikenal secara diam-diam, jadi thinking_mode diteruskan di tingkat atas tanpa extra_body.
Streaming respons
Setel stream: true dan iterasi potongan SSE. Bentuknya sama persis dengan OpenAI.
stream = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Streaming esai 300 kata tentang MoE."}],
stream=True,
extra_body={"thinking_mode": "non-thinking"},
)
for chunk in stream:
delta = chunk.choices[0].delta.content or ""
print(delta, end="", flush=True)
Jejak penalaran dialirkan secara terpisah saat mode berpikir diaktifkan; bidang delta.reasoning_content membawanya dan Anda dapat menampilkannya di UI atau mengabaikannya.
Panggilan alat (Tool calling)
V4 mendukung skema panggilan alat standar OpenAI. Fungsi yang didefinisikan dalam array tools menjadi dapat dipanggil, dan model memutuskan kapan harus memanggilnya.
tools = [{
"type": "function",
"function": {
"name": "get_weather",
"description": "Mengembalikan cuaca saat ini untuk suatu kota.",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string"},
"unit": {"type": "string", "enum": ["c", "f"]},
},
"required": ["city"],
},
},
}]
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Cuaca di Lagos dalam Celcius?"}],
tools=tools,
tool_choice="auto",
extra_body={"thinking_mode": "thinking"},
)
tool_call = response.choices[0].message.tool_calls[0]
print(tool_call.function.name, tool_call.function.arguments)
Dari sana, panggil fungsinya, tambahkan hasilnya sebagai pesan role: "tool", dan panggil API lagi untuk melanjutkan loop. Polanya identik dengan loop penggunaan alat OpenAI dan Anthropic.
Mode JSON
Untuk output terstruktur, minta JSON secara eksplisit dan atur format respons.
response = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[
{"role": "system", "content": "Balas dengan satu objek JSON."},
{"role": "user", "content": "Ringkas catatan rilis ini sebagai {judul, tanggal, poin-poin}: ..."},
],
response_format={"type": "json_object"},
extra_body={"thinking_mode": "non-thinking"},
)
Mode JSON memaksa JSON yang valid tetapi tidak memberlakukan skema tertentu. Untuk validasi skema, pasangkan dengan Pydantic atau Zod di sisi klien.
Bangun koleksi di Apidog
Memutar ulang permintaan dari terminal menghabiskan kredit dan menyembunyikan perbedaan antar proses. Alur kerja yang bertahan dalam penggunaan nyata:
- Unduh Apidog dan buat proyek.
- Tambahkan lingkungan dengan
{{DEEPSEEK_API_KEY}}yang disimpan sebagai variabel rahasia. - Simpan permintaan POST ke
{{BASE_URL}}/chat/completionsdengan headerAuthorization: Bearer {{DEEPSEEK_API_KEY}}. - Parameterisasi
modeldanthinking_modesehingga Anda dapat melakukan A/B testing di berbagai varian tanpa menduplikasi permintaan. - Gunakan penampil respons untuk memeriksa
usage.reasoning_tokenspada setiap proses. Itu adalah sinyal paling jelas apakah Anda membayar untuk mode berpikir yang tidak Anda perlukan.
Tim yang sudah menjalankan koleksi API GPT-5.5 yang cocok di Apidog dapat menduplikasinya, menukar URL dasar menjadi https://api.deepseek.com/v1, menukar ID model, dan menjalankan perintah perbandingan di kedua penyedia dalam hitungan menit.
Penanganan kesalahan
Amplopnya mengikuti OpenAI persis. Yang akan Anda temui pertama kali:
| Kode | Arti | Perbaikan |
|---|---|---|
| 400 | Permintaan buruk | Periksa skema JSON, terutama messages dan tools. |
| 401 | Kunci tidak valid | Buat ulang di platform.deepseek.com. |
| 402 | Saldo tidak mencukupi | Isi ulang akun. |
| 403 | Model tidak diizinkan | Periksa cakupan kunci dan ejaan ID model. |
| 422 | Parameter di luar jangkauan | max_tokens atau thinking_mode mungkin tidak cocok. |
| 429 | Batas tarif | Berhenti sebentar, lalu coba lagi dengan jitter eksponensial. |
| 500 | Kesalahan server | Coba lagi sekali; jika terulang, periksa halaman status. |
| 503 | Kelebihan beban | Beralih ke V4-Flash atau coba lagi dalam 30 detik. |
Bungkus panggilan dalam pembantu percobaan ulang yang menangani 429 dan 5xx dengan backoff eksponensial. Jangan mencoba ulang kesalahan 4xx secara otomatis; itu adalah bug logika, bukan kegagalan sementara.
Pola kontrol biaya
Empat pola menjaga pengeluaran tetap dapat diprediksi.
- Default ke V4-Flash. Beralih ke V4-Pro hanya untuk prompt di mana Anda telah mengukur peningkatan kualitas.
- Batasi
thinking_maxdengan sebuah flag. Mode ini adalah mode termahal dengan selisih yang lebar; hanya arahkan ke mode ini ketika akurasi mengalahkan latensi. - Batasi
max_tokens. Kebanyakan jawaban muat dalam 2.000 token output. Konteks 1M adalah untuk input, bukan output. - Catat
usagepada setiap panggilan. Kirim jumlah input, output, dan penalaran ke tumpukan observabilitas Anda; peringatan pada lonjakan token penalaran yang tiba-tiba menangkap prompt yang menyimpang.
Migrasi dari model DeepSeek yang lebih lama
ID deepseek-chat dan deepseek-reasoner yang lebih lama akan tidak digunakan lagi pada 24 Juli 2026. Migrasi hanya memerlukan satu baris perbedaan per situs panggilan; bentuk permintaan dan respons tidak berubah.
- model="deepseek-chat"
+ model="deepseek-v4-pro"
Sebelum meluncurkan produksi, jalankan perbandingan A/B secara berdampingan di Apidog. Peningkatan kualitas respons biasanya sepadan dengan peralihan; batas waktu penghentian paksa akan memaksa migrasi bagaimanapun juga.
FAQ
Apakah API DeepSeek V4 siap produksi?Ya. API diluncurkan pada 23 April 2026 bersama dengan bobotnya. DeepSeek V3 dan V3.2 berjalan pada infrastruktur yang sama dalam skala besar selama lebih dari setahun, sehingga antarmuka API sudah matang.
Apakah V4 mendukung format pesan Anthropic?Ya. Arahkan ke https://api.deepseek.com/anthropic/v1/messages dan kirim payload berbentuk Anthropic. Kedua format tersebut mencapai model dasar yang sama.
Berapa jendela konteksnya?1 juta token pada V4-Pro dan V4-Flash. Perhatikan bahwa mode Think Max merekomendasikan jendela kerja minimum 384K.
Bagaimana cara menghitung token input sebelum mengirim?Gunakan tokenizer OpenAI standar untuk perkiraan; DeepSeek menerbitkan jumlah pasti di blok usage pada setiap respons. Untuk penganggaran produksi, percaya pada jumlah di sisi respons.
Bisakah saya melakukan fine-tune melalui API?Belum saat peluncuran. Fine-tuning saat ini berjalan melalui checkpoint Base yang di-host sendiri di Hugging Face.
Apakah API gratis untuk dicoba?Tidak ada tingkatan gratis di tingkat akun, tetapi pendaftar baru terkadang menerima kredit percobaan.
