Cara Menggunakan DeepSeek V4 API

DeepSeek V4 diluncurkan dengan API yang langsung aktif di hari pertama. ID modelnya adalah deepseek-v4-pro dan deepseek-v4-flash, endpoint-nya kompatibel dengan OpenAI, dan URL dasarnya adalah https://api.deepseek.com. Ini berarti setiap klien yang sudah Anda gunakan untuk GPT-5.5 atau API bentuk OpenAI lainnya dapat bekerja dengan V4 hanya dengan mengganti URL dasar.

Panduan ini mencakup autentikasi, setiap parameter penting, contoh Python dan Node, matematika mode berpikir, panggilan alat (tool calling), streaming, dan alur kerja berbasis Apidog yang menjaga biaya tetap terlihat saat Anda melakukan iterasi.

tombol

Untuk ikhtisar tingkat produk, lihat apa itu DeepSeek V4. Untuk jalur tanpa biaya, lihat cara menggunakan DeepSeek V4 secara gratis.

TL;DR (Ringkasan Cepat)

DeepSeek V4 tersedia di endpoint yang kompatibel dengan OpenAI di https://api.deepseek.com/v1/chat/completions dan endpoint yang kompatibel dengan Anthropic di https://api.deepseek.com/anthropic.
ID Model: deepseek-v4-pro (total 1.6T, aktif 49B) dan deepseek-v4-flash (total 284B, aktif 13B).
Kedua varian mendukung konteks 1M-token dan tiga mode penalaran: non-thinking, thinking, thinking_max.
Gunakan temperature=1.0, top_p=1.0 seperti yang direkomendasikan DeepSeek; jangan mengimpor default GPT-5.5 atau Claude.
ID lama deepseek-chat dan deepseek-reasoner akan tidak digunakan lagi pada 24 Juli 2026; migrasi sebelum tanggal tersebut.
Unduh Apidog untuk memutar ulang permintaan, membandingkan mode berpikir, dan menjaga kunci Anda dari riwayat shell.

Tangkapan layar antarmuka Apidog yang menunjukkan permintaan API DeepSeek V4.

Prasyarat

Sebelum permintaan pertama, siapkan empat hal.

Akun pengembang DeepSeek di platform.deepseek.com dengan setidaknya top-up $2. Tanpa saldo, panggilan akan mengembalikan 402 Insufficient Balance.
Kunci API yang terlingkup pada proyek yang akan Anda gunakan untuk penagihan. Kunci yang terlingkup pada proyek lebih aman daripada kunci akun untuk penggunaan produksi.
SDK yang dapat mencapai URL dasar yang kompatibel dengan OpenAI. Python openai>=1.30.0 dan Node openai@4.x keduanya berfungsi tanpa modifikasi.
Klien API yang dapat memutar ulang permintaan tanpa membanjiri terminal. curl berfungsi untuk satu panggilan; setelah itu, gunakan Apidog.

Ekspor kunci sekali:

export DEEPSEEK_API_KEY="sk-..."

Endpoint dan autentikasi

Dua URL dasar mencakup dua bentuk permintaan.

POST https://api.deepseek.com/v1/chat/completions    # format OpenAI
POST https://api.deepseek.com/anthropic/v1/messages  # format Anthropic

Pilih yang kompatibel dengan OpenAI kecuali Anda memiliki basis kode berbentuk Anthropic yang sudah ada. Sisa panduan ini menggunakan format OpenAI.

Autentikasi adalah token pembawa pada header Authorization standar. Permintaan minimum yang berfungsi:

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Jelaskan perutean MoE dalam dua kalimat."}
    ]
  }'

Respons yang berhasil mengembalikan badan JSON dengan array choices, blok usage yang dipecah menjadi token input dan output (dan reasoning_tokens jika mode berpikir diaktifkan), dan id yang dapat Anda gunakan untuk pelacakan. Kegagalan mengembalikan amplop OpenAI standar dengan error.code dan error.message.

Parameter permintaan

Setiap bidang memetakan ke biaya atau perilaku. Berikut adalah peta untuk deepseek-v4-pro dan deepseek-v4-flash.

Parameter	Tipe	Nilai	Catatan
`model`	string	`deepseek-v4-pro`, `deepseek-v4-flash`	Wajib.
`messages`	array	pasangan peran/konten	Wajib. Skema sama dengan OpenAI.
`thinking_mode`	string	`non-thinking`, `thinking`, `thinking_max`	Default adalah `non-thinking`.
`temperature`	float	0 hingga 2	DeepSeek merekomendasikan 1.0.
`top_p`	float	0 hingga 1	DeepSeek merekomendasikan 1.0.
`max_tokens`	int	1 hingga 131.072	Membatasi panjang output.
`stream`	boolean	true atau false	Mengaktifkan streaming SSE.
`tools`	array	spesifikasi alat OpenAI	Untuk panggilan fungsi.
`tool_choice`	string atau objek	`auto`, `required`, `none`, atau alat tertentu	Mengontrol penggunaan alat.
`response_format`	objek	`{"type": "json_object"}`	Output mode JSON.
`seed`	int	integer apa pun	Untuk reproduktibilitas.
`presence_penalty`	float	-2 hingga 2	Menghukum topik yang berulang.
`frequency_penalty`	float	-2 hingga 2	Menghukum token yang berulang.

thinking_mode adalah pengungkit biaya terbesar. non-thinking melewati seluruh jejak penalaran dan mengembalikan token dengan kecepatan kira-kira V3.2. thinking mengaktifkan blok penalaran yang memerlukan token tambahan tetapi meningkatkan akurasi pada kode dan matematika. thinking_max menghasilkan skor di tabel utama DeepSeek; mode ini juga menghabiskan token paling banyak dan merupakan satu-satunya mode yang membutuhkan anggaran konteks 384K+.

Klien Python

SDK openai resmi berfungsi dengan penggantian URL dasar. Setiap pembungkus yang kompatibel dengan OpenAI yang sudah ada, termasuk LangChain, LlamaIndex, dan DSPy, juga berfungsi.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "Balas hanya dalam kode."},
        {"role": "user", "content": "Tulis fungsi Rust yang melakukan debouncing event."},
    ],
    extra_body={"thinking_mode": "thinking"},
    temperature=1.0,
    top_p=1.0,
    max_tokens=2048,
)

choice = response.choices[0]
print("Konten:", choice.message.content)
print("Token penalaran:", response.usage.reasoning_tokens)
print("Total token:", response.usage.total_tokens)

Trik extra_body adalah cara Anda meneruskan parameter khusus DeepSeek melalui SDK OpenAI tanpa menambal pustaka.

Klien Node

Struktur yang sama pada Node:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [
    { role: "user", content: "Jelaskan optimizer Muon dalam bahasa Inggris sederhana." },
  ],
  thinking_mode: "thinking",
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);
console.log("Penggunaan:", response.usage);

SDK Node menerima bidang yang tidak dikenal secara diam-diam, jadi thinking_mode diteruskan di tingkat atas tanpa extra_body.

Streaming respons

Setel stream: true dan iterasi potongan SSE. Bentuknya sama persis dengan OpenAI.

stream = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Streaming esai 300 kata tentang MoE."}],
    stream=True,
    extra_body={"thinking_mode": "non-thinking"},
)

for chunk in stream:
    delta = chunk.choices[0].delta.content or ""
    print(delta, end="", flush=True)

Jejak penalaran dialirkan secara terpisah saat mode berpikir diaktifkan; bidang delta.reasoning_content membawanya dan Anda dapat menampilkannya di UI atau mengabaikannya.

Panggilan alat (Tool calling)

V4 mendukung skema panggilan alat standar OpenAI. Fungsi yang didefinisikan dalam array tools menjadi dapat dipanggil, dan model memutuskan kapan harus memanggilnya.

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "Mengembalikan cuaca saat ini untuk suatu kota.",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string"},
                "unit": {"type": "string", "enum": ["c", "f"]},
            },
            "required": ["city"],
        },
    },
}]

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Cuaca di Lagos dalam Celcius?"}],
    tools=tools,
    tool_choice="auto",
    extra_body={"thinking_mode": "thinking"},
)

tool_call = response.choices[0].message.tool_calls[0]
print(tool_call.function.name, tool_call.function.arguments)

Dari sana, panggil fungsinya, tambahkan hasilnya sebagai pesan role: "tool", dan panggil API lagi untuk melanjutkan loop. Polanya identik dengan loop penggunaan alat OpenAI dan Anthropic.

Mode JSON

Untuk output terstruktur, minta JSON secara eksplisit dan atur format respons.

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "Balas dengan satu objek JSON."},
        {"role": "user", "content": "Ringkas catatan rilis ini sebagai {judul, tanggal, poin-poin}: ..."},
    ],
    response_format={"type": "json_object"},
    extra_body={"thinking_mode": "non-thinking"},
)

Mode JSON memaksa JSON yang valid tetapi tidak memberlakukan skema tertentu. Untuk validasi skema, pasangkan dengan Pydantic atau Zod di sisi klien.

Bangun koleksi di Apidog

Memutar ulang permintaan dari terminal menghabiskan kredit dan menyembunyikan perbedaan antar proses. Alur kerja yang bertahan dalam penggunaan nyata:

Unduh Apidog dan buat proyek.
Tambahkan lingkungan dengan {{DEEPSEEK_API_KEY}} yang disimpan sebagai variabel rahasia.
Simpan permintaan POST ke {{BASE_URL}}/chat/completions dengan header Authorization: Bearer {{DEEPSEEK_API_KEY}}.
Parameterisasi model dan thinking_mode sehingga Anda dapat melakukan A/B testing di berbagai varian tanpa menduplikasi permintaan.
Gunakan penampil respons untuk memeriksa usage.reasoning_tokens pada setiap proses. Itu adalah sinyal paling jelas apakah Anda membayar untuk mode berpikir yang tidak Anda perlukan.

Tim yang sudah menjalankan koleksi API GPT-5.5 yang cocok di Apidog dapat menduplikasinya, menukar URL dasar menjadi https://api.deepseek.com/v1, menukar ID model, dan menjalankan perintah perbandingan di kedua penyedia dalam hitungan menit.

Penanganan kesalahan

Amplopnya mengikuti OpenAI persis. Yang akan Anda temui pertama kali:

Kode	Arti	Perbaikan
400	Permintaan buruk	Periksa skema JSON, terutama `messages` dan `tools`.
401	Kunci tidak valid	Buat ulang di platform.deepseek.com.
402	Saldo tidak mencukupi	Isi ulang akun.
403	Model tidak diizinkan	Periksa cakupan kunci dan ejaan ID model.
422	Parameter di luar jangkauan	`max_tokens` atau `thinking_mode` mungkin tidak cocok.
429	Batas tarif	Berhenti sebentar, lalu coba lagi dengan jitter eksponensial.
500	Kesalahan server	Coba lagi sekali; jika terulang, periksa halaman status.
503	Kelebihan beban	Beralih ke V4-Flash atau coba lagi dalam 30 detik.

Bungkus panggilan dalam pembantu percobaan ulang yang menangani 429 dan 5xx dengan backoff eksponensial. Jangan mencoba ulang kesalahan 4xx secara otomatis; itu adalah bug logika, bukan kegagalan sementara.

Pola kontrol biaya

Empat pola menjaga pengeluaran tetap dapat diprediksi.

Default ke V4-Flash. Beralih ke V4-Pro hanya untuk prompt di mana Anda telah mengukur peningkatan kualitas.
Batasi thinking_max dengan sebuah flag. Mode ini adalah mode termahal dengan selisih yang lebar; hanya arahkan ke mode ini ketika akurasi mengalahkan latensi.
Batasi max_tokens. Kebanyakan jawaban muat dalam 2.000 token output. Konteks 1M adalah untuk input, bukan output.
Catat usage pada setiap panggilan. Kirim jumlah input, output, dan penalaran ke tumpukan observabilitas Anda; peringatan pada lonjakan token penalaran yang tiba-tiba menangkap prompt yang menyimpang.

Migrasi dari model DeepSeek yang lebih lama

ID deepseek-chat dan deepseek-reasoner yang lebih lama akan tidak digunakan lagi pada 24 Juli 2026. Migrasi hanya memerlukan satu baris perbedaan per situs panggilan; bentuk permintaan dan respons tidak berubah.

-  model="deepseek-chat"
+  model="deepseek-v4-pro"

Sebelum meluncurkan produksi, jalankan perbandingan A/B secara berdampingan di Apidog. Peningkatan kualitas respons biasanya sepadan dengan peralihan; batas waktu penghentian paksa akan memaksa migrasi bagaimanapun juga.

FAQ

Apakah API DeepSeek V4 siap produksi?Ya. API diluncurkan pada 23 April 2026 bersama dengan bobotnya. DeepSeek V3 dan V3.2 berjalan pada infrastruktur yang sama dalam skala besar selama lebih dari setahun, sehingga antarmuka API sudah matang.

Apakah V4 mendukung format pesan Anthropic?Ya. Arahkan ke https://api.deepseek.com/anthropic/v1/messages dan kirim payload berbentuk Anthropic. Kedua format tersebut mencapai model dasar yang sama.

Berapa jendela konteksnya?1 juta token pada V4-Pro dan V4-Flash. Perhatikan bahwa mode Think Max merekomendasikan jendela kerja minimum 384K.

Bagaimana cara menghitung token input sebelum mengirim?Gunakan tokenizer OpenAI standar untuk perkiraan; DeepSeek menerbitkan jumlah pasti di blok usage pada setiap respons. Untuk penganggaran produksi, percaya pada jumlah di sisi respons.

Bisakah saya melakukan fine-tune melalui API?Belum saat peluncuran. Fine-tuning saat ini berjalan melalui checkpoint Base yang di-host sendiri di Hugging Face.

Apakah API gratis untuk dicoba?Tidak ada tingkatan gratis di tingkat akun, tetapi pendaftar baru terkadang menerima kredit percobaan.