DeepSeek V4 dirilis pada 23 April 2026, dan tidak seperti kebanyakan peluncuran terdepan, jalur gratisnya benar-benar ada. Obrolan web resmi menjalankan V4-Pro tanpa kartu kredit. Bobotnya berlisensi MIT dan dapat diunduh hari ini. Agregator seperti OpenRouter dan Chutes biasanya menyediakan tingkatan gratis dalam beberapa hari setelah rilis DeepSeek. Jika ditotal, Anda dapat menjalankan beban kerja V4 yang serius tanpa biaya sepeser pun sebelum Anda memutuskan apakah akan mengisi ulang akun.
Panduan ini membahas setiap jalur tanpa biaya yang dapat kami verifikasi, mana yang cocok untuk kasus penggunaan tertentu, dan cara menyiapkan koleksi yang siap produksi di Apidog sehingga perpindahan ke penagihan berbayar tetap lancar saat penggunaan meningkat.
Untuk gambaran umum tingkat produk, lihat apa itu DeepSeek V4. Untuk panduan lengkap API, lihat cara menggunakan DeepSeek V4 API.
TL;DR
- chat.deepseek.com — obrolan web gratis di V4-Pro dengan tombol Think High dan Think Max. Tanpa kartu. Berfungsi hari ini.
- Bobot Hugging Face + GPU Anda sendiri — lisensi MIT, V4-Flash berjalan pada 2 hingga 4 H100, V4-Pro membutuhkan cluster.
- Tingkatan gratis OpenRouter dan Chutes — gateway pihak ketiga yang biasanya membuka kuota gratis pada model DeepSeek dalam seminggu setelah peluncuran.
- Penyedia Inferensi Hugging Face — endpoint bersama dengan batasan laju yang mengekspos V4 untuk eksperimen awal.
- Kredit uji coba Kaggle, Colab, dan RunPod — komputasi gratis untuk sekali jalan saat Anda ingin menguji hosting mandiri.
- Setiap jalur gratis membatasi penggunaan. Untuk beban kerja produksi, beralihlah ke penagihan berbayar sebelum batasan tercapai.

Jalur 1: chat.deepseek.com (jalur gratis default)
Jalur gratis tercepat dan paling andal adalah antarmuka obrolan resmi. V4-Pro adalah model default; tombol di bagian atas komposer beralih antara mode penalaran Non-Think, Think High, dan Think Max.

Pengaturan
- Buka chat.deepseek.com.
- Masuk dengan email, Google, atau WeChat.
- Konfirmasi bahwa model aktif menunjukkan V4-Pro.
- Mulai mengetik.
Apa yang Anda dapatkan
- Jendela konteks 1M-token penuh.
- Unggah file untuk PDF, gambar, dan bundel kode.
- Pencarian web sesuai permintaan.
- Ketiga mode penalaran, termasuk Think Max.
- Riwayat percakapan dan folder.
Seperti apa batasannya
DeepSeek tidak mempublikasikan batasan jumlah pesan per hari yang ketat; tingkatan gratisnya dibatasi secara lunak di bawah beban. Penggunaan yang berat dapat memperlambat respons atau mengantre permintaan tetapi jarang melakukan pemblokiran keras. Jika Anda mulai melihat batasan laju yang persisten, itu adalah sinyal untuk memperlambat frekuensi atau beralih ke API.
Tugas yang baik untuk UI web: menguji apakah V4 mengalahkan Claude pada prompt tersulit Anda, menempelkan tarball repo untuk tinjauan arsitektur, menjalankan Think Max terhadap kontrak yang seharusnya Anda bayar pengacara untuk membacanya. Tugas yang buruk: apa pun yang membutuhkan otomatisasi atau reproduktivitas.
Jalur 2: Hosting mandiri V4-Flash di GPU Anda sendiri
V4-Flash adalah varian berlisensi MIT yang paling realistis untuk di-hosting mandiri oleh kebanyakan orang. Dengan total 284B dan aktif 13B, kotak multi-H100 menjalankannya dalam FP8 dengan throughput serius, dan kuantisasi INT4 menempatkannya pada satu kartu 80GB.
Biaya di sini adalah perangkat keras, bukan lisensi. Jika Anda sudah memiliki kapasitas GPU, ini adalah jalur gratis yang paling tahan lama; tidak dapat dibatasi lajunya, dihentikan, atau ditarik.
Ambil bobotnya
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash
Harapkan sekitar 500GB pada FP8. Cadangkan disk.
Sajikan dengan vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto \
--port 8000
Setelah berjalan, arahkan klien yang kompatibel dengan OpenAI ke http://localhost:8000/v1. Endpoint ini menerima bentuk permintaan yang sama dengan DeepSeek API berbayar; Apidog melihatnya sebagai URL dasar lain dan semua koleksi tersimpan Anda berfungsi tanpa perubahan.
Pemeriksaan realitas perangkat keras
| Varian | Kartu minimum (FP8) | Kartu minimum (INT4) | Throughput realistis |
|---|---|---|---|
| V4-Flash | 2 × H100 80GB | 1 × H100 80GB | 50 hingga 150 tok/s |
| V4-Pro | 16 × H100 80GB | 8 × H100 80GB | tergantung klaster |
Jika Anda tidak memiliki kartu yang tidak terpakai, perhitungan biasanya lebih menguntungkan API daripada menyewa GPU per jam. Jalur hosting mandiri sebagian besar untuk tim dengan kapasitas yang ada atau persyaratan kepatuhan yang ketat.
Jalur 3: Tingkatan gratis OpenRouter
OpenRouter adalah gateway tingkat permintaan yang mengumpulkan model bobot terbuka dan tertutup di balik satu API. Platform ini secara rutin membuka tingkatan gratis pada rilis DeepSeek baru, dan pola ini telah berlaku untuk V3, V3.1, dan V3.2.

Pengaturan
- Daftar di openrouter.ai.
- Buat kunci API.
- Periksa katalog model untuk
deepseek/deepseek-v4-proataudeepseek/deepseek-v4-flash; varian gratis biasanya diberi akhiran:free. - Panggil dengan SDK yang kompatibel dengan OpenAI.
from openai import OpenAI
client = OpenAI(
api_key=OPENROUTER_KEY,
base_url="https://openrouter.ai/api/v1",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash:free",
messages=[{"role": "user", "content": "Write a Python CLI for semver bumping."}],
)
print(response.choices[0].message.content)
Batasan
Tingkatan gratis di OpenRouter biasanya membatasi beberapa ratus permintaan per hari per kunci dan mengurangi prioritas di bawah beban. Sempurna untuk pembuatan prototipe, tidak dapat diandalkan untuk produksi.
Jalur 4: Penyedia Inferensi Hugging Face
Hugging Face menjalankan permukaan inferensi yang di-host yang mengekspos checkpoint V4 tak lama setelah rilis. Batasan laju ketat dan latensi bervariasi, tetapi gratis untuk dipanggil.
from huggingface_hub import InferenceClient
client = InferenceClient(model="deepseek-ai/DeepSeek-V4-Flash")
response = client.chat_completion(
messages=[{"role": "user", "content": "Summarize the V4 technical report in 5 bullets."}],
max_tokens=512,
)
print(response.choices[0].message.content)
Token HF gratis. Untuk penggunaan yang lebih berat, tingkatkan ke akun Pro; batasan laju menjadi lebih longgar tetapi biayanya masih jauh di bawah API resmi untuk beban kerja yang sebanding.
Jalur 5: Kredit uji coba di Colab, Kaggle, RunPod, dan Lambda
Setiap penyedia penyewaan GPU besar menawarkan kredit uji coba. Jika digunakan dengan baik, mereka dapat menutupi eksperimen V4-Flash sekali jalan tanpa harus mengeluarkan uang sungguhan.
- Google Colab. Tingkatan T4 gratis terlalu kecil untuk V4. Colab Pro+ memberikan 500 unit komputasi per bulan, cukup untuk beberapa eksperimen V4-Flash pada A100.
- Kaggle. Jam GPU mingguan gratis di T4 dan P100. Terlalu kecil untuk V4-Pro, terkadang cukup untuk eksperimen V4-Flash terkuantisasi.
- RunPod. Kredit uji coba $10 mencakup beberapa jam pada H100. Cukup untuk menjalankan vLLM, menjalankan rangkaian benchmark, dan mematikannya.
- Lambda. Promo jam gratis sesekali di H100 dan H200; pantau halaman pendaftaran untuk penawaran aktif.
Tidak ada di antaranya yang merupakan jalur gratis jangka panjang. Mereka berfungsi baik untuk eksperimen terbatas dan tidak lebih dari itu.
Bangun koleksi Apidog yang agnostik penyedia
Manfaat praktis dari banyaknya jalur gratis ini adalah Anda dapat menguji prompt yang sama di semua jalur tanpa menduplikasi pekerjaan. Alurnya:
- Unduh Apidog.
- Buat satu koleksi dengan empat lingkungan:
chat(placeholder),deepseek(https://api.deepseek.com/v1),openrouter(https://openrouter.ai/api/v1),self-hosted(http://localhost:8000/v1). - Simpan satu permintaan POST ke
{{BASE_URL}}/chat/completions. - Simpan kunci setiap penyedia sebagai variabel rahasia sehingga isi permintaan identik di seluruh lingkungan.
- Ganti lingkungan untuk melakukan A/B testing prompt yang sama di setiap backend.
Ini adalah pola yang sama yang digunakan untuk koleksi tingkatan gratis GPT-5.5; satu alat, setiap penyedia, tanpa duplikasi pekerjaan.
Jalur gratis mana yang harus Anda pilih?
Empat heuristik mencakup sebagian besar keputusan.
- Saya ingin membentuk opini dalam lima menit. Gunakan chat.deepseek.com.
- Saya ingin membuat prototipe produk. Gunakan tingkatan gratis OpenRouter sampai Anda mencapai batasan, lalu isi ulang di DeepSeek.
- Saya memiliki GPU dan kebutuhan kepatuhan. Hosting mandiri V4-Flash di vLLM.
- Saya membutuhkan penggunaan gratis jangka panjang. Tidak ada yang seperti itu. Setiap tingkatan gratis yang di-host memiliki batasan. Pasangkan chat.deepseek.com untuk pekerjaan interaktif dengan isi ulang berbayar yang moderat untuk otomatisasi.
Kapan harus berhenti dari gratis
Tiga sinyal yang mengatakan Anda telah melampaui tingkatan gratis.
- Anda dibatasi lajunya lebih dari sekali sehari. Itu berarti beban kerja cukup besar untuk pantas mendapatkan anggaran.
- Anda membutuhkan SLA. Tingkatan gratis tidak menyediakannya. API resmi menyediakannya.
- Anda perlu mencatat, mengaudit, atau memenuhi kepatuhan. API berbayar mengembalikan catatan penagihan yang jelas; sebagian besar tingkatan gratis agregator tidak.
Ketika salah satu hal itu terjadi, beralihlah ke API resmi. Isi ulang minimum adalah $2 dan harga per-token adalah yang terendah di tingkatan terdepan.
FAQ
Apakah chat.deepseek.com benar-benar gratis?Ya. Tanpa kartu kredit, tanpa batas waktu uji coba. Layanan ini dibatasi secara lunak tetapi tidak berbayar.
Apakah saya memerlukan akun Hugging Face untuk mengunduh bobotnya?Secara teknis tidak, repo bersifat publik. Secara praktis ya; akun yang masuk memberi Anda batasan laju yang lebih baik pada unduhan.
Jalur gratis mana yang menjalankan V4-Pro yang sesungguhnya?chat.deepseek.com menjalankan V4-Pro penuh. Tingkatan gratis OpenRouter lebih sering membawa V4-Flash. Jika Anda membutuhkan output V4-Pro dan tidak ingin membayar, obrolan web adalah jalur yang andal.
Bisakah saya menempatkan tingkatan gratis di belakang sebuah produk?Tidak secara bertanggung jawab. Tingkatan gratis memiliki batasan laju, mengubah ketentuan, dan terkadang menghilang. Jika Anda mengirimkan V4 ke pelanggan, gunakan API berbayar atau hosting mandiri.
Apakah hosting mandiri benar-benar gratis?Lisensinya gratis. Perangkat kerasnya tidak. Jika Anda sudah memiliki kapasitas GPU, biaya marginalnya adalah listrik. Jika Anda menyewa, perhitungannya biasanya kalah dengan API berbayar.
Apakah akan ada tingkatan gratis Apidog untuk pengujian?Apidog sendiri gratis digunakan untuk desain dan pengujian API; biayanya hanya berupa kredit ketika Anda mengakses API berbayar melaluinya. Jadi ya, Anda dapat menggabungkan ruang kerja Apidog gratis dengan chat.deepseek.com atau OpenRouter untuk alur kerja yang sepenuhnya gratis.
