DeepSeek, modellerin piyasaya sürüldüğü aynı gün, 23 Nisan 2026'da V4 fiyatlandırmasını yayınladı ve bu rakamlar, öncü yapay zeka için maliyet tabanını yeniden belirledi. V4-Flash, milyon giriş token başına **0,14 ABD doları ve milyon çıkış token başına 0,28 ABD doları** olarak ücretlendirilir. V4-Pro ise **giriş için 1,74 ABD doları ve çıkış için 3,48 ABD doları** olarak ücretlendirilir. Her ikisi de 1M token bağlam penceresi ve 384K'ya kadar çıkış tokenı sunar. Her ikisi de, tekrarlanan istemlerde giriş maliyetlerini %80 ila %90 oranında azaltan agresif bir önbellek isabet indirimi içerir.
Bu rehber, tam fiyat listesini, bağlam önbelleğe almanın gerçek çağrı başına maliyeti nasıl değiştirdiğini, GPT-5.5 ve Claude Opus'a karşı dürüst bir karşılaştırmayı ve Apidog içinde harcamaları öngörülebilir tutmanın dört yolunu kapsar.
düğme
Ürüne genel bakış için, DeepSeek V4 nedir başlıklı makaleye göz atın. Geliştirici kılavuzu için, DeepSeek V4 API nasıl kullanılır başlıklı makaleye göz atın. Sıfır maliyetli yollar için, DeepSeek V4 ücretsiz nasıl kullanılır başlıklı makaleye göz atın.
ÖZET
- V4-Flash: 0,14 ABD doları / M giriş (önbellek ıskası), 0,028 ABD doları / M giriş (önbellek isabeti), 0,28 ABD doları / M çıkış.
- V4-Pro: 1,74 ABD doları / M giriş (önbellek ıskası), 0,145 ABD doları / M giriş (önbellek isabeti), 3,48 ABD doları / M çıkış.
- Bağlam penceresi: Her iki varyantta da **1M token** giriş, **384K token** çıkış.
- Önbellek isabeti indirimi: tekrarlanan öneklerde **Flash için yaklaşık %80 indirim**, **Pro için %92 indirim**.
deepseek-chatvedeepseek-reasoner**24 Temmuz 2026**'da kullanımdan kaldırılacak; faturalandırma V4-Flash'a göre yapılacak.- Önbellek ıskası oranlarında, V4-Pro girişte GPT-5.5'ten yaklaşık **2,9 kat daha ucuz** ve çıkışta **yaklaşık 8,6 kat daha ucuz**.
Tam fiyat listesi
| Model | Giriş (önbellek ıskası) | Giriş (önbellek isabeti) | Çıkış | Bağlam |
|---|---|---|---|---|
deepseek-v4-flash |
$0.14 / M | $0.028 / M | $0.28 / M | 1M / 384K |
deepseek-v4-pro |
$1.74 / M | $0.145 / M | $3.48 / M | 1M / 384K |
deepseek-chat (24.07.2026'da kullanımdan kaldırıldı) |
V4-Flash düşünme dışı moduna eşlenir | — | — | — |
deepseek-reasoner (24.07.2026'da kullanımdan kaldırıldı) |
V4-Flash düşünme moduna eşlenir | — | — | — |
Üç ayrıntı, ham rakamlardan daha önemlidir.
İlk olarak, düşünme modunda veya düşünme dışı modda olmanız fark etmeksizin fiyatlar aynıdır. Model kimliği oranı belirler; akıl yürütme modu sadece o oranda kaç token tükettiğinizi değiştirir.
İkincisi, önbellek isabeti fiyatlandırması otomatiktir. Aynı hesaba karşı tekrarlanan öneke sahip her istek fayda sağlar; herhangi bir katılım sağlamanıza veya bir şey ayarlamanıza gerek yoktur. Önekler en az 1.024 token uzunluğunda olmalı ve bayt bayt eşleşmelidir.
Üçüncüsü, eski deepseek-chat ve deepseek-reasoner kimlikleri artık V4-Flash takma adları olarak faturalandırılıyor. Henüz geçiş yapmadıysanız, zaten V4-Flash kalitesini V4-Flash fiyatlarıyla alıyorsunuz; kimlik kaldırma son tarihi 24 Temmuz 2026'dır.
Basit Bir Şekilde Bağlam Önbellekleme
Önbellekleme, DeepSeek V4'teki en büyük maliyet kaldıraçlarından biridir. Desen basittir: çağrılar arasında tekrarlayan her şey, özellikle uzun sistem istemleri, ajan araç şemaları ve RAG bağlamı, ikinci ve sonraki çağrılarda tam giriş oranının bir kısmıyla faturalandırılır.
Somut bir örnek. Hiç değişmeyen 20.000 tokenlık bir sistem istemine sahip bir ajan çalıştırıyor, ardından her biri 200 tokendan oluşan 100 farklı kullanıcı sorusu soruyorsunuz.
Önbellekleme Olmadan:
- Giriş: 100 çağrı × 20.200 token × 1,74 $ / M = 3,52 $
- Çıkış: 100 çağrı × 500 token × 3,48 $ / M = 0,17 $
- Toplam: 3,69 $
Önbellekleme ile (ilk çağrı ıskalar, sonraki 99 isabet eder):
- İlk çağrı girişi: 20.200 × 1,74 $ / M = 0,035 $
- Sonraki 99 önbellek isabetli önek: 99 × 20.000 × 0,145 $ / M = 0,287 $
- Sonraki 99 önbellek ıskası kullanıcı dönüşü: 99 × 200 × 1,74 $ / M = 0,034 $
- Çıkış: 100 × 500 × 3,48 $ / M = 0,174 $
- Toplam: 0,53 $
Benzer bir iş yükünde yaklaşık **7 kat daha ucuz**. Ham oranın zaten düşük olduğu V4-Flash'ta önbellekleme etkisi daha da çarpıcıdır.
GPT-5.5 ve Claude ile Nasıl Karşılaştırılır
Çoğu ekibin gerçekten önemsediği karşılaştırma:
| Model | Giriş (standart) | Giriş (önbelleğe alınmış) | Çıkış | Bağlam |
|---|---|---|---|---|
| DeepSeek V4-Flash | $0.14 / M | $0.028 / M | $0.28 / M | 1M |
| DeepSeek V4-Pro | $1.74 / M | $0.145 / M | $3.48 / M | 1M |
| GPT-5.5 | $5 / M | $1.25 / M | $30 / M | 1M |
| GPT-5.5 Pro | $30 / M | — | $180 / M | 1M |
| Claude Opus 4.6 | $15 / M | $1.50 / M | $75 / M | 200K |
Bu tablonun üç yorumu.
- Çıkış tokenlarında, V4-Pro, GPT-5.5'ten yaklaşık **8,6 kat daha ucuz** ve Claude Opus 4.6'dan **21 kat daha ucuzdur**. Çoğu ajan iş yükünün bütçelerini harcadığı yer çıkıştır; fark katlanarak artar.
- Önbelleğe alınmış girişte, V4-Pro, önbelleğe alınmış GPT-5.5'ten yaklaşık **10 kat daha ucuz** ve önbelleğe alınmış Claude'dan **10 kat daha ucuzdur**. Uzun sistem istemleri, araç şemaları ve tekrarlanan RAG bağlamı burada en çok etkilenenlerdir.
- Ham karşılaştırma oranına göre, V4-Pro, LiveCodeBench'te (en üst seviyeye karşı 93,5) ve Codeforces'ta (3168'e karşı 3206) GPT-5.5'e eşit veya ondan daha iyidir ve maliyeti ise çok daha düşüktür. Açık ağırlıklar değer önermesinin özü budur. Tam karşılaştırma tablosu için DeepSeek V4 nedir başlıklı makaleye bakın.
Dürüstçe belirtmek gerekirse: Claude, uzun bağlam alma karşılaştırmalarında hala V4-Pro'yu geride bırakırken, Gemini 3.1 Pro hala MMLU-Pro'da liderdir. İş yükünüz bir milyon token içinde samanlıkta iğne arama gibi bir alım işlemine bağlıysa, token başına tasarruflar kalite farkını telafi etmeyebilir.
Yaygın İş Yükleri için Maliyet Modellemesi
Dört iş yükü, çoğu üretim kullanım durumunu kapsar. Her birinin V4-Pro'da maliyeti şöyledir (önbellek ıskası tabanı; önbellek isabeti tasarrufları bunun üzerine eklenir).
1. Ajanlı kodlama döngüsü (50K bağlam, 2K çıkış, görev başına 20 çağrı)
- Giriş: 50.000 × 20 × 1,74 $ / M = 1,74 $
- Çıkış: 2.000 × 20 × 3,48 $ / M = 0,14 $
- Görev başına maliyet: ~1,88 $
Aynı şekilde görev başına yaklaşık 6,20 $ olan GPT-5.5 ile karşılaştırın.
2. Uzun Belge Soru-Cevap (500K bağlam, 1K çıkış)
- Giriş: 500.000 × 1,74 $ / M = 0,87 $
- Çıkış: 1.000 × 3,48 $ / M = 0,003 $
- Çağrı başına maliyet: ~0,87 $
Çağrı başına yaklaşık 2,53 $ olan GPT-5.5 ile karşılaştırın.
3. Yüksek Hacimli Sınıflandırma (2K bağlam, 200 çıkış, 10.000 çağrı)
Burada V4-Flash kullanın; V4-Pro aşırıya kaçar.
- Giriş: 2.000 × 10.000 × 0,14 $ / M = 2,80 $
- Çıkış: 200 × 10.000 × 0,28 $ / M = 0,56 $
- Çalıştırma maliyeti: ~3,36 $
Aynı çalıştırma için yaklaşık 110 $ olan GPT-5.5 ile karşılaştırın.
4. Tekrarlanan İstemli Sohbet Robotu (10K sistem istemi, 500 kullanıcı tokenı, 1K çıkış, 1.000 oturum)
- İlk çağrı girişi: 10.500 × 1,74 $ / M = 0,018 $
- Önbellek isabetli giriş: 999 × 10.000 × 0,145 $ / M = 1,45 $
- Önbellek ıskası kullanıcı dönüşleri: 999 × 500 × 1,74 $ / M = 0,87 $
- Çıkış: 1.000 × 1.000 × 3,48 $ / M = 3,48 $
- Oturum çalıştırma maliyeti: ~5,82 $
Aynı iş yükünde önbellekleme ile yaklaşık 26,35 $ olan GPT-5.5 ile karşılaştırın.
Dikkat Edilmesi Gereken Gizli Maliyetler
Etiket fiyatı tüm hikaye değildir. İlk aydan sonra ekipleri zorlayabilecek dört madde:
- **Düşünme modu token enflasyonu.**
thinking_max, aynı istem üzerindenon-thinkingmoduna göre 3 ila 10 kat daha fazla çıkış tokenı tüketir. Bu akıl yürütme tokenları çıkış oranından faturalandırılır. Think Max'i bir bayrakla kontrol edin. - **Sessiz bağlam büyümesi.** Ajan döngüleri genellikle tüm konuşmayı her dönüşte geri besler. 1M token bağlamlarında bu hızla büyür. Agresif bir şekilde kısaltın veya özetleyin.
- **Yeniden deneme fırtınaları.** Her 500 yanıtında yeniden deneme yapan hatalı bir döngü, faturanızı bir saat içinde ikiye katlayabilir. Üstel geri çekilme (exponential backoff) ve istek başına katı bir yeniden deneme sınırı ekleyin.
- **Geliştirme döngüsü.** Bir istem üzerinde curl aracılığıyla yineleme yapmak, her seferinde tüm bağlamı yeniden çalıştırır. Apidog kullanmak bunu sıfıra yakın düşürür çünkü değişken ikamesi, istem ayarlamalarını tüm yükü yeniden yazmaya gerek kalmadan ücretsiz olarak yeniden denemeyi mümkün kılar.
Apidog'da Maliyeti Takip Etme
Faturalar gerçek hale geldiğinde çoğu ekibin başvurduğu iş akışı:
- Apidog'u indirin ve
DEEPSEEK_API_KEY'i her ortam için gizli bir değişken olarak saklayın. https://api.deepseek.com/v1/chat/completionsadresine tek bir POST isteği kaydedin.- Yanıt panelinde,
usage.prompt_tokens,usage.completion_tokensveusage.reasoning_tokens'ı sabitleyin. Her çağrı, çıktıyla aynı ekranda maliyet matematiğini gösterir. - İstekleri kopyalamadan V4-Flash ile V4-Pro ve Düşünme-Dışı ile Düşünme-Max'i A/B testi yapabilmek için
modelvethinking_mode'u parametreleştirin. - GPT-5.5 için aynı koleksiyonu yansıtın (eşleşen GPT-5.5 API rehberi kurulumu belgeler). Tek pencerede, her iki sağlayıcı da, maliyetler görünür.
Bu iş akışı, ay sonu faturalarında ortaya çıkan maliyet sürprizlerinin yaklaşık %80'ini yakalar.
Harcamayı Öngörülebilir Tutan Dört Kural
- **Varsayılan olarak V4-Flash kullanın.** Yalnızca geliri etkileyen bir kalite farkı ölçtüğünüzde V4-Pro'ya geçin.
- **Varsayılan olarak Düşünme-Dışı modunu kullanın.** Zor görevlerde Düşünme Yüksek moduna yükseltin. Düşünme Maks modunu doğruluğu kritik işler için ayırın.
- **
max_tokens'ı sınırlayın.** 384K çıkış tavanı bir güvenlik önlemidir, bir hedef değildir. Çoğu üretim yanıtı 2K'ya sığar. - **Kullanım telemetrisi gönderin.** Her çağrıda
prompt_tokens,completion_tokensvereasoning_tokens'ı günlüğe kaydedin. Akıl yürütme tokenı artışlarında uyarı verin; bunlar, yanlışlıkla Düşünme Maks bölgesine kayan istemleri işaret eder.
Sıkça Sorulan Sorular
Ücretsiz bir katman var mı?Kullanım ücretsiz bir API katmanı bulunmamaktadır, ancak yeni hesaplar zaman zaman küçük bir deneme kredisi alır. API dışındaki sıfır maliyetli yollar için, DeepSeek V4'ü ücretsiz nasıl kullanacağınızı görün.
Önbellek isabeti fiyatlandırması nasıl çalışır?Aynı hesap içindeki istekler arasında tekrarlayan 1.024 token veya daha uzun önekler, önbellek isabeti oranından faturalandırılır. İlk çağrı önbellek ıskası oranını öder; sonraki aynı önekli çağrılar indirimli oranı öder. Önbellekleme otomatiktir.
Düşünme modları daha mı pahalı?Token başına oran aynıdır. Düşünme modları, model akıl yürütme izlerini yazdığı için daha fazla token tüketir. Gerçek maliyeti ölçmek için usage nesnesindeki reasoning_tokens'ı takip edin.
Fiyatlandırma istikrarlı mı?DeepSeek fiyatlandırmayı periyodik olarak değiştirir. V3.2 oranları 2025'in büyük bir bölümünde sabit kaldı; V4 fiyatlandırmasının yayınlanmış bir bitiş tarihi yoktur. Bütçeleme yapmadan önce canlı fiyatlandırma sayfasını kontrol edin.
V4-Pro ve V4-Flash aynı çıkış oranından mı faturalandırılıyor?Hayır. V4-Pro çıkışı 3,48 $ / M; V4-Flash çıkışı 0,28 $ / M'dir. 12,4 kat oran, varsayılan olarak V4-Flash'ı tercih etmek için en büyük nedendir.
Anthropic formatındaki uç nokta fiyatlandırmayı değiştiriyor mu?Hayır. https://api.deepseek.com/anthropic, OpenAI formatındaki uç nokta ile aynı oranları kullanır. Format faturalandırmayı etkilemez.
