Google, Gemini 3.5 Flash'ı 19 Mayıs 2026'da piyasaya sürdü ve ana fiyatlandırma iddiası iddialı: aracı görevler için "diğer öncü modellerin yarı fiyatından daha az". Bu, pazarlama sloganı. Bu rehber gerçek matematiği yapıyor.
Jeton başına oranları, ücretsiz katman limitlerini, toplu mod indirimini, yaygın iş yükleri için gerçek dünya maliyet senaryolarını ve GPT-5.5 ve Claude Opus 4.7'ye karşı yan yana maliyet karşılaştırmasını bulacaksınız. Sonunda, Flash'ı çalıştırmanın tam olarak ne kadara mal olduğunu ve çok fazla ödün vermeden %50 veya daha fazla tasarruf edebileceğiniz yerleri bileceksiniz.

Hızlı özet
| Maliyet türü | Oran |
|---|---|
| Standart giriş | ~1,50 $ / 1M jeton |
| Standart çıkış | ~9,00 $ / 1M jeton |
| Toplu mod girişi | ~0,75 $ / 1M jeton (~%50 indirim) |
| Toplu mod çıkışı | ~4,50 $ / 1M jeton (~%50 indirim) |
| Önbelleğe alınmış giriş | indirimli oran (değişir) |
| Ücretsiz katman (AI Studio) | ~1.500 istek/gün, 1M jeton/dk, 15 RPM |
| Vertex AI yeni hesap | 90 gün içinde 300 $ kredi |
Oranlar Google'ın lansman duyurusu ve toplayıcı listelerine göre Mayıs 2026 itibarıyla geçerlidir. Bütçeyi taahhüt etmeden önce daima resmi fiyatlandırma sayfasını kontrol edin.
Gemini 3.5 Flash jeton başına oranları
Flash, her Gemini varyantının 2.5'ten beri kullandığı aynı kullandığın kadar öde modelini kullanır: her milyon giriş jetonu ve her milyon çıkış jetonu için ayrı ayrı ödeme yaparsınız.
| Katman | Giriş ($/1M) | Çıkış ($/1M) |
|---|---|---|
| Standart | ~1,50 $ | ~9,00 $ |
| Önbelleğe alınmış giriş | indirimli | yok |
| Toplu (eşzamansız) | ~0,75 $ | ~4,50 $ |
İki pratik not:
- Jetonlar kelime değildir. Kaba kural: 1.000 jeton ≈ 750 İngilizce kelime. 100.000 kelimelik bir roman yaklaşık 133 bin giriş jetonudur.
- Çıkış, girişe göre yaklaşık 6 kat daha pahalıdır. Uzun cevaplar alan istemler, kısa cevaplar alan istemlerden çok daha pahalıya mal olur. Yapılandırılmış çıktı şemaları, model daha az yazdığı için serbest biçimli metne göre genellikle para tasarrufu sağlar.
Gemini'nin toplu modunun nasıl çalıştığı hakkında bilgi için Gemini API toplu modu burada ve %50 daha ucuz makalesine bakın.
Ücretsiz katman: ödeme yapmadan ne elde edersiniz
AI Studio ücretsiz katmanı, ilk günden itibaren Flash ile birlikte gelir. Lansmandaki sınırlar:
- Günde 1.500 istek
- Dakikada 1 milyon jeton
- Dakikada 15 istek
Bu, çoğu yan proje, dahili prototip ve küçük ölçekli otomasyon için yeterlidir. İş yükünüz günde 1.500 çağrının içine sığıyorsa, 0 $ ödersiniz.
Ücretsiz katman özellikleri:
- Kredi kartı gerekmez
- Ücretli uç nokta ile aynı
gemini-3.5-flashmodeli - Aynı SDK deseni, sadece farklı bir anahtar
- İstemler, Google'ın modellerini geliştirmek için kullanılabilir (AI Studio ayarlarında devre dışı bırakın)
- Kotalar değişebilir; tam sayılar üzerinden bir lansman zaman çizelgesi belirlemeyin
Tam kurulum kılavuzu için Gemini 3.5'i ücretsiz olarak nasıl kullanabilirsiniz ve Ücretsiz Google Gemini API anahtarı nasıl alınır makalelerine bakın.
Toplu mod: çoğu ekibin kaçırdığı %50 indirim
İş yükünüz gerçek zamanlı yanıtlara ihtiyaç duymuyorsa, toplu mod Flash maliyetlerini kabaca yarıya indirir.
Nasıl çalışır:
- Tek seferde 50.000 adede kadar istem içeren bir toplu iş gönderin
- Google bunları 24 saat içinde işler
- Hem giriş hem de çıkış için jeton başına ~%50 daha az ödersiniz
Toplu modun ne zaman anlamlı olduğu:
- Toplu belge analizi (yasal inceleme, destek bileti sınıflandırması, içerik denetimi)
- SaaS kontrol panelleri için gece içerik oluşturma
- Gömme tarzı ön hesaplama
- Geçmiş verileri yeniden işlediğiniz taşıma işleri
Ne zaman anlamlı olmadığı:
- Sohbet kullanıcı arayüzleri (kullanıcılar 24 saat beklemez)
- Kullanıcı etkileşimli canlı aracı döngüleri
- Gerçek zamanlı kullanıcıya dönük her şey
Çoğu üretim yığını, gecikmeye tolerans gösterebilecek herhangi bir iş yükü için toplu modu çalıştırmalıdır. Tasarruflar ölçekte hızla birleşir. Kurulum detayları toplu mod rehberimizde.
Önbelleğe alınmış giriş: başka bir kaldıraç
İstemleriniz uzun bir statik önek (sistem istemi, büyük referans belge, uzun talimatlar) paylaşıyorsa, bağlam önbellekleme size önbelleğe alınmış kısımda indirim sağlar.
Desen:
- 100K jetonluk bir referans belgeyi bir kez önbelleğe alın
- Binlerce sorgu arasında yeniden kullanın
- Yalnızca yeni soru için tam oran ödeyin, önbelleğe alınmış önek için değil
Somut tasarruflar önbellek isabet oranına bağlıdır, ancak aynı alınan parçaların sorgular arasında geri geldiği RAG tarzı uygulamalar için %30-60 giriş maliyeti azaltması bekleyin.
Gerçek dünya maliyet senaryoları
Jeton matematiği hızla soyutlaşır. İşte Flash'ın standart oranlarında beş somut senaryo.
Senaryo 1: Müşteri destek sohbet botu
- Günde 10.000 kullanıcı mesajı
- Ortalama 200 giriş jetonu (kullanıcı mesajı + sistem istemi)
- Ortalama 400 çıkış jetonu (yanıt)
Günlük maliyet:
- Giriş: 10.000 × 200 × (1,50 $ / 1M) = 3,00 $/gün
- Çıkış: 10.000 × 400 × (9,00 $ / 1M) = 36,00 $/gün
- Toplam: ~39 $/gün, ~1.170 $/ay
Aynı iş yükünü toplu mod üzerinden çalıştırın (toplu yanıtlara tolerans gösterebiliyorsanız): ~585 $/ay. Sistem istemi için bağlam önbellekleme ekleyin: başka bir %20-30 indirim.
Senaryo 2: Belge Soru-Cevap SaaS
- Günde 1.000 belge analiz edildi
- Her belge ortalama 30 bin jeton (uzun PDF)
- Her Soru-Cevap 500 çıkış jetonu döndürür
Günlük maliyet:
- Giriş: 1.000 × 30.000 × (1,50 $ / 1M) = 45,00 $/gün
- Çıkış: 1.000 × 500 × (9,00 $ / 1M) = 4,50 $/gün
- Toplam: ~50 $/gün, ~1.500 $/ay
Flash'ın 1M bağlamının parladığı yer burasıdır: parçalama altyapısı yok, sadece tüm belgeyi gönderin. Bir amiral gemisi modelle parçalı RAG'ye kıyasla, API artı altyapıda kat kat daha fazla ödersiniz.
Senaryo 3: Uzun süreli otonom ajan
- Bir ajan çalıştırması = ~50 model dönüşü
- Her dönüş ortalama 5K giriş (artan bağlam) ve 1K çıkış
- Günde 200 çalıştırma
Çalıştırma başına maliyet:
- Giriş: 50 × 5.000 × (1,50 $ / 1M) = 0,375 $
- Çıkış: 50 × 1.000 × (9,00 $ / 1M) = 0,45 $
- Çalıştırma başına: ~0,83 $
Günlük toplam: 200 × 0,83 $ = ~165 $/gün, ~4.950 $/ay
Karşılaştırma için, Opus 4.7'deki aynı iş yükü (1M başına ~15 $/75 $) kabaca 25 $/çalıştırma veya 5.000 $/gün maliyeti vardır. Google'ın iddiasının işaret ettiği ajans maliyet farkı budur.
Senaryo 4: Grafik çıkarma hattı
- Günde 5.000 kontrol paneli ekran görüntüsü
- Her görüntü girişi: ~1.500 jetona eşdeğer
- Çıkış: 300 jeton yapılandırılmış JSON
Günlük maliyet:
- Giriş: 5.000 × 1.500 × (1,50 $ / 1M) = 11,25 $/gün
- Çıkış: 5.000 × 300 × (9,00 $ / 1M) = 13,50 $/gün
- Toplam: ~25 $/gün, ~750 $/ay
Toplu modu ekleyin ve aynı iş yükü ~375 $/ay'a düşer. CharXiv'in %84,2'lik mantığı, kalitenin korunduğu anlamına gelir.
Senaryo 5: Yüksek hacimli içerik üretimi
- Günde 100.000 kısa makale üretildi
- Her biri 500 giriş jetonu, 2.000 çıkış jetonu
Günlük maliyet:
- Giriş: 100.000 × 500 × (1,50 $ / 1M) = 75 $/gün
- Çıkış: 100.000 × 2.000 × (9,00 $ / 1M) = 1.800 $/gün
- Toplam: ~1.875 $/gün, ~56.250 $/ay
Bunu toplu moda taşıyın ve aylık fatura ~28K $'a düşer. Bu ölçekte, rutin parçaları 3.1 Flash-Lite gibi daha ucuz modellere yönlendirmeyi ve Flash'ı daha zor üretimler için saklamayı da test etmek isteyebilirsiniz.
GPT-5.5 ve Opus 4.7'ye karşı maliyet
Ana fiyat karşılaştırması:
| Model | Giriş ($/1M) | Çıkış ($/1M) | Flash'a karşı katı |
|---|---|---|---|
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ | 1 kat (temel) |
| GPT-5.5 | ~10 $ | ~30 $ | 6,7 kat giriş, 3,3 kat çıkış |
| Claude Opus 4.7 | ~15 $ | ~75 $ | 10 kat giriş, 8,3 kat çıkış |
Senaryo 1'i (müşteri destek sohbeti) her biri üzerinden çalıştırın:
- Flash: 39 $/gün
- GPT-5.5: ~140 $/gün (3,6 kat daha fazla)
- Opus 4.7: ~330 $/gün (8,5 kat daha fazla)
Google'ın pazarlama çizgisini yönlendiren ajans maliyet farkı budur. Amiral gemileri en zor görevlerde marjinal olarak daha iyi kalite sağlar; günlük iş yükleri için Flash, maliyetin çok küçük bir kısmıyla yeterlidir.
Daha derin ayrıştırmalar için GPT-5.5 fiyatlandırması ve üçlü karşılaştırmamıza bakın.
Diğer Gemini varyantlarına karşı maliyet
| Model | Giriş ($/1M) | Çıkış ($/1M) | Ne zaman kullanılmalı |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | ~0,40 $ | ~2,00 $ | Yüksek hacimli rutin işler |
| Gemini 3 Flash | ~0,50 $ | ~3,00 $ | Eski nesil, hala sağlam |
| Gemini 3.1 Pro | ~2,00 $ | ~12,00 $ | 3.5 Pro öncesi muhakeme ağırlıklı işler |
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ | Çoğu iş yükü için yeni varsayılan |
| Gemini 3.5 Pro (Haziran 2026) | Belirlenecek | Belirlenecek | En zor muhakeme görevleri |
Flash, 3.x Flash seleflerinden daha pahalı ancak önceki Pro katmanından inandırıcı bir şekilde daha ucuzdur. Çoğu ekip için bu doğru takastır: Flash 3.x'ten daha iyi, Pro 3.x'ten daha az maliyetli.
Eski Gemini serisi için 3.1 Flash-Lite, 3.0 API fiyatlandırması ve 3 Flash makalelerine bakın.
Vertex AI fiyatlandırması (üretim)
Flash'ı AI Studio yerine Vertex AI üzerinden çağırırsanız, jeton başına fiyatlandırma aynıdır. Farklılıklar faturalandırma ve hesap özellikleridir:
- API anahtarları yerine Hizmet hesabı doğrulaması
- Cloud Logging'de Denetim günlükleri
- Veri yerleşimi kontrolleri
- Ücretsiz katman yok, ancak 300 $ yeni hesap kredisi yaklaşık 90 günlük orta düzey kullanımı karşılar
- Ölçekte müzakere edebileceğiniz Özel kotalar
Çoğu üretim ekibi için yol şöyledir: AI Studio'nun ücretsiz katmanında prototip oluşturun, ölçek için AI Studio ücretli sürümüne geçin, ardından kurumsal kontrollere ihtiyaç duyduğunuzda Vertex AI'ye geçin. Model davranışı üçünde de aynıdır.
Maliyet optimizasyon ipuçları
Flash faturalarını en çok düşüren altı somut alışkanlık:
- Gerçek zamanlı yanıt gerektirmeyen her şey için toplu modu çalıştırın. %50 indirim, kalite kaybı yok.
- Uzun statik önekleri önbelleğe alın. Sistem istemleri, referans belgeler, talimatlar, hepsi iyi adaylardır.
- Yapılandırılmış JSON çıktısı kullanın. Modelin daha az yazmasını sağlar, serbest biçimli metne göre hem daha hızlı hem de daha ucuzdur.
- Görevin karmaşıklığına göre yönlendirin. Kolay görevler Flash-Lite'a; zor olanlar Flash'a; nadir öldürücü görev 3.5 Pro çıktığında ona.
- Girdileri önceden doğrulayın. Hatalı istekler için jeton harcamayın. Apidog bunları API'ye ulaşmadan yakalar.
- İstem başına maliyeti izleyin. İstek başına giriş/çıkış jetonlarını kaydeden bir günlük orta katmanı ekleyin. Maliyet aşımları neredeyse her zaman birkaç aykırı istemden kaynaklanır.
İstem doğrulama akışı için Apidog'u indirin, Gemini uç noktanız için bir test senaryosu oluşturun ve yanıt-şekil iddiaları ekleyin. Aynı bozuk isteği bir hata ayıklama oturumunda 200 kez yakmak, ekiplerin ücretsiz katman kotalarını tek bir öğleden sonra nasıl boşa harcadığıdır.
Ücretsiz katman yeterli olmadığında
Ücretsizden ücretli Flash'a yükseltmek için üç sinyal:
- Üst üste birden fazla gün günde 1.500 isteğe ulaşıyorsunuz. Kullandığın kadar öde, kota atlatmak için harcanan geliştirme süresinin yükseltmeden daha pahalıya mal olduğu kadar ucuzdur.
- Daha yüksek RPM verimine ihtiyacınız var. Ücretsiz katman dakikada 15 istekle sınırlıdır; ücretli katmanlar çok daha yükseğe çıkar.
- Veri yerleşimi veya denetim günlüklerine ihtiyacınız var. Faturalandırılan bir hesapta Vertex AI'ye geçin.
Çoğu ekip, ayda 50-200 $ ücretli Flash kullanımının birçok ücretsiz katman hokkabazlığını değiştirdiğini fark eder.
Fiyatlandırma riskleri ve dikkat edilmesi gerekenler
Hesabı değiştirebilecek üç şey:
- Kota sıkılaştırması. Google, modeller yaşlandıkça tarihsel olarak ücretsiz katman kotalarını daralttı. Günde tam 1.500 sayısı etrafında mimari oluşturmayın.
- Pro lansman fiyatlandırması. Haziran ayında 3.5 Pro çıktığında, Flash fiyatlandırması, Google'ın katmanları nasıl konumlandırdığına bağlı olarak yukarı veya aşağı kayabilir.
- Bölge ek ücretleri. Vertex AI fiyatlandırması bölgeye göre değişir. ABD Merkezi en ucuz referanstır; bazı bölgelerde %10-20 premium bekleyin.
İlk günden itibaren maliyet uyarıları kurun. Hem AI Studio (projenin kotalar sayfasında) hem de Vertex AI (Cloud Billing'de) günlük bütçe üst sınırlarını destekler. Bunları kullanın.
Sonuç
Gemini 3.5 Flash, 2026'daki çoğu üretim yapay zeka iş yükünün buradan başlaması için yeterince ucuzdur. Standart oranlar (1M jeton başına 1,50 $ / 9 $) diğer tüm öncü sınıf seçenekleri geride bırakır. Toplu mod ve bağlam önbellekleme, etkin maliyeti daha da düşürür.
Flash'ın yeterli olmadığı iş yükleri için doğru hareket, katmanları karıştırmaktır: toplu işler için Flash, en zor görevler için GPT-5.5 veya Opus 4.7 gibi bir amiral gemisi. Görev karmaşıklığına göre yönlendirme, yapabileceğiniz en yüksek kaldıraçlı maliyet optimizasyonudur.
Bunu pratiğe dökmek için:
- Apidog'u indirin ve Gemini 3.5 Flash uç noktasını bir istek olarak kaydedin
- Flash ile mevcut modelinizi 20 gerçek istem üzerinde karşılaştıran küçük bir değerlendirme oluşturun
- Jeton sayılarını günlüğe kaydedin; aylık maliyeti tahmin edin
- Flash'ın daha pahalı bir modeli nerede değiştirdiğine ve nerede değiştirmediğine karar verin
Bu, genellikle tek bir fatura döngüsünde karşılığını veren iki günlük bir iştir.
