Google merilis Gemini 3.5 Flash pada 19 Mei 2026, dan klaim harga utamanya sangat berani: "kurang dari setengah biaya model canggih lainnya" untuk tugas-tugas agensi. Itu adalah lini pemasaran. Panduan ini akan melakukan perhitungan sebenarnya.
Anda akan menemukan tarif per-token, batas tingkat gratis, diskon mode batch, skenario biaya dunia nyata untuk beban kerja umum, dan perbandingan biaya berdampingan dengan GPT-5.5 dan Claude Opus 4.7. Pada akhirnya, Anda akan tahu persis berapa biaya menjalankan Flash, dan di mana Anda bisa menghemat 50% atau lebih tanpa kehilangan banyak hal.

Ringkasan cepat
| Jenis biaya | Tarif |
|---|---|
| Input standar | ~$1.50 / 1 juta token |
| Output standar | ~$9.00 / 1 juta token |
| Input mode batch | ~$0.75 / 1 juta token (~diskon 50%) |
| Output mode batch | ~$4.50 / 1 juta token (~diskon 50%) |
| Input cache | tarif diskon (bervariasi) |
| Tingkat gratis (AI Studio) | ~1.500 permintaan/hari, 1 juta token/menit, 15 RPM |
| Akun baru Vertex AI | Kredit $300 selama 90 hari |
Tarif berlaku mulai Mei 2026 per pengumuman peluncuran Google dan daftar agregator. Selalu verifikasi dengan halaman harga resmi sebelum mengalokasikan anggaran.
Tarif per-token Gemini 3.5 Flash
Flash menggunakan model bayar-sesuai-pakai yang sama seperti yang digunakan setiap varian Gemini sejak 2.5: Anda membayar per juta token input dan per juta token output, secara terpisah.
| Tingkat | Input ($/1 juta) | Output ($/1 juta) |
|---|---|---|
| Standar | ~$1.50 | ~$9.00 |
| Input cache | diskon | t/a |
| Batch (asinkron) | ~$0.75 | ~$4.50 |
Dua catatan praktis:
- Token bukanlah kata-kata. Aturan kasar: 1.000 token ≈ 750 kata bahasa Inggris. Novel 100.000 kata sekitar 133 ribu token input.
- Output kira-kira 6 kali lebih mahal daripada input. Prompt yang menghasilkan jawaban panjang biayanya jauh lebih mahal daripada prompt yang menghasilkan jawaban pendek. Skema output terstruktur biasanya menghemat uang dibandingkan prosa bentuk bebas karena model menulis lebih sedikit.
Untuk latar belakang cara kerja mode batch Gemini, lihat Mode batch API Gemini hadir dan 50% lebih murah.
Tingkat gratis: apa yang Anda dapatkan tanpa membayar
Tingkat gratis AI Studio hadir dengan Flash sejak hari pertama. Batasan saat peluncuran:
- 1.500 permintaan per hari
- 1 juta token per menit
- 15 permintaan per menit
Itu cukup untuk sebagian besar proyek sampingan, prototipe internal, dan otomatisasi skala kecil. Jika beban kerja Anda sesuai dengan 1.500 panggilan/hari, Anda membayar $0.
Detail tingkat gratis:
- Tidak diperlukan kartu kredit
- Model
gemini-3.5-flashyang sama dengan endpoint berbayar - Pola SDK yang sama, hanya kunci yang berbeda
- Prompt dapat digunakan untuk meningkatkan model Google (keluar di pengaturan AI Studio)
- Kuota dapat berubah; jangan mengandalkan peluncuran berdasarkan angka persisnya
Untuk panduan pengaturan lengkap, lihat Cara menggunakan Gemini 3.5 Flash secara gratis dan Cara mendapatkan kunci API Google Gemini gratis.
Mode batch: diskon 50% yang sering dilewatkan sebagian besar tim
Jika beban kerja Anda tidak memerlukan respons waktu nyata, mode batch mengurangi biaya Flash kira-kira setengahnya.
Cara kerjanya:
- Kirim tugas batch dengan hingga 50.000 prompt sekaligus
- Google memprosesnya dalam waktu 24 jam
- Anda membayar ~50% lebih sedikit per token, baik input maupun output
Kapan mode batch masuk akal:
- Analisis dokumen massal (peninjauan hukum, triase tiket dukungan, moderasi konten)
- Pembuatan konten semalam untuk dasbor SaaS
- Prekomputasi gaya embedding
- Pekerjaan migrasi di mana Anda memproses ulang data historis
Kapan tidak:
- UI obrolan (pengguna tidak akan menunggu 24 jam)
- Lingkaran agen langsung dengan interaksi pengguna
- Apa pun yang menghadap pengguna secara waktu nyata
Sebagian besar tumpukan produksi harus menjalankan mode batch untuk beban kerja apa pun yang dapat mentolerir latensi. Penghematan akan bertambah cepat pada skala besar. Detail pengaturan ada di panduan mode batch kami.
Input cache: tuas lainnya
Jika prompt Anda memiliki awalan statis panjang yang sama (prompt sistem, dokumen referensi besar, instruksi panjang), caching konteks memberikan diskon pada bagian yang di-cache.
Pola:
- Cache dokumen referensi 100 ribu token sekali
- Gunakan kembali di ribuan kueri
- Bayar tarif penuh hanya untuk pertanyaan baru, bukan awalan yang di-cache
Penghematan konkret bergantung pada tingkat hit cache, tetapi untuk aplikasi gaya RAG di mana potongan yang diambil sama kembali di seluruh kueri, perkirakan pengurangan biaya input 30–60%.
Skenario biaya dunia nyata
Perhitungan token menjadi abstrak dengan cepat. Berikut adalah lima skenario konkret dengan tarif standar Flash.
Skenario 1: Chat bot dukungan pelanggan
- 10.000 pesan pengguna per hari
- Rata-rata 200 token input (pesan pengguna + prompt sistem)
- Rata-rata 400 token output (respons)
Biaya harian:
- Input: 10.000 × 200 × ($1.50 / 1 juta) = $3.00/hari
- Output: 10.000 × 400 × ($9.00 / 1 juta) = $36.00/hari
- Total: ~$39/hari, ~$1.170/bulan
Jalankan beban kerja yang sama melalui mode batch (jika Anda dapat mentolerir respons batch): ~$585/bulan. Tambahkan caching konteks untuk prompt sistem: diskon 20–30% lagi.
Skenario 2: SaaS Tanya Jawab Dokumen
- 1.000 dokumen dianalisis per hari
- Setiap dokumen rata-rata 30 ribu token (PDF panjang)
- Setiap Tanya Jawab mengembalikan 500 token output
Biaya harian:
- Input: 1.000 × 30.000 × ($1.50 / 1 juta) = $45.00/hari
- Output: 1.000 × 500 × ($9.00 / 1 juta) = $4.50/hari
- Total: ~$50/hari, ~$1.500/bulan
Di sinilah konteks 1 juta Flash bersinar: tidak ada infrastruktur pemotongan, cukup kirim seluruh dokumen. Dibandingkan dengan RAG yang dipotong dengan model unggulan, Anda akan membayar berkali-kali lipat lebih banyak dalam API plus infrastruktur.
Skenario 3: Agen otonom yang berjalan lama
- Satu kali jalankan agen = ~50 giliran model
- Setiap giliran rata-rata 5 ribu input (konteks yang berkembang) dan 1 ribu output
- 200 kali jalankan per hari
Biaya per jalankan:
- Input: 50 × 5.000 × ($1.50 / 1 juta) = $0.375
- Output: 50 × 1.000 × ($9.00 / 1 juta) = $0.45
- Per jalankan: ~$0.83
Total harian: 200 × $0.83 = ~$165/hari, ~$4.950/bulan
Sebagai perbandingan, beban kerja yang sama pada Opus 4.7 (~$15/$75 per 1 juta) biayanya kira-kira $25/jalankan, atau $5.000/hari. Itulah kesenjangan biaya agensi yang ditunjuk oleh klaim Google.
Skenario 4: Pipeline ekstraksi grafik
- 5.000 tangkapan layar dasbor per hari
- Setiap input gambar: setara dengan ~1.500 token
- Output: 300 token JSON terstruktur
Biaya harian:
- Input: 5.000 × 1.500 × ($1.50 / 1 juta) = $11.25/hari
- Output: 5.000 × 300 × ($9.00 / 1 juta) = $13.50/hari
- Total: ~$25/hari, ~$750/bulan
Tambahkan mode batch dan beban kerja yang sama berjalan pada ~$375/bulan. Penalaran CharXiv pada 84,2% berarti kualitasnya tetap terjaga.
Skenario 5: Pembuatan konten bervolume tinggi
- 100.000 artikel pendek dihasilkan per hari
- 500 token input, 2.000 token output masing-masing
Biaya harian:
- Input: 100.000 × 500 × ($1.50 / 1 juta) = $75/hari
- Output: 100.000 × 2.000 × ($9.00 / 1 juta) = $1.800/hari
- Total: ~$1.875/hari, ~$56.250/bulan
Pindahkan ini ke mode batch dan tagihan bulanan turun menjadi ~$28K. Pada skala ini, Anda juga ingin menguji perutean bagian rutin ke model yang lebih murah seperti 3.1 Flash-Lite dan mencadangkan Flash untuk pembuatan yang lebih sulit.
Biaya vs GPT-5.5 dan Opus 4.7
Perbandingan harga utama:
| Model | Input ($/1 juta) | Output ($/1 juta) | Kelipatan vs Flash |
|---|---|---|---|
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 1× (dasar) |
| GPT-5.5 | ~$10 | ~$30 | 6.7× input, 3.3× output |
| Claude Opus 4.7 | ~$15 | ~$75 | 10× input, 8.3× output |
Jalankan Skenario 1 (obrolan dukungan pelanggan) melalui masing-masing:
- Flash: $39/hari
- GPT-5.5: ~$140/hari (3,6× lebih banyak)
- Opus 4.7: ~$330/hari (8,5× lebih banyak)
Ini adalah kesenjangan biaya agensi yang mendorong lini pemasaran Google. Model-model unggulan memberikan kualitas yang sedikit lebih baik pada tugas-tugas tersulit; untuk beban kerja sehari-hari, Flash sudah cukup dengan sebagian kecil harga.
Untuk rincian lebih lanjut, lihat harga GPT-5.5 dan perbandingan tiga arah kami.
Biaya vs varian Gemini lainnya
| Model | Input ($/1 juta) | Output ($/1 juta) | Kapan digunakan |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | ~$0.40 | ~$2.00 | Pekerjaan rutin bervolume tinggi |
| Gemini 3 Flash | ~$0.50 | ~$3.00 | Generasi sebelumnya, masih solid |
| Gemini 3.1 Pro | ~$2.00 | ~$12.00 | Pekerjaan berat penalaran sebelum 3.5 Pro |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | Default baru untuk sebagian besar beban kerja |
| Gemini 3.5 Pro (Juni 2026) | Akan ditentukan | Akan ditentukan | Tugas penalaran tersulit |
Flash lebih mahal daripada pendahulunya 3.x Flash tetapi secara kredibel lebih murah daripada tingkat Pro sebelumnya. Bagi sebagian besar tim, itu adalah pertukaran yang tepat: lebih baik dari Flash 3.x, lebih murah dari Pro 3.x.
Untuk lini Gemini yang lebih lama, lihat 3.1 Flash-Lite, harga API 3.0, dan 3 Flash.
Harga Vertex AI (produksi)
Jika Anda memanggil Flash melalui Vertex AI alih-alih AI Studio, harga per-tokennya sama. Perbedaannya adalah fitur penagihan dan akun:
- Otentikasi akun layanan alih-alih kunci API
- Log audit di Cloud Logging
- Kontrol residency data
- Tidak ada tingkat gratis, tetapi kredit $300 untuk akun baru mencakup ~90 hari penggunaan moderat
- Kuota khusus yang dapat Anda negosiasikan pada skala besar
Untuk sebagian besar tim produksi, alurnya adalah: prototipe pada tingkat gratis AI Studio, beralih ke AI Studio berbayar untuk skala, lalu pindah ke Vertex AI saat Anda membutuhkan kontrol perusahaan. Perilaku model identik di ketiga platform.
Tips optimasi biaya
Enam kebiasaan konkret yang paling memangkas tagihan Flash:
- Jalankan mode batch untuk apa pun yang tidak memerlukan respons waktu nyata. Diskon 50%, tanpa kehilangan kualitas.
- Cache awalan statis panjang. Prompt sistem, dokumen referensi, instruksi, semuanya kandidat yang baik.
- Gunakan output JSON terstruktur. Memaksa model untuk menulis lebih sedikit, lebih cepat dan lebih murah daripada prosa bentuk bebas.
- Rute berdasarkan kompleksitas tugas. Tugas mudah ke Flash-Lite; tugas sulit ke Flash; tugas pembunuh langka ke 3.5 Pro saat diluncurkan.
- Validasi input sebelumnya. Jangan membakar token untuk permintaan yang salah format. Apidog menangkap ini sebelum mencapai API.
- Lacak biaya per-prompt. Tambahkan middleware pencatatan yang merekam token input/output per permintaan. Kelebihan biaya hampir selalu berasal dari beberapa prompt yang menyimpang.
Untuk alur validasi prompt, unduh Apidog, buat skenario pengujian untuk endpoint Gemini Anda, dan tambahkan asersi bentuk respons. Membakar permintaan rusak yang sama 200 kali dalam sesi debug adalah cara tim membuang kuota tingkat gratis mereka dalam satu sore.
Ketika tingkat gratis tidak cukup
Tiga sinyal untuk beralih dari Flash gratis ke berbayar:
- Anda mencapai 1.500 permintaan/hari beberapa hari berturut-turut. Bayar-sesuai-pakai cukup murah sehingga waktu pengembangan yang dihabiskan untuk menghindari kuota lebih mahal daripada peningkatan.
- Anda membutuhkan throughput RPM yang lebih tinggi. Tingkat gratis dibatasi pada 15 permintaan per menit; tingkat berbayar jauh lebih tinggi.
- Anda memerlukan residency data atau log audit. Pindah ke Vertex AI dengan akun berbayar.
Sebagian besar tim menemukan penggunaan Flash berbayar $50–200/bulan menggantikan banyak juggling tingkat gratis.
Risiko harga dan apa yang harus diperhatikan
Tiga hal yang dapat mengubah perhitungan:
- Pengetatan kuota. Google secara historis mempersempit kuota tingkat gratis seiring bertambahnya usia model. Jangan mengarsiteki berdasarkan angka persis 1.500/hari.
- Harga peluncuran Pro. Ketika 3.5 Pro diluncurkan pada bulan Juni, harga Flash mungkin bergeser naik atau turun tergantung pada bagaimana Google memposisikan tingkatannya.
- Biaya tambahan wilayah. Harga Vertex AI bervariasi berdasarkan wilayah. US Central adalah referensi termurah; harapkan premi 10–20% di beberapa wilayah.
Siapkan peringatan biaya sejak hari pertama. Baik AI Studio (di halaman kuota proyek) maupun Vertex AI (di Cloud Billing) mendukung batas anggaran per hari. Gunakanlah.
Intinya
Gemini 3.5 Flash cukup murah sehingga sebagian besar beban kerja AI produksi pada tahun 2026 harus dimulai dari sana. Tarif standar ($1.50 / $9 per 1 juta token) mengalahkan setiap opsi kelas canggih lainnya. Mode batch dan caching konteks menekan biaya efektif lebih rendah lagi.
Untuk beban kerja di mana Flash tidak cukup, langkah yang tepat adalah mencampur tingkatan: Flash untuk sebagian besar, model unggulan seperti GPT-5.5 atau Opus 4.7 untuk tugas-tugas tersulit. Merutekan berdasarkan kompleksitas tugas adalah optimasi biaya dengan leverage tertinggi yang dapat Anda lakukan.
Untuk mempraktikkannya:
- Unduh Apidog dan simpan endpoint Gemini 3.5 Flash sebagai permintaan
- Bangun evaluasi kecil yang membandingkan Flash vs model Anda saat ini pada 20 prompt nyata
- Catat jumlah token; ekstrapolasi biaya bulanan
- Putuskan di mana Flash menggantikan model yang lebih mahal dan di mana tidak
Itu adalah pekerjaan dua hari yang biasanya membayar kembali dalam satu siklus penagihan.
tombol
