Harga Gemini 3.5 Flash: Berapa Biayanya?

Google merilis Gemini 3.5 Flash pada 19 Mei 2026, dan klaim harga utamanya sangat berani: "kurang dari setengah biaya model canggih lainnya" untuk tugas-tugas agensi. Itu adalah lini pemasaran. Panduan ini akan melakukan perhitungan sebenarnya.

Anda akan menemukan tarif per-token, batas tingkat gratis, diskon mode batch, skenario biaya dunia nyata untuk beban kerja umum, dan perbandingan biaya berdampingan dengan GPT-5.5 dan Claude Opus 4.7. Pada akhirnya, Anda akan tahu persis berapa biaya menjalankan Flash, dan di mana Anda bisa menghemat 50% atau lebih tanpa kehilangan banyak hal.

Ringkasan cepat

Jenis biaya	Tarif
Input standar	~$1.50 / 1 juta token
Output standar	~$9.00 / 1 juta token
Input mode batch	~$0.75 / 1 juta token (~diskon 50%)
Output mode batch	~$4.50 / 1 juta token (~diskon 50%)
Input cache	tarif diskon (bervariasi)
Tingkat gratis (AI Studio)	~1.500 permintaan/hari, 1 juta token/menit, 15 RPM
Akun baru Vertex AI	Kredit $300 selama 90 hari

Tarif berlaku mulai Mei 2026 per pengumuman peluncuran Google dan daftar agregator. Selalu verifikasi dengan halaman harga resmi sebelum mengalokasikan anggaran.

Tarif per-token Gemini 3.5 Flash

Flash menggunakan model bayar-sesuai-pakai yang sama seperti yang digunakan setiap varian Gemini sejak 2.5: Anda membayar per juta token input dan per juta token output, secara terpisah.

Tingkat	Input ($/1 juta)	Output ($/1 juta)
Standar	~$1.50	~$9.00
Input cache	diskon	t/a
Batch (asinkron)	~$0.75	~$4.50

Dua catatan praktis:

Token bukanlah kata-kata. Aturan kasar: 1.000 token ≈ 750 kata bahasa Inggris. Novel 100.000 kata sekitar 133 ribu token input.
Output kira-kira 6 kali lebih mahal daripada input. Prompt yang menghasilkan jawaban panjang biayanya jauh lebih mahal daripada prompt yang menghasilkan jawaban pendek. Skema output terstruktur biasanya menghemat uang dibandingkan prosa bentuk bebas karena model menulis lebih sedikit.

Untuk latar belakang cara kerja mode batch Gemini, lihat Mode batch API Gemini hadir dan 50% lebih murah.

Tingkat gratis: apa yang Anda dapatkan tanpa membayar

Tingkat gratis AI Studio hadir dengan Flash sejak hari pertama. Batasan saat peluncuran:

1.500 permintaan per hari
1 juta token per menit
15 permintaan per menit

Itu cukup untuk sebagian besar proyek sampingan, prototipe internal, dan otomatisasi skala kecil. Jika beban kerja Anda sesuai dengan 1.500 panggilan/hari, Anda membayar $0.

Detail tingkat gratis:

Tidak diperlukan kartu kredit
Model gemini-3.5-flash yang sama dengan endpoint berbayar
Pola SDK yang sama, hanya kunci yang berbeda
Prompt dapat digunakan untuk meningkatkan model Google (keluar di pengaturan AI Studio)
Kuota dapat berubah; jangan mengandalkan peluncuran berdasarkan angka persisnya

Untuk panduan pengaturan lengkap, lihat Cara menggunakan Gemini 3.5 Flash secara gratis dan Cara mendapatkan kunci API Google Gemini gratis.

Mode batch: diskon 50% yang sering dilewatkan sebagian besar tim

Jika beban kerja Anda tidak memerlukan respons waktu nyata, mode batch mengurangi biaya Flash kira-kira setengahnya.

Cara kerjanya:

Kirim tugas batch dengan hingga 50.000 prompt sekaligus
Google memprosesnya dalam waktu 24 jam
Anda membayar ~50% lebih sedikit per token, baik input maupun output

Kapan mode batch masuk akal:

Analisis dokumen massal (peninjauan hukum, triase tiket dukungan, moderasi konten)
Pembuatan konten semalam untuk dasbor SaaS
Prekomputasi gaya embedding
Pekerjaan migrasi di mana Anda memproses ulang data historis

Kapan tidak:

UI obrolan (pengguna tidak akan menunggu 24 jam)
Lingkaran agen langsung dengan interaksi pengguna
Apa pun yang menghadap pengguna secara waktu nyata

Sebagian besar tumpukan produksi harus menjalankan mode batch untuk beban kerja apa pun yang dapat mentolerir latensi. Penghematan akan bertambah cepat pada skala besar. Detail pengaturan ada di panduan mode batch kami.

Input cache: tuas lainnya

Jika prompt Anda memiliki awalan statis panjang yang sama (prompt sistem, dokumen referensi besar, instruksi panjang), caching konteks memberikan diskon pada bagian yang di-cache.

Pola:

Cache dokumen referensi 100 ribu token sekali
Gunakan kembali di ribuan kueri
Bayar tarif penuh hanya untuk pertanyaan baru, bukan awalan yang di-cache

Penghematan konkret bergantung pada tingkat hit cache, tetapi untuk aplikasi gaya RAG di mana potongan yang diambil sama kembali di seluruh kueri, perkirakan pengurangan biaya input 30–60%.

Skenario biaya dunia nyata

Perhitungan token menjadi abstrak dengan cepat. Berikut adalah lima skenario konkret dengan tarif standar Flash.

Skenario 1: Chat bot dukungan pelanggan

10.000 pesan pengguna per hari
Rata-rata 200 token input (pesan pengguna + prompt sistem)
Rata-rata 400 token output (respons)

Biaya harian:

Input: 10.000 × 200 × ($1.50 / 1 juta) = $3.00/hari
Output: 10.000 × 400 × ($9.00 / 1 juta) = $36.00/hari
Total: ~$39/hari, ~$1.170/bulan

Jalankan beban kerja yang sama melalui mode batch (jika Anda dapat mentolerir respons batch): ~$585/bulan. Tambahkan caching konteks untuk prompt sistem: diskon 20–30% lagi.

Skenario 2: SaaS Tanya Jawab Dokumen

1.000 dokumen dianalisis per hari
Setiap dokumen rata-rata 30 ribu token (PDF panjang)
Setiap Tanya Jawab mengembalikan 500 token output

Biaya harian:

Input: 1.000 × 30.000 × ($1.50 / 1 juta) = $45.00/hari
Output: 1.000 × 500 × ($9.00 / 1 juta) = $4.50/hari
Total: ~$50/hari, ~$1.500/bulan

Di sinilah konteks 1 juta Flash bersinar: tidak ada infrastruktur pemotongan, cukup kirim seluruh dokumen. Dibandingkan dengan RAG yang dipotong dengan model unggulan, Anda akan membayar berkali-kali lipat lebih banyak dalam API plus infrastruktur.

Skenario 3: Agen otonom yang berjalan lama

Satu kali jalankan agen = ~50 giliran model
Setiap giliran rata-rata 5 ribu input (konteks yang berkembang) dan 1 ribu output
200 kali jalankan per hari

Biaya per jalankan:

Input: 50 × 5.000 × ($1.50 / 1 juta) = $0.375
Output: 50 × 1.000 × ($9.00 / 1 juta) = $0.45
Per jalankan: ~$0.83

Total harian: 200 × $0.83 = ~$165/hari, ~$4.950/bulan

Sebagai perbandingan, beban kerja yang sama pada Opus 4.7 (~$15/$75 per 1 juta) biayanya kira-kira $25/jalankan, atau $5.000/hari. Itulah kesenjangan biaya agensi yang ditunjuk oleh klaim Google.

Skenario 4: Pipeline ekstraksi grafik

5.000 tangkapan layar dasbor per hari
Setiap input gambar: setara dengan ~1.500 token
Output: 300 token JSON terstruktur

Biaya harian:

Input: 5.000 × 1.500 × ($1.50 / 1 juta) = $11.25/hari
Output: 5.000 × 300 × ($9.00 / 1 juta) = $13.50/hari
Total: ~$25/hari, ~$750/bulan

Tambahkan mode batch dan beban kerja yang sama berjalan pada ~$375/bulan. Penalaran CharXiv pada 84,2% berarti kualitasnya tetap terjaga.

Skenario 5: Pembuatan konten bervolume tinggi

100.000 artikel pendek dihasilkan per hari
500 token input, 2.000 token output masing-masing

Biaya harian:

Input: 100.000 × 500 × ($1.50 / 1 juta) = $75/hari
Output: 100.000 × 2.000 × ($9.00 / 1 juta) = $1.800/hari
Total: ~$1.875/hari, ~$56.250/bulan

Pindahkan ini ke mode batch dan tagihan bulanan turun menjadi ~$28K. Pada skala ini, Anda juga ingin menguji perutean bagian rutin ke model yang lebih murah seperti 3.1 Flash-Lite dan mencadangkan Flash untuk pembuatan yang lebih sulit.

Biaya vs GPT-5.5 dan Opus 4.7

Perbandingan harga utama:

Model	Input ($/1 juta)	Output ($/1 juta)	Kelipatan vs Flash
Gemini 3.5 Flash	~$1.50	~$9.00	1× (dasar)
GPT-5.5	~$10	~$30	6.7× input, 3.3× output
Claude Opus 4.7	~$15	~$75	10× input, 8.3× output

Jalankan Skenario 1 (obrolan dukungan pelanggan) melalui masing-masing:

Flash: $39/hari
GPT-5.5: ~$140/hari (3,6× lebih banyak)
Opus 4.7: ~$330/hari (8,5× lebih banyak)

Ini adalah kesenjangan biaya agensi yang mendorong lini pemasaran Google. Model-model unggulan memberikan kualitas yang sedikit lebih baik pada tugas-tugas tersulit; untuk beban kerja sehari-hari, Flash sudah cukup dengan sebagian kecil harga.

Untuk rincian lebih lanjut, lihat harga GPT-5.5 dan perbandingan tiga arah kami.

Biaya vs varian Gemini lainnya

Model	Input ($/1 juta)	Output ($/1 juta)	Kapan digunakan
Gemini 3.1 Flash-Lite	~$0.40	~$2.00	Pekerjaan rutin bervolume tinggi
Gemini 3 Flash	~$0.50	~$3.00	Generasi sebelumnya, masih solid
Gemini 3.1 Pro	~$2.00	~$12.00	Pekerjaan berat penalaran sebelum 3.5 Pro
Gemini 3.5 Flash	~$1.50	~$9.00	Default baru untuk sebagian besar beban kerja
Gemini 3.5 Pro (Juni 2026)	Akan ditentukan	Akan ditentukan	Tugas penalaran tersulit

Flash lebih mahal daripada pendahulunya 3.x Flash tetapi secara kredibel lebih murah daripada tingkat Pro sebelumnya. Bagi sebagian besar tim, itu adalah pertukaran yang tepat: lebih baik dari Flash 3.x, lebih murah dari Pro 3.x.

Untuk lini Gemini yang lebih lama, lihat 3.1 Flash-Lite, harga API 3.0, dan 3 Flash.

Harga Vertex AI (produksi)

Jika Anda memanggil Flash melalui Vertex AI alih-alih AI Studio, harga per-tokennya sama. Perbedaannya adalah fitur penagihan dan akun:

Otentikasi akun layanan alih-alih kunci API
Log audit di Cloud Logging
Kontrol residency data
Tidak ada tingkat gratis, tetapi kredit $300 untuk akun baru mencakup ~90 hari penggunaan moderat
Kuota khusus yang dapat Anda negosiasikan pada skala besar

Untuk sebagian besar tim produksi, alurnya adalah: prototipe pada tingkat gratis AI Studio, beralih ke AI Studio berbayar untuk skala, lalu pindah ke Vertex AI saat Anda membutuhkan kontrol perusahaan. Perilaku model identik di ketiga platform.

Tips optimasi biaya

Enam kebiasaan konkret yang paling memangkas tagihan Flash:

Jalankan mode batch untuk apa pun yang tidak memerlukan respons waktu nyata. Diskon 50%, tanpa kehilangan kualitas.
Cache awalan statis panjang. Prompt sistem, dokumen referensi, instruksi, semuanya kandidat yang baik.
Gunakan output JSON terstruktur. Memaksa model untuk menulis lebih sedikit, lebih cepat dan lebih murah daripada prosa bentuk bebas.
Rute berdasarkan kompleksitas tugas. Tugas mudah ke Flash-Lite; tugas sulit ke Flash; tugas pembunuh langka ke 3.5 Pro saat diluncurkan.
Validasi input sebelumnya. Jangan membakar token untuk permintaan yang salah format. Apidog menangkap ini sebelum mencapai API.
Lacak biaya per-prompt. Tambahkan middleware pencatatan yang merekam token input/output per permintaan. Kelebihan biaya hampir selalu berasal dari beberapa prompt yang menyimpang.

Untuk alur validasi prompt, unduh Apidog, buat skenario pengujian untuk endpoint Gemini Anda, dan tambahkan asersi bentuk respons. Membakar permintaan rusak yang sama 200 kali dalam sesi debug adalah cara tim membuang kuota tingkat gratis mereka dalam satu sore.

Ketika tingkat gratis tidak cukup

Tiga sinyal untuk beralih dari Flash gratis ke berbayar:

Anda mencapai 1.500 permintaan/hari beberapa hari berturut-turut. Bayar-sesuai-pakai cukup murah sehingga waktu pengembangan yang dihabiskan untuk menghindari kuota lebih mahal daripada peningkatan.
Anda membutuhkan throughput RPM yang lebih tinggi. Tingkat gratis dibatasi pada 15 permintaan per menit; tingkat berbayar jauh lebih tinggi.
Anda memerlukan residency data atau log audit. Pindah ke Vertex AI dengan akun berbayar.

Sebagian besar tim menemukan penggunaan Flash berbayar $50–200/bulan menggantikan banyak juggling tingkat gratis.

Risiko harga dan apa yang harus diperhatikan

Tiga hal yang dapat mengubah perhitungan:

Pengetatan kuota. Google secara historis mempersempit kuota tingkat gratis seiring bertambahnya usia model. Jangan mengarsiteki berdasarkan angka persis 1.500/hari.
Harga peluncuran Pro. Ketika 3.5 Pro diluncurkan pada bulan Juni, harga Flash mungkin bergeser naik atau turun tergantung pada bagaimana Google memposisikan tingkatannya.
Biaya tambahan wilayah. Harga Vertex AI bervariasi berdasarkan wilayah. US Central adalah referensi termurah; harapkan premi 10–20% di beberapa wilayah.

Siapkan peringatan biaya sejak hari pertama. Baik AI Studio (di halaman kuota proyek) maupun Vertex AI (di Cloud Billing) mendukung batas anggaran per hari. Gunakanlah.

Intinya

Gemini 3.5 Flash cukup murah sehingga sebagian besar beban kerja AI produksi pada tahun 2026 harus dimulai dari sana. Tarif standar ($1.50 / $9 per 1 juta token) mengalahkan setiap opsi kelas canggih lainnya. Mode batch dan caching konteks menekan biaya efektif lebih rendah lagi.

Untuk beban kerja di mana Flash tidak cukup, langkah yang tepat adalah mencampur tingkatan: Flash untuk sebagian besar, model unggulan seperti GPT-5.5 atau Opus 4.7 untuk tugas-tugas tersulit. Merutekan berdasarkan kompleksitas tugas adalah optimasi biaya dengan leverage tertinggi yang dapat Anda lakukan.

Untuk mempraktikkannya:

Unduh Apidog dan simpan endpoint Gemini 3.5 Flash sebagai permintaan
Bangun evaluasi kecil yang membandingkan Flash vs model Anda saat ini pada 20 prompt nyata
Catat jumlah token; ekstrapolasi biaya bulanan
Putuskan di mana Flash menggantikan model yang lebih mahal dan di mana tidak

Itu adalah pekerjaan dua hari yang biasanya membayar kembali dalam satu siklus penagihan.

tombol