Harga Gemini 3.5 Flash: Berapa Biayanya?

Ashley Innocent

Ashley Innocent

20 May 2026

Harga Gemini 3.5 Flash: Berapa Biayanya?

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

Google merilis Gemini 3.5 Flash pada 19 Mei 2026, dan klaim harga utamanya sangat berani: "kurang dari setengah biaya model canggih lainnya" untuk tugas-tugas agensi. Itu adalah lini pemasaran. Panduan ini akan melakukan perhitungan sebenarnya.

Anda akan menemukan tarif per-token, batas tingkat gratis, diskon mode batch, skenario biaya dunia nyata untuk beban kerja umum, dan perbandingan biaya berdampingan dengan GPT-5.5 dan Claude Opus 4.7. Pada akhirnya, Anda akan tahu persis berapa biaya menjalankan Flash, dan di mana Anda bisa menghemat 50% atau lebih tanpa kehilangan banyak hal.

Ringkasan cepat

Jenis biaya Tarif
Input standar ~$1.50 / 1 juta token
Output standar ~$9.00 / 1 juta token
Input mode batch ~$0.75 / 1 juta token (~diskon 50%)
Output mode batch ~$4.50 / 1 juta token (~diskon 50%)
Input cache tarif diskon (bervariasi)
Tingkat gratis (AI Studio) ~1.500 permintaan/hari, 1 juta token/menit, 15 RPM
Akun baru Vertex AI Kredit $300 selama 90 hari

Tarif berlaku mulai Mei 2026 per pengumuman peluncuran Google dan daftar agregator. Selalu verifikasi dengan halaman harga resmi sebelum mengalokasikan anggaran.

Tarif per-token Gemini 3.5 Flash

Flash menggunakan model bayar-sesuai-pakai yang sama seperti yang digunakan setiap varian Gemini sejak 2.5: Anda membayar per juta token input dan per juta token output, secara terpisah.

Tingkat Input ($/1 juta) Output ($/1 juta)
Standar ~$1.50 ~$9.00
Input cache diskon t/a
Batch (asinkron) ~$0.75 ~$4.50

Dua catatan praktis:

Untuk latar belakang cara kerja mode batch Gemini, lihat Mode batch API Gemini hadir dan 50% lebih murah.

Tingkat gratis: apa yang Anda dapatkan tanpa membayar

Tingkat gratis AI Studio hadir dengan Flash sejak hari pertama. Batasan saat peluncuran:

Itu cukup untuk sebagian besar proyek sampingan, prototipe internal, dan otomatisasi skala kecil. Jika beban kerja Anda sesuai dengan 1.500 panggilan/hari, Anda membayar $0.

Detail tingkat gratis:

Untuk panduan pengaturan lengkap, lihat Cara menggunakan Gemini 3.5 Flash secara gratis dan Cara mendapatkan kunci API Google Gemini gratis.

Mode batch: diskon 50% yang sering dilewatkan sebagian besar tim

Jika beban kerja Anda tidak memerlukan respons waktu nyata, mode batch mengurangi biaya Flash kira-kira setengahnya.

Cara kerjanya:

  1. Kirim tugas batch dengan hingga 50.000 prompt sekaligus
  2. Google memprosesnya dalam waktu 24 jam
  3. Anda membayar ~50% lebih sedikit per token, baik input maupun output

Kapan mode batch masuk akal:

Kapan tidak:

Sebagian besar tumpukan produksi harus menjalankan mode batch untuk beban kerja apa pun yang dapat mentolerir latensi. Penghematan akan bertambah cepat pada skala besar. Detail pengaturan ada di panduan mode batch kami.

Input cache: tuas lainnya

Jika prompt Anda memiliki awalan statis panjang yang sama (prompt sistem, dokumen referensi besar, instruksi panjang), caching konteks memberikan diskon pada bagian yang di-cache.

Pola:

Penghematan konkret bergantung pada tingkat hit cache, tetapi untuk aplikasi gaya RAG di mana potongan yang diambil sama kembali di seluruh kueri, perkirakan pengurangan biaya input 30–60%.

Skenario biaya dunia nyata

Perhitungan token menjadi abstrak dengan cepat. Berikut adalah lima skenario konkret dengan tarif standar Flash.

Skenario 1: Chat bot dukungan pelanggan

Biaya harian:

Jalankan beban kerja yang sama melalui mode batch (jika Anda dapat mentolerir respons batch): ~$585/bulan. Tambahkan caching konteks untuk prompt sistem: diskon 20–30% lagi.

Skenario 2: SaaS Tanya Jawab Dokumen

Biaya harian:

Di sinilah konteks 1 juta Flash bersinar: tidak ada infrastruktur pemotongan, cukup kirim seluruh dokumen. Dibandingkan dengan RAG yang dipotong dengan model unggulan, Anda akan membayar berkali-kali lipat lebih banyak dalam API plus infrastruktur.

Skenario 3: Agen otonom yang berjalan lama

Biaya per jalankan:

Total harian: 200 × $0.83 = ~$165/hari, ~$4.950/bulan

Sebagai perbandingan, beban kerja yang sama pada Opus 4.7 (~$15/$75 per 1 juta) biayanya kira-kira $25/jalankan, atau $5.000/hari. Itulah kesenjangan biaya agensi yang ditunjuk oleh klaim Google.

Skenario 4: Pipeline ekstraksi grafik

Biaya harian:

Tambahkan mode batch dan beban kerja yang sama berjalan pada ~$375/bulan. Penalaran CharXiv pada 84,2% berarti kualitasnya tetap terjaga.

Skenario 5: Pembuatan konten bervolume tinggi

Biaya harian:

Pindahkan ini ke mode batch dan tagihan bulanan turun menjadi ~$28K. Pada skala ini, Anda juga ingin menguji perutean bagian rutin ke model yang lebih murah seperti 3.1 Flash-Lite dan mencadangkan Flash untuk pembuatan yang lebih sulit.

Biaya vs GPT-5.5 dan Opus 4.7

Perbandingan harga utama:

Model Input ($/1 juta) Output ($/1 juta) Kelipatan vs Flash
Gemini 3.5 Flash ~$1.50 ~$9.00 1× (dasar)
GPT-5.5 ~$10 ~$30 6.7× input, 3.3× output
Claude Opus 4.7 ~$15 ~$75 10× input, 8.3× output

Jalankan Skenario 1 (obrolan dukungan pelanggan) melalui masing-masing:

Ini adalah kesenjangan biaya agensi yang mendorong lini pemasaran Google. Model-model unggulan memberikan kualitas yang sedikit lebih baik pada tugas-tugas tersulit; untuk beban kerja sehari-hari, Flash sudah cukup dengan sebagian kecil harga.

Untuk rincian lebih lanjut, lihat harga GPT-5.5 dan perbandingan tiga arah kami.

Biaya vs varian Gemini lainnya

Model Input ($/1 juta) Output ($/1 juta) Kapan digunakan
Gemini 3.1 Flash-Lite ~$0.40 ~$2.00 Pekerjaan rutin bervolume tinggi
Gemini 3 Flash ~$0.50 ~$3.00 Generasi sebelumnya, masih solid
Gemini 3.1 Pro ~$2.00 ~$12.00 Pekerjaan berat penalaran sebelum 3.5 Pro
Gemini 3.5 Flash ~$1.50 ~$9.00 Default baru untuk sebagian besar beban kerja
Gemini 3.5 Pro (Juni 2026) Akan ditentukan Akan ditentukan Tugas penalaran tersulit

Flash lebih mahal daripada pendahulunya 3.x Flash tetapi secara kredibel lebih murah daripada tingkat Pro sebelumnya. Bagi sebagian besar tim, itu adalah pertukaran yang tepat: lebih baik dari Flash 3.x, lebih murah dari Pro 3.x.

Untuk lini Gemini yang lebih lama, lihat 3.1 Flash-Lite, harga API 3.0, dan 3 Flash.

Harga Vertex AI (produksi)

Jika Anda memanggil Flash melalui Vertex AI alih-alih AI Studio, harga per-tokennya sama. Perbedaannya adalah fitur penagihan dan akun:

Untuk sebagian besar tim produksi, alurnya adalah: prototipe pada tingkat gratis AI Studio, beralih ke AI Studio berbayar untuk skala, lalu pindah ke Vertex AI saat Anda membutuhkan kontrol perusahaan. Perilaku model identik di ketiga platform.

Tips optimasi biaya

Enam kebiasaan konkret yang paling memangkas tagihan Flash:

  1. Jalankan mode batch untuk apa pun yang tidak memerlukan respons waktu nyata. Diskon 50%, tanpa kehilangan kualitas.
  2. Cache awalan statis panjang. Prompt sistem, dokumen referensi, instruksi, semuanya kandidat yang baik.
  3. Gunakan output JSON terstruktur. Memaksa model untuk menulis lebih sedikit, lebih cepat dan lebih murah daripada prosa bentuk bebas.
  4. Rute berdasarkan kompleksitas tugas. Tugas mudah ke Flash-Lite; tugas sulit ke Flash; tugas pembunuh langka ke 3.5 Pro saat diluncurkan.
  5. Validasi input sebelumnya. Jangan membakar token untuk permintaan yang salah format. Apidog menangkap ini sebelum mencapai API.
  6. Lacak biaya per-prompt. Tambahkan middleware pencatatan yang merekam token input/output per permintaan. Kelebihan biaya hampir selalu berasal dari beberapa prompt yang menyimpang.

Untuk alur validasi prompt, unduh Apidog, buat skenario pengujian untuk endpoint Gemini Anda, dan tambahkan asersi bentuk respons. Membakar permintaan rusak yang sama 200 kali dalam sesi debug adalah cara tim membuang kuota tingkat gratis mereka dalam satu sore.

Ketika tingkat gratis tidak cukup

Tiga sinyal untuk beralih dari Flash gratis ke berbayar:

  1. Anda mencapai 1.500 permintaan/hari beberapa hari berturut-turut. Bayar-sesuai-pakai cukup murah sehingga waktu pengembangan yang dihabiskan untuk menghindari kuota lebih mahal daripada peningkatan.
  2. Anda membutuhkan throughput RPM yang lebih tinggi. Tingkat gratis dibatasi pada 15 permintaan per menit; tingkat berbayar jauh lebih tinggi.
  3. Anda memerlukan residency data atau log audit. Pindah ke Vertex AI dengan akun berbayar.

Sebagian besar tim menemukan penggunaan Flash berbayar $50–200/bulan menggantikan banyak juggling tingkat gratis.

Risiko harga dan apa yang harus diperhatikan

Tiga hal yang dapat mengubah perhitungan:

Siapkan peringatan biaya sejak hari pertama. Baik AI Studio (di halaman kuota proyek) maupun Vertex AI (di Cloud Billing) mendukung batas anggaran per hari. Gunakanlah.

Intinya

Gemini 3.5 Flash cukup murah sehingga sebagian besar beban kerja AI produksi pada tahun 2026 harus dimulai dari sana. Tarif standar ($1.50 / $9 per 1 juta token) mengalahkan setiap opsi kelas canggih lainnya. Mode batch dan caching konteks menekan biaya efektif lebih rendah lagi.

Untuk beban kerja di mana Flash tidak cukup, langkah yang tepat adalah mencampur tingkatan: Flash untuk sebagian besar, model unggulan seperti GPT-5.5 atau Opus 4.7 untuk tugas-tugas tersulit. Merutekan berdasarkan kompleksitas tugas adalah optimasi biaya dengan leverage tertinggi yang dapat Anda lakukan.

Untuk mempraktikkannya:

Itu adalah pekerjaan dua hari yang biasanya membayar kembali dalam satu siklus penagihan.

tombol

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.