API Gemini 3.5 Flash diluncurkan bersamaan dengan model pada 19 Mei 2026. Flash adalah satu-satunya varian dari keluarga 3.5 yang tersedia saat ini; versi Pro akan hadir pada bulan Juni. Panduan ini menjelaskan pengaturan developer lengkap untuk Flash: mendapatkan kunci, melakukan panggilan pertama Anda, menangani masukan multimodal, streaming, penggunaan alat, dan menguji semuanya dengan benar menggunakan Apidog.
Jika Anda pernah menggunakan Gemini API sebelumnya, polanya tidak berubah. Satu-satunya bagian baru adalah string nama model: gemini-3.5-flash. Jika Anda baru mengenalnya, Anda dapat membuat permintaan Flash yang berfungsi dalam waktu sekitar sepuluh menit.

Apa yang Anda dapatkan dengan Gemini 3.5 Flash API
Tiga hal penting pada hari pertama:
gemini-3.5-flash: tersedia sekarang, cepat, murah, multimodal- Endpoint bergaya OpenAPI yang sama: dapat langsung digunakan untuk proyek yang sudah memanggil Gemini 3 atau 3.1
- Tingkat gratis di AI Studio: ~1.500 permintaan/hari tanpa kartu kredit
Kapabilitas yang terekspos melalui Flash API:
- Konteks masukan 1M token, 64K token keluaran
- Masukan teks + gambar, keluaran teks + terstruktur
- Panggilan fungsi dan penggunaan alat bawaan (83,6% MCP Atlas)
- Respons streaming (~4x lebih cepat token keluaran/detik dibandingkan model frontier lainnya)
- Skoring pengambilan konteks panjang di bagian atas tabel MRCR v2 Google
- Penalaran bagan dan dokumen (84,2% CharXiv)
Untuk detail harga termasuk tarif per token dan diskon mode batch, lihat panduan harga Gemini 3.5 Flash kami.
Langkah 1: Dapatkan kunci API Gemini 3.5 Flash Anda
Dua jalur, tergantung apakah Anda ingin kuota gratis atau skala berbayar.
Jalur A, Google AI Studio (tingkat gratis)
- Buka aistudio.google.com
- Masuk dengan akun Google
- Klik Dapatkan kunci API di navigasi kiri
- Pilih proyek yang sudah ada atau buat yang baru
- Klik Buat kunci API, lalu salin
Ini adalah alur yang sama yang dibahas dalam panduan kunci API Gemini gratis kami. Kunci ini segera berfungsi untuk gemini-3.5-flash dengan kuota harian gratis.

Jalur B, Vertex AI (produksi)
Untuk beban kerja produksi dengan tagihan dan log audit:
- Aktifkan Vertex AI API di Google Cloud Console
- Buat akun layanan dengan
aiplatform.user - Unduh kredensial JSON
- Autentikasi melalui
gcloud auth application-default loginatau file JSON
Vertex mengarahkan Flash di bawah pola SDK yang sedikit berbeda. Sebagian besar tim memulai dengan AI Studio dan bermigrasi saat mereka membutuhkan kontrol organisasi.
Langkah 2: Instal SDK
SDK resmi Google GenAI tersedia untuk Python, Node.js, Go, dan Java. Pilih bahasa Anda:
# Python
pip install -U google-genai
# Node.js
npm install @google/genai
# Go
go get google.golang.org/genai
Anda tidak memerlukan SDK sama sekali jika Anda memanggil endpoint REST secara langsung, lihat contoh curl di bawah.
Langkah 3: Lakukan panggilan Flash pertama Anda
Python
import os
from google import genai
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Jelaskan bagaimana alur OAuth 2.0 PKCE bekerja dalam 3 paragraf singkat."
)
print(response.text)
Node.js
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });
const response = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Jelaskan bagaimana alur OAuth 2.0 PKCE bekerja dalam 3 paragraf singkat.",
});
console.log(response.text);
curl
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [{"text": "Jelaskan bagaimana alur OAuth 2.0 PKCE bekerja dalam 3 paragraf singkat."}]
}]
}'
Itulah jalur yang mulus untuk Flash. Dari sini, Anda menambahkan fitur-fitur yang Anda butuhkan.
Respons streaming
Keluaran Flash cepat. Streaming membuat kecepatan terlihat oleh pengguna Anda.
Python
stream = client.models.generate_content_stream(
model="gemini-3.5-flash",
contents="Tulis tutorial 5 langkah tentang cara menulis klien REST API di Go."
)
for chunk in stream:
print(chunk.text, end="", flush=True)
Node.js
const stream = await ai.models.generateContentStream({
model: "gemini-3.5-flash",
contents: "Tulis tutorial 5 langkah tentang cara menulis klien REST API di Go.",
});
for await (const chunk of stream) {
process.stdout.write(chunk.text);
}
Endpoint berubah dari :generateContent menjadi :streamGenerateContent untuk panggilan REST mentah.
Masukan multimodal dengan Flash
Gemini 3.5 Flash menerima gambar bersama teks. Skor penalaran CharXiv sebesar 84,2% adalah nyata, pemahaman bagan benar-benar berfungsi pada model ini.
Python (gambar dari disk)
import os
from google import genai
from google.genai import types
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
with open("dashboard.png", "rb") as f:
image_bytes = f.read()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
"Ekstrak setiap metrik di dashboard ini sebagai objek JSON."
]
)
print(response.text)
Tipe mime yang didukung: image/png, image/jpeg, image/webp, image/heic, image/heif. PDF dan video juga berfungsi melalui types.Part.from_uri().
Panggilan fungsi dan penggunaan alat dengan Flash
Panggilan alat adalah tempat Flash berbeda dari pendahulunya. Skor MCP Atlas sebesar 83,6% berarti Flash memilih alat yang tepat dengan lebih andal daripada generasi 3.1.
Python
from google.genai import types
weather_tool = types.Tool(
function_declarations=[{
"name": "get_current_weather",
"description": "Dapatkan cuaca saat ini untuk suatu kota.",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "Nama kota"},
"unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
},
"required": ["city"]
}
}]
)
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Bagaimana cuaca di Singapura sekarang?",
config=types.GenerateContentConfig(tools=[weather_tool])
)
for part in response.candidates[0].content.parts:
if part.function_call:
print(f"Call: {part.function_call.name}")
print(f"Args: {dict(part.function_call.args)}")
Flash mengembalikan objek function_call dengan nama dan argumen. Anda menjalankan fungsi secara lokal, mengirimkan kembali hasilnya, dan melanjutkan percakapan. Polanya cocok dengan apa yang sudah digunakan tim dengan Gemini 3 Flash API.
Keluaran terstruktur (mode JSON)
Paksa keluaran JSON dari Flash dengan mengatur tipe MIME dan skema respons:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Daftar 3 alat pengujian API populer beserta harganya.",
config=types.GenerateContentConfig(
response_mime_type="application/json",
response_schema={
"type": "array",
"items": {
"type": "object",
"properties": {
"name": {"type": "string"},
"price_per_month": {"type": "number"},
"free_tier": {"type": "boolean"}
},
"required": ["name", "free_tier"]
}
}
)
)
import json
data = json.loads(response.text)
JSON yang divalidasi setiap panggilan. Tanpa parsing regex, tanpa loop coba lagi.
Harga (per Mei 2026)
Tarif bayar-sesuai-pakai untuk gemini-3.5-flash:
| Tingkat | Masukan | Keluaran |
|---|---|---|
| Standar | ~$1.50 / 1 Juta token | ~$9.00 / 1 Juta token |
| Masukan yang di-cache | tarif diskon | t/a |
| Mode batch | Diskon ~50% | Diskon ~50% |
Untuk beban kerja batch, mode batch Gemini API memberi Anda diskon 50% untuk pekerjaan yang tidak memerlukan latensi real-time. Layak untuk diperiksa sebelum Anda berkomitmen untuk skala besar.
Untuk perhitungan harga lengkap termasuk skenario biaya nyata untuk beban kerja SaaS harian dan loop agen, lihat uraian harga Flash kami. Untuk referensi resmi Google, lihat harga Gemini Developer API.
Menguji integrasi Gemini 3.5 Flash Anda dengan Apidog
Panggilan SDK yang berfungsi hanyalah langkah pertama. Integrasi produksi perlu menangani bagian-bagian yang rumit: chunk streaming, validasi panggilan alat, payload multimodal, percobaan ulang error, batasan tarif. Di situlah memiliki pengaturan pengujian yang tepat akan membuahkan hasil.

Apidog menangani seluruh permukaan Gemini Flash API dalam satu ruang kerja:
- Simpan endpoint Flash sebagai permintaan: tempel URL lengkap, lampirkan
x-goog-api-keyAnda, lalu klik Kirim - Putar ulang di seluruh versi model: tukar
gemini-3.5-flashdengangemini-3-flashyang lebih lama pada permintaan yang sama, bandingkan hasilnya - Stream respons secara inline: Apidog merender chunk streaming saat tiba, dengan waktu per chunk
- Validasi keluaran skema JSON: asersi menangkap penyimpangan saat Anda mengubah perintah
- Mengejek endpoint Flash: hasilkan respons tiruan untuk menguji kode downstream Anda tanpa menghabiskan kuota API
- Bangun skenario pengujian untuk loop agen: rantai beberapa panggilan Flash dengan validasi panggilan alat di antara langkah-langkah
Untuk memulai, unduh Apidog, buat permintaan baru yang menunjuk ke endpoint Flash, dan impor cuplikan curl dari awal postingan ini. Seluruh penyiapan memakan waktu sekitar dua menit.
Penanganan kesalahan dan batasan tarif
Model kesalahan Flash mudah dipahami. Kode-kode yang penting:
- 400: permintaan buruk (paling sering array
contentsyang salah format atau tipe mime yang tidak didukung) - 401: kunci API buruk
- 403: kuota habis atau model tidak diaktifkan
- 429: batasan tarif (tunda dan coba lagi)
- 500/503: sisi server, coba lagi dengan backoff eksponensial
Bungkus panggilan Flash Anda dengan loop coba lagi:
import time
from google import genai
def call_with_retry(client, model, prompt, max_retries=3):
for attempt in range(max_retries):
try:
return client.models.generate_content(model=model, contents=prompt)
except Exception as e:
if attempt == max_retries - 1:
raise
time.sleep(2 ** attempt)
Kuota tingkat gratis direset setiap hari (15 permintaan per menit, ~1.500 per hari di Flash). Kuota tingkat produksi direset per menit dan per hari. Untuk pekerjaan throughput tinggi, periksa jalur mode batch atau gunakan fallback berjenjang ke Gemini 3 Flash saat Anda mencapai batas.
Migrasi dari Gemini 3.1 ke 3.5 Flash
Sebagian besar proyek perlu mengubah tepat satu string: nama model.
# Sebelum
model="gemini-3.1-pro" # atau gemini-3.1-flash
# Setelah
model="gemini-3.5-flash"
Apa yang harus Anda verifikasi setelah perubahan:
- Skema alat masih cocok, berlaku untuk sebagian besar panggilan, tetapi jalankan ulang evaluasi Anda
- Kecepatan keluaran, UI streaming Anda mungkin memerlukan pembatasan karena Flash streaming ~4x lebih cepat
- Anggaran token, batas 1M / 64K yang sama, tetapi modelnya lebih padat, sehingga perintah tertentu mungkin menggunakan lebih sedikit token keluaran
- Pola penolakan, pembatas keamanan lebih ketat; harapkan penolakan yang berbeda pada kasus-kasus ekstrem
Untuk panduan migrasi yang lebih mendalam, panduan Gemini 3.1 Pro API kami mencakup pola SDK; semuanya berlanjut.
Pola Flash umum
Analisis dokumen konteks panjang
with open("large_report.pdf", "rb") as f:
pdf_bytes = f.read()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
"Ringkas prospek keuangan dari laporan ini dalam 5 poin."
]
)
Konteks 1M token Flash menangani PDF penuh tanpa pemotongan.
Loop agen dengan panggilan alat
conversation = [{"role": "user", "parts": [{"text": "Pesan saya penerbangan ke Tokyo"}]}]
while True:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=conversation,
config=types.GenerateContentConfig(tools=[flight_search_tool, booking_tool])
)
part = response.candidates[0].content.parts[0]
if not part.function_call:
print(part.text)
break
result = execute_tool(part.function_call)
conversation.append({"role": "model", "parts": [part]})
conversation.append({"role": "user", "parts": [{"function_response": result}]})
Ini adalah pola loop yang diukur oleh skor Terminal-Bench 2.1 Flash (76,2%). Agen nyata berfungsi.
FAQ
Apakah ada tingkat gratis untuk Gemini 3.5 Flash API? Ya, melalui Google AI Studio dengan kuota harian (~1.500 permintaan/hari). Tidak memerlukan kartu kredit.
Apakah Flash mendukung endpoint yang kompatibel dengan OpenAI? Ya. Google menyediakan shim yang kompatibel dengan OpenAI di /v1beta/openai/. Anda dapat mengarahkan SDK OpenAI apa pun ke sana dengan mengatur base_url dan menggunakan kunci Gemini Anda. Nama model tetap gemini-3.5-flash.
Bisakah saya menggunakan Flash dengan LangChain atau LlamaIndex? Ya, keduanya memiliki integrasi Gemini asli. Lewatkan model="gemini-3.5-flash" di wrapper masing-masing.
Kapan Gemini 3.5 Pro dirilis? Juni 2026 sesuai pengumuman peluncuran Google. Hingga saat itu, Flash adalah satu-satunya varian 3.5 yang tersedia.
Berapa ukuran gambar maksimum untuk Flash? Direkomendasikan 3072×3072. Gambar yang lebih besar akan di-resample. Untuk pekerjaan yang banyak menggunakan OCR, lihat alur kerja OCR Gemini 2.0 Flash, pola yang sama berlaku.
Bagaimana cara menguji endpoint streaming di Apidog? Buka permintaan, atur :streamGenerateContent sebagai sufiks endpoint, dan Apidog akan merender chunk SSE saat tiba. Berguna untuk men-debug respons yang tidak lengkap.
Di mana saya bisa melihat log API? Di AI Studio di bawah "Activity" (Aktivitas), atau di Vertex AI di bawah "Logs Explorer" (Penjelajah Log) untuk deployment produksi.
Apa yang harus dibangun terlebih dahulu
Daftar singkat proyek pemula yang layak diluncurkan dalam minggu pertama dengan Flash:
- Bot Tanya Jawab PDF: masukkan PDF ke jendela konteks 1M, ajukan pertanyaan, kembalikan jawaban yang dikutip
- Pipeline Bagan-ke-JSON: masukkan tangkapan layar dashboard, ekstrak data terstruktur
- Agen dukungan pelanggan: panggilan fungsi terhadap CRM Anda, berjalan tanpa pengawasan
- Asisten tinjauan kode: konteks perbedaan multi-file, keluaran terstruktur dengan peringkat keparahan
- Agen pencarian internal: gabungkan konteks 1M dengan panggilan alat ke API internal
Untuk masing-masing, alur pengujian yang sama berlaku: buat prompt, bungkus dalam panggilan SDK Anda, validasi bentuk respons dengan Apidog, dan kirimkan.
