Cara Menggunakan Gemini 3.5 Flash API

API Gemini 3.5 Flash diluncurkan bersamaan dengan model pada 19 Mei 2026. Flash adalah satu-satunya varian dari keluarga 3.5 yang tersedia saat ini; versi Pro akan hadir pada bulan Juni. Panduan ini menjelaskan pengaturan developer lengkap untuk Flash: mendapatkan kunci, melakukan panggilan pertama Anda, menangani masukan multimodal, streaming, penggunaan alat, dan menguji semuanya dengan benar menggunakan Apidog.

Jika Anda pernah menggunakan Gemini API sebelumnya, polanya tidak berubah. Satu-satunya bagian baru adalah string nama model: gemini-3.5-flash. Jika Anda baru mengenalnya, Anda dapat membuat permintaan Flash yang berfungsi dalam waktu sekitar sepuluh menit.

Apa yang Anda dapatkan dengan Gemini 3.5 Flash API

Tiga hal penting pada hari pertama:

gemini-3.5-flash: tersedia sekarang, cepat, murah, multimodal
Endpoint bergaya OpenAPI yang sama: dapat langsung digunakan untuk proyek yang sudah memanggil Gemini 3 atau 3.1
Tingkat gratis di AI Studio: ~1.500 permintaan/hari tanpa kartu kredit

Kapabilitas yang terekspos melalui Flash API:

Konteks masukan 1M token, 64K token keluaran
Masukan teks + gambar, keluaran teks + terstruktur
Panggilan fungsi dan penggunaan alat bawaan (83,6% MCP Atlas)
Respons streaming (~4x lebih cepat token keluaran/detik dibandingkan model frontier lainnya)
Skoring pengambilan konteks panjang di bagian atas tabel MRCR v2 Google
Penalaran bagan dan dokumen (84,2% CharXiv)

Untuk detail harga termasuk tarif per token dan diskon mode batch, lihat panduan harga Gemini 3.5 Flash kami.

Langkah 1: Dapatkan kunci API Gemini 3.5 Flash Anda

Dua jalur, tergantung apakah Anda ingin kuota gratis atau skala berbayar.

Jalur A, Google AI Studio (tingkat gratis)

Buka aistudio.google.com
Masuk dengan akun Google
Klik Dapatkan kunci API di navigasi kiri
Pilih proyek yang sudah ada atau buat yang baru
Klik Buat kunci API, lalu salin

Ini adalah alur yang sama yang dibahas dalam panduan kunci API Gemini gratis kami. Kunci ini segera berfungsi untuk gemini-3.5-flash dengan kuota harian gratis.

Jalur B, Vertex AI (produksi)

Untuk beban kerja produksi dengan tagihan dan log audit:

Aktifkan Vertex AI API di Google Cloud Console
Buat akun layanan dengan aiplatform.user
Unduh kredensial JSON
Autentikasi melalui gcloud auth application-default login atau file JSON

Vertex mengarahkan Flash di bawah pola SDK yang sedikit berbeda. Sebagian besar tim memulai dengan AI Studio dan bermigrasi saat mereka membutuhkan kontrol organisasi.

Langkah 2: Instal SDK

SDK resmi Google GenAI tersedia untuk Python, Node.js, Go, dan Java. Pilih bahasa Anda:

# Python
pip install -U google-genai

# Node.js
npm install @google/genai

# Go
go get google.golang.org/genai

Anda tidak memerlukan SDK sama sekali jika Anda memanggil endpoint REST secara langsung, lihat contoh curl di bawah.

Langkah 3: Lakukan panggilan Flash pertama Anda

Python

import os
from google import genai

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Jelaskan bagaimana alur OAuth 2.0 PKCE bekerja dalam 3 paragraf singkat."
)

print(response.text)

Node.js

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: "Jelaskan bagaimana alur OAuth 2.0 PKCE bekerja dalam 3 paragraf singkat.",
});

console.log(response.text);

curl

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [{"text": "Jelaskan bagaimana alur OAuth 2.0 PKCE bekerja dalam 3 paragraf singkat."}]
    }]
  }'

Itulah jalur yang mulus untuk Flash. Dari sini, Anda menambahkan fitur-fitur yang Anda butuhkan.

Respons streaming

Keluaran Flash cepat. Streaming membuat kecepatan terlihat oleh pengguna Anda.

Python

stream = client.models.generate_content_stream(
    model="gemini-3.5-flash",
    contents="Tulis tutorial 5 langkah tentang cara menulis klien REST API di Go."
)

for chunk in stream:
    print(chunk.text, end="", flush=True)

Node.js

const stream = await ai.models.generateContentStream({
  model: "gemini-3.5-flash",
  contents: "Tulis tutorial 5 langkah tentang cara menulis klien REST API di Go.",
});

for await (const chunk of stream) {
  process.stdout.write(chunk.text);
}

Endpoint berubah dari :generateContent menjadi :streamGenerateContent untuk panggilan REST mentah.

Masukan multimodal dengan Flash

Gemini 3.5 Flash menerima gambar bersama teks. Skor penalaran CharXiv sebesar 84,2% adalah nyata, pemahaman bagan benar-benar berfungsi pada model ini.

Python (gambar dari disk)

import os
from google import genai
from google.genai import types

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

with open("dashboard.png", "rb") as f:
    image_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
        "Ekstrak setiap metrik di dashboard ini sebagai objek JSON."
    ]
)

print(response.text)

Tipe mime yang didukung: image/png, image/jpeg, image/webp, image/heic, image/heif. PDF dan video juga berfungsi melalui types.Part.from_uri().

Panggilan fungsi dan penggunaan alat dengan Flash

Panggilan alat adalah tempat Flash berbeda dari pendahulunya. Skor MCP Atlas sebesar 83,6% berarti Flash memilih alat yang tepat dengan lebih andal daripada generasi 3.1.

Python

from google.genai import types

weather_tool = types.Tool(
    function_declarations=[{
        "name": "get_current_weather",
        "description": "Dapatkan cuaca saat ini untuk suatu kota.",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "Nama kota"},
                "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
            },
            "required": ["city"]
        }
    }]
)

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Bagaimana cuaca di Singapura sekarang?",
    config=types.GenerateContentConfig(tools=[weather_tool])
)

for part in response.candidates[0].content.parts:
    if part.function_call:
        print(f"Call: {part.function_call.name}")
        print(f"Args: {dict(part.function_call.args)}")

Flash mengembalikan objek function_call dengan nama dan argumen. Anda menjalankan fungsi secara lokal, mengirimkan kembali hasilnya, dan melanjutkan percakapan. Polanya cocok dengan apa yang sudah digunakan tim dengan Gemini 3 Flash API.

Keluaran terstruktur (mode JSON)

Paksa keluaran JSON dari Flash dengan mengatur tipe MIME dan skema respons:

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Daftar 3 alat pengujian API populer beserta harganya.",
    config=types.GenerateContentConfig(
        response_mime_type="application/json",
        response_schema={
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "name": {"type": "string"},
                    "price_per_month": {"type": "number"},
                    "free_tier": {"type": "boolean"}
                },
                "required": ["name", "free_tier"]
            }
        }
    )
)

import json
data = json.loads(response.text)

JSON yang divalidasi setiap panggilan. Tanpa parsing regex, tanpa loop coba lagi.

Harga (per Mei 2026)

Tarif bayar-sesuai-pakai untuk gemini-3.5-flash:

Tingkat	Masukan	Keluaran
Standar	~$1.50 / 1 Juta token	~$9.00 / 1 Juta token
Masukan yang di-cache	tarif diskon	t/a
Mode batch	Diskon ~50%	Diskon ~50%

Untuk beban kerja batch, mode batch Gemini API memberi Anda diskon 50% untuk pekerjaan yang tidak memerlukan latensi real-time. Layak untuk diperiksa sebelum Anda berkomitmen untuk skala besar.

Untuk perhitungan harga lengkap termasuk skenario biaya nyata untuk beban kerja SaaS harian dan loop agen, lihat uraian harga Flash kami. Untuk referensi resmi Google, lihat harga Gemini Developer API.

Menguji integrasi Gemini 3.5 Flash Anda dengan Apidog

Panggilan SDK yang berfungsi hanyalah langkah pertama. Integrasi produksi perlu menangani bagian-bagian yang rumit: chunk streaming, validasi panggilan alat, payload multimodal, percobaan ulang error, batasan tarif. Di situlah memiliki pengaturan pengujian yang tepat akan membuahkan hasil.

Apidog menangani seluruh permukaan Gemini Flash API dalam satu ruang kerja:

Simpan endpoint Flash sebagai permintaan: tempel URL lengkap, lampirkan x-goog-api-key Anda, lalu klik Kirim
Putar ulang di seluruh versi model: tukar gemini-3.5-flash dengan gemini-3-flash yang lebih lama pada permintaan yang sama, bandingkan hasilnya
Stream respons secara inline: Apidog merender chunk streaming saat tiba, dengan waktu per chunk
Validasi keluaran skema JSON: asersi menangkap penyimpangan saat Anda mengubah perintah
Mengejek endpoint Flash: hasilkan respons tiruan untuk menguji kode downstream Anda tanpa menghabiskan kuota API
Bangun skenario pengujian untuk loop agen: rantai beberapa panggilan Flash dengan validasi panggilan alat di antara langkah-langkah

Untuk memulai, unduh Apidog, buat permintaan baru yang menunjuk ke endpoint Flash, dan impor cuplikan curl dari awal postingan ini. Seluruh penyiapan memakan waktu sekitar dua menit.

Penanganan kesalahan dan batasan tarif

Model kesalahan Flash mudah dipahami. Kode-kode yang penting:

400: permintaan buruk (paling sering array contents yang salah format atau tipe mime yang tidak didukung)
401: kunci API buruk
403: kuota habis atau model tidak diaktifkan
429: batasan tarif (tunda dan coba lagi)
500/503: sisi server, coba lagi dengan backoff eksponensial

Bungkus panggilan Flash Anda dengan loop coba lagi:

import time
from google import genai

def call_with_retry(client, model, prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            return client.models.generate_content(model=model, contents=prompt)
        except Exception as e:
            if attempt == max_retries - 1:
                raise
            time.sleep(2 ** attempt)

Kuota tingkat gratis direset setiap hari (15 permintaan per menit, ~1.500 per hari di Flash). Kuota tingkat produksi direset per menit dan per hari. Untuk pekerjaan throughput tinggi, periksa jalur mode batch atau gunakan fallback berjenjang ke Gemini 3 Flash saat Anda mencapai batas.

Migrasi dari Gemini 3.1 ke 3.5 Flash

Sebagian besar proyek perlu mengubah tepat satu string: nama model.

# Sebelum
model="gemini-3.1-pro"  # atau gemini-3.1-flash

# Setelah
model="gemini-3.5-flash"

Apa yang harus Anda verifikasi setelah perubahan:

Skema alat masih cocok, berlaku untuk sebagian besar panggilan, tetapi jalankan ulang evaluasi Anda
Kecepatan keluaran, UI streaming Anda mungkin memerlukan pembatasan karena Flash streaming ~4x lebih cepat
Anggaran token, batas 1M / 64K yang sama, tetapi modelnya lebih padat, sehingga perintah tertentu mungkin menggunakan lebih sedikit token keluaran
Pola penolakan, pembatas keamanan lebih ketat; harapkan penolakan yang berbeda pada kasus-kasus ekstrem

Untuk panduan migrasi yang lebih mendalam, panduan Gemini 3.1 Pro API kami mencakup pola SDK; semuanya berlanjut.

Pola Flash umum

Analisis dokumen konteks panjang

with open("large_report.pdf", "rb") as f:
    pdf_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
        "Ringkas prospek keuangan dari laporan ini dalam 5 poin."
    ]
)

Konteks 1M token Flash menangani PDF penuh tanpa pemotongan.

Loop agen dengan panggilan alat

conversation = [{"role": "user", "parts": [{"text": "Pesan saya penerbangan ke Tokyo"}]}]

while True:
    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents=conversation,
        config=types.GenerateContentConfig(tools=[flight_search_tool, booking_tool])
    )

    part = response.candidates[0].content.parts[0]
    if not part.function_call:
        print(part.text)
        break

    result = execute_tool(part.function_call)
    conversation.append({"role": "model", "parts": [part]})
    conversation.append({"role": "user", "parts": [{"function_response": result}]})

Ini adalah pola loop yang diukur oleh skor Terminal-Bench 2.1 Flash (76,2%). Agen nyata berfungsi.

FAQ

Apakah ada tingkat gratis untuk Gemini 3.5 Flash API? Ya, melalui Google AI Studio dengan kuota harian (~1.500 permintaan/hari). Tidak memerlukan kartu kredit.

Apakah Flash mendukung endpoint yang kompatibel dengan OpenAI? Ya. Google menyediakan shim yang kompatibel dengan OpenAI di /v1beta/openai/. Anda dapat mengarahkan SDK OpenAI apa pun ke sana dengan mengatur base_url dan menggunakan kunci Gemini Anda. Nama model tetap gemini-3.5-flash.

Bisakah saya menggunakan Flash dengan LangChain atau LlamaIndex? Ya, keduanya memiliki integrasi Gemini asli. Lewatkan model="gemini-3.5-flash" di wrapper masing-masing.

Kapan Gemini 3.5 Pro dirilis? Juni 2026 sesuai pengumuman peluncuran Google. Hingga saat itu, Flash adalah satu-satunya varian 3.5 yang tersedia.

Berapa ukuran gambar maksimum untuk Flash? Direkomendasikan 3072×3072. Gambar yang lebih besar akan di-resample. Untuk pekerjaan yang banyak menggunakan OCR, lihat alur kerja OCR Gemini 2.0 Flash, pola yang sama berlaku.

Bagaimana cara menguji endpoint streaming di Apidog? Buka permintaan, atur :streamGenerateContent sebagai sufiks endpoint, dan Apidog akan merender chunk SSE saat tiba. Berguna untuk men-debug respons yang tidak lengkap.

Di mana saya bisa melihat log API? Di AI Studio di bawah "Activity" (Aktivitas), atau di Vertex AI di bawah "Logs Explorer" (Penjelajah Log) untuk deployment produksi.

Apa yang harus dibangun terlebih dahulu

Daftar singkat proyek pemula yang layak diluncurkan dalam minggu pertama dengan Flash:

Bot Tanya Jawab PDF: masukkan PDF ke jendela konteks 1M, ajukan pertanyaan, kembalikan jawaban yang dikutip
Pipeline Bagan-ke-JSON: masukkan tangkapan layar dashboard, ekstrak data terstruktur
Agen dukungan pelanggan: panggilan fungsi terhadap CRM Anda, berjalan tanpa pengawasan
Asisten tinjauan kode: konteks perbedaan multi-file, keluaran terstruktur dengan peringkat keparahan
Agen pencarian internal: gabungkan konteks 1M dengan panggilan alat ke API internal

Untuk masing-masing, alur pengujian yang sama berlaku: buat prompt, bungkus dalam panggilan SDK Anda, validasi bentuk respons dengan Apidog, dan kirimkan.

tombol