Cara Menggunakan Gemini 3.5 Flash API

Ashley Innocent

Ashley Innocent

20 May 2026

Cara Menggunakan Gemini 3.5 Flash API

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

API Gemini 3.5 Flash diluncurkan bersamaan dengan model pada 19 Mei 2026. Flash adalah satu-satunya varian dari keluarga 3.5 yang tersedia saat ini; versi Pro akan hadir pada bulan Juni. Panduan ini menjelaskan pengaturan developer lengkap untuk Flash: mendapatkan kunci, melakukan panggilan pertama Anda, menangani masukan multimodal, streaming, penggunaan alat, dan menguji semuanya dengan benar menggunakan Apidog.

Jika Anda pernah menggunakan Gemini API sebelumnya, polanya tidak berubah. Satu-satunya bagian baru adalah string nama model: gemini-3.5-flash. Jika Anda baru mengenalnya, Anda dapat membuat permintaan Flash yang berfungsi dalam waktu sekitar sepuluh menit.

Apa yang Anda dapatkan dengan Gemini 3.5 Flash API

Tiga hal penting pada hari pertama:

Kapabilitas yang terekspos melalui Flash API:

Untuk detail harga termasuk tarif per token dan diskon mode batch, lihat panduan harga Gemini 3.5 Flash kami.

Langkah 1: Dapatkan kunci API Gemini 3.5 Flash Anda

Dua jalur, tergantung apakah Anda ingin kuota gratis atau skala berbayar.

Jalur A, Google AI Studio (tingkat gratis)

  1. Buka aistudio.google.com
  2. Masuk dengan akun Google
  3. Klik Dapatkan kunci API di navigasi kiri
  4. Pilih proyek yang sudah ada atau buat yang baru
  5. Klik Buat kunci API, lalu salin

Ini adalah alur yang sama yang dibahas dalam panduan kunci API Gemini gratis kami. Kunci ini segera berfungsi untuk gemini-3.5-flash dengan kuota harian gratis.

Jalur B, Vertex AI (produksi)

Untuk beban kerja produksi dengan tagihan dan log audit:

  1. Aktifkan Vertex AI API di Google Cloud Console
  2. Buat akun layanan dengan aiplatform.user
  3. Unduh kredensial JSON
  4. Autentikasi melalui gcloud auth application-default login atau file JSON

Vertex mengarahkan Flash di bawah pola SDK yang sedikit berbeda. Sebagian besar tim memulai dengan AI Studio dan bermigrasi saat mereka membutuhkan kontrol organisasi.

Langkah 2: Instal SDK

SDK resmi Google GenAI tersedia untuk Python, Node.js, Go, dan Java. Pilih bahasa Anda:

# Python
pip install -U google-genai

# Node.js
npm install @google/genai

# Go
go get google.golang.org/genai

Anda tidak memerlukan SDK sama sekali jika Anda memanggil endpoint REST secara langsung, lihat contoh curl di bawah.

Langkah 3: Lakukan panggilan Flash pertama Anda

Python

import os
from google import genai

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Jelaskan bagaimana alur OAuth 2.0 PKCE bekerja dalam 3 paragraf singkat."
)

print(response.text)

Node.js

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: "Jelaskan bagaimana alur OAuth 2.0 PKCE bekerja dalam 3 paragraf singkat.",
});

console.log(response.text);

curl

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [{"text": "Jelaskan bagaimana alur OAuth 2.0 PKCE bekerja dalam 3 paragraf singkat."}]
    }]
  }'

Itulah jalur yang mulus untuk Flash. Dari sini, Anda menambahkan fitur-fitur yang Anda butuhkan.

Respons streaming

Keluaran Flash cepat. Streaming membuat kecepatan terlihat oleh pengguna Anda.

Python

stream = client.models.generate_content_stream(
    model="gemini-3.5-flash",
    contents="Tulis tutorial 5 langkah tentang cara menulis klien REST API di Go."
)

for chunk in stream:
    print(chunk.text, end="", flush=True)

Node.js

const stream = await ai.models.generateContentStream({
  model: "gemini-3.5-flash",
  contents: "Tulis tutorial 5 langkah tentang cara menulis klien REST API di Go.",
});

for await (const chunk of stream) {
  process.stdout.write(chunk.text);
}

Endpoint berubah dari :generateContent menjadi :streamGenerateContent untuk panggilan REST mentah.

Masukan multimodal dengan Flash

Gemini 3.5 Flash menerima gambar bersama teks. Skor penalaran CharXiv sebesar 84,2% adalah nyata, pemahaman bagan benar-benar berfungsi pada model ini.

Python (gambar dari disk)

import os
from google import genai
from google.genai import types

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

with open("dashboard.png", "rb") as f:
    image_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
        "Ekstrak setiap metrik di dashboard ini sebagai objek JSON."
    ]
)

print(response.text)

Tipe mime yang didukung: image/png, image/jpeg, image/webp, image/heic, image/heif. PDF dan video juga berfungsi melalui types.Part.from_uri().

Panggilan fungsi dan penggunaan alat dengan Flash

Panggilan alat adalah tempat Flash berbeda dari pendahulunya. Skor MCP Atlas sebesar 83,6% berarti Flash memilih alat yang tepat dengan lebih andal daripada generasi 3.1.

Python

from google.genai import types

weather_tool = types.Tool(
    function_declarations=[{
        "name": "get_current_weather",
        "description": "Dapatkan cuaca saat ini untuk suatu kota.",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "Nama kota"},
                "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
            },
            "required": ["city"]
        }
    }]
)

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Bagaimana cuaca di Singapura sekarang?",
    config=types.GenerateContentConfig(tools=[weather_tool])
)

for part in response.candidates[0].content.parts:
    if part.function_call:
        print(f"Call: {part.function_call.name}")
        print(f"Args: {dict(part.function_call.args)}")

Flash mengembalikan objek function_call dengan nama dan argumen. Anda menjalankan fungsi secara lokal, mengirimkan kembali hasilnya, dan melanjutkan percakapan. Polanya cocok dengan apa yang sudah digunakan tim dengan Gemini 3 Flash API.

Keluaran terstruktur (mode JSON)

Paksa keluaran JSON dari Flash dengan mengatur tipe MIME dan skema respons:

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Daftar 3 alat pengujian API populer beserta harganya.",
    config=types.GenerateContentConfig(
        response_mime_type="application/json",
        response_schema={
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "name": {"type": "string"},
                    "price_per_month": {"type": "number"},
                    "free_tier": {"type": "boolean"}
                },
                "required": ["name", "free_tier"]
            }
        }
    )
)

import json
data = json.loads(response.text)

JSON yang divalidasi setiap panggilan. Tanpa parsing regex, tanpa loop coba lagi.

Harga (per Mei 2026)

Tarif bayar-sesuai-pakai untuk gemini-3.5-flash:

Tingkat Masukan Keluaran
Standar ~$1.50 / 1 Juta token ~$9.00 / 1 Juta token
Masukan yang di-cache tarif diskon t/a
Mode batch Diskon ~50% Diskon ~50%

Untuk beban kerja batch, mode batch Gemini API memberi Anda diskon 50% untuk pekerjaan yang tidak memerlukan latensi real-time. Layak untuk diperiksa sebelum Anda berkomitmen untuk skala besar.

Untuk perhitungan harga lengkap termasuk skenario biaya nyata untuk beban kerja SaaS harian dan loop agen, lihat uraian harga Flash kami. Untuk referensi resmi Google, lihat harga Gemini Developer API.

Menguji integrasi Gemini 3.5 Flash Anda dengan Apidog

Panggilan SDK yang berfungsi hanyalah langkah pertama. Integrasi produksi perlu menangani bagian-bagian yang rumit: chunk streaming, validasi panggilan alat, payload multimodal, percobaan ulang error, batasan tarif. Di situlah memiliki pengaturan pengujian yang tepat akan membuahkan hasil.

Apidog menangani seluruh permukaan Gemini Flash API dalam satu ruang kerja:

Untuk memulai, unduh Apidog, buat permintaan baru yang menunjuk ke endpoint Flash, dan impor cuplikan curl dari awal postingan ini. Seluruh penyiapan memakan waktu sekitar dua menit.

Penanganan kesalahan dan batasan tarif

Model kesalahan Flash mudah dipahami. Kode-kode yang penting:

Bungkus panggilan Flash Anda dengan loop coba lagi:

import time
from google import genai

def call_with_retry(client, model, prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            return client.models.generate_content(model=model, contents=prompt)
        except Exception as e:
            if attempt == max_retries - 1:
                raise
            time.sleep(2 ** attempt)

Kuota tingkat gratis direset setiap hari (15 permintaan per menit, ~1.500 per hari di Flash). Kuota tingkat produksi direset per menit dan per hari. Untuk pekerjaan throughput tinggi, periksa jalur mode batch atau gunakan fallback berjenjang ke Gemini 3 Flash saat Anda mencapai batas.

Migrasi dari Gemini 3.1 ke 3.5 Flash

Sebagian besar proyek perlu mengubah tepat satu string: nama model.

# Sebelum
model="gemini-3.1-pro"  # atau gemini-3.1-flash

# Setelah
model="gemini-3.5-flash"

Apa yang harus Anda verifikasi setelah perubahan:

  1. Skema alat masih cocok, berlaku untuk sebagian besar panggilan, tetapi jalankan ulang evaluasi Anda
  2. Kecepatan keluaran, UI streaming Anda mungkin memerlukan pembatasan karena Flash streaming ~4x lebih cepat
  3. Anggaran token, batas 1M / 64K yang sama, tetapi modelnya lebih padat, sehingga perintah tertentu mungkin menggunakan lebih sedikit token keluaran
  4. Pola penolakan, pembatas keamanan lebih ketat; harapkan penolakan yang berbeda pada kasus-kasus ekstrem

Untuk panduan migrasi yang lebih mendalam, panduan Gemini 3.1 Pro API kami mencakup pola SDK; semuanya berlanjut.

Pola Flash umum

Analisis dokumen konteks panjang

with open("large_report.pdf", "rb") as f:
    pdf_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
        "Ringkas prospek keuangan dari laporan ini dalam 5 poin."
    ]
)

Konteks 1M token Flash menangani PDF penuh tanpa pemotongan.

Loop agen dengan panggilan alat

conversation = [{"role": "user", "parts": [{"text": "Pesan saya penerbangan ke Tokyo"}]}]

while True:
    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents=conversation,
        config=types.GenerateContentConfig(tools=[flight_search_tool, booking_tool])
    )

    part = response.candidates[0].content.parts[0]
    if not part.function_call:
        print(part.text)
        break

    result = execute_tool(part.function_call)
    conversation.append({"role": "model", "parts": [part]})
    conversation.append({"role": "user", "parts": [{"function_response": result}]})

Ini adalah pola loop yang diukur oleh skor Terminal-Bench 2.1 Flash (76,2%). Agen nyata berfungsi.

FAQ

Apakah ada tingkat gratis untuk Gemini 3.5 Flash API? Ya, melalui Google AI Studio dengan kuota harian (~1.500 permintaan/hari). Tidak memerlukan kartu kredit.

Apakah Flash mendukung endpoint yang kompatibel dengan OpenAI? Ya. Google menyediakan shim yang kompatibel dengan OpenAI di /v1beta/openai/. Anda dapat mengarahkan SDK OpenAI apa pun ke sana dengan mengatur base_url dan menggunakan kunci Gemini Anda. Nama model tetap gemini-3.5-flash.

Bisakah saya menggunakan Flash dengan LangChain atau LlamaIndex? Ya, keduanya memiliki integrasi Gemini asli. Lewatkan model="gemini-3.5-flash" di wrapper masing-masing.

Kapan Gemini 3.5 Pro dirilis? Juni 2026 sesuai pengumuman peluncuran Google. Hingga saat itu, Flash adalah satu-satunya varian 3.5 yang tersedia.

Berapa ukuran gambar maksimum untuk Flash? Direkomendasikan 3072×3072. Gambar yang lebih besar akan di-resample. Untuk pekerjaan yang banyak menggunakan OCR, lihat alur kerja OCR Gemini 2.0 Flash, pola yang sama berlaku.

Bagaimana cara menguji endpoint streaming di Apidog? Buka permintaan, atur :streamGenerateContent sebagai sufiks endpoint, dan Apidog akan merender chunk SSE saat tiba. Berguna untuk men-debug respons yang tidak lengkap.

Di mana saya bisa melihat log API? Di AI Studio di bawah "Activity" (Aktivitas), atau di Vertex AI di bawah "Logs Explorer" (Penjelajah Log) untuk deployment produksi.

Apa yang harus dibangun terlebih dahulu

Daftar singkat proyek pemula yang layak diluncurkan dalam minggu pertama dengan Flash:

Untuk masing-masing, alur pengujian yang sama berlaku: buat prompt, bungkus dalam panggilan SDK Anda, validasi bentuk respons dengan Apidog, dan kirimkan.

tombol

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.