Hướng Dẫn Sử Dụng Gemini 3.5 Flash API

API Gemini 3.5 Flash đã ra mắt cùng với phiên bản mô hình vào ngày 19 tháng 5 năm 2026. Flash là biến thể duy nhất của dòng 3.5 có sẵn hiện nay; Pro sẽ ra mắt vào tháng 6. Hướng dẫn này sẽ trình bày toàn bộ quá trình thiết lập dành cho nhà phát triển với Flash: lấy khóa API, thực hiện cuộc gọi đầu tiên, xử lý đầu vào đa phương thức, truyền tải (streaming), sử dụng công cụ và kiểm tra toàn bộ mọi thứ một cách đúng đắn bằng Apidog.

Nếu bạn đã từng sử dụng API Gemini trước đây, mẫu hình này không thay đổi. Phần mới duy nhất là chuỗi tên mô hình: gemini-3.5-flash. Nếu bạn mới làm quen, bạn có thể thực hiện các yêu cầu Flash hoạt động chỉ trong khoảng mười phút.

Những gì bạn nhận được với API Gemini 3.5 Flash

Ba điều quan trọng ngay từ ngày đầu tiên:

gemini-3.5-flash: đã hoạt động, nhanh, rẻ, đa phương thức
Điểm cuối (endpoint) kiểu OpenAPI tương tự: dễ dàng tích hợp cho các dự án đã gọi Gemini 3 hoặc 3.1
Cấp độ miễn phí trên AI Studio: khoảng 1.500 yêu cầu/ngày mà không cần thẻ tín dụng

Các khả năng được tiết lộ thông qua API Flash:

Ngữ cảnh đầu vào 1 triệu token, 64 nghìn token đầu ra
Đầu vào văn bản + hình ảnh, đầu ra văn bản + cấu trúc
Gọi hàm và sử dụng công cụ gốc (83,6% MCP Atlas)
Phản hồi truyền tải (streaming) (nhanh hơn ~4 lần token đầu ra/giây so với các mô hình tiên tiến khác)
Xếp hạng truy xuất ngữ cảnh dài đứng đầu bảng MRCR v2 của Google
Suy luận biểu đồ và tài liệu (84,2% CharXiv)

Để biết chi tiết về giá cả bao gồm tỷ lệ mỗi token và giảm giá chế độ hàng loạt, hãy xem hướng dẫn định giá Gemini 3.5 Flash của chúng tôi.

Bước 1: Lấy khóa API Gemini 3.5 Flash của bạn

Có hai cách, tùy thuộc vào việc bạn muốn hạn ngạch miễn phí hay quy mô trả phí.

Cách A, Google AI Studio (cấp độ miễn phí)

Truy cập aistudio.google.com
Đăng nhập bằng tài khoản Google
Nhấp vào Get API key trong thanh điều hướng bên trái
Chọn một dự án hiện có hoặc tạo một dự án mới
Nhấp vào Create API key, sau đó sao chép nó

Đây là quy trình tương tự được đề cập trong hướng dẫn khóa API Gemini miễn phí của chúng tôi. Khóa hoạt động ngay lập tức với gemini-3.5-flash với hạn ngạch miễn phí hàng ngày.

Cách B, Vertex AI (sản xuất)

Đối với khối lượng công việc sản xuất có tính phí và nhật ký kiểm tra:

Kích hoạt API Vertex AI trong Google Cloud Console
Tạo một tài khoản dịch vụ với quyền aiplatform.user
Tải xuống thông tin xác thực JSON
Xác thực qua gcloud auth application-default login hoặc tệp JSON

Vertex định tuyến Flash theo một mẫu SDK hơi khác. Hầu hết các nhóm bắt đầu với AI Studio và di chuyển khi họ cần kiểm soát tổ chức.

Bước 2: Cài đặt SDK

SDK GenAI chính thức của Google có sẵn cho Python, Node.js, Go và Java. Chọn ngôn ngữ của bạn:

# Python
pip install -U google-genai

# Node.js
npm install @google/genai

# Go
go get google.golang.org/genai

Bạn không cần SDK nếu bạn gọi trực tiếp điểm cuối REST, xem ví dụ curl dưới đây.

Bước 3: Thực hiện cuộc gọi Flash đầu tiên của bạn

Python

import os
from google import genai

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."
)

print(response.text)

Node.js

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs.",
});

console.log(response.text);

curl

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [{"text": "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."}]
    }]
  }'

Đó là cách hoạt động cơ bản cho Flash. Từ đây, bạn sẽ thêm các tính năng bạn thực sự cần.

Phản hồi truyền tải (Streaming responses)

Đầu ra của Flash rất nhanh. Truyền tải giúp người dùng của bạn cảm nhận được tốc độ.

Python

stream = client.models.generate_content_stream(
    model="gemini-3.5-flash",
    contents="Write a 5-step tutorial on writing a REST API client in Go."
)

for chunk in stream:
    print(chunk.text, end="", flush=True)

Node.js

const stream = await ai.models.generateContentStream({
  model: "gemini-3.5-flash",
  contents: "Write a 5-step tutorial on writing a REST API client in Go.",
});

for await (const chunk of stream) {
  process.stdout.write(chunk.text);
}

Điểm cuối thay đổi từ :generateContent thành :streamGenerateContent cho các cuộc gọi REST thuần túy.

Đầu vào đa phương thức với Flash

Gemini 3.5 Flash chấp nhận hình ảnh cùng với văn bản. Điểm CharXiv Reasoning 84,2% là thật, hiểu biểu đồ thực sự hoạt động trên mô hình này.

Python (hình ảnh từ đĩa)

import os
from google import genai
from google.genai import types

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

with open("dashboard.png", "rb") as f:
    image_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
        "Extract every metric in this dashboard as a JSON object."
    ]
)

print(response.text)

Các loại mime được hỗ trợ: image/png, image/jpeg, image/webp, image/heic, image/heif. Các tệp PDF và video cũng hoạt động thông qua types.Part.from_uri().

Gọi hàm và sử dụng công cụ với Flash

Gọi công cụ là điểm khác biệt của Flash so với các phiên bản tiền nhiệm. Điểm MCP Atlas 83,6% có nghĩa là Flash chọn công cụ phù hợp một cách đáng tin cậy hơn so với thế hệ 3.1.

Python

from google.genai import types

weather_tool = types.Tool(
    function_declarations=[{
        "name": "get_current_weather",
        "description": "Get the current weather for a city.",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "City name"},
                "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
            },
            "required": ["city"]
        }
    }]
)

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="What's the weather in Singapore right now?",
    config=types.GenerateContentConfig(tools=[weather_tool])
)

for part in response.candidates[0].content.parts:
    if part.function_call:
        print(f"Call: {part.function_call.name}")
        print(f"Args: {dict(part.function_call.args)}")

Flash trả về một đối tượng function_call với tên và đối số. Bạn thực thi hàm cục bộ, gửi kết quả trở lại và tiếp tục cuộc trò chuyện. Mẫu này khớp với những gì các nhóm đã sử dụng với API Gemini 3 Flash.

Đầu ra có cấu trúc (chế độ JSON)

Buộc Flash xuất ra JSON bằng cách đặt loại MIME và lược đồ phản hồi:

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="List 3 popular API testing tools with their pricing.",
    config=types.GenerateContentConfig(
        response_mime_type="application/json",
        response_schema={
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "name": {"type": "string"},
                    "price_per_month": {"type": "number"},
                    "free_tier": {"type": "boolean"}
                },
                "required": ["name", "free_tier"]
            }
        }
    )
)

import json
data = json.loads(response.text)

JSON được xác thực cho mỗi cuộc gọi. Không cần phân tích cú pháp regex, không cần vòng lặp thử lại.

Giá cả (tính đến tháng 5 năm 2026)

Mức giá trả theo mức sử dụng cho gemini-3.5-flash:

Cấp độ	Đầu vào	Đầu ra
Tiêu chuẩn	~$1.50 / 1 triệu token	~$9.00 / 1 triệu token
Đầu vào được lưu vào bộ nhớ cache	giá giảm	không áp dụng
Chế độ hàng loạt	giảm ~50%	giảm ~50%

Đối với khối lượng công việc hàng loạt, chế độ hàng loạt API Gemini cung cấp cho bạn mức giảm giá 50% cho các công việc không yêu cầu độ trễ thời gian thực. Nên kiểm tra trước khi bạn cam kết mở rộng quy mô.

Để biết đầy đủ chi tiết về cách tính giá bao gồm các kịch bản chi phí thực tế cho khối lượng công việc SaaS hàng ngày và vòng lặp tác nhân, hãy xem phân tích giá Flash của chúng tôi. Để tham khảo tài liệu chính thức của Google, hãy xem Giá API dành cho nhà phát triển Gemini.

Kiểm tra tích hợp Gemini 3.5 Flash của bạn với Apidog

Một cuộc gọi SDK hoạt động chỉ là bước đầu tiên. Các tích hợp sản xuất cần xử lý các phần phức tạp: các phần tử truyền tải (streaming chunks), xác thực gọi công cụ, tải trọng đa phương thức, thử lại lỗi, giới hạn tỷ lệ. Đó là lúc việc có một thiết lập kiểm thử phù hợp sẽ mang lại hiệu quả.

Apidog xử lý toàn bộ bề mặt API Gemini Flash trong một không gian làm việc:

Lưu điểm cuối Flash dưới dạng yêu cầu: dán URL đầy đủ, đính kèm x-goog-api-key của bạn, nhấn Gửi
Phát lại trên các phiên bản mô hình khác nhau: thay đổi gemini-3.5-flash thành gemini-3-flash cũ hơn trên cùng một yêu cầu, so sánh đầu ra
Truyền tải phản hồi trực tiếp: Apidog hiển thị các phần tử truyền tải khi chúng đến, với thời gian cho mỗi phần tử
Xác thực đầu ra lược đồ JSON: các khẳng định phát hiện sai lệch khi bạn thay đổi lời nhắc
Mô phỏng điểm cuối Flash: tạo phản hồi giả lập để kiểm tra mã hạ nguồn của bạn mà không tốn hạn ngạch API
Xây dựng kịch bản kiểm thử cho các vòng lặp tác nhân: xâu chuỗi nhiều cuộc gọi Flash với xác thực gọi công cụ giữa các bước

Để bắt đầu, tải xuống Apidog, tạo một yêu cầu mới trỏ đến điểm cuối Flash và nhập đoạn mã curl từ phần trước của bài đăng này. Toàn bộ thiết lập chỉ mất khoảng hai phút.

Xử lý lỗi và giới hạn tỷ lệ

Mô hình lỗi của Flash rất đơn giản. Các mã quan trọng:

400: yêu cầu không hợp lệ (thường là mảng contents bị định dạng sai hoặc loại mime không được hỗ trợ)
401: khóa API không hợp lệ
403: hạn ngạch đã hết hoặc mô hình không được bật
429: bị giới hạn tỷ lệ (hãy tạm dừng và thử lại)
500/503: phía máy chủ, thử lại với lùi lũy thừa (exponential backoff)

Bọc các cuộc gọi Flash của bạn bằng một vòng lặp thử lại:

import time
from google import genai

def call_with_retry(client, model, prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            return client.models.generate_content(model=model, contents=prompt)
        except Exception as e:
            if attempt == max_retries - 1:
                raise
            time.sleep(2 ** attempt)

Hạn ngạch cấp miễn phí được đặt lại hàng ngày (15 yêu cầu mỗi phút, ~1.500 mỗi ngày trên Flash). Hạn ngạch cấp sản xuất được đặt lại mỗi phút và mỗi ngày. Đối với các công việc có thông lượng cao, hãy kiểm tra đường dẫn chế độ hàng loạt hoặc sử dụng dự phòng phân cấp cho Gemini 3 Flash khi bạn đạt giới hạn.

Di chuyển từ Gemini 3.1 sang 3.5 Flash

Hầu hết các dự án chỉ cần thay đổi chính xác một chuỗi: tên mô hình.

# Trước đây
model="gemini-3.1-pro"  # hoặc gemini-3.1-flash

# Sau này
model="gemini-3.5-flash"

Những gì bạn nên xác minh sau khi chuyển đổi:

Lược đồ công cụ vẫn khớp, chúng khớp với hầu hết các cuộc gọi, nhưng hãy chạy lại đánh giá của bạn
Tốc độ đầu ra, giao diện người dùng truyền tải của bạn có thể cần điều tiết vì Flash truyền tải nhanh hơn ~4 lần
Ngân sách token, giới hạn vẫn là 1M / 64K, nhưng mô hình dày đặc hơn, vì vậy một lời nhắc cụ thể có thể sử dụng ít token đầu ra hơn
Mẫu từ chối, các rào cản an toàn nghiêm ngặt hơn; dự kiến các từ chối khác nhau trong các trường hợp đặc biệt

Để có hướng dẫn di chuyển sâu hơn, hướng dẫn API Gemini 3.1 Pro của chúng tôi bao gồm mẫu SDK; mọi thứ đều được kế thừa.

Các mẫu Flash phổ biến

Phân tích tài liệu ngữ cảnh dài

with open("large_report.pdf", "rb") as f:
    pdf_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
        "Summarize the financial outlook from this report in 5 bullet points."
    ]
)

Ngữ cảnh 1 triệu token của Flash xử lý toàn bộ tệp PDF mà không cần phân đoạn.

Vòng lặp tác nhân với các lệnh gọi công cụ

conversation = [{"role": "user", "parts": [{"text": "Book me a flight to Tokyo"}]}]

while True:
    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents=conversation,
        config=types.GenerateContentConfig(tools=[flight_search_tool, booking_tool])
    )

    part = response.candidates[0].content.parts[0]
    if not part.function_call:
        print(part.text)
        break

    result = execute_tool(part.function_call)
    conversation.append({"role": "model", "parts": [part]})
    conversation.append({"role": "user", "parts": [{"function_response": result}]})

Đây là mẫu vòng lặp mà điểm Terminal-Bench 2.1 của Flash (76,2%) đo lường. Các tác nhân chạy thực tế hoạt động.

Câu hỏi thường gặp

Có cấp độ miễn phí cho API Gemini 3.5 Flash không? Có, thông qua Google AI Studio với hạn ngạch hàng ngày (~1.500 yêu cầu/ngày). Không yêu cầu thẻ tín dụng.

Flash có hỗ trợ các điểm cuối tương thích với OpenAI không? Có. Google cung cấp một shim tương thích với OpenAI tại /v1beta/openai/. Bạn có thể trỏ bất kỳ SDK OpenAI nào đến đó bằng cách đặt base_url và sử dụng khóa Gemini của bạn. Tên mô hình vẫn là gemini-3.5-flash.

Tôi có thể sử dụng Flash với LangChain hoặc LlamaIndex không? Có, cả hai đều có tích hợp Gemini gốc. Truyền model="gemini-3.5-flash" trong các trình bao bọc tương ứng của chúng.

Khi nào Gemini 3.5 Pro ra mắt? Tháng 6 năm 2026 theo thông báo ra mắt của Google. Cho đến lúc đó, Flash là biến thể 3.5 duy nhất có sẵn.

Kích thước hình ảnh tối đa cho Flash là bao nhiêu? Khuyến nghị 3072×3072. Các hình ảnh lớn hơn sẽ được lấy mẫu lại. Đối với công việc nặng về OCR, hãy xem quy trình OCR Gemini 2.0 Flash, các mẫu tương tự vẫn áp dụng.

Làm cách nào để kiểm tra các điểm cuối truyền tải trong Apidog? Mở yêu cầu, đặt :streamGenerateContent làm hậu tố điểm cuối và Apidog sẽ hiển thị các phần tử SSE khi chúng đến. Hữu ích để gỡ lỗi các phản hồi không đầy đủ.

Tôi có thể xem nhật ký API ở đâu? Trong AI Studio dưới mục "Activity" (Hoạt động), hoặc trong Vertex AI dưới mục "Logs Explorer" (Trình khám phá nhật ký) cho các triển khai sản xuất.

Nên xây dựng gì đầu tiên

Một danh sách ngắn các dự án khởi đầu đáng để triển khai trong tuần đầu tiên với Flash:

Bot hỏi đáp PDF: thả một tệp PDF vào cửa sổ ngữ cảnh 1 triệu token, đặt câu hỏi, trả về câu trả lời có trích dẫn
Quy trình biểu đồ thành JSON: cung cấp ảnh chụp màn hình bảng điều khiển, trích xuất dữ liệu có cấu trúc
Đại lý hỗ trợ khách hàng: gọi hàm dựa trên CRM của bạn, chạy tự động
Trợ lý đánh giá mã: ngữ cảnh so sánh nhiều tệp, đầu ra có cấu trúc với xếp hạng mức độ nghiêm trọng
Đại lý tìm kiếm nội bộ: kết hợp ngữ cảnh 1 triệu token với các lệnh gọi công cụ đến các API nội bộ

Đối với mỗi dự án, quy trình kiểm thử tương tự được áp dụng: xây dựng lời nhắc, bọc nó trong lệnh gọi SDK của bạn, xác thực hình dạng phản hồi bằng Apidog và triển khai.

button