API Gemini 3.5 Flash đã ra mắt cùng với phiên bản mô hình vào ngày 19 tháng 5 năm 2026. Flash là biến thể duy nhất của dòng 3.5 có sẵn hiện nay; Pro sẽ ra mắt vào tháng 6. Hướng dẫn này sẽ trình bày toàn bộ quá trình thiết lập dành cho nhà phát triển với Flash: lấy khóa API, thực hiện cuộc gọi đầu tiên, xử lý đầu vào đa phương thức, truyền tải (streaming), sử dụng công cụ và kiểm tra toàn bộ mọi thứ một cách đúng đắn bằng Apidog.
Nếu bạn đã từng sử dụng API Gemini trước đây, mẫu hình này không thay đổi. Phần mới duy nhất là chuỗi tên mô hình: gemini-3.5-flash. Nếu bạn mới làm quen, bạn có thể thực hiện các yêu cầu Flash hoạt động chỉ trong khoảng mười phút.

Những gì bạn nhận được với API Gemini 3.5 Flash
Ba điều quan trọng ngay từ ngày đầu tiên:
gemini-3.5-flash: đã hoạt động, nhanh, rẻ, đa phương thức- Điểm cuối (endpoint) kiểu OpenAPI tương tự: dễ dàng tích hợp cho các dự án đã gọi Gemini 3 hoặc 3.1
- Cấp độ miễn phí trên AI Studio: khoảng 1.500 yêu cầu/ngày mà không cần thẻ tín dụng
Các khả năng được tiết lộ thông qua API Flash:
- Ngữ cảnh đầu vào 1 triệu token, 64 nghìn token đầu ra
- Đầu vào văn bản + hình ảnh, đầu ra văn bản + cấu trúc
- Gọi hàm và sử dụng công cụ gốc (83,6% MCP Atlas)
- Phản hồi truyền tải (streaming) (nhanh hơn ~4 lần token đầu ra/giây so với các mô hình tiên tiến khác)
- Xếp hạng truy xuất ngữ cảnh dài đứng đầu bảng MRCR v2 của Google
- Suy luận biểu đồ và tài liệu (84,2% CharXiv)
Để biết chi tiết về giá cả bao gồm tỷ lệ mỗi token và giảm giá chế độ hàng loạt, hãy xem hướng dẫn định giá Gemini 3.5 Flash của chúng tôi.
Bước 1: Lấy khóa API Gemini 3.5 Flash của bạn
Có hai cách, tùy thuộc vào việc bạn muốn hạn ngạch miễn phí hay quy mô trả phí.
Cách A, Google AI Studio (cấp độ miễn phí)
- Truy cập aistudio.google.com
- Đăng nhập bằng tài khoản Google
- Nhấp vào Get API key trong thanh điều hướng bên trái
- Chọn một dự án hiện có hoặc tạo một dự án mới
- Nhấp vào Create API key, sau đó sao chép nó
Đây là quy trình tương tự được đề cập trong hướng dẫn khóa API Gemini miễn phí của chúng tôi. Khóa hoạt động ngay lập tức với gemini-3.5-flash với hạn ngạch miễn phí hàng ngày.

Cách B, Vertex AI (sản xuất)
Đối với khối lượng công việc sản xuất có tính phí và nhật ký kiểm tra:
- Kích hoạt API Vertex AI trong Google Cloud Console
- Tạo một tài khoản dịch vụ với quyền
aiplatform.user - Tải xuống thông tin xác thực JSON
- Xác thực qua
gcloud auth application-default loginhoặc tệp JSON
Vertex định tuyến Flash theo một mẫu SDK hơi khác. Hầu hết các nhóm bắt đầu với AI Studio và di chuyển khi họ cần kiểm soát tổ chức.
Bước 2: Cài đặt SDK
SDK GenAI chính thức của Google có sẵn cho Python, Node.js, Go và Java. Chọn ngôn ngữ của bạn:
# Python
pip install -U google-genai
# Node.js
npm install @google/genai
# Go
go get google.golang.org/genai
Bạn không cần SDK nếu bạn gọi trực tiếp điểm cuối REST, xem ví dụ curl dưới đây.
Bước 3: Thực hiện cuộc gọi Flash đầu tiên của bạn
Python
import os
from google import genai
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."
)
print(response.text)
Node.js
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });
const response = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs.",
});
console.log(response.text);
curl
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [{"text": "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."}]
}]
}'
Đó là cách hoạt động cơ bản cho Flash. Từ đây, bạn sẽ thêm các tính năng bạn thực sự cần.
Phản hồi truyền tải (Streaming responses)
Đầu ra của Flash rất nhanh. Truyền tải giúp người dùng của bạn cảm nhận được tốc độ.
Python
stream = client.models.generate_content_stream(
model="gemini-3.5-flash",
contents="Write a 5-step tutorial on writing a REST API client in Go."
)
for chunk in stream:
print(chunk.text, end="", flush=True)
Node.js
const stream = await ai.models.generateContentStream({
model: "gemini-3.5-flash",
contents: "Write a 5-step tutorial on writing a REST API client in Go.",
});
for await (const chunk of stream) {
process.stdout.write(chunk.text);
}
Điểm cuối thay đổi từ :generateContent thành :streamGenerateContent cho các cuộc gọi REST thuần túy.
Đầu vào đa phương thức với Flash
Gemini 3.5 Flash chấp nhận hình ảnh cùng với văn bản. Điểm CharXiv Reasoning 84,2% là thật, hiểu biểu đồ thực sự hoạt động trên mô hình này.
Python (hình ảnh từ đĩa)
import os
from google import genai
from google.genai import types
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
with open("dashboard.png", "rb") as f:
image_bytes = f.read()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
"Extract every metric in this dashboard as a JSON object."
]
)
print(response.text)
Các loại mime được hỗ trợ: image/png, image/jpeg, image/webp, image/heic, image/heif. Các tệp PDF và video cũng hoạt động thông qua types.Part.from_uri().
Gọi hàm và sử dụng công cụ với Flash
Gọi công cụ là điểm khác biệt của Flash so với các phiên bản tiền nhiệm. Điểm MCP Atlas 83,6% có nghĩa là Flash chọn công cụ phù hợp một cách đáng tin cậy hơn so với thế hệ 3.1.
Python
from google.genai import types
weather_tool = types.Tool(
function_declarations=[{
"name": "get_current_weather",
"description": "Get the current weather for a city.",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "City name"},
"unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
},
"required": ["city"]
}
}]
)
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="What's the weather in Singapore right now?",
config=types.GenerateContentConfig(tools=[weather_tool])
)
for part in response.candidates[0].content.parts:
if part.function_call:
print(f"Call: {part.function_call.name}")
print(f"Args: {dict(part.function_call.args)}")
Flash trả về một đối tượng function_call với tên và đối số. Bạn thực thi hàm cục bộ, gửi kết quả trở lại và tiếp tục cuộc trò chuyện. Mẫu này khớp với những gì các nhóm đã sử dụng với API Gemini 3 Flash.
Đầu ra có cấu trúc (chế độ JSON)
Buộc Flash xuất ra JSON bằng cách đặt loại MIME và lược đồ phản hồi:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="List 3 popular API testing tools with their pricing.",
config=types.GenerateContentConfig(
response_mime_type="application/json",
response_schema={
"type": "array",
"items": {
"type": "object",
"properties": {
"name": {"type": "string"},
"price_per_month": {"type": "number"},
"free_tier": {"type": "boolean"}
},
"required": ["name", "free_tier"]
}
}
)
)
import json
data = json.loads(response.text)
JSON được xác thực cho mỗi cuộc gọi. Không cần phân tích cú pháp regex, không cần vòng lặp thử lại.
Giá cả (tính đến tháng 5 năm 2026)
Mức giá trả theo mức sử dụng cho gemini-3.5-flash:
| Cấp độ | Đầu vào | Đầu ra |
|---|---|---|
| Tiêu chuẩn | ~$1.50 / 1 triệu token | ~$9.00 / 1 triệu token |
| Đầu vào được lưu vào bộ nhớ cache | giá giảm | không áp dụng |
| Chế độ hàng loạt | giảm ~50% | giảm ~50% |
Đối với khối lượng công việc hàng loạt, chế độ hàng loạt API Gemini cung cấp cho bạn mức giảm giá 50% cho các công việc không yêu cầu độ trễ thời gian thực. Nên kiểm tra trước khi bạn cam kết mở rộng quy mô.
Để biết đầy đủ chi tiết về cách tính giá bao gồm các kịch bản chi phí thực tế cho khối lượng công việc SaaS hàng ngày và vòng lặp tác nhân, hãy xem phân tích giá Flash của chúng tôi. Để tham khảo tài liệu chính thức của Google, hãy xem Giá API dành cho nhà phát triển Gemini.
Kiểm tra tích hợp Gemini 3.5 Flash của bạn với Apidog
Một cuộc gọi SDK hoạt động chỉ là bước đầu tiên. Các tích hợp sản xuất cần xử lý các phần phức tạp: các phần tử truyền tải (streaming chunks), xác thực gọi công cụ, tải trọng đa phương thức, thử lại lỗi, giới hạn tỷ lệ. Đó là lúc việc có một thiết lập kiểm thử phù hợp sẽ mang lại hiệu quả.

Apidog xử lý toàn bộ bề mặt API Gemini Flash trong một không gian làm việc:
- Lưu điểm cuối Flash dưới dạng yêu cầu: dán URL đầy đủ, đính kèm
x-goog-api-keycủa bạn, nhấn Gửi - Phát lại trên các phiên bản mô hình khác nhau: thay đổi
gemini-3.5-flashthànhgemini-3-flashcũ hơn trên cùng một yêu cầu, so sánh đầu ra - Truyền tải phản hồi trực tiếp: Apidog hiển thị các phần tử truyền tải khi chúng đến, với thời gian cho mỗi phần tử
- Xác thực đầu ra lược đồ JSON: các khẳng định phát hiện sai lệch khi bạn thay đổi lời nhắc
- Mô phỏng điểm cuối Flash: tạo phản hồi giả lập để kiểm tra mã hạ nguồn của bạn mà không tốn hạn ngạch API
- Xây dựng kịch bản kiểm thử cho các vòng lặp tác nhân: xâu chuỗi nhiều cuộc gọi Flash với xác thực gọi công cụ giữa các bước
Để bắt đầu, tải xuống Apidog, tạo một yêu cầu mới trỏ đến điểm cuối Flash và nhập đoạn mã curl từ phần trước của bài đăng này. Toàn bộ thiết lập chỉ mất khoảng hai phút.
Xử lý lỗi và giới hạn tỷ lệ
Mô hình lỗi của Flash rất đơn giản. Các mã quan trọng:
- 400: yêu cầu không hợp lệ (thường là mảng
contentsbị định dạng sai hoặc loại mime không được hỗ trợ) - 401: khóa API không hợp lệ
- 403: hạn ngạch đã hết hoặc mô hình không được bật
- 429: bị giới hạn tỷ lệ (hãy tạm dừng và thử lại)
- 500/503: phía máy chủ, thử lại với lùi lũy thừa (exponential backoff)
Bọc các cuộc gọi Flash của bạn bằng một vòng lặp thử lại:
import time
from google import genai
def call_with_retry(client, model, prompt, max_retries=3):
for attempt in range(max_retries):
try:
return client.models.generate_content(model=model, contents=prompt)
except Exception as e:
if attempt == max_retries - 1:
raise
time.sleep(2 ** attempt)
Hạn ngạch cấp miễn phí được đặt lại hàng ngày (15 yêu cầu mỗi phút, ~1.500 mỗi ngày trên Flash). Hạn ngạch cấp sản xuất được đặt lại mỗi phút và mỗi ngày. Đối với các công việc có thông lượng cao, hãy kiểm tra đường dẫn chế độ hàng loạt hoặc sử dụng dự phòng phân cấp cho Gemini 3 Flash khi bạn đạt giới hạn.
Di chuyển từ Gemini 3.1 sang 3.5 Flash
Hầu hết các dự án chỉ cần thay đổi chính xác một chuỗi: tên mô hình.
# Trước đây
model="gemini-3.1-pro" # hoặc gemini-3.1-flash
# Sau này
model="gemini-3.5-flash"
Những gì bạn nên xác minh sau khi chuyển đổi:
- Lược đồ công cụ vẫn khớp, chúng khớp với hầu hết các cuộc gọi, nhưng hãy chạy lại đánh giá của bạn
- Tốc độ đầu ra, giao diện người dùng truyền tải của bạn có thể cần điều tiết vì Flash truyền tải nhanh hơn ~4 lần
- Ngân sách token, giới hạn vẫn là 1M / 64K, nhưng mô hình dày đặc hơn, vì vậy một lời nhắc cụ thể có thể sử dụng ít token đầu ra hơn
- Mẫu từ chối, các rào cản an toàn nghiêm ngặt hơn; dự kiến các từ chối khác nhau trong các trường hợp đặc biệt
Để có hướng dẫn di chuyển sâu hơn, hướng dẫn API Gemini 3.1 Pro của chúng tôi bao gồm mẫu SDK; mọi thứ đều được kế thừa.
Các mẫu Flash phổ biến
Phân tích tài liệu ngữ cảnh dài
with open("large_report.pdf", "rb") as f:
pdf_bytes = f.read()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
"Summarize the financial outlook from this report in 5 bullet points."
]
)
Ngữ cảnh 1 triệu token của Flash xử lý toàn bộ tệp PDF mà không cần phân đoạn.
Vòng lặp tác nhân với các lệnh gọi công cụ
conversation = [{"role": "user", "parts": [{"text": "Book me a flight to Tokyo"}]}]
while True:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=conversation,
config=types.GenerateContentConfig(tools=[flight_search_tool, booking_tool])
)
part = response.candidates[0].content.parts[0]
if not part.function_call:
print(part.text)
break
result = execute_tool(part.function_call)
conversation.append({"role": "model", "parts": [part]})
conversation.append({"role": "user", "parts": [{"function_response": result}]})
Đây là mẫu vòng lặp mà điểm Terminal-Bench 2.1 của Flash (76,2%) đo lường. Các tác nhân chạy thực tế hoạt động.
Câu hỏi thường gặp
Có cấp độ miễn phí cho API Gemini 3.5 Flash không? Có, thông qua Google AI Studio với hạn ngạch hàng ngày (~1.500 yêu cầu/ngày). Không yêu cầu thẻ tín dụng.
Flash có hỗ trợ các điểm cuối tương thích với OpenAI không? Có. Google cung cấp một shim tương thích với OpenAI tại /v1beta/openai/. Bạn có thể trỏ bất kỳ SDK OpenAI nào đến đó bằng cách đặt base_url và sử dụng khóa Gemini của bạn. Tên mô hình vẫn là gemini-3.5-flash.
Tôi có thể sử dụng Flash với LangChain hoặc LlamaIndex không? Có, cả hai đều có tích hợp Gemini gốc. Truyền model="gemini-3.5-flash" trong các trình bao bọc tương ứng của chúng.
Khi nào Gemini 3.5 Pro ra mắt? Tháng 6 năm 2026 theo thông báo ra mắt của Google. Cho đến lúc đó, Flash là biến thể 3.5 duy nhất có sẵn.
Kích thước hình ảnh tối đa cho Flash là bao nhiêu? Khuyến nghị 3072×3072. Các hình ảnh lớn hơn sẽ được lấy mẫu lại. Đối với công việc nặng về OCR, hãy xem quy trình OCR Gemini 2.0 Flash, các mẫu tương tự vẫn áp dụng.
Làm cách nào để kiểm tra các điểm cuối truyền tải trong Apidog? Mở yêu cầu, đặt :streamGenerateContent làm hậu tố điểm cuối và Apidog sẽ hiển thị các phần tử SSE khi chúng đến. Hữu ích để gỡ lỗi các phản hồi không đầy đủ.
Tôi có thể xem nhật ký API ở đâu? Trong AI Studio dưới mục "Activity" (Hoạt động), hoặc trong Vertex AI dưới mục "Logs Explorer" (Trình khám phá nhật ký) cho các triển khai sản xuất.
Nên xây dựng gì đầu tiên
Một danh sách ngắn các dự án khởi đầu đáng để triển khai trong tuần đầu tiên với Flash:
- Bot hỏi đáp PDF: thả một tệp PDF vào cửa sổ ngữ cảnh 1 triệu token, đặt câu hỏi, trả về câu trả lời có trích dẫn
- Quy trình biểu đồ thành JSON: cung cấp ảnh chụp màn hình bảng điều khiển, trích xuất dữ liệu có cấu trúc
- Đại lý hỗ trợ khách hàng: gọi hàm dựa trên CRM của bạn, chạy tự động
- Trợ lý đánh giá mã: ngữ cảnh so sánh nhiều tệp, đầu ra có cấu trúc với xếp hạng mức độ nghiêm trọng
- Đại lý tìm kiếm nội bộ: kết hợp ngữ cảnh 1 triệu token với các lệnh gọi công cụ đến các API nội bộ
Đối với mỗi dự án, quy trình kiểm thử tương tự được áp dụng: xây dựng lời nhắc, bọc nó trong lệnh gọi SDK của bạn, xác thực hình dạng phản hồi bằng Apidog và triển khai.
