Gemini 3.5 Flash API เปิดตัวพร้อมกับโมเดลเมื่อวันที่ 19 พฤษภาคม 2026 Flash เป็นโมเดลเดียวในตระกูล 3.5 ที่มีให้บริการในปัจจุบัน ส่วน Pro จะเปิดตัวในเดือนมิถุนายน คู่มือนี้จะแนะนำการตั้งค่าสำหรับนักพัฒนา Flash อย่างครบถ้วน: การขอคีย์, การเรียกใช้งานครั้งแรก, การจัดการอินพุตหลายรูปแบบ, การสตรีมมิ่ง, การใช้เครื่องมือ และการทดสอบทั้งหมดอย่างเหมาะสมด้วย Apidog
หากคุณเคยใช้ Gemini API มาก่อน รูปแบบการใช้งานก็ยังคงเดิม สิ่งใหม่เพียงอย่างเดียวคือสตริงชื่อโมเดล: gemini-3.5-flash หากคุณเป็นมือใหม่ คุณก็สามารถเรียกใช้ Flash ได้ภายในเวลาประมาณสิบนาที

คุณได้อะไรจาก Gemini 3.5 Flash API
สามสิ่งที่สำคัญในวันแรก:
gemini-3.5-flash: พร้อมใช้งานแล้ว, เร็ว, ถูก, รองรับหลายรูปแบบ (multimodal)- Same OpenAPI-style endpoint: ใช้แทนได้ทันทีสำหรับโปรเจกต์ที่เรียกใช้ Gemini 3 หรือ 3.1 อยู่แล้ว
- Free tier บน AI Studio: ประมาณ 1,500 คำขอต่อวันโดยไม่ต้องใช้บัตรเครดิต
ความสามารถที่เปิดเผยผ่าน Flash API:
- อินพุต 1M โทเค็น, เอาต์พุต 64K โทเค็น
- อินพุตข้อความ + รูปภาพ, เอาต์พุตข้อความ + โครงสร้าง
- การเรียกใช้ฟังก์ชันและเครื่องมือแบบเนทีฟ (83.6% MCP Atlas)
- การสตรีมคำตอบ (เอาต์พุตโทเค็นต่อวินาทีเร็วกว่าโมเดลรุ่นใหม่ๆ ประมาณ 4 เท่า)
- คะแนนการดึงข้อมูลจากบริบทขนาดยาวที่อยู่ด้านบนสุดของตาราง MRCR v2 ของ Google
- การให้เหตุผลจากแผนภูมิและเอกสาร (84.2% CharXiv)
สำหรับรายละเอียดการกำหนดราคา รวมถึงอัตราต่อโทเค็นและส่วนลดโหมดแบตช์ โปรดดู คู่มือการกำหนดราคา Gemini 3.5 Flash ของเรา
ขั้นตอนที่ 1: ขอ API Key ของ Gemini 3.5 Flash
มีสองเส้นทาง ขึ้นอยู่กับว่าคุณต้องการโควต้าฟรีหรือการใช้งานแบบเสียเงิน
เส้นทาง A, Google AI Studio (แพ็คเกจฟรี)
- ไปที่ aistudio.google.com
- ลงชื่อเข้าใช้ด้วยบัญชี Google
- คลิก Get API key ในแถบนำทางด้านซ้าย
- เลือกโปรเจกต์ที่มีอยู่แล้วหรือสร้างใหม่
- คลิก Create API key แล้วคัดลอกคีย์
นี่คือขั้นตอนเดียวกับที่กล่าวถึงใน คู่มือการขอ API Key ของ Gemini ฟรี ของเรา คีย์นี้สามารถใช้กับ gemini-3.5-flash ได้ทันทีพร้อมโควต้าฟรีรายวัน

เส้นทาง B, Vertex AI (สำหรับการผลิต)
สำหรับปริมาณงานการผลิตที่มีการเรียกเก็บเงินและบันทึกการตรวจสอบ:
- เปิดใช้งาน Vertex AI API ใน Google Cloud Console
- สร้างบัญชีบริการด้วยสิทธิ์
aiplatform.user - ดาวน์โหลดข้อมูลรับรอง JSON
- ยืนยันตัวตนผ่าน
gcloud auth application-default loginหรือไฟล์ JSON
Vertex กำหนดเส้นทาง Flash ภายใต้รูปแบบ SDK ที่แตกต่างกันเล็กน้อย ทีมส่วนใหญ่เริ่มต้นด้วย AI Studio และย้ายเมื่อต้องการการควบคุมระดับองค์กร
ขั้นตอนที่ 2: ติดตั้ง SDK
Google GenAI SDK อย่างเป็นทางการมีให้สำหรับ Python, Node.js, Go และ Java เลือกภาษาของคุณ:
# Python
pip install -U google-genai
# Node.js
npm install @google/genai
# Go
go get google.golang.org/genai
คุณไม่จำเป็นต้องใช้ SDK เลยหากคุณเรียกใช้ REST endpoint โดยตรง ดูตัวอย่าง curl ด้านล่าง
ขั้นตอนที่ 3: ทำการเรียกใช้ Flash ครั้งแรก
Python
import os
from google import genai
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."
)
print(response.text)
Node.js
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });
const response = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs.",
});
console.log(response.text);
curl
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [{"text": "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."}]
}]
}'
นั่นคือเส้นทางปกติสำหรับ Flash จากนี้ไป คุณสามารถเพิ่มคุณสมบัติที่คุณต้องการได้
การสตรีมคำตอบ
เอาต์พุตของ Flash เร็วมาก การสตรีมทำให้ผู้ใช้ของคุณเห็นความเร็วได้
Python
stream = client.models.generate_content_stream(
model="gemini-3.5-flash",
contents="Write a 5-step tutorial on writing a REST API client in Go."
)
for chunk in stream:
print(chunk.text, end="", flush=True)
Node.js
const stream = await ai.models.generateContentStream({
model: "gemini-3.5-flash",
contents: "Write a 5-step tutorial on writing a REST API client in Go.",
});
for await (const chunk of stream) {
process.stdout.write(chunk.text);
}
ปลายทางจะเปลี่ยนจาก :generateContent เป็น :streamGenerateContent สำหรับการเรียกใช้ REST ดิบ
อินพุตหลายรูปแบบด้วย Flash
Gemini 3.5 Flash รับรูปภาพพร้อมกับข้อความ คะแนน CharXiv Reasoning 84.2% เป็นเรื่องจริง การทำความเข้าใจแผนภูมิทำงานได้จริงบนโมเดลนี้
Python (รูปภาพจากดิสก์)
import os
from google import genai
from google.genai import types
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
with open("dashboard.png", "rb") as f:
image_bytes = f.read()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
"Extract every metric in this dashboard as a JSON object."
]
)
print(response.text)
ประเภท MIME ที่รองรับ: image/png, image/jpeg, image/webp, image/heic, image/heif ไฟล์ PDF และวิดีโอ ก็ใช้งานได้ผ่าน types.Part.from_uri()
การเรียกใช้ฟังก์ชันและการใช้เครื่องมือด้วย Flash
การเรียกใช้เครื่องมือคือจุดที่ Flash แตกต่างจากรุ่นก่อนหน้า คะแนน MCP Atlas 83.6% หมายความว่า Flash เลือกเครื่องมือที่ถูกต้องได้อย่างน่าเชื่อถือมากกว่ารุ่น 3.1
Python
from google.genai import types
weather_tool = types.Tool(
function_declarations=[{
"name": "get_current_weather",
"description": "Get the current weather for a city.",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "City name"},
"unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
},
"required": ["city"]
}
}]
)
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="What's the weather in Singapore right now?",
config=types.GenerateContentConfig(tools=[weather_tool])
)
for part in response.candidates[0].content.parts:
if part.function_call:
print(f"Call: {part.function_call.name}")
print(f"Args: {dict(part.function_call.args)}")
Flash จะส่งคืนอ็อบเจกต์ function_call พร้อมชื่อและอาร์กิวเมนต์ คุณจะดำเนินการฟังก์ชันภายในเครื่อง ส่งผลลัพธ์กลับ และสนทนาต่อ รูปแบบนี้ตรงกับที่ทีมงานใช้กับ Gemini 3 Flash API อยู่แล้ว
เอาต์พุตที่มีโครงสร้าง (โหมด JSON)
บังคับให้ Flash ส่งออก JSON โดยตั้งค่าประเภท MIME ของคำตอบและสคีมา:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="List 3 popular API testing tools with their pricing.",
config=types.GenerateContentConfig(
response_mime_type="application/json",
response_schema={
"type": "array",
"items": {
"type": "object",
"properties": {
"name": {"type": "string"},
"price_per_month": {"type": "number"},
"free_tier": {"type": "boolean"}
},
"required": ["name", "free_tier"]
}
}
)
)
import json
data = json.loads(response.text)
มีการตรวจสอบ JSON ในทุกการเรียกใช้ ไม่มีการแยกวิเคราะห์ด้วย regex ไม่มีการวนซ้ำเพื่อลองใหม่
การกำหนดราคา (ณ เดือนพฤษภาคม 2026)
อัตราการจ่ายตามการใช้งานสำหรับ gemini-3.5-flash:
| ระดับ | อินพุต | เอาต์พุต |
|---|---|---|
| มาตรฐาน | ~1.50 ดอลลาร์ / 1M โทเค็น | ~9.00 ดอลลาร์ / 1M โทเค็น |
| อินพุตที่แคช | อัตราลดลง | ไม่มี |
| โหมดแบตช์ | ลด ~50% | ลด ~50% |
สำหรับปริมาณงานแบบแบตช์ โหมดแบตช์ของ Gemini API ให้ส่วนลด 50% สำหรับงานที่ไม่ต้องการความหน่วงแฝงแบบเรียลไทม์ ควรตรวจสอบก่อนที่คุณจะตัดสินใจเพิ่มขนาด
สำหรับรายละเอียดการคำนวณราคาแบบเต็ม รวมถึงสถานการณ์ต้นทุนจริงสำหรับปริมาณงาน SaaS รายวันและ Agent loops โปรดดู รายละเอียดการกำหนดราคา Flash ของเรา สำหรับข้อมูลอ้างอิงอย่างเป็นทางการจาก Google โปรดดู การกำหนดราคา Gemini Developer API
การทดสอบการรวม Gemini 3.5 Flash ของคุณกับ Apidog
การเรียกใช้ SDK ที่ใช้งานได้เป็นเพียงขั้นตอนแรก การรวมระบบสำหรับการผลิตต้องจัดการกับส่วนที่ยุ่งยาก: การสตรีมส่วนต่างๆ, การตรวจสอบเครื่องมือ, เพย์โหลดหลายรูปแบบ, การลองซ้ำเมื่อเกิดข้อผิดพลาด, การจำกัดอัตรา นั่นคือจุดที่การตั้งค่าการทดสอบที่เหมาะสมจะให้ผลตอบแทน

Apidog จัดการพื้นผิว Gemini Flash API ทั้งหมดในพื้นที่ทำงานเดียว:
- บันทึก Flash endpoint เป็นคำขอ: วาง URL เต็ม, แนบ
x-goog-api-keyของคุณ, กด Send - เล่นซ้ำข้ามเวอร์ชันโมเดล: สลับ
gemini-3.5-flashเป็นgemini-3-flashรุ่นเก่ากว่าในคำขอเดียวกัน, เปรียบเทียบเอาต์พุต - สตรีมคำตอบแบบอินไลน์: Apidog จะแสดงส่วนที่สตรีมมาถึงพร้อมเวลาต่อส่วน
- ตรวจสอบเอาต์พุต JSON schema: การยืนยันจะจับการเปลี่ยนแปลงเมื่อคุณเปลี่ยนพรอมต์
- จำลอง Flash endpoint: สร้างการตอบกลับจำลองสำหรับการทดสอบโค้ดปลายน้ำของคุณโดยไม่สิ้นเปลืองโควต้า API
- สร้างสถานการณ์การทดสอบสำหรับ Agent loops: เรียกใช้ Flash หลายครั้งพร้อมการตรวจสอบเครื่องมือระหว่างขั้นตอน
ในการเริ่มต้น ให้ ดาวน์โหลด Apidog, สร้างคำขอใหม่ที่ชี้ไปที่ Flash endpoint และนำเข้าส่วนย่อย curl จากส่วนต้นๆ ของโพสต์นี้ การตั้งค่าทั้งหมดใช้เวลาประมาณสองนาที
การจัดการข้อผิดพลาดและการจำกัดอัตรา
โมเดลข้อผิดพลาดของ Flash ตรงไปตรงมา รหัสที่สำคัญ:
- 400: คำขอไม่ถูกต้อง (ส่วนใหญ่มักจะเป็นอาร์เรย์
contentsที่มีรูปแบบไม่ถูกต้อง หรือประเภท MIME ที่ไม่รองรับ) - 401: API key ไม่ถูกต้อง
- 403: โควต้าหมดหรือโมเดลไม่เปิดใช้งาน
- 429: ถูกจำกัดอัตรา (รอสักครู่แล้วลองใหม่)
- 500/503: ฝั่งเซิร์ฟเวอร์, ลองใหม่ด้วย exponential backoff
ครอบการเรียกใช้ Flash ของคุณด้วยลูปการลองซ้ำ:
import time
from google import genai
def call_with_retry(client, model, prompt, max_retries=3):
for attempt in range(max_retries):
try:
return client.models.generate_content(model=model, contents=prompt)
except Exception as e:
if attempt == max_retries - 1:
raise
time.sleep(2 ** attempt)
โควต้าแพ็คเกจฟรีจะรีเซ็ตทุกวัน (15 คำขอต่อนาที, ประมาณ 1,500 คำขอต่อวันบน Flash) โควต้าแพ็คเกจสำหรับการผลิตจะรีเซ็ตต่อนาทีและต่อวัน สำหรับงานที่มีปริมาณมาก ให้ตรวจสอบเส้นทางโหมดแบตช์ หรือใช้การสำรองข้อมูลแบบแบ่งระดับไปยัง Gemini 3 Flash เมื่อคุณถึงขีดจำกัด
การย้ายจาก Gemini 3.1 ไปยัง 3.5 Flash
โปรเจกต์ส่วนใหญ่ต้องเปลี่ยนสตริงเพียงหนึ่งเดียว: ชื่อโมเดล
# ก่อนหน้านี้
model="gemini-3.1-pro" # หรือ gemini-3.1-flash
# หลังจากนั้น
model="gemini-3.5-flash"
สิ่งที่คุณควรตรวจสอบหลังการสลับ:
- Tool schemas ยังคงตรงกันหรือไม่: ส่วนใหญ่ตรงกัน แต่ให้ทดสอบการประเมินของคุณอีกครั้ง
- ความเร็วเอาต์พุต: UI การสตรีมของคุณอาจต้องมีการควบคุมความเร็ว เนื่องจาก Flash สตรีมเร็วกว่าประมาณ 4 เท่า
- งบประมาณโทเค็น: ขีดจำกัด 1M / 64K ยังคงเดิม แต่โมเดลมีความหนาแน่นมากขึ้น ดังนั้นพรอมต์เดียวกันอาจใช้โทเค็นเอาต์พุตน้อยลง
- รูปแบบการปฏิเสธ: ระบบป้องกันความปลอดภัยเข้มงวดขึ้น คาดว่าจะมีการปฏิเสธที่แตกต่างกันในกรณีขอบ
สำหรับคำแนะนำการย้ายข้อมูลเชิงลึก คู่มือ Gemini 3.1 Pro API ของเราครอบคลุมรูปแบบ SDK ทุกอย่างยังคงเดิม
รูปแบบการใช้งาน Flash ทั่วไป
การวิเคราะห์เอกสารบริบทขนาดยาว
with open("large_report.pdf", "rb") as f:
pdf_bytes = f.read()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
"Summarize the financial outlook from this report in 5 bullet points."
]
)
บริบท 1M โทเค็นของ Flash สามารถจัดการไฟล์ PDF ทั้งหมดได้โดยไม่ต้องแบ่งเป็นส่วนๆ
Agent loop พร้อมการเรียกใช้เครื่องมือ
conversation = [{"role": "user", "parts": [{"text": "Book me a flight to Tokyo"}]}]
while True:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=conversation,
config=types.GenerateContentConfig(tools=[flight_search_tool, booking_tool])
)
part = response.candidates[0].content.parts[0]
if not part.function_call:
print(part.text)
break
result = execute_tool(part.function_call)
conversation.append({"role": "model", "parts": [part]})
conversation.append({"role": "user", "parts": [{"function_response": result}]})
นี่คือรูปแบบลูปที่คะแนน Terminal-Bench 2.1 ของ Flash (76.2%) วัดได้ การทำงานของเอเจนต์จริงใช้ได้ผล
คำถามที่พบบ่อย
มีแพ็คเกจฟรีสำหรับ Gemini 3.5 Flash API หรือไม่? มี, ผ่าน Google AI Studio พร้อมโควต้ารายวัน (ประมาณ 1,500 คำขอ/วัน) ไม่ต้องใช้บัตรเครดิต
Flash รองรับ OpenAI-compatible endpoints หรือไม่? รองรับ Google มี OpenAI-compatible shim ที่ /v1beta/openai/ คุณสามารถชี้ OpenAI SDK ใดก็ได้ไปที่นั่นโดยตั้งค่า base_url และใช้คีย์ Gemini ของคุณ ชื่อโมเดลยังคงเป็น gemini-3.5-flash
ฉันสามารถใช้ Flash กับ LangChain หรือ LlamaIndex ได้หรือไม่? ได้ ทั้งสองมี integration กับ Gemini ในตัว เพียงส่ง model="gemini-3.5-flash" ใน wrapper ของพวกมัน
Gemini 3.5 Pro จะเปิดตัวเมื่อไหร่? มิถุนายน 2026 ตามประกาศเปิดตัวของ Google จนกว่าจะถึงตอนนั้น Flash เป็นโมเดล 3.5 เพียงรุ่นเดียวที่มีให้ใช้งาน
ขนาดรูปภาพสูงสุดสำหรับ Flash คือเท่าไหร่? แนะนำที่ 3072×3072 รูปภาพที่ใหญ่กว่าจะถูก resample สำหรับงานที่เน้น OCR มากๆ ดู เวิร์กโฟลว์ Gemini 2.0 Flash OCR รูปแบบเดียวกันนี้สามารถนำมาใช้ได้
ฉันจะทดสอบ streaming endpoints ใน Apidog ได้อย่างไร? เปิดคำขอ, ตั้งค่า :streamGenerateContent เป็นส่วนต่อท้าย endpoint และ Apidog จะแสดงผล SSE chunks ทันทีที่มาถึง มีประโยชน์สำหรับการดีบักคำตอบที่ไม่สมบูรณ์
ฉันจะดูบันทึก API ได้ที่ไหน? ใน AI Studio ใต้ "Activity" หรือใน Vertex AI ใต้ "Logs Explorer" สำหรับการปรับใช้จริง
สิ่งที่ควรสร้างเป็นอันดับแรก
รายการโปรเจกต์เริ่มต้นสั้นๆ ที่น่าจะสร้างได้ภายในสัปดาห์แรกที่ใช้ Flash:
- บอทถามตอบ PDF: ใส่ไฟล์ PDF ลงในหน้าต่างบริบท 1M ถามคำถาม และรับคำตอบพร้อมอ้างอิง
- ไปป์ไลน์แผนภูมิเป็น JSON: ใส่ภาพหน้าจอแดชบอร์ด, ดึงข้อมูลที่มีโครงสร้าง
- ตัวแทนฝ่ายสนับสนุนลูกค้า: การเรียกใช้ฟังก์ชันกับ CRM ของคุณ, ทำงานโดยอัตโนมัติ
- ผู้ช่วยตรวจสอบโค้ด: บริบทของความแตกต่างในหลายไฟล์, เอาต์พุตที่มีโครงสร้างพร้อมการให้คะแนนความรุนแรง
- ตัวแทนค้นหาภายใน: รวมบริบท 1M กับการเรียกใช้เครื่องมือไปยัง API ภายใน
สำหรับแต่ละโปรเจกต์ ขั้นตอนการทดสอบเดียวกันนี้สามารถนำมาใช้ได้: สร้างพรอมต์, ครอบด้วยการเรียกใช้ SDK ของคุณ, ตรวจสอบรูปร่างของคำตอบด้วย Apidog และเปิดใช้งาน
