Google ได้เปิดตัว Gemini 3.5 Flash เมื่อวันที่ 19 พฤษภาคม 2026 และคำกล่าวอ้างเรื่องราคาพาดหัวนั้นโดดเด่น: "ถูกกว่าครึ่งหนึ่งของโมเดลระดับแนวหน้าอื่นๆ" สำหรับงานเอเจนต์ นี่คือข้อความทางการตลาด คู่มือนี้จะทำการคำนวณจริง
คุณจะพบอัตราต่อโทเค็น, ขีดจำกัดระดับฟรี, ส่วนลดโหมดแบตช์, สถานการณ์ค่าใช้จ่ายในโลกจริงสำหรับปริมาณงานทั่วไป, และการเปรียบเทียบค่าใช้จ่ายแบบเคียงข้างกันระหว่าง GPT-5.5 และ Claude Opus 4.7 เมื่ออ่านจบ คุณจะทราบว่า Flash มีค่าใช้จ่ายเท่าใดในการใช้งาน และคุณสามารถประหยัดได้อย่างน้อย 50% หรือมากกว่านั้นได้ที่ไหน โดยไม่สูญเสียประสิทธิภาพมากนัก

สรุปโดยย่อ
| ประเภทค่าใช้จ่าย | อัตรา |
|---|---|
| อินพุตมาตรฐาน | ~1.50 ดอลลาร์สหรัฐฯ / 1 ล้านโทเค็น |
| เอาต์พุตมาตรฐาน | ~9.00 ดอลลาร์สหรัฐฯ / 1 ล้านโทเค็น |
| อินพุตโหมดแบตช์ | ~0.75 ดอลลาร์สหรัฐฯ / 1 ล้านโทเค็น (ลด 50%) |
| เอาต์พุตโหมดแบตช์ | ~4.50 ดอลลาร์สหรัฐฯ / 1 ล้านโทเค็น (ลด 50%) |
| อินพุตแบบแคช | อัตราลดลง (แตกต่างกันไป) |
| ระดับฟรี (AI Studio) | ~1,500 คำขอ/วัน, 1 ล้านโทเค็น/นาที, 15 คำขอ/นาที (RPM) |
| บัญชีใหม่ Vertex AI | เครดิต 300 ดอลลาร์สหรัฐฯ นาน 90 วัน |
อัตราปัจจุบัน ณ เดือนพฤษภาคม 2026 ตามประกาศเปิดตัวของ Google และรายการรวมของผู้รวบรวมข้อมูล โปรดตรวจสอบกับ หน้าอัตราค่าบริการอย่างเป็นทางการ ก่อนที่จะอนุมัติงบประมาณเสมอ
อัตราต่อโทเค็นของ Gemini 3.5 Flash
Flash ใช้โมเดลจ่ายตามการใช้งานที่ Gemini ทุกรุ่นใช้มาตั้งแต่ 2.5: คุณจ่ายต่อหนึ่งล้านโทเค็นอินพุตและต่อหนึ่งล้านโทเค็นเอาต์พุต แยกกัน
| ระดับ | อินพุต (ดอลลาร์สหรัฐฯ/1M) | เอาต์พุต (ดอลลาร์สหรัฐฯ/1M) |
|---|---|---|
| มาตรฐาน | ~1.50 ดอลลาร์สหรัฐฯ | ~9.00 ดอลลาร์สหรัฐฯ |
| อินพุตแบบแคช | มีส่วนลด | ไม่มี |
| แบตช์ (ไม่พร้อมกัน) | ~0.75 ดอลลาร์สหรัฐฯ | ~4.50 ดอลลาร์สหรัฐฯ |
ข้อควรทราบเชิงปฏิบัติสองประการ:
- โทเค็นไม่ใช่คำ กฎโดยประมาณ: 1,000 โทเค็น ≈ 750 คำภาษาอังกฤษ นวนิยาย 100,000 คำ มีประมาณ 133,000 โทเค็นอินพุต
- เอาต์พุตมีราคาแพงกว่าอินพุตประมาณ 6 เท่า พรอมต์ที่กระตุ้นให้เกิดคำตอบที่ยาวมีค่าใช้จ่ายมากกว่าพรอมต์ที่ได้รับคำตอบสั้น ๆ มาก รูปแบบเอาต์พุตแบบมีโครงสร้างมักจะช่วยประหยัดเงินได้มากกว่าข้อความแบบอิสระ เนื่องจากโมเดลเขียนน้อยลง
สำหรับข้อมูลพื้นฐานเกี่ยวกับวิธีการทำงานของโหมดแบตช์ของ Gemini โปรดดูที่ โหมดแบตช์ของ Gemini API มาแล้วและถูกลง 50%
ระดับฟรี: สิ่งที่คุณจะได้รับโดยไม่ต้องจ่ายเงิน
ระดับฟรีของ AI Studio มาพร้อมกับ Flash ตั้งแต่วันแรก ข้อจำกัดในการเปิดตัว:
- 1,500 คำขอต่อวัน
- 1 ล้านโทเค็นต่อนาที
- 15 คำขอต่อนาที (RPM)
นั่นเพียงพอสำหรับโปรเจกต์เสริมส่วนใหญ่, ต้นแบบภายใน, และระบบอัตโนมัติขนาดเล็ก หากปริมาณงานของคุณอยู่ภายใน 1,500 คำขอ/วัน คุณจะไม่ต้องจ่ายเงิน
รายละเอียดระดับฟรี:
- ไม่ต้องใช้บัตรเครดิต
- เป็นโมเดล
gemini-3.5-flashเดียวกันกับเอนด์พอยต์แบบเสียเงิน - รูปแบบ SDK เดียวกัน เพียงแต่ใช้คีย์ที่แตกต่างกัน
- พรอมต์อาจถูกนำไปใช้เพื่อปรับปรุงโมเดลของ Google (สามารถยกเลิกได้ในการตั้งค่า AI Studio)
- โควตาสามารถเปลี่ยนแปลงได้ อย่ากำหนดเส้นตายการเปิดตัวโดยยึดตัวเลขที่แน่นอน
สำหรับคู่มือการตั้งค่าฉบับเต็ม โปรดดูที่ วิธีการใช้ Gemini 3.5 Flash ฟรี และ วิธีการขอคีย์ API ของ Google Gemini ฟรี
โหมดแบตช์: ส่วนลด 50% ที่ทีมส่วนใหญ่มักพลาด
หากปริมาณงานของคุณไม่ต้องการการตอบสนองแบบเรียลไทม์ โหมดแบตช์จะช่วยลดค่าใช้จ่าย Flash ลงประมาณครึ่งหนึ่ง
วิธีการทำงาน:
- ส่งงานแบตช์พร้อมพรอมต์สูงสุด 50,000 รายการในครั้งเดียว
- Google จะประมวลผลภายใน 24 ชั่วโมง
- คุณจะจ่ายถูกลงประมาณ 50% ต่อโทเค็น ทั้งอินพุตและเอาต์พุต
เมื่อโหมดแบตช์เหมาะสม:
- การวิเคราะห์เอกสารจำนวนมาก (การตรวจสอบทางกฎหมาย, การจัดเรียงตั๋วสนับสนุน, การดูแลเนื้อหา)
- การสร้างเนื้อหาข้ามคืนสำหรับแดชบอร์ด SaaS
- การคำนวณล่วงหน้าแบบฝัง (Embedding-style precomputation)
- งานย้ายข้อมูลที่คุณกำลังประมวลผลข้อมูลในอดีตซ้ำ
เมื่อไม่เหมาะสม:
- ส่วนติดต่อผู้ใช้แบบแชท (ผู้ใช้จะไม่รอ 24 ชั่วโมง)
- ลูปเอเจนต์แบบสดที่มีการโต้ตอบกับผู้ใช้
- สิ่งใดก็ตามที่ผู้ใช้เห็นในแบบเรียลไทม์
สแต็กการผลิตส่วนใหญ่ควรรันโหมดแบตช์สำหรับงานใดก็ตามที่สามารถทนต่อความหน่วงได้ การประหยัดจะเพิ่มขึ้นอย่างรวดเร็วเมื่อขยายขนาด ดูรายละเอียดการตั้งค่าใน คู่มือโหมดแบตช์ ของเรา
อินพุตแบบแคช: อีกหนึ่งกลไก
หากพรอมต์ของคุณมีส่วนนำแบบคงที่ที่ยาวร่วมกัน (พรอมต์ระบบ, เอกสารอ้างอิงขนาดใหญ่, คำแนะนำที่ยาว) การแคชบริบทจะให้ส่วนลดสำหรับส่วนที่แคชไว้
รูปแบบ:
- แคชเอกสารอ้างอิง 100,000 โทเค็นเพียงครั้งเดียว
- นำกลับมาใช้ซ้ำในการสอบถามหลายพันครั้ง
- จ่ายอัตราเต็มเฉพาะสำหรับคำถามใหม่ ไม่ใช่สำหรับส่วนนำที่แคชไว้
การประหยัดที่เกิดขึ้นจริงขึ้นอยู่กับอัตราการพบในแคช แต่สำหรับแอปพลิเคชันสไตล์ RAG ที่ส่วนข้อมูลที่ดึงกลับมาเดียวกันนั้นปรากฏซ้ำในการสอบถาม คาดว่าจะลดต้นทุนอินพุตได้ 30–60%
สถานการณ์ค่าใช้จ่ายในโลกจริง
คณิตศาสตร์โทเค็นเริ่มเป็นนามธรรมอย่างรวดเร็ว นี่คือห้าสถานการณ์ที่เป็นรูปธรรมในอัตรามาตรฐานของ Flash
สถานการณ์ที่ 1: แชทบอทสนับสนุนลูกค้า
- 10,000 ข้อความผู้ใช้ต่อวัน
- เฉลี่ย 200 โทเค็นอินพุต (ข้อความผู้ใช้ + พรอมต์ระบบ)
- เฉลี่ย 400 โทเค็นเอาต์พุต (การตอบกลับ)
ค่าใช้จ่ายรายวัน:
- อินพุต: 10,000 × 200 × (1.50 ดอลลาร์สหรัฐฯ / 1 ล้าน) = 3.00 ดอลลาร์สหรัฐฯ/วัน
- เอาต์พุต: 10,000 × 400 × (9.00 ดอลลาร์สหรัฐฯ / 1 ล้าน) = 36.00 ดอลลาร์สหรัฐฯ/วัน
- รวม: ~39 ดอลลาร์สหรัฐฯ/วัน, ~1,170 ดอลลาร์สหรัฐฯ/เดือน
รันปริมาณงานเดียวกันผ่านโหมดแบตช์ (หากคุณทนต่อการตอบสนองแบบแบตช์ได้): ~585 ดอลลาร์สหรัฐฯ/เดือน เพิ่มการแคชบริบทสำหรับพรอมต์ระบบ: ลดเพิ่มอีก 20–30%
สถานการณ์ที่ 2: ซอฟต์แวร์ Q&A เอกสาร (SaaS)
- 1,000 เอกสารที่วิเคราะห์ต่อวัน
- แต่ละเอกสารเฉลี่ย 30,000 โทเค็น (ไฟล์ PDF ขนาดใหญ่)
- แต่ละการถามตอบส่งคืน 500 โทเค็นเอาต์พุต
ค่าใช้จ่ายรายวัน:
- อินพุต: 1,000 × 30,000 × (1.50 ดอลลาร์สหรัฐฯ / 1 ล้าน) = 45.00 ดอลลาร์สหรัฐฯ/วัน
- เอาต์พุต: 1,000 × 500 × (9.00 ดอลลาร์สหรัฐฯ / 1 ล้าน) = 4.50 ดอลลาร์สหรัฐฯ/วัน
- รวม: ~50 ดอลลาร์สหรัฐฯ/วัน, ~1,500 ดอลลาร์สหรัฐฯ/เดือน
นี่คือจุดที่บริบท 1 ล้านของ Flash โดดเด่น: ไม่มีโครงสร้างพื้นฐานสำหรับการแบ่งส่วนข้อมูล เพียงแค่ส่งเอกสารทั้งฉบับ เมื่อเทียบกับ RAG ที่แบ่งส่วนข้อมูลด้วยโมเดลเรือธง คุณจะต้องจ่ายเพิ่มหลายเท่าทั้งใน API และโครงสร้างพื้นฐาน
สถานการณ์ที่ 3: เอเจนต์อัตโนมัติที่ทำงานต่อเนื่อง
- การทำงานของเอเจนต์หนึ่งครั้ง = ~50 รอบของโมเดล
- แต่ละรอบเฉลี่ย 5,000 อินพุต (บริบทที่เพิ่มขึ้น) และ 1,000 เอาต์พุต
- 200 การทำงานต่อวัน
ค่าใช้จ่ายต่อการทำงานหนึ่งครั้ง:
- อินพุต: 50 × 5,000 × (1.50 ดอลลาร์สหรัฐฯ / 1 ล้าน) = 0.375 ดอลลาร์สหรัฐฯ
- เอาต์พุต: 50 × 1,000 × (9.00 ดอลลาร์สหรัฐฯ / 1 ล้าน) = 0.45 ดอลลาร์สหรัฐฯ
- ต่อการทำงานหนึ่งครั้ง: ~0.83 ดอลลาร์สหรัฐฯ
รวมรายวัน: 200 × 0.83 ดอลลาร์สหรัฐฯ = ~165 ดอลลาร์สหรัฐฯ/วัน, ~4,950 ดอลลาร์สหรัฐฯ/เดือน
เพื่อเปรียบเทียบ ปริมาณงานเดียวกันบน Opus 4.7 (~15 ดอลลาร์สหรัฐฯ/75 ดอลลาร์สหรัฐฯ ต่อ 1 ล้าน) มีค่าใช้จ่ายประมาณ 25 ดอลลาร์สหรัฐฯ/การทำงานหนึ่งครั้ง หรือ 5,000 ดอลลาร์สหรัฐฯ/วัน นั่นคือช่องว่างค่าใช้จ่ายงานเอเจนต์ที่ Google อ้างถึง
สถานการณ์ที่ 4: ไปป์ไลน์การแยกข้อมูลจากแผนภูมิ
- 5,000 ภาพหน้าจอแดชบอร์ดต่อวัน
- อินพุตแต่ละภาพ: เทียบเท่า ~1,500 โทเค็น
- เอาต์พุต: 300 โทเค็นของ JSON ที่มีโครงสร้าง
ค่าใช้จ่ายรายวัน:
- อินพุต: 5,000 × 1,500 × (1.50 ดอลลาร์สหรัฐฯ / 1 ล้าน) = 11.25 ดอลลาร์สหรัฐฯ/วัน
- เอาต์พุต: 5,000 × 300 × (9.00 ดอลลาร์สหรัฐฯ / 1 ล้าน) = 13.50 ดอลลาร์สหรัฐฯ/วัน
- รวม: ~25 ดอลลาร์สหรัฐฯ/วัน, ~750 ดอลลาร์สหรัฐฯ/เดือน
เพิ่มโหมดแบตช์และปริมาณงานเดียวกันจะทำงานด้วยค่าใช้จ่าย ~375 ดอลลาร์สหรัฐฯ/เดือน การให้เหตุผลของ CharXiv ที่ 84.2% หมายความว่าคุณภาพยังคงรักษาไว้ได้
สถานการณ์ที่ 5: การสร้างเนื้อหาปริมาณมาก
- 100,000 บทความสั้น ๆ ที่สร้างขึ้นต่อวัน
- แต่ละบทความใช้ 500 โทเค็นอินพุต, 2,000 โทเค็นเอาต์พุต
ค่าใช้จ่ายรายวัน:
- อินพุต: 100,000 × 500 × (1.50 ดอลลาร์สหรัฐฯ / 1 ล้าน) = 75 ดอลลาร์สหรัฐฯ/วัน
- เอาต์พุต: 100,000 × 2,000 × (9.00 ดอลลาร์สหรัฐฯ / 1 ล้าน) = 1,800 ดอลลาร์สหรัฐฯ/วัน
- รวม: ~1,875 ดอลลาร์สหรัฐฯ/วัน, ~56,250 ดอลลาร์สหรัฐฯ/เดือน
ย้ายสิ่งนี้ไปที่โหมดแบตช์และบิลรายเดือนจะลดลงเหลือ ~28,000 ดอลลาร์สหรัฐฯ ในระดับนี้ คุณอาจต้องการทดสอบการส่งชิ้นส่วนงานประจำไปยังโมเดลที่ถูกกว่ามาก เช่น 3.1 Flash-Lite และสงวน Flash ไว้สำหรับการสร้างที่ยากขึ้น
ค่าใช้จ่ายเทียบกับ GPT-5.5 และ Opus 4.7
การเปรียบเทียบราคาพาดหัว:
| โมเดล | อินพุต (ดอลลาร์สหรัฐฯ/1M) | เอาต์พุต (ดอลลาร์สหรัฐฯ/1M) | เท่าตัวเมื่อเทียบกับ Flash |
|---|---|---|---|
| Gemini 3.5 Flash | ~1.50 ดอลลาร์สหรัฐฯ | ~9.00 ดอลลาร์สหรัฐฯ | 1 เท่า (ค่าพื้นฐาน) |
| GPT-5.5 | ~10 ดอลลาร์สหรัฐฯ | ~30 ดอลลาร์สหรัฐฯ | อินพุต 6.7 เท่า, เอาต์พุต 3.3 เท่า |
| Claude Opus 4.7 | ~15 ดอลลาร์สหรัฐฯ | ~75 ดอลลาร์สหรัฐฯ | อินพุต 10 เท่า, เอาต์พุต 8.3 เท่า |
รันสถานการณ์ที่ 1 (แชทสนับสนุนลูกค้า) ผ่านแต่ละโมเดล:
- Flash: 39 ดอลลาร์สหรัฐฯ/วัน
- GPT-5.5: ~140 ดอลลาร์สหรัฐฯ/วัน (แพงกว่า 3.6 เท่า)
- Opus 4.7: ~330 ดอลลาร์สหรัฐฯ/วัน (แพงกว่า 8.5 เท่า)
นี่คือช่องว่างค่าใช้จ่ายงานเอเจนต์ที่เป็นแก่นของข้อความทางการตลาดของ Google โมเดลเรือธงให้คุณภาพที่ดีขึ้นเล็กน้อยสำหรับงานที่ยากที่สุด; สำหรับงานประจำวัน Flash ก็เพียงพอในราคาที่ถูกกว่ามาก
สำหรับการวิเคราะห์เชิงลึกเพิ่มเติม โปรดดูที่ ราคา GPT-5.5 และ การเปรียบเทียบสามทาง ของเรา
ค่าใช้จ่ายเทียบกับ Gemini รุ่นอื่นๆ
| โมเดล | อินพุต (ดอลลาร์สหรัฐฯ/1M) | เอาต์พุต (ดอลลาร์สหรัฐฯ/1M) | เมื่อใดควรใช้ |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | ~0.40 ดอลลาร์สหรัฐฯ | ~2.00 ดอลลาร์สหรัฐฯ | งานประจำที่มีปริมาณมาก |
| Gemini 3 Flash | ~0.50 ดอลลาร์สหรัฐฯ | ~3.00 ดอลลาร์สหรัฐฯ | รุ่นก่อนหน้า แต่ยังคงแข็งแกร่ง |
| Gemini 3.1 Pro | ~2.00 ดอลลาร์สหรัฐฯ | ~12.00 ดอลลาร์สหรัฐฯ | งานที่ต้องใช้การให้เหตุผลมาก่อน 3.5 Pro |
| Gemini 3.5 Flash | ~1.50 ดอลลาร์สหรัฐฯ | ~9.00 ดอลลาร์สหรัฐฯ | ค่าเริ่มต้นใหม่สำหรับงานส่วนใหญ่ |
| Gemini 3.5 Pro (มิถุนายน 2026) | จะแจ้งให้ทราบ | จะแจ้งให้ทราบ | งานที่ต้องใช้การให้เหตุผลที่ซับซ้อนที่สุด |
Flash มีราคาแพงกว่ารุ่นก่อนหน้าอย่าง Flash 3.x แต่ถูกกว่ารุ่น Pro ก่อนหน้าอย่างน่าเชื่อถือ สำหรับทีมส่วนใหญ่ นี่คือการแลกเปลี่ยนที่เหมาะสม: ดีกว่า Flash 3.x, ราคาถูกกว่า Pro 3.x
สำหรับ Gemini รุ่นเก่า โปรดดูที่ 3.1 Flash-Lite, ราคา API 3.0, และ 3 Flash
ราคา Vertex AI (สำหรับการผลิต)
หากคุณเรียกใช้ Flash ผ่าน Vertex AI แทนที่จะเป็น AI Studio ราคาต่อโทเค็นจะเท่ากัน ความแตกต่างคือคุณสมบัติการเรียกเก็บเงินและบัญชี:
- การรับรองความถูกต้องด้วย Service account แทนคีย์ API
- บันทึกการตรวจสอบ ใน Cloud Logging
- การควบคุมถิ่นที่อยู่ของข้อมูล
- ไม่มีระดับฟรี แต่เครดิตบัญชีใหม่ 300 ดอลลาร์สหรัฐฯ ครอบคลุมการใช้งานปานกลางประมาณ 90 วัน
- โควตากำหนดเอง ที่คุณสามารถเจรจาได้เมื่อขยายขนาด
สำหรับทีมผู้ผลิตส่วนใหญ่ เส้นทางคือ: สร้างต้นแบบบนระดับฟรีของ AI Studio, เปลี่ยนไปใช้ AI Studio แบบเสียเงินเพื่อขยายขนาด, จากนั้นย้ายไป Vertex AI เมื่อคุณต้องการการควบคุมระดับองค์กร พฤติกรรมของโมเดลเหมือนกันในทั้งสามกรณี
เคล็ดลับการเพิ่มประสิทธิภาพต้นทุน
หกพฤติกรรมที่เป็นรูปธรรมที่ช่วยลดค่าใช้จ่าย Flash ได้มากที่สุด:
- เรียกใช้โหมดแบตช์สำหรับทุกสิ่งที่ำไม่ต้องการการตอบสนองแบบเรียลไทม์ ลด 50% โดยไม่สูญเสียคุณภาพ
- แคชส่วนนำแบบคงที่ที่ยาว พรอมต์ระบบ, เอกสารอ้างอิง, คำแนะนำ, ล้วนเป็นตัวเลือกที่ดี
- ใช้เอาต์พุต JSON ที่มีโครงสร้าง บังคับให้โมเดลเขียนน้อยลง ทั้งเร็วขึ้นและถูกกว่าข้อความแบบอิสระ
- กำหนดเส้นทางตามความซับซ้อนของงาน งานง่าย ๆ ไป Flash-Lite; งานยากไป Flash; งานที่ยากมาก ๆ ไป 3.5 Pro เมื่อเปิดตัว
- ตรวจสอบอินพุตล่วงหน้า อย่าสิ้นเปลืองโทเค็นไปกับคำขอที่ผิดพลาด Apidog จะตรวจจับสิ่งเหล่านี้ก่อนที่จะถึง API
- ติดตามค่าใช้จ่ายต่อพรอมต์ เพิ่มมิดเดิลแวร์การบันทึกที่บันทึกโทเค็นอินพุต/เอาต์พุตต่อคำขอ ค่าใช้จ่ายที่เกินมักจะมาจากพรอมต์ที่ผิดปกติบางรายการ
สำหรับขั้นตอนการตรวจสอบพรอมต์ ดาวน์โหลด Apidog, สร้างสถานการณ์การทดสอบสำหรับเอนด์พอยต์ Gemini ของคุณ, และเพิ่มการยืนยันรูปแบบการตอบกลับ การใช้คำขอที่ผิดพลาดซ้ำ ๆ 200 ครั้งในการดีบักเป็นวิธีที่ทีมงานเสียโควตาระดับฟรีไปในบ่ายวันเดียว
เมื่อระดับฟรีไม่เพียงพอ
สามสัญญาณในการอัปเกรดจาก Flash แบบฟรีเป็นแบบเสียเงิน:
- คุณใช้งานถึง 1,500 คำขอ/วัน หลายวันติดต่อกัน การจ่ายตามการใช้งานนั้นถูกพอสมควร จนเวลาที่นักพัฒนาเสียไปกับการหลบเลี่ยงโควตาแพงกว่าการอัปเกรด
- คุณต้องการอัตราการส่งข้อมูลต่อนาที (RPM) ที่สูงขึ้น ระดับฟรีจำกัดที่ 15 คำขอต่อนาที; ระดับเสียเงินจะสูงกว่ามาก
- คุณต้องการถิ่นที่อยู่ของข้อมูลหรือบันทึกการตรวจสอบ ย้ายไป Vertex AI ในบัญชีแบบเสียเงิน
ทีมส่วนใหญ่พบว่าการใช้งาน Flash แบบเสียเงิน 50–200 ดอลลาร์สหรัฐฯ/เดือน ช่วยลดความยุ่งยากในการจัดการระดับฟรีได้มาก
ความเสี่ยงด้านราคาและสิ่งที่ต้องจับตาดู
สามสิ่งที่อาจเปลี่ยนแปลงการคำนวณ:
- การกระชับโควตา ในอดีต Google ได้ลดโควตาระดับฟรีลงเมื่อโมเดลมีอายุมากขึ้น อย่าออกแบบสถาปัตยกรรมโดยยึดตัวเลข 1,500/วัน ที่แน่นอน
- ราคาเปิดตัว Pro เมื่อ 3.5 Pro เปิดตัวในเดือนมิถุนายน ราคา Flash อาจปรับขึ้นหรือลงขึ้นอยู่กับว่า Google วางตำแหน่งระดับต่างๆ อย่างไร
- ค่าธรรมเนียมเพิ่มเติมตามภูมิภาค ราคา Vertex AI แตกต่างกันไปตามภูมิภาค ภูมิภาค US Central เป็นราคาอ้างอิงที่ถูกที่สุด; คาดว่าจะมีการเพิ่มราคา 10–20% ในบางภูมิภาค
ตั้งค่าการแจ้งเตือนค่าใช้จ่ายตั้งแต่วันแรก ทั้ง AI Studio (ในหน้าโควตาของโปรเจกต์) และ Vertex AI (ในการเรียกเก็บเงินบน Cloud) รองรับการกำหนดงบประมาณสูงสุดต่อวัน ใช้ประโยชน์จากสิ่งเหล่านี้
สรุป
Gemini 3.5 Flash มีราคาถูกเพียงพอที่งาน AI ระดับการผลิตส่วนใหญ่ในปี 2026 ควรเริ่มต้นที่นี่ อัตรามาตรฐาน (1.50 ดอลลาร์สหรัฐฯ / 9 ดอลลาร์สหรัฐฯ ต่อ 1 ล้านโทเค็น) ต่ำกว่าตัวเลือกโมเดลระดับแนวหน้าอื่นๆ ทุกตัว โหมดแบตช์และการแคชบริบทช่วยลดต้นทุนที่แท้จริงให้ต่ำลงอีก
สำหรับงานที่ Flash ไม่เพียงพอ วิธีที่ถูกต้องคือการผสมผสานระดับ: ใช้ Flash สำหรับงานจำนวนมาก, โมเดลเรือธงอย่าง GPT-5.5 หรือ Opus 4.7 สำหรับงานที่ยากที่สุด การกำหนดเส้นทางตามความซับซ้อนของงานเป็นการเพิ่มประสิทธิภาพต้นทุนที่มีผลตอบแทนสูงสุดที่คุณสามารถทำได้
ในการนำไปปฏิบัติ:
- ดาวน์โหลด Apidog และบันทึกเอนด์พอยต์ Gemini 3.5 Flash เป็นคำขอ
- สร้างการประเมินเล็ก ๆ เปรียบเทียบ Flash กับโมเดลปัจจุบันของคุณจากพรอมต์จริง 20 รายการ
- บันทึกจำนวนโทเค็น; ประมาณการค่าใช้จ่ายรายเดือน
- ตัดสินใจว่า Flash จะเข้ามาแทนที่โมเดลที่แพงกว่าได้ที่ไหน และที่ไหนไม่ได้
นี่คืองานสองวันที่มักจะคืนทุนได้ภายในรอบบิลเดียว
ดาวน์โหลดแอป
