Giá Gemini 3.5 Flash: Chi Phí Thực Tế Là Bao Nhiêu?

Ashley Innocent

Ashley Innocent

20 tháng 5 2026

Giá Gemini 3.5 Flash: Chi Phí Thực Tế Là Bao Nhiêu?

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

Google đã ra mắt Gemini 3.5 Flash vào ngày 19 tháng 5 năm 2026, và tuyên bố về giá cả nổi bật rất táo bạo: “chỉ bằng chưa đến một nửa chi phí so với các mô hình tiên tiến khác” cho các tác vụ tác nhân. Đó là thông điệp tiếp thị. Hướng dẫn này sẽ tính toán chi phí thực tế.

Bạn sẽ tìm thấy mức giá trên mỗi token, giới hạn tầng miễn phí, chiết khấu chế độ theo lô, các kịch bản chi phí thực tế cho các khối lượng công việc phổ biến, và so sánh chi phí song song với GPT-5.5 và Claude Opus 4.7. Cuối cùng, bạn sẽ biết chính xác chi phí vận hành Flash và nơi bạn có thể tiết kiệm 50% hoặc hơn mà không phải hy sinh nhiều.

Tóm tắt nhanh

Loại chi phí Mức giá
Đầu vào tiêu chuẩn ~$1.50 / 1 triệu token
Đầu ra tiêu chuẩn ~$9.00 / 1 triệu token
Đầu vào chế độ theo lô ~$0.75 / 1 triệu token (giảm ~50%)
Đầu ra chế độ theo lô ~$4.50 / 1 triệu token (giảm ~50%)
Đầu vào được lưu vào bộ nhớ đệm giá ưu đãi (thay đổi)
Tầng miễn phí (AI Studio) ~1.500 yêu cầu/ngày, 1 triệu token/phút, 15 RPM
Tài khoản Vertex AI mới Tín dụng $300 trong 90 ngày

Mức giá hiện tại tính đến tháng 5 năm 2026 theo thông báo ra mắt của Google và danh sách tổng hợp. Luôn xác minh lại trên trang giá chính thức trước khi phân bổ ngân sách.

Giá Gemini 3.5 Flash trên mỗi token

Flash sử dụng mô hình trả tiền theo mức sử dụng giống như mọi biến thể Gemini đã sử dụng kể từ phiên bản 2.5: bạn trả tiền cho mỗi triệu token đầu vào và mỗi triệu token đầu ra, một cách độc lập.

Cấp Đầu vào ($/1 triệu) Đầu ra ($/1 triệu)
Tiêu chuẩn ~$1.50 ~$9.00
Đầu vào được lưu vào bộ nhớ đệm được chiết khấu không áp dụng
Theo lô (không đồng bộ) ~$0.75 ~$4.50

Hai lưu ý thực tế:

Để tìm hiểu về cách hoạt động của chế độ theo lô của Gemini, hãy xem Chế độ theo lô của Gemini API đã ra mắt và rẻ hơn 50%.

Tầng miễn phí: những gì bạn nhận được mà không phải trả tiền

Tầng miễn phí của AI Studio đi kèm với Flash ngay từ ngày đầu tiên. Các giới hạn khi ra mắt:

Điều đó đủ cho hầu hết các dự án phụ, nguyên mẫu nội bộ và tự động hóa quy mô nhỏ. Nếu khối lượng công việc của bạn nằm trong giới hạn 1.500 cuộc gọi/ngày, bạn sẽ không phải trả tiền.

Các chi tiết cụ thể của tầng miễn phí:

Để xem hướng dẫn cài đặt đầy đủ, hãy xem Cách sử dụng Gemini 3.5 Flash miễn phíCách nhận khóa API Google Gemini miễn phí.

Chế độ theo lô: chiết khấu 50% mà hầu hết các nhóm bỏ lỡ

Nếu khối lượng công việc của bạn không yêu cầu phản hồi theo thời gian thực, chế độ theo lô sẽ giảm chi phí Flash đi khoảng một nửa.

Cách thức hoạt động:

  1. Gửi một công việc theo lô với tối đa 50.000 lời nhắc cùng một lúc
  2. Google xử lý chúng trong vòng 24 giờ
  3. Bạn trả ít hơn khoảng 50% cho mỗi token, cả đầu vào và đầu ra

Khi nào chế độ theo lô có ý nghĩa:

Khi nào không có ý nghĩa:

Hầu hết các hệ thống sản xuất nên chạy chế độ theo lô cho bất kỳ khối lượng công việc nào có thể chịu được độ trễ. Khoản tiết kiệm sẽ tăng lên nhanh chóng ở quy mô lớn. Chi tiết cài đặt trong hướng dẫn chế độ theo lô của chúng tôi.

Đầu vào được lưu vào bộ nhớ đệm: một đòn bẩy khác

Nếu các lời nhắc của bạn chia sẻ một tiền tố tĩnh dài (lời nhắc hệ thống, tài liệu tham khảo lớn, hướng dẫn dài), bộ nhớ đệm ngữ cảnh sẽ giảm giá cho phần được lưu vào bộ nhớ đệm.

Mô hình:

Khoản tiết kiệm cụ thể phụ thuộc vào tỷ lệ truy cập bộ nhớ đệm, nhưng đối với các ứng dụng kiểu RAG mà các đoạn đã truy xuất giống nhau được trả về qua các truy vấn, hãy kỳ vọng giảm 30–60% chi phí đầu vào.

Các kịch bản chi phí thực tế

Tính toán token trở nên trừu tượng nhanh chóng. Dưới đây là năm kịch bản cụ thể với mức giá tiêu chuẩn của Flash.

Kịch bản 1: Chat bot hỗ trợ khách hàng

Chi phí hàng ngày:

Chạy cùng khối lượng công việc thông qua chế độ theo lô (nếu bạn có thể chấp nhận các phản hồi được nhóm): ~$585/tháng. Thêm bộ nhớ đệm ngữ cảnh cho lời nhắc hệ thống: giảm thêm 20–30%.

Kịch bản 2: SaaS Hỏi & Đáp tài liệu

Chi phí hàng ngày:

Đây là nơi ngữ cảnh 1 triệu token của Flash phát huy tác dụng: không cần hạ tầng phân đoạn, chỉ cần gửi toàn bộ tài liệu. So với RAG được phân đoạn với một mô hình hàng đầu, bạn sẽ phải trả gấp nhiều lần chi phí API cộng với hạ tầng.

Kịch bản 3: Tác nhân tự trị chạy dài

Chi phí mỗi lượt chạy:

Tổng cộng hàng ngày: 200 × $0.83 = ~$165/ngày, ~$4.950/tháng

Để so sánh, cùng khối lượng công việc trên Opus 4.7 (~$15/$75 mỗi 1 triệu token) có giá khoảng $25/lượt chạy, hoặc $5.000/ngày. Đó là khoảng cách chi phí tác nhân mà Google đang đề cập.

Kịch bản 4: Đường ống trích xuất biểu đồ

Chi phí hàng ngày:

Thêm chế độ theo lô và cùng khối lượng công việc chạy với chi phí ~$375/tháng. Lý do CharXiv ở mức 84.2% có nghĩa là chất lượng được duy trì.

Kịch bản 5: Tạo nội dung khối lượng lớn

Chi phí hàng ngày:

Chuyển việc này sang chế độ theo lô và hóa đơn hàng tháng giảm xuống còn ~$28 nghìn. Ở quy mô này, bạn cũng sẽ muốn thử nghiệm định tuyến các phần thông thường đến các mô hình thậm chí rẻ hơn như 3.1 Flash-Lite và giữ Flash cho các tác vụ tạo nội dung khó hơn.

Chi phí so với GPT-5.5 và Opus 4.7

So sánh giá nổi bật:

Mô hình Đầu vào ($/1 triệu) Đầu ra ($/1 triệu) Bội số so với Flash
Gemini 3.5 Flash ~$1.50 ~$9.00 1× (cơ sở)
GPT-5.5 ~$10 ~$30 6.7× đầu vào, 3.3× đầu ra
Claude Opus 4.7 ~$15 ~$75 10× đầu vào, 8.3× đầu ra

Chạy Kịch bản 1 (trò chuyện hỗ trợ khách hàng) qua từng mô hình:

Đây là khoảng cách chi phí tác nhân thúc đẩy thông điệp tiếp thị của Google. Các mô hình hàng đầu mang lại chất lượng tốt hơn một chút đối với các tác vụ khó nhất; đối với các khối lượng công việc hàng ngày, Flash là đủ với một phần nhỏ chi phí.

Để có phân tích chi tiết hơn, hãy xem giá GPT-5.5so sánh ba chiều của chúng tôi.

Chi phí so với các biến thể Gemini khác

Mô hình Đầu vào ($/1 triệu) Đầu ra ($/1 triệu) Khi nào nên sử dụng
Gemini 3.1 Flash-Lite ~$0.40 ~$2.00 Công việc thông thường khối lượng lớn
Gemini 3 Flash ~$0.50 ~$3.00 Thế hệ trước, vẫn vững chắc
Gemini 3.1 Pro ~$2.00 ~$12.00 Công việc đòi hỏi suy luận nặng trước 3.5 Pro
Gemini 3.5 Flash ~$1.50 ~$9.00 Mặc định mới cho hầu hết các khối lượng công việc
Gemini 3.5 Pro (Tháng 6 năm 2026) Chưa xác định Chưa xác định Các tác vụ suy luận khó nhất

Flash đắt hơn các phiên bản Flash 3.x tiền nhiệm nhưng rẻ hơn đáng kể so với tầng Pro trước đó. Đối với hầu hết các nhóm, đó là sự đánh đổi hợp lý: tốt hơn Flash 3.x, chi phí ít hơn Pro 3.x.

Đối với dòng Gemini cũ hơn, hãy xem 3.1 Flash-Lite, giá API 3.03 Flash.

Giá Vertex AI (sản xuất)

Nếu bạn gọi Flash thông qua Vertex AI thay vì AI Studio, giá trên mỗi token là như nhau. Sự khác biệt nằm ở các tính năng thanh toán và tài khoản:

Đối với hầu hết các nhóm sản xuất, lộ trình là: tạo mẫu trên tầng miễn phí của AI Studio, chuyển sang AI Studio trả phí để mở rộng quy mô, sau đó chuyển sang Vertex AI khi bạn cần các kiểm soát cấp doanh nghiệp. Hành vi của mô hình là giống hệt nhau trên cả ba.

Mẹo tối ưu hóa chi phí

Sáu thói quen cụ thể giúp cắt giảm hóa đơn Flash nhiều nhất:

  1. Chạy chế độ theo lô cho bất kỳ thứ gì không yêu cầu phản hồi theo thời gian thực. Giảm 50%, không mất chất lượng.
  2. Lưu trữ các tiền tố tĩnh dài vào bộ nhớ đệm. Lời nhắc hệ thống, tài liệu tham khảo, hướng dẫn, tất cả đều là các ứng viên tốt.
  3. Sử dụng đầu ra JSON có cấu trúc. Buộc mô hình viết ít hơn, vừa nhanh hơn vừa rẻ hơn so với văn xuôi tự do.
  4. Định tuyến theo độ phức tạp của tác vụ. Các tác vụ dễ dàng chuyển đến Flash-Lite; các tác vụ khó chuyển đến Flash; tác vụ cực khó hiếm khi xuất hiện chuyển đến 3.5 Pro khi nó ra mắt.
  5. Xác thực đầu vào trước. Đừng đốt cháy token cho các yêu cầu không đúng định dạng. Apidog bắt được những lỗi này trước khi chúng đến API.
  6. Theo dõi chi phí trên mỗi lời nhắc. Thêm một middleware ghi nhật ký để ghi lại token đầu vào/đầu ra cho mỗi yêu cầu. Chi phí vượt mức hầu như luôn đến từ một vài lời nhắc ngoại lệ.

Đối với quy trình xác thực lời nhắc, tải xuống Apidog, xây dựng một kịch bản kiểm thử cho điểm cuối Gemini của bạn và thêm các xác nhận về hình dạng phản hồi. Đốt cháy cùng một yêu cầu bị lỗi 200 lần trong một phiên gỡ lỗi là cách các nhóm lãng phí hạn mức miễn phí của họ chỉ trong một buổi chiều.

Khi tầng miễn phí không đủ

Ba dấu hiệu để nâng cấp từ Flash miễn phí lên trả phí:

  1. Bạn đạt 1.500 yêu cầu/ngày nhiều ngày liên tiếp. Trả tiền theo mức sử dụng đủ rẻ để thời gian phát triển bỏ ra để né tránh hạn mức tốn kém hơn so với việc nâng cấp.
  2. Bạn cần thông lượng RPM cao hơn. Tầng miễn phí giới hạn ở 15 yêu cầu mỗi phút; các tầng trả phí có thể cao hơn nhiều.
  3. Bạn cần kiểm soát nơi lưu trú dữ liệu hoặc nhật ký kiểm tra. Chuyển sang Vertex AI trên một tài khoản có tính phí.

Hầu hết các nhóm nhận thấy $50–200/tháng cho việc sử dụng Flash trả phí sẽ thay thế rất nhiều công sức xoay sở với tầng miễn phí.

Rủi ro về giá và những điều cần lưu ý

Ba điều có thể thay đổi tính toán:

Thiết lập cảnh báo chi phí ngay từ ngày đầu tiên. Cả AI Studio (trong trang hạn mức của dự án) và Vertex AI (trong Cloud Billing) đều hỗ trợ giới hạn ngân sách hàng ngày. Hãy sử dụng chúng.

Kết luận

Gemini 3.5 Flash đủ rẻ để hầu hết các khối lượng công việc AI sản xuất vào năm 2026 nên bắt đầu từ đây. Các mức giá tiêu chuẩn ($1.50 / $9 mỗi 1 triệu token) thấp hơn mọi tùy chọn mô hình tiên tiến khác. Chế độ theo lô và lưu vào bộ nhớ đệm ngữ cảnh đẩy chi phí hiệu quả xuống thấp hơn nữa.

Đối với các khối lượng công việc mà Flash không đủ, động thái đúng đắn là kết hợp các tầng: Flash cho phần lớn, một mô hình hàng đầu như GPT-5.5 hoặc Opus 4.7 cho các tác vụ khó nhất. Định tuyến theo độ phức tạp của tác vụ là tối ưu hóa chi phí có đòn bẩy cao nhất mà bạn có thể thực hiện.

Để đưa điều này vào thực tế:

Đó là hai ngày làm việc thường sẽ hoàn vốn trong một chu kỳ thanh toán.

nút

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API