Giá Gemini 3.5 Flash: Chi Phí Thực Tế Là Bao Nhiêu?

Google đã ra mắt Gemini 3.5 Flash vào ngày 19 tháng 5 năm 2026, và tuyên bố về giá cả nổi bật rất táo bạo: “chỉ bằng chưa đến một nửa chi phí so với các mô hình tiên tiến khác” cho các tác vụ tác nhân. Đó là thông điệp tiếp thị. Hướng dẫn này sẽ tính toán chi phí thực tế.

Bạn sẽ tìm thấy mức giá trên mỗi token, giới hạn tầng miễn phí, chiết khấu chế độ theo lô, các kịch bản chi phí thực tế cho các khối lượng công việc phổ biến, và so sánh chi phí song song với GPT-5.5 và Claude Opus 4.7. Cuối cùng, bạn sẽ biết chính xác chi phí vận hành Flash và nơi bạn có thể tiết kiệm 50% hoặc hơn mà không phải hy sinh nhiều.

Tóm tắt nhanh

Loại chi phí	Mức giá
Đầu vào tiêu chuẩn	~$1.50 / 1 triệu token
Đầu ra tiêu chuẩn	~$9.00 / 1 triệu token
Đầu vào chế độ theo lô	~$0.75 / 1 triệu token (giảm ~50%)
Đầu ra chế độ theo lô	~$4.50 / 1 triệu token (giảm ~50%)
Đầu vào được lưu vào bộ nhớ đệm	giá ưu đãi (thay đổi)
Tầng miễn phí (AI Studio)	~1.500 yêu cầu/ngày, 1 triệu token/phút, 15 RPM
Tài khoản Vertex AI mới	Tín dụng $300 trong 90 ngày

Mức giá hiện tại tính đến tháng 5 năm 2026 theo thông báo ra mắt của Google và danh sách tổng hợp. Luôn xác minh lại trên trang giá chính thức trước khi phân bổ ngân sách.

Giá Gemini 3.5 Flash trên mỗi token

Flash sử dụng mô hình trả tiền theo mức sử dụng giống như mọi biến thể Gemini đã sử dụng kể từ phiên bản 2.5: bạn trả tiền cho mỗi triệu token đầu vào và mỗi triệu token đầu ra, một cách độc lập.

Cấp	Đầu vào ($/1 triệu)	Đầu ra ($/1 triệu)
Tiêu chuẩn	~$1.50	~$9.00
Đầu vào được lưu vào bộ nhớ đệm	được chiết khấu	không áp dụng
Theo lô (không đồng bộ)	~$0.75	~$4.50

Hai lưu ý thực tế:

Token không phải là từ. Quy tắc gần đúng: 1.000 token ≈ 750 từ tiếng Anh. Một cuốn tiểu thuyết 100.000 từ có khoảng 133 nghìn token đầu vào.
Đầu ra đắt hơn đầu vào khoảng 6 lần. Các lời nhắc yêu cầu câu trả lời dài tốn kém hơn nhiều so với các lời nhắc nhận được câu trả lời ngắn. Các lược đồ đầu ra có cấu trúc thường tiết kiệm chi phí hơn so với văn xuôi tự do vì mô hình viết ít hơn.

Để tìm hiểu về cách hoạt động của chế độ theo lô của Gemini, hãy xem Chế độ theo lô của Gemini API đã ra mắt và rẻ hơn 50%.

Tầng miễn phí: những gì bạn nhận được mà không phải trả tiền

Tầng miễn phí của AI Studio đi kèm với Flash ngay từ ngày đầu tiên. Các giới hạn khi ra mắt:

1.500 yêu cầu mỗi ngày
1 triệu token mỗi phút
15 yêu cầu mỗi phút

Điều đó đủ cho hầu hết các dự án phụ, nguyên mẫu nội bộ và tự động hóa quy mô nhỏ. Nếu khối lượng công việc của bạn nằm trong giới hạn 1.500 cuộc gọi/ngày, bạn sẽ không phải trả tiền.

Các chi tiết cụ thể của tầng miễn phí:

Không yêu cầu thẻ tín dụng
Cùng một mô hình gemini-3.5-flash như điểm cuối có trả phí
Cùng một mẫu SDK, chỉ khác khóa
Các lời nhắc có thể được sử dụng để cải thiện các mô hình của Google (tùy chọn từ chối trong cài đặt AI Studio)
Các hạn mức có thể thay đổi; đừng đặt cược vào thời hạn ra mắt dựa trên các con số chính xác.

Để xem hướng dẫn cài đặt đầy đủ, hãy xem Cách sử dụng Gemini 3.5 Flash miễn phí và Cách nhận khóa API Google Gemini miễn phí.

Chế độ theo lô: chiết khấu 50% mà hầu hết các nhóm bỏ lỡ

Nếu khối lượng công việc của bạn không yêu cầu phản hồi theo thời gian thực, chế độ theo lô sẽ giảm chi phí Flash đi khoảng một nửa.

Cách thức hoạt động:

Gửi một công việc theo lô với tối đa 50.000 lời nhắc cùng một lúc
Google xử lý chúng trong vòng 24 giờ
Bạn trả ít hơn khoảng 50% cho mỗi token, cả đầu vào và đầu ra

Khi nào chế độ theo lô có ý nghĩa:

Phân tích tài liệu hàng loạt (đánh giá pháp lý, phân loại yêu cầu hỗ trợ, kiểm duyệt nội dung)
Tạo nội dung qua đêm cho các bảng điều khiển SaaS
Tính toán trước theo kiểu nhúng
Các công việc di chuyển dữ liệu mà bạn xử lý lại dữ liệu lịch sử

Khi nào không có ý nghĩa:

Giao diện người dùng trò chuyện (người dùng sẽ không đợi 24 giờ)
Vòng lặp tác nhân trực tiếp với tương tác người dùng
Bất kỳ thứ gì tương tác trực tiếp với người dùng theo thời gian thực

Hầu hết các hệ thống sản xuất nên chạy chế độ theo lô cho bất kỳ khối lượng công việc nào có thể chịu được độ trễ. Khoản tiết kiệm sẽ tăng lên nhanh chóng ở quy mô lớn. Chi tiết cài đặt trong hướng dẫn chế độ theo lô của chúng tôi.

Đầu vào được lưu vào bộ nhớ đệm: một đòn bẩy khác

Nếu các lời nhắc của bạn chia sẻ một tiền tố tĩnh dài (lời nhắc hệ thống, tài liệu tham khảo lớn, hướng dẫn dài), bộ nhớ đệm ngữ cảnh sẽ giảm giá cho phần được lưu vào bộ nhớ đệm.

Mô hình:

Lưu vào bộ nhớ đệm một tài liệu tham khảo 100 nghìn token một lần
Tái sử dụng nó trong hàng nghìn truy vấn
Chỉ trả phí đầy đủ cho câu hỏi mới, không phải cho tiền tố được lưu vào bộ nhớ đệm

Khoản tiết kiệm cụ thể phụ thuộc vào tỷ lệ truy cập bộ nhớ đệm, nhưng đối với các ứng dụng kiểu RAG mà các đoạn đã truy xuất giống nhau được trả về qua các truy vấn, hãy kỳ vọng giảm 30–60% chi phí đầu vào.

Các kịch bản chi phí thực tế

Tính toán token trở nên trừu tượng nhanh chóng. Dưới đây là năm kịch bản cụ thể với mức giá tiêu chuẩn của Flash.

Kịch bản 1: Chat bot hỗ trợ khách hàng

10.000 tin nhắn người dùng mỗi ngày
Trung bình 200 token đầu vào (tin nhắn người dùng + lời nhắc hệ thống)
Trung bình 400 token đầu ra (phản hồi)

Chi phí hàng ngày:

Đầu vào: 10.000 × 200 × ($1.50 / 1 triệu) = $3.00/ngày
Đầu ra: 10.000 × 400 × ($9.00 / 1 triệu) = $36.00/ngày
Tổng cộng: ~$39/ngày, ~$1.170/tháng

Chạy cùng khối lượng công việc thông qua chế độ theo lô (nếu bạn có thể chấp nhận các phản hồi được nhóm): ~$585/tháng. Thêm bộ nhớ đệm ngữ cảnh cho lời nhắc hệ thống: giảm thêm 20–30%.

Kịch bản 2: SaaS Hỏi & Đáp tài liệu

1.000 tài liệu được phân tích mỗi ngày
Mỗi tài liệu trung bình 30 nghìn token (PDF dài)
Mỗi câu hỏi & trả lời trả về 500 token đầu ra

Chi phí hàng ngày:

Đầu vào: 1.000 × 30.000 × ($1.50 / 1 triệu) = $45.00/ngày
Đầu ra: 1.000 × 500 × ($9.00 / 1 triệu) = $4.50/ngày
Tổng cộng: ~$50/ngày, ~$1.500/tháng

Đây là nơi ngữ cảnh 1 triệu token của Flash phát huy tác dụng: không cần hạ tầng phân đoạn, chỉ cần gửi toàn bộ tài liệu. So với RAG được phân đoạn với một mô hình hàng đầu, bạn sẽ phải trả gấp nhiều lần chi phí API cộng với hạ tầng.

Kịch bản 3: Tác nhân tự trị chạy dài

Một lượt chạy tác nhân = ~50 lượt mô hình
Mỗi lượt trung bình 5 nghìn đầu vào (ngữ cảnh tăng lên) và 1 nghìn đầu ra
200 lượt chạy mỗi ngày

Chi phí mỗi lượt chạy:

Đầu vào: 50 × 5.000 × ($1.50 / 1 triệu) = $0.375
Đầu ra: 50 × 1.000 × ($9.00 / 1 triệu) = $0.45
Mỗi lượt chạy: ~$0.83

Tổng cộng hàng ngày: 200 × $0.83 = ~$165/ngày, ~$4.950/tháng

Để so sánh, cùng khối lượng công việc trên Opus 4.7 (~$15/$75 mỗi 1 triệu token) có giá khoảng $25/lượt chạy, hoặc $5.000/ngày. Đó là khoảng cách chi phí tác nhân mà Google đang đề cập.

Kịch bản 4: Đường ống trích xuất biểu đồ

5.000 ảnh chụp màn hình bảng điều khiển mỗi ngày
Mỗi đầu vào hình ảnh: tương đương ~1.500 token
Đầu ra: 300 token JSON có cấu trúc

Chi phí hàng ngày:

Đầu vào: 5.000 × 1.500 × ($1.50 / 1 triệu) = $11.25/ngày
Đầu ra: 5.000 × 300 × ($9.00 / 1 triệu) = $13.50/ngày
Tổng cộng: ~$25/ngày, ~$750/tháng

Thêm chế độ theo lô và cùng khối lượng công việc chạy với chi phí ~$375/tháng. Lý do CharXiv ở mức 84.2% có nghĩa là chất lượng được duy trì.

Kịch bản 5: Tạo nội dung khối lượng lớn

100.000 bài viết ngắn được tạo mỗi ngày
Mỗi bài có 500 token đầu vào, 2.000 token đầu ra

Chi phí hàng ngày:

Đầu vào: 100.000 × 500 × ($1.50 / 1 triệu) = $75/ngày
Đầu ra: 100.000 × 2.000 × ($9.00 / 1 triệu) = $1.800/ngày
Tổng cộng: ~$1.875/ngày, ~$56.250/tháng

Chuyển việc này sang chế độ theo lô và hóa đơn hàng tháng giảm xuống còn ~$28 nghìn. Ở quy mô này, bạn cũng sẽ muốn thử nghiệm định tuyến các phần thông thường đến các mô hình thậm chí rẻ hơn như 3.1 Flash-Lite và giữ Flash cho các tác vụ tạo nội dung khó hơn.

Chi phí so với GPT-5.5 và Opus 4.7

So sánh giá nổi bật:

Mô hình	Đầu vào ($/1 triệu)	Đầu ra ($/1 triệu)	Bội số so với Flash
Gemini 3.5 Flash	~$1.50	~$9.00	1× (cơ sở)
GPT-5.5	~$10	~$30	6.7× đầu vào, 3.3× đầu ra
Claude Opus 4.7	~$15	~$75	10× đầu vào, 8.3× đầu ra

Chạy Kịch bản 1 (trò chuyện hỗ trợ khách hàng) qua từng mô hình:

Flash: $39/ngày
GPT-5.5: ~$140/ngày (gấp 3.6 lần)
Opus 4.7: ~$330/ngày (gấp 8.5 lần)

Đây là khoảng cách chi phí tác nhân thúc đẩy thông điệp tiếp thị của Google. Các mô hình hàng đầu mang lại chất lượng tốt hơn một chút đối với các tác vụ khó nhất; đối với các khối lượng công việc hàng ngày, Flash là đủ với một phần nhỏ chi phí.

Để có phân tích chi tiết hơn, hãy xem giá GPT-5.5 và so sánh ba chiều của chúng tôi.

Chi phí so với các biến thể Gemini khác

Mô hình	Đầu vào ($/1 triệu)	Đầu ra ($/1 triệu)	Khi nào nên sử dụng
Gemini 3.1 Flash-Lite	~$0.40	~$2.00	Công việc thông thường khối lượng lớn
Gemini 3 Flash	~$0.50	~$3.00	Thế hệ trước, vẫn vững chắc
Gemini 3.1 Pro	~$2.00	~$12.00	Công việc đòi hỏi suy luận nặng trước 3.5 Pro
Gemini 3.5 Flash	~$1.50	~$9.00	Mặc định mới cho hầu hết các khối lượng công việc
Gemini 3.5 Pro (Tháng 6 năm 2026)	Chưa xác định	Chưa xác định	Các tác vụ suy luận khó nhất

Flash đắt hơn các phiên bản Flash 3.x tiền nhiệm nhưng rẻ hơn đáng kể so với tầng Pro trước đó. Đối với hầu hết các nhóm, đó là sự đánh đổi hợp lý: tốt hơn Flash 3.x, chi phí ít hơn Pro 3.x.

Đối với dòng Gemini cũ hơn, hãy xem 3.1 Flash-Lite, giá API 3.0 và 3 Flash.

Giá Vertex AI (sản xuất)

Nếu bạn gọi Flash thông qua Vertex AI thay vì AI Studio, giá trên mỗi token là như nhau. Sự khác biệt nằm ở các tính năng thanh toán và tài khoản:

Xác thực tài khoản dịch vụ thay vì khóa API
Nhật ký kiểm tra (Audit logs) trong Cloud Logging
Kiểm soát nơi lưu trú dữ liệu (Data residency)
Không có tầng miễn phí, nhưng tín dụng $300 cho tài khoản mới bao gồm khoảng 90 ngày sử dụng vừa phải
Hạn mức tùy chỉnh mà bạn có thể đàm phán ở quy mô lớn

Đối với hầu hết các nhóm sản xuất, lộ trình là: tạo mẫu trên tầng miễn phí của AI Studio, chuyển sang AI Studio trả phí để mở rộng quy mô, sau đó chuyển sang Vertex AI khi bạn cần các kiểm soát cấp doanh nghiệp. Hành vi của mô hình là giống hệt nhau trên cả ba.

Mẹo tối ưu hóa chi phí

Sáu thói quen cụ thể giúp cắt giảm hóa đơn Flash nhiều nhất:

Chạy chế độ theo lô cho bất kỳ thứ gì không yêu cầu phản hồi theo thời gian thực. Giảm 50%, không mất chất lượng.
Lưu trữ các tiền tố tĩnh dài vào bộ nhớ đệm. Lời nhắc hệ thống, tài liệu tham khảo, hướng dẫn, tất cả đều là các ứng viên tốt.
Sử dụng đầu ra JSON có cấu trúc. Buộc mô hình viết ít hơn, vừa nhanh hơn vừa rẻ hơn so với văn xuôi tự do.
Định tuyến theo độ phức tạp của tác vụ. Các tác vụ dễ dàng chuyển đến Flash-Lite; các tác vụ khó chuyển đến Flash; tác vụ cực khó hiếm khi xuất hiện chuyển đến 3.5 Pro khi nó ra mắt.
Xác thực đầu vào trước. Đừng đốt cháy token cho các yêu cầu không đúng định dạng. Apidog bắt được những lỗi này trước khi chúng đến API.
Theo dõi chi phí trên mỗi lời nhắc. Thêm một middleware ghi nhật ký để ghi lại token đầu vào/đầu ra cho mỗi yêu cầu. Chi phí vượt mức hầu như luôn đến từ một vài lời nhắc ngoại lệ.

Đối với quy trình xác thực lời nhắc, tải xuống Apidog, xây dựng một kịch bản kiểm thử cho điểm cuối Gemini của bạn và thêm các xác nhận về hình dạng phản hồi. Đốt cháy cùng một yêu cầu bị lỗi 200 lần trong một phiên gỡ lỗi là cách các nhóm lãng phí hạn mức miễn phí của họ chỉ trong một buổi chiều.

Khi tầng miễn phí không đủ

Ba dấu hiệu để nâng cấp từ Flash miễn phí lên trả phí:

Bạn đạt 1.500 yêu cầu/ngày nhiều ngày liên tiếp. Trả tiền theo mức sử dụng đủ rẻ để thời gian phát triển bỏ ra để né tránh hạn mức tốn kém hơn so với việc nâng cấp.
Bạn cần thông lượng RPM cao hơn. Tầng miễn phí giới hạn ở 15 yêu cầu mỗi phút; các tầng trả phí có thể cao hơn nhiều.
Bạn cần kiểm soát nơi lưu trú dữ liệu hoặc nhật ký kiểm tra. Chuyển sang Vertex AI trên một tài khoản có tính phí.

Hầu hết các nhóm nhận thấy $50–200/tháng cho việc sử dụng Flash trả phí sẽ thay thế rất nhiều công sức xoay sở với tầng miễn phí.

Rủi ro về giá và những điều cần lưu ý

Ba điều có thể thay đổi tính toán:

Thắt chặt hạn mức. Google đã từng thu hẹp hạn mức miễn phí khi các mô hình cũ đi. Đừng thiết kế hệ thống dựa trên con số chính xác 1.500/ngày.
Giá ra mắt của Pro. Khi 3.5 Pro ra mắt vào tháng 6, giá Flash có thể tăng hoặc giảm tùy thuộc vào cách Google định vị các tầng.
Phụ phí khu vực. Giá Vertex AI thay đổi theo khu vực. Miền Trung Hoa Kỳ là nơi tham chiếu rẻ nhất; hãy kỳ vọng phụ phí 10–20% ở một số khu vực.

Thiết lập cảnh báo chi phí ngay từ ngày đầu tiên. Cả AI Studio (trong trang hạn mức của dự án) và Vertex AI (trong Cloud Billing) đều hỗ trợ giới hạn ngân sách hàng ngày. Hãy sử dụng chúng.

Kết luận

Gemini 3.5 Flash đủ rẻ để hầu hết các khối lượng công việc AI sản xuất vào năm 2026 nên bắt đầu từ đây. Các mức giá tiêu chuẩn ($1.50 / $9 mỗi 1 triệu token) thấp hơn mọi tùy chọn mô hình tiên tiến khác. Chế độ theo lô và lưu vào bộ nhớ đệm ngữ cảnh đẩy chi phí hiệu quả xuống thấp hơn nữa.

Đối với các khối lượng công việc mà Flash không đủ, động thái đúng đắn là kết hợp các tầng: Flash cho phần lớn, một mô hình hàng đầu như GPT-5.5 hoặc Opus 4.7 cho các tác vụ khó nhất. Định tuyến theo độ phức tạp của tác vụ là tối ưu hóa chi phí có đòn bẩy cao nhất mà bạn có thể thực hiện.

Để đưa điều này vào thực tế:

Tải xuống Apidog và lưu điểm cuối Gemini 3.5 Flash làm yêu cầu
Xây dựng một đánh giá nhỏ so sánh Flash với mô hình hiện tại của bạn trên 20 lời nhắc thực tế
Ghi lại số lượng token; ngoại suy chi phí hàng tháng
Quyết định nơi Flash thay thế một mô hình đắt tiền hơn và nơi nó không thay thế

Đó là hai ngày làm việc thường sẽ hoàn vốn trong một chu kỳ thanh toán.

nút