Các nhà phát triển và doanh nghiệp ngày càng dựa vào các mô hình đa phương thức tiên tiến như dòng Gemini của Google cho các ứng dụng sản xuất. Khi Google ra mắt mô hình Gemini 3 Pro Preview vào tháng 11 năm 2026, việc hiểu chi phí API của nó trở nên thiết yếu cho việc lập ngân sách và mở rộng quy mô. Phiên bản xem trước này, có thể truy cập qua Google AI Studio và Vertex AI, giới thiệu khả năng lập luận nâng cao, cửa sổ ngữ cảnh dài hơn và sử dụng công cụ gốc.
Google định giá API Gemini 3 dựa trên cơ chế trả tiền theo mức sử dụng token thuần túy cho quyền truy cập xem trước. Không có hạn ngạch miễn phí hàng ngày nào ngoài việc sử dụng AI Studio giới hạn, nhưng các mô hình xem trước thường bắt đầu với mức phí giảm hoặc miễn phí trong giai đoạn ra mắt sớm. Bài viết này trình bày chi tiết các mức giá đã được xác nhận từ banner xem trước chính thức tính đến ngày 18 tháng 11 năm 2026.
Các khả năng chính của Gemini 3 Pro Preview
Google trang bị cho Gemini 3 Pro những cải tiến đột phá so với Gemini 2.5. Nó vượt trội trong khả năng lập luận ngữ cảnh dài (dự kiến lên đến 1–2 triệu token trong bản phát hành ổn định), sử dụng công cụ gốc, đầu ra có cấu trúc và hiểu đa phương thức. Các nhà phát triển sử dụng nó cho các quy trình công việc phức tạp của tác nhân, phân tích video, tạo mã với phản hồi thực thi và tạo lời nhắc chuỗi suy nghĩ nâng cao.

Mô hình hỗ trợ phản hồi truyền tải, gọi hàm và hướng dẫn hệ thống một cách tự nhiên. Ngoài ra, nó xử lý trực tiếp đầu vào video, làm cho nó lý tưởng cho các ứng dụng trong giáo dục, tạo nội dung và nghiên cứu khoa học.
Giai đoạn xem trước cho phép truy cập sớm trong Google AI Studio với huy hiệu “Mới”. Các khối lượng công việc sản xuất sẽ chuyển sang API Gemini 3 đầy đủ khi Google ổn định mô hình, thường trong vài tuần sau khi ra mắt bản xem trước.
Phân tích giá API Gemini 3 Pro chính thức (Tháng 11 năm 2026)
Google định giá Gemini 3 Pro Preview nghiêm ngặt dựa trên số token đã tiêu thụ, với một điểm dừng độ dài ngữ cảnh rõ ràng:
| Độ dài ngữ cảnh | Đầu vào (mỗi 1 triệu token) | Đầu ra (mỗi 1 triệu token) |
|---|---|---|
| ≤ 200.000 token | $2.00 | $12.00 |
| > 200.000 token | $4.00 | $18.00 |
Những mức giá này áp dụng cho mô hình gemini-3-pro-preview trong Gemini API và AI Studio khi tính phí được kích hoạt. Google tính token đầu vào từ lời nhắc (văn bản + nội dung đa phương thức) và token đầu ra từ văn bản được tạo hoặc dữ liệu có cấu trúc. Đầu vào video và âm thanh được chuyển đổi thành số token tương đương dựa trên thời lượng và độ phân giải.
Google chưa cung cấp bất kỳ chiết khấu theo gói hoặc chiết khấu bộ nhớ đệm ngữ cảnh nào cho bản xem trước. Tuy nhiên, việc tạo nền tảng với Google Search vẫn miễn phí trong giới hạn hàng ngày trong AI Studio. Điều chỉnh (Fine-tuning) vẫn chưa có sẵn trong bản xem trước; nó sẽ ra mắt cùng với bản phát hành ổn định.
Việc sử dụng Google AI Studio vẫn miễn phí cho các thử nghiệm hợp lý, nhưng các lệnh gọi API có khối lượng lớn hoặc theo kịch bản sẽ tự động kích hoạt tính phí trả tiền theo mức sử dụng khi bạn liên kết một dự án Cloud.
Cách tính token trong Gemini 3 Pro
Google tính token bằng cùng một bộ mã hóa (tokenizer) như các mô hình Gemini trước đây. Văn bản trung bình khoảng 4 ký tự mỗi token, trong khi hình ảnh và video sử dụng các giá trị tương đương cố định (ví dụ: video 720p dài 1 phút ≈ 10–15K token, thay đổi tùy theo độ phức tạp của nội dung).
Các nhà phát triển gọi điểm cuối countTokens trước để xem trước chi phí chính xác:
from google.generativeai import GenerativeModel, count_tokens
model = GenerativeModel("gemini-3-pro-preview")
tokens = count_tokens(model, contents=["Lời nhắc của bạn ở đây..."])
print(tokens.total_tokens)
Bước này giúp tránh những bất ngờ, đặc biệt là với các lời nhắc ngữ cảnh dài vượt quá 200K token, nơi mức giá tăng gấp đôi.
Tính toán chi phí thực tế cho API Gemini 3 Pro
Các kỹ sư ước tính chi phí chính xác với các ví dụ sau:
Truy vấn trò chuyện tiêu chuẩn (5K đầu vào + 1K đầu ra, <200K ngữ cảnh)
→ Đầu vào: 5K × $2 / 1M = $0.00001
→ Đầu ra: 1K × $12 / 1M = $0.000012
→ Tổng ≈ $0.000022 (dưới một xu)
Phân tích tài liệu (150K đầu vào + 8K đầu ra)
→ Đầu vào: $0.30
→ Đầu ra: $0.096
→ Tổng ≈ $0.40 mỗi yêu cầu
Nhiệm vụ nghiên cứu ngữ cảnh dài (350K đầu vào + 15K đầu ra)
→ Đầu vào: 350K × $4 / 1M = $1.40
→ Đầu ra: 15K × $18 / 1M = $0.27
→ Tổng ≈ $1.67 mỗi yêu cầu
Một ứng dụng có lưu lượng truy cập trung bình xử lý 100 yêu cầu ngữ cảnh dài hàng ngày sẽ phát sinh khoảng $50–$70 hàng tháng. Các quy trình làm việc tác nhân có khối lượng lớn với video dễ dàng đạt đến hàng nghìn đô la nếu không tối ưu hóa.
Quyền truy cập miễn phí và giới hạn xem trước
Google cung cấp quyền truy cập miễn phí vào Gemini 3 Pro Preview trong AI Studio để sử dụng tương tác. Các giới hạn tốc độ được áp dụng (thường là 10–50 RPM tùy thuộc vào khu vực và tuổi tài khoản), nhưng không có phí nào phát sinh cho các phiên thủ công.
Truy cập API theo kịch bản yêu cầu một dự án Google Cloud. Các dự án mới bắt đầu với bậc miễn phí với giới hạn rộng rãi cho các mô hình xem trước, nhưng việc sử dụng nhiều sẽ nhanh chóng nâng cấp lên tính phí trả tiền. Google thường miễn hoàn toàn phí trong những tuần đầu của bản xem trước — nhiều nhà phát triển báo cáo hóa đơn 0 đô la ngay cả sau hàng nghìn yêu cầu vào tháng 11 năm 2026.
Khi mô hình trở nên ổn định (dự kiến tháng 12 năm 2026 – quý 1 năm 2026), giá đầy đủ sẽ được áp dụng không ngoại lệ.
Tích hợp và giám sát API Gemini 3 với Apidog
Apidog đơn giản hóa việc làm việc với API Gemini 3. Nhập thông số kỹ thuật OpenAPI chính thức từ Google, đặt khóa API của bạn làm biến môi trường và gửi yêu cầu trực tiếp.
Các lợi ích chính bao gồm:
- Hiển thị số lượng token theo thời gian thực trong phản hồi
- Ước tính chi phí tự động cho mỗi yêu cầu (tập lệnh tùy chỉnh hoặc plugin)
- Chia sẻ bộ sưu tập để hợp tác nhóm
- Máy chủ giả lập để kiểm tra logic mà không tốn token
- Nhật ký chi tiết để xác định các lời nhắc tốn kém
Tạo một yêu cầu mới đến https://generativelanguage.googleapis.com/v1/models/gemini-3-pro-preview:generateContent, dán tải trọng JSON của bạn và nhấn gửi. Apidog phân tích siêu dữ liệu sử dụng (token đầu vào/đầu ra) ngay lập tức, giúp bạn duy trì trong ngân sách.
Các chiến lược tối ưu hóa chi phí cho Gemini 3 Pro
Các kỹ sư giảm đáng kể chi phí bằng các kỹ thuật đã được chứng minh này:
- Giữ lời nhắc dưới 200K token khi có thể → tránh tăng giá gấp 2 lần
- Sử dụng đầu ra có cấu trúc (chế độ JSON) → phản hồi ngắn hơn, dễ dự đoán
- Thực hiện bộ nhớ đệm lời nhắc (khi có sẵn sau bản xem trước) → sử dụng lại các hướng dẫn hệ thống
- Tiền xử lý video → trích xuất khung hình chính hoặc chuyển đổi âm thanh riêng biệt
- Giám sát thông qua cảnh báo Thanh toán Google Cloud và bảng điều khiển Apidog
- Bắt đầu với ngữ cảnh ngắn hơn → chỉ lặp lại tăng lên khi cần
Kết hợp các thực hành này thường cắt giảm hóa đơn từ 40–70%.
So sánh với các mô hình hàng đầu khác (Tháng 11 năm 2026)
| Mô hình | Đầu vào ≤200K | Đầu ra ≤200K | Đầu vào >200K | Đầu ra >200K | Ghi chú |
|---|---|---|---|---|---|
| Gemini 3 Pro Preview | $2.00 | $12.00 | $4.00 | $18.00 | Khả năng lập luận cao nhất |
| Gemini 2.5 Pro | $1.25 | $10.00 | $2.50 | $15.00 | Mô hình hàng đầu trước đây |
| Claude 3.5 Sonnet | $3.00 | $15.00 | Giống nhau | Giống nhau | Không có phí ngữ cảnh dài |
Gemini 3 Pro đòi hỏi một mức giá cao hơn cho khả năng lập luận vượt trội và ngữ cảnh 1M+ sắp tới của nó, nhưng đầu ra vẫn cạnh tranh với các mô hình hàng đầu khác.
Triển vọng giá trong tương lai
Google thường giảm giá 20–50% khi một mô hình xem trước trở nên ổn định và hiệu quả được cải thiện. Dự kiến giá ổn định của Gemini 3 Pro vào đầu năm 2026 sẽ ổn định khoảng $1.50/$10 (≤200K) và $3/$15 (>200K), với chiết khấu bộ nhớ đệm và theo gói được giới thiệu đồng thời.
Kết luận
API Gemini 3 Pro ra mắt với mức giá rõ ràng, phân cấp theo ngữ cảnh: $2.00/$12.00 mỗi triệu token cho ngữ cảnh lên đến 200K và $4.00/$18.00 cho ngữ cảnh lớn hơn. Quyền truy cập xem trước vẫn miễn phí về cơ bản để thử nghiệm trong AI Studio, trong khi việc sử dụng sản xuất tuân theo cơ chế trả tiền theo mức sử dụng.
Tận dụng các công cụ như Apidog để giám sát từng token và tối ưu hóa lời nhắc ngay từ ngày đầu tiên. Cách tiếp cận này cho phép các nhà phát triển khai thác mô hình thông minh nhất của Google mà không gặp bất ngờ về ngân sách. Khi mô hình ổn định, hãy mong đợi những cải tiến sẽ làm cho nó thậm chí còn hiệu quả hơn về chi phí cho các khối lượng công việc đòi hỏi nhiều khả năng lập luận và đa phương thức.
