Gemini 3.5 Flash ra mắt vào ngày 19 tháng 5 năm 2026 và Google đã duy trì tầng truy cập miễn phí. Flash có thể được gọi thông qua khóa API miễn phí ngay hôm nay; phiên bản Pro sẽ ra mắt vào tháng 6. Nếu bạn muốn sử dụng Flash mà không phải trả một xu nào, đây là năm cách thực sự hiệu quả.
Hướng dẫn này tập trung vào việc thiết lập Flash một cách thực tế. Khi hoàn thành, bạn sẽ có một khóa miễn phí, các mẫu code hoạt động và hiểu rõ về các giới hạn.

Tóm tắt nhanh
| Đường dẫn | Những gì bạn nhận được | Giới hạn |
|---|---|---|
| Ứng dụng Gemini | Trò chuyện đầy đủ + nhập ảnh trên Flash | Giới hạn tin nhắn hàng ngày trên tầng miễn phí |
| Sân chơi Google AI Studio | Giao diện web để thử Flash với điều khiển thông số thô | Không có hạn ngạch cứng trong giao diện người dùng |
| Khóa API AI Studio | Truy cập REST/SDK tới gemini-3.5-flash |
~1.500 yêu cầu/ngày |
| Tín dụng tài khoản mới của Vertex AI | Truy cập Flash cấp độ sản xuất | 300 USD tín dụng, 90 ngày |
| CLI Gemini | Truy cập Flash qua terminal bằng tài khoản Google | 1.000 yêu cầu hàng ngày |
Mỗi đường dẫn đều có những đánh đổi. Con đường phù hợp sẽ phụ thuộc vào việc bạn đang xây dựng, tự động hóa hay chỉ đơn giản là dùng thử Flash.
Cách 1: Ứng dụng Gemini (cách không cần cài đặt)
Nếu bạn chỉ muốn trò chuyện với Gemini 3.5 Flash, đây là cách nhanh nhất.
- Truy cập gemini.google.com
- Đăng nhập bằng tài khoản Google
- Trong bộ chọn mô hình, chọn 3.5 Flash
- Bắt đầu trò chuyện

Ứng dụng xử lý văn bản, nhập ảnh, tải tệp lên và chỉnh sửa tài liệu theo kiểu Canvas. Người dùng tầng miễn phí có giới hạn tin nhắn hàng ngày sẽ được đặt lại mỗi ngày. Nếu đạt đến giới hạn, bạn sẽ phải đợi hoặc nâng cấp.
Điểm mạnh của ứng dụng:
- Nghiên cứu và viết lách mà bạn không cần lập trình bất cứ điều gì
- Phân tích hình ảnh mà không cần thiết lập API
- So sánh song song với các mô hình trò chuyện miễn phí khác
Điểm hạn chế của ứng dụng:
- Xây dựng phần mềm với Flash trong vòng lặp
- Xử lý hàng loạt
- Bất cứ điều gì cần phản hồi có thể lập trình được
Cách 2: Google AI Studio (sân chơi trình duyệt)
Google AI Studio là sân chơi dành cho nhà phát triển. Nó miễn phí, hoạt động trên nền web và cung cấp cho bạn quyền kiểm soát thô đối với mọi tham số của Flash.
- Mở aistudio.google.com
- Đăng nhập
- Nhấp vào Tạo lời nhắc mới hoặc chọn một mẫu có sẵn
- Trong menu thả xuống mô hình, chọn
gemini-3.5-flash - Nhập lời nhắc của bạn và nhấp Chạy

Những điều bạn có thể làm ở đây mà ứng dụng Gemini không thể:
- Điều chỉnh nhiệt độ, top-K, top-P
- Đặt hướng dẫn hệ thống
- Kiểm tra đầu ra có cấu trúc dạng JSON
- Chạy lời nhắc đa phương thức với nhiều hình ảnh
- Nhận mã Python/Node tương đương cho lời nhắc của bạn
- Xuất lời nhắc sang một lời gọi API Flash
AI Studio không tính phí cho việc sử dụng dựa trên trình duyệt. Đây là con đường miễn phí tốt nhất để thiết kế lời nhắc trước khi bạn bắt tay vào xây dựng.
Cách 3: Khóa API Gemini 3.5 Flash miễn phí (cách xây dựng)
Đây là điều mà hầu hết các nhà phát triển mong muốn. Cùng một tài khoản AI Studio cung cấp năng lượng cho sân chơi cũng cấp một khóa API miễn phí hoạt động với gemini-3.5-flash.
Lấy khóa
- Trong AI Studio, nhấp vào Lấy khóa API trong thanh điều hướng bên trái
- Chọn hoặc tạo một dự án
- Nhấp vào Tạo khóa API
- Sao chép và lưu trữ ở nơi an toàn

Vậy là xong. Không cần thẻ tín dụng. Không cần cuộc gọi xác minh. Khóa bắt đầu hoạt động ngay lập tức với Flash. Hướng dẫn chi tiết từng bước có trong hướng dẫn khóa API Gemini miễn phí của chúng tôi.
Hạn ngạch tầng miễn phí cho Flash
Tính đến tháng 5 năm 2026, tầng miễn phí của Google cho gemini-3.5-flash đạt khoảng:
- 1.500 yêu cầu mỗi ngày
- 1 triệu token mỗi phút
- 15 yêu cầu mỗi phút
Các con số có thể thay đổi; hãy kiểm tra trang giá của Google để biết giới hạn hiện tại trước khi bạn xây dựng mã sản xuất dựa trên đó. Để biết toàn bộ cách tính giá khi bạn vượt quá mức miễn phí, hãy xem phân tích giá Flash của chúng tôi.
Sử dụng khóa Flash
Ba ví dụ nhanh để xác nhận nó hoạt động.
Python:
import os
from google import genai
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Give me three startup ideas for API tooling in 2026."
)
print(response.text)
Node.js:
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });
const response = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Give me three startup ideas for API tooling in 2026.",
});
console.log(response.text);
curl:
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{"contents":[{"parts":[{"text":"Hello Gemini 3.5 Flash"}]}]}'
Để biết cài đặt đầy đủ bao gồm streaming và tool calls, hãy xem hướng dẫn API Gemini 3.5 Flash của chúng tôi.
Kiểm tra yêu cầu Flash tầng miễn phí trong Apidog
Nếu bạn sắp sử dụng hết 1.500 yêu cầu Flash/ngày, bạn muốn đảm bảo mỗi yêu cầu đều thực hiện công việc hữu ích. Apidog cung cấp cho bạn một không gian làm việc nơi bạn có thể lưu điểm cuối Flash, lưu trữ khóa miễn phí của mình dưới dạng biến môi trường và phát lại các yêu cầu mà không cần viết lại curl mỗi lần.

Quy trình:
- Tải Apidog
- Tạo một yêu cầu mới, dán đoạn mã curl từ trên
- Chuyển khóa API vào các biến môi trường của Apidog
- Lưu yêu cầu, thêm các xác nhận phản hồi
- Chạy nó như một phần của kịch bản thử nghiệm khi bạn thay đổi lời nhắc
Lợi ích: bạn sẽ không vô tình tiêu hết hạn ngạch Flash hàng ngày của mình khi gỡ lỗi cùng một yêu cầu bị lỗi năm lần. Apidog lưu vào bộ nhớ cache lịch sử phản hồi cho bạn.
Cách 4: Tín dụng tài khoản mới của Vertex AI
Nếu bạn tạo một tài khoản Google Cloud hoàn toàn mới, bạn sẽ nhận được 300 USD tín dụng có giá trị trong 90 ngày. Các tín dụng này bao gồm điểm cuối Gemini 3.5 Flash được lưu trữ của Vertex AI, đây là cùng một mô hình nhưng có các kiểm soát cấp tổ chức.
Cách sử dụng:
- Đăng ký tại cloud.google.com và xác nhận tín dụng 300 USD
- Bật API Vertex AI
- Tạo một tài khoản dịch vụ, cấp cho nó quyền
aiplatform.user - Tải xuống thông tin xác thực JSON
- Gọi Flash qua Vertex AI SDK
import vertexai
from vertexai.generative_models import GenerativeModel
vertexai.init(project="your-project-id", location="us-central1")
model = GenerativeModel("gemini-3.5-flash")
response = model.generate_content("Explain CAP theorem.")
print(response.text)
Vertex không có cùng giới hạn yêu cầu mỗi ngày như tầng miễn phí của AI Studio. Thay vào đó, bạn bị giới hạn bởi số tiền tín dụng. Với Flash có giá khoảng 1,50 USD/9 USD cho mỗi 1 triệu token, 300 USD có thể kéo dài đáng kể, có thể là vài tuần sử dụng vừa phải.
Những điều cần lưu ý:
- Tín dụng hết hạn sau 90 ngày; tín dụng không sử dụng sẽ bị mất
- Tự động chuyển đổi sang tài khoản trả phí khi hết hạn, hãy tắt nó nếu bạn không muốn gặp bất ngờ
- Vertex yêu cầu thiết lập phức tạp hơn AI Studio, vì vậy hãy tính đến điều đó trong kế hoạch của bạn
Cách 5: Gemini CLI (cách dùng terminal)
Gemini CLI là một ứng dụng khách terminal mã nguồn mở của Google. Nó xác thực bằng tài khoản Google của bạn và cung cấp cho bạn hạn ngạch hàng ngày là 1.000 yêu cầu đối với tầng miễn phí của Gemini, không cần khóa API.
Cài đặt và chạy:
# Cài đặt
npm install -g @google/gemini-cli
# Chạy
gemini
# Trong CLI, chọn gemini-3.5-flash
Đây là cách dễ nhất để viết script Flash ngẫu hứng từ terminal của bạn. Nó cũng đóng vai trò là một giải pháp thay thế Claude Code miễn phí cho công việc lập trình, vì nó có thể đọc tệp và chạy công cụ.
Điểm mạnh của CLI:
- Các script nhanh mà bạn thường phải dán vào giao diện người dùng trò chuyện
- Quy trình làm việc grep + tóm tắt codebase
- Hạn ngạch hàng ngày riêng biệt với hạn ngạch khóa API của bạn
Điểm hạn chế của CLI:
- Tích hợp sản xuất (sử dụng đường dẫn khóa API thay thế)
- Các khối lượng công việc cần kiểm soát streaming HTTP thô
Cách 6 (thêm): OpenRouter và các cổng không giới hạn
Một số cổng bên thứ ba tổng hợp quyền truy cập mô hình AI và định tuyến các cuộc gọi Flash miễn phí hoặc gần như miễn phí thông qua dịch vụ của họ. Mô hình này được đề cập trong bài viết Lấy API Gemini không giới hạn miễn phí của chúng tôi.
Lưu ý nhanh:
- Chất lượng khác nhau; một số cổng điều tiết rất mạnh
- Lời nhắc của bạn đi qua bên thứ ba, không gửi dữ liệu nhạy cảm
- Một số chấp nhận thanh toán bằng tiền điện tử hoặc các giải pháp thay thế khác
Hãy coi đây là một giải pháp dự phòng, không phải là ngăn xếp chính. Để xây dựng thực sự, hãy gắn bó với AI Studio hoặc Vertex.
Bạn nên chọn cách nào để dùng Flash miễn phí?
Một cây quyết định đơn giản:
- Chỉ muốn trò chuyện? Ứng dụng Gemini
- Thiết kế lời nhắc? Sân chơi AI Studio
- Xây dựng phần mềm? Khóa API AI Studio
- Cần hạn ngạch cao hơn và có tài khoản GCP mới? Tín dụng Vertex AI
- Viết script từ terminal của bạn? Gemini CLI
- Muốn quy mô lớn và không ngại bên thứ ba? OpenRouter và các dịch vụ tương tự
Hầu hết các nhà phát triển cuối cùng đều sử dụng hai cách kết hợp: khóa AI Studio để xây dựng chính, cộng với tín dụng Vertex để kiểm tra áp lực.
Flash miễn phí so với Flash trả phí: khi nào nên nâng cấp
Tầng miễn phí rất hào phóng. Hầu hết các dự án nhỏ không bao giờ vượt quá nó. Ba dấu hiệu cho thấy đã đến lúc chuyển sang Flash trả phí:
- Bạn đạt đến giới hạn 1.500 yêu cầu/ngày nhiều ngày liên tiếp. Hãy nâng cấp. Flash trả phí đủ rẻ để thời gian phát triển dành cho việc lách hạn ngạch còn tốn kém hơn.
- Bạn cần thông lượng mỗi phút cao hơn. Tầng miễn phí giới hạn ở 15 RPM; các tầng trả phí có thể cao hơn nhiều.
- Bạn cần lưu trữ dữ liệu hoặc nhật ký kiểm tra. Chuyển sang Vertex AI trên tài khoản đã thanh toán.
Để biết cách tính giá trả phí (tỷ lệ mỗi token, chiết khấu theo lô, các kịch bản chi phí thực tế), hãy xem hướng dẫn định giá Gemini 3.5 Flash của chúng tôi.
Hãy so sánh cách tính nâng cấp với các mô hình lân cận nữa. GPT-5.5 và Claude Opus 4.7 đều có các cách miễn phí riêng với các giới hạn khác nhau; đôi khi câu trả lời rẻ nhất là kết hợp các nhà cung cấp cho các khối lượng công việc khác nhau. So sánh ba chiều sẽ phân tích điểm mạnh của từng mô hình.
Mẹo để kéo dài tầng Flash miễn phí
Năm thói quen nhỏ giúp 1.500 yêu cầu/ngày kéo dài hơn:
- Cache mạnh mẽ. Các truy vấn lặp lại nên truy cập bộ nhớ cache của bạn, không phải API.
- Sử dụng chế độ hàng loạt cho công việc lớn. Chế độ hàng loạt của API Gemini giúp bạn giảm giá 50% cho các công việc không theo thời gian thực; nó cũng được tính vào một hạn ngạch riêng.
- Sử dụng đầu ra có cấu trúc. Một lời nhắc lược đồ JSON thực hiện trong một lần gọi những gì phân tích cú pháp regex trên văn bản dạng tự do thực hiện trong ba lần.
- Xác thực trước đầu vào trong Apidog. Các xác nhận của Apidog bắt được các yêu cầu bị lỗi trước khi chúng tiêu tốn hạn ngạch.
- Ưu tiên Flash hơn Pro theo mặc định. Khi Pro ra mắt, nó sẽ có hạn ngạch chặt chẽ hơn. Hãy tiếp tục sử dụng Flash cho công việc thường xuyên.
Câu hỏi thường gặp
Gemini 3.5 Flash có thực sự miễn phí không? Có, nhưng có giới hạn. Ứng dụng Gemini, AI Studio và khóa API AI Studio đều cung cấp cho bạn quyền truy cập Flash miễn phí với hạn ngạch hàng ngày. Các tầng trả phí tồn tại để có thông lượng cao hơn.
Tôi có cần thẻ tín dụng để lấy khóa Flash miễn phí không? Không. Tầng miễn phí của AI Studio không yêu cầu thẻ. Vertex AI yêu cầu thẻ cho khoản tín dụng 300 USD, nhưng bạn sẽ không bị tính phí cho đến khi bạn nâng cấp.
Tôi có thể sử dụng khóa Flash miễn phí trong sản xuất không? Về mặt kỹ thuật là có, nhưng giới hạn 1.500 yêu cầu/ngày sẽ nhanh chóng đạt đến. Đối với sản xuất, hãy chuyển sang tài khoản trả phí hoặc Vertex AI.
Gemini 3.5 Pro cũng sẽ miễn phí chứ? Google trong lịch sử đã mở rộng quyền truy cập tầng miễn phí cho các mô hình Pro tại GA. Hãy mong đợi Pro trên AI Studio miễn phí với hạn ngạch chặt chẽ hơn vào tháng tới.
Tôi có thể sử dụng Flash miễn phí trong Cursor hoặc VS Code không? Có, cả hai đều hỗ trợ khóa API tùy chỉnh. Mô hình tương tự như hướng dẫn Gemini 3.0 Pro với Cursor của chúng tôi, chỉ cần đổi chuỗi mô hình thành gemini-3.5-flash.
Có nhật ký sử dụng trên tầng miễn phí không? Có. Mở AI Studio, nhấp vào dự án của bạn và xem tab Hoạt động.
Có điều gì cần lưu ý không? Có hai điều. Thứ nhất, tầng miễn phí có thể sử dụng các lời nhắc của bạn để cải thiện các mô hình của Google (có thể từ chối trong cài đặt AI Studio). Thứ hai, giới hạn tốc độ của tầng miễn phí có thể thay đổi mà không cần thông báo, đừng đặt cược thời hạn ra mắt vào chúng.
Dự án khởi đầu để kiểm tra tầng Flash miễn phí
Hãy chọn một thứ cụ thể. Xây dựng một API nhỏ lấy URL, tìm nạp trang và sử dụng Flash để tóm tắt nó.
import os, requests
from google import genai
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
def summarize_url(url):
html = requests.get(url).text
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=f"Summarize this webpage in 3 bullets:\n\n{html[:50000]}"
)
return response.text
print(summarize_url("https://blog.google/"))
Kết nối nó trong Apidog để kiểm tra toàn bộ yêu cầu/phản hồi, sau đó triển khai nó lên Cloud Run hoặc dịch vụ lưu trữ bạn chọn. Nếu bạn có thể triển khai điều đó, bạn đã hiểu rõ đường dẫn Flash miễn phí từ đầu đến cuối.
