Dòng mô hình tiên tiến Gemini của Google là dòng có chi phí hiệu quả nhất cho khối lượng công việc lớn, với Gemini 2.5 Pro có giá 1.25 USD / 10 USD mỗi triệu token và các phiên bản Flash có giá rẻ hơn nhiều. Đối với một ứng dụng công cộng miễn phí, một dự án phụ, hoặc một sản phẩm hackathon, ngay cả những mức giá đó cũng sẽ nhanh chóng tăng lên khi có vài nghìn người dùng truy cập điểm cuối của bạn. Puter.js đảo ngược mô hình: nó cung cấp toàn bộ dòng Gemini (2.5 Pro, 2.5 Flash, 2.0 Flash, bản xem trước 3 Flash, cộng với dòng Gemma 2/3/4 mã nguồn mở) mà không cần khóa Google API và tính phí người dùng cuối thay vì bạn. Đối với nhà phát triển, giao diện là miễn phí và không giới hạn.
Tóm tắt
- Puter.js cung cấp cho nhà phát triển quyền truy cập miễn phí, không giới hạn vào toàn bộ danh mục Gemini và Gemma mà không cần khóa Google API, không cần dự án Google Cloud, không cần máy chủ.
- Các phiên bản Gemini được hỗ trợ: 2.5 Pro, 2.5 Flash, 2.5 Flash Lite, 2.0 Flash, 2.0 Flash Lite, 3 Flash Preview, cộng với các bản xem trước cũ hơn.
- Các phiên bản Gemma được hỗ trợ: Gemma 2, 3, 4 với nhiều kích cỡ (4B, 12B, 27B, 31B, 26B-A4B).
- Chỉ một thẻ
<script>, một lệnh gọi hàm, bạn đã có thể trò chuyện với Gemini. - Truyền trực tuyến, đầu vào hình ảnh, kiểm soát nhiệt độ đều hoạt động trong trình duyệt.
- Người dùng cuối thanh toán chi phí sử dụng từ tài khoản Puter của họ; bạn không phải trả gì, mãi mãi.
- Sử dụng Apidog để đánh giá Puter so với API Gemini chính thức cho việc lập kế hoạch di chuyển.
Cách thức hoạt động của "miễn phí không giới hạn"
Puter.js đảo ngược mô hình thanh toán LLM. Thay vì bạn giữ khóa Google AI Studio và chịu mọi chi phí token, người dùng cuối của bạn đăng nhập vào Puter (tài khoản miễn phí) và lệnh gọi sẽ được tính vào số dư của họ. Các tài khoản Puter mới sẽ nhận được tín dụng khởi điểm; người dùng nạp thêm nếu muốn sử dụng nhiều hơn.
Đối với nhà phát triển, các hệ quả rất rõ ràng:
- Không cần dự án Google Cloud, không cần khóa AI Studio. Không cần đàm phán hạn mức, không cần xoay vòng khóa, không cần quan hệ thanh toán.
- Không có giới hạn sử dụng từ phía bạn. “Giới hạn” của bạn mở rộng tuyến tính theo số lượng người dùng của bạn.
- Không bị khóa vào nhà cung cấp với thanh toán của Google. Puter xử lý lệnh gọi upstream.
Sự đánh đổi: đây là ưu tiên trình duyệt. Một công việc định kỳ chạy trên backend không thể sử dụng Puter nếu không có phiên người dùng đã đăng nhập.
Bước 1: Cài đặt
Chỉ một thẻ CDN, không cần bước build:
<script src="https://js.puter.com/v2/"></script>
Đó là toàn bộ quá trình cài đặt. Hoặc đối với một ứng dụng được đóng gói:
npm install @heyputer/puter.js
import { puter } from '@heyputer/puter.js';
Bước 2: Chọn một mô hình
Dòng Gemini trên Puter, với công cụ phù hợp cho từng mục đích:
| ID Mô hình | Khi nào nên dùng |
|---|---|
google/gemini-2.5-pro |
Lý luận sâu sắc nhất; phân tích phức tạp và các tác vụ ngữ cảnh dài |
google/gemini-2.5-flash |
Mô hình mặc định hàng ngày; cân bằng tốt giữa chi phí và chất lượng |
google/gemini-2.5-flash-lite |
Biến thể Flash rẻ nhất; phân loại khối lượng lớn |
google/gemini-2.0-flash |
Nền tảng ổn định; hành vi dễ hiểu |
google/gemini-3-flash-preview |
Bản xem trước mới nhất; tốc độ tiên tiến |
google/gemma-3-27b-it |
Gemma mã nguồn mở; đã được tinh chỉnh hướng dẫn, tốt cho việc tinh chỉnh các baseline |
google/gemma-4-31b-it |
Gemma mã nguồn mở lớn nhất; gần với chất lượng Gemini đóng |
Đối với hầu hết các ứng dụng, hãy mặc định sử dụng gemini-2.5-flash và chỉ dùng phiên bản Pro cho các lời nhắc khó. Các biến thể Lite nhanh hơn một bậc và đủ tốt cho việc gắn thẻ, phân loại và hỏi đáp đơn giản.
Bước 3: Làm cho Gemini nói chuyện
Lệnh gọi tối thiểu khả thi:
<!DOCTYPE html>
<html>
<body>
<script src="https://js.puter.com/v2/"></script>
<script>
puter.ai.chat(
"Giải thích học máy trong ba câu",
{ model: 'google/gemini-2.5-flash' }
).then(response => {
puter.print(response);
});
</script>
</body>
</html>
Mở trong trình duyệt. Puter xử lý lệnh gọi, người dùng đăng nhập (hoặc tạo tài khoản Puter miễn phí khi chạy lần đầu), và phản hồi được in ra trang. Không có khóa API, không có biến môi trường, không có máy chủ.
Bước 4: Truyền trực tuyến phản hồi
Đối với giao diện trò chuyện và các câu trả lời dài, truyền trực tuyến là mặc định phù hợp:
const response = await puter.ai.chat(
"Giải thích chi tiết quá trình quang hợp",
{
model: 'google/gemini-2.5-flash',
stream: true,
}
);
for await (const part of response) {
if (part?.text) {
outputDiv.innerHTML += part.text;
}
}
Mỗi part.text là một phần của phản hồi. Hãy nối vào UI của bạn; người dùng sẽ thấy văn bản xuất hiện từng chữ một.
Bước 5: Thị giác (đầu vào hình ảnh)
Tính năng mạnh nhất của Gemini là khả năng hiểu đa phương thức. Truyền một URL hình ảnh làm đối số thứ hai:
puter.ai.chat(
"Bạn thấy gì trong hình ảnh này? Mô tả màu sắc, vật thể và tâm trạng.",
"https://assets.puter.site/doge.jpeg",
{ model: 'google/gemini-2.5-flash' }
).then(response => {
puter.print(response);
});
Các trường hợp sử dụng: tạo văn bản thay thế, QA hình ảnh, phân tích ảnh chụp màn hình, OCR, công cụ hỗ trợ tiếp cận, gắn thẻ hình ảnh sản phẩm. Chất lượng thị giác của Gemini luôn mạnh mẽ đối với hình ảnh tự nhiên và biểu đồ; đối với ảnh chụp màn hình văn bản dày đặc, GPT-5.x đôi khi vượt trội hơn.
Bước 6: Tinh chỉnh nhiệt độ
Truyền các tham số tiêu chuẩn trong đối tượng tùy chọn:
const response = await puter.ai.chat(
'Viết một câu chuyện ngắn sáng tạo về một đầu bếp robot',
{
model: 'google/gemini-2.5-flash',
temperature: 0.2,
}
);
Nhiệt độ thấp hơn (0.0–0.3) cho đầu ra mang tính thực tế hoặc có cấu trúc, cao hơn (0.7–1.0) cho văn bản sáng tạo. Các thiết lập mặc định của Gemini Flash hoạt động tốt ở nhiệt độ 0.7 cho hầu hết các trường hợp sử dụng trò chuyện.
Bước 7: Cuộc hội thoại đa lượt
Truyền một mảng tin nhắn:
const messages = [
{ role: 'user', content: 'Tôi đang xây dựng một ứng dụng Next.js với Postgres.' },
{ role: 'assistant', content: 'Đã hiểu. Bạn cần trợ giúp về điều gì?' },
{ role: 'user', content: 'Tôi nên cấu trúc các migration như thế nào?' },
];
const response = await puter.ai.chat(messages, {
model: 'google/gemini-2.5-pro',
});
console.log(response);
Đẩy mỗi tin nhắn của người dùng và mỗi phản hồi của trợ lý vào mảng trước lệnh gọi tiếp theo. Gemini đọc toàn bộ bản ghi và duy trì tính nhất quán qua các lượt.
So sánh Gemini với các mô hình khác trên cùng một lời nhắc
Puter cung cấp mọi LLM lớn thông qua một giao diện duy nhất. Cách nhanh nhất để tìm mô hình phù hợp cho trường hợp sử dụng của bạn là viết script cùng một lời nhắc cho các nhà cung cấp khác nhau:
const models = [
'google/gemini-2.5-flash',
'claude-sonnet-4-6',
'gpt-5.5',
'x-ai/grok-4.3',
];
const prompt = "Tái cấu trúc thành phần React này để sử dụng hooks: ...";
for (const model of models) {
const start = performance.now();
const response = await puter.ai.chat(prompt, { model });
const elapsed = performance.now() - start;
console.log(`${model}: ${elapsed.toFixed(0)}ms`);
console.log(response);
console.log('---');
}
Chạy một lần và bạn sẽ thấy mô hình đánh đổi. Gemini Flash thường thắng về độ trễ, Sonnet thắng về chất lượng trong lập trình, GPT-5.5 thắng về chất lượng trong viết văn dài, Grok 4.3 thắng về chi phí. Hãy chọn mô hình phù hợp với nhu cầu của bạn.
Những gì bạn nhận được và những gì bạn không nhận được
Sự phân chia rõ ràng:
Bạn nhận được:
- Toàn bộ danh mục Gemini 2.5/2.0/3 Flash cộng với 2.5 Pro
- Dòng Gemma mã nguồn mở (2/3/4) cho các quy trình làm việc trọng lượng mở
- Các cuộc hội thoại đa lượt
- Phản hồi truyền trực tuyến
- Đầu vào thị giác (URL hình ảnh)
- Nhiệt độ, max_tokens, lời nhắc hệ thống
- Khả năng mở rộng sẵn sàng cho sản xuất
Bạn có thể không nhận được (tùy thuộc vào phiên bản Puter):
- Gọi hàm gốc trên Gemini (kiểm tra tài liệu Puter mới nhất)
- Công cụ thực thi mã
- Khả năng dựa trên Google Search
- Ngữ cảnh dài lên đến giới hạn 2 triệu token đầy đủ của Gemini
- Sử dụng phía máy chủ mà không có ngữ cảnh trình duyệt
- Khả năng nhìn thấy giới hạn tốc độ trực tiếp từ Google
Đối với các luồng tác nhân sâu cần thực thi mã và khả năng dựa trên, API Google AI Studio chính thức cung cấp nhiều hơn. Đối với các tác vụ trò chuyện, hỏi đáp, tạo nội dung và thị giác thông thường, Puter là đủ.
Khi nào nên sử dụng Puter so với API Gemini chính thức
Sự phân chia:
Sử dụng Puter khi:
- Bạn đang phát hành một ứng dụng công cộng miễn phí và không muốn bị lộ thông tin thanh toán.
- Bạn đang tạo mẫu và không muốn thiết lập dự án Google Cloud.
- Bạn muốn Gemini trong một trang web tĩnh, dự án hackathon hoặc tiện ích mở rộng trình duyệt mà không cần backend.
- Người dùng của bạn sẵn sàng đăng nhập vào Puter.
Sử dụng API Gemini chính thức khi:
- Bạn cần các lệnh gọi phía máy chủ (cron, batch, webhooks).
- Bạn cần thực thi mã, khả năng dựa trên Tìm kiếm, hoặc Gemini Pro với ngữ cảnh dài ở giới hạn 2 triệu token đầy đủ.
- Bạn cần một mối quan hệ hợp đồng với Google để tuân thủ.
- Bạn cần tinh chỉnh trên bộ dữ liệu của riêng mình.
- Người dùng của bạn sẽ không chấp nhận bước đăng nhập Puter.
Để xem hướng dẫn chi tiết về Gemini 3 Flash, hãy xem Cách sử dụng API Gemini 3 Flash Preview.
Kiểm tra tích hợp trong Apidog
Các lệnh gọi của Puter xảy ra trong trình duyệt, vì vậy bạn không thể tạo script chúng từ một trình chạy thử nghiệm backend. Mô hình hoạt động tốt:
- Xây dựng một trang tĩnh nhỏ với script Puter và một tham số truy vấn cho lời nhắc.
- Sử dụng Apidog để xác thực bề mặt API Google Gemini upstream (khi bạn cuối cùng di chuyển).
- Giữ cả hai trong các môi trường riêng biệt trong cùng bộ sưu tập Apidog để bạn có thể chuyển đổi chỉ với một cú nhấp chuột.
Tải Apidog và thiết lập hai môi trường: puter-prototype (một URL localhost chứa trang Puter của bạn) và gemini-prod (https://generativelanguage.googleapis.com/v1). Bộ sưu tập sẽ được chuyển sạch sẽ khi bạn hoàn tất. Để biết các mô hình kiểm thử API rộng hơn, hãy xem công cụ kiểm thử API cho kỹ sư QA.
Các cách khác để sử dụng LLM miễn phí qua Puter
Cùng một mô hình người dùng trả phí hoạt động cho mọi LLM lớn:
- Nhận API Claude không giới hạn miễn phí (Anthropic Opus, Sonnet, Haiku)
- Nhận API GPT-5.5 không giới hạn miễn phí (toàn bộ danh mục OpenAI)
- Cách sử dụng Grok 4.3 miễn phí (xAI)
- Nhận API DeepSeek không giới hạn miễn phí
Script Puter duy nhất xử lý tất cả. Thay đổi chuỗi model và bạn thay đổi nhà cung cấp.
Câu hỏi thường gặp
Đây có thực sự là không giới hạn, hay có một giới hạn ẩn nào không?Không giới hạn từ phía nhà phát triển, đúng vậy. Người dùng cuối có số dư trong tài khoản Puter của họ; tài khoản mới nhận được tín dụng khởi điểm và người dùng nạp thêm nếu muốn nhiều hơn.
Tôi có cần tài khoản Google hay dự án Google Cloud không?Không. Puter xử lý mối quan hệ với Google. Bạn sẽ không bao giờ thấy khóa Google API.
Tôi có thể sử dụng cái này trong sản xuất không?Có, đối với các ứng dụng dựa trên trình duyệt. Puter vận hành cơ sở hạ tầng sản xuất. Câu hỏi đúng là liệu người dùng của bạn có chấp nhận bước đăng nhập Puter hay không.
Gemini qua Puter có hoạt động giống hệt như API chính thức không?Đầu ra của mô hình là như nhau; Puter gọi API của Google thay mặt người dùng. Độ trễ có thể cao hơn một chút do bước trung gian, nhưng hành vi của mô hình không thay đổi.
Vậy còn cửa sổ ngữ cảnh 2 triệu token khổng lồ của Gemini thì sao?Puter hiện không cung cấp đầy đủ giới hạn 2 triệu token cho mọi biến thể mô hình. Đối với ngữ cảnh cực kỳ dài, API Google AI Studio chính thức là lựa chọn đúng đắn. Hầu hết các trường hợp sử dụng đều dưới 200 nghìn token, khi đó Puter vẫn hoạt động tốt.
Tôi có thể sử dụng Gemini qua Puter trong một bot Discord hoặc dịch vụ backend không?Không hoàn toàn. Puter ưu tiên trình duyệt và giả định một phiên người dùng. Các dịch vụ backend nên sử dụng trực tiếp API Gemini chính thức.
Tôi nên mặc định sử dụng mô hình nào?google/gemini-2.5-flash. Đây là sự cân bằng phù hợp giữa chi phí, tốc độ và chất lượng cho hầu hết các lời nhắc. Chuyển sang google/gemini-2.5-pro cho các tác vụ suy luận khó, và google/gemini-2.5-flash-lite cho phân loại khối lượng lớn.
Có hỗ trợ tạo hình ảnh (Imagen) không?Puter hiện cung cấp tính năng tạo hình ảnh thông qua các biến thể `gpt-image-2` và DALL-E của OpenAI, không phải Imagen. Xem Nhận API GPT-5.5 không giới hạn miễn phí để biết cách tạo hình ảnh.
Tổng kết
Gemini không giới hạn miễn phí thông qua Puter.js là cách đơn giản nhất cho bất kỳ ứng dụng dựa trên trình duyệt nào muốn có đầu ra đa phương thức chất lượng Google mà không cần thiết lập Google Cloud. Chỉ cần thêm script, chọn gemini-2.5-flash, viết lời nhắc. Người dùng cuối chịu chi phí sử dụng; bạn triển khai mà không cần khóa.
Đối với Gemini phía máy chủ, tinh chỉnh, công cụ thực thi mã hoặc ngữ cảnh 2 triệu token đầy đủ, API Google AI Studio chính thức vẫn là câu trả lời đúng. Đối với các bản thử nghiệm, sản phẩm hackathon, ứng dụng công cộng miễn phí và trang web tĩnh, Puter là giải pháp.
Xây dựng yêu cầu một lần trong Apidog, đánh giá Puter so với API chính thức và chọn con đường phù hợp với nhu cầu của bạn.
