API Gemini Miễn Phí Không Giới Hạn

Ashley Innocent

Ashley Innocent

9 tháng 5 2026

API Gemini Miễn Phí Không Giới Hạn

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

Dòng mô hình tiên tiến Gemini của Google là dòng có chi phí hiệu quả nhất cho khối lượng công việc lớn, với Gemini 2.5 Pro có giá 1.25 USD / 10 USD mỗi triệu token và các phiên bản Flash có giá rẻ hơn nhiều. Đối với một ứng dụng công cộng miễn phí, một dự án phụ, hoặc một sản phẩm hackathon, ngay cả những mức giá đó cũng sẽ nhanh chóng tăng lên khi có vài nghìn người dùng truy cập điểm cuối của bạn. Puter.js đảo ngược mô hình: nó cung cấp toàn bộ dòng Gemini (2.5 Pro, 2.5 Flash, 2.0 Flash, bản xem trước 3 Flash, cộng với dòng Gemma 2/3/4 mã nguồn mở) mà không cần khóa Google API và tính phí người dùng cuối thay vì bạn. Đối với nhà phát triển, giao diện là miễn phí và không giới hạn.

nút

Tóm tắt

Cách thức hoạt động của "miễn phí không giới hạn"

Puter.js đảo ngược mô hình thanh toán LLM. Thay vì bạn giữ khóa Google AI Studio và chịu mọi chi phí token, người dùng cuối của bạn đăng nhập vào Puter (tài khoản miễn phí) và lệnh gọi sẽ được tính vào số dư của họ. Các tài khoản Puter mới sẽ nhận được tín dụng khởi điểm; người dùng nạp thêm nếu muốn sử dụng nhiều hơn.

Đối với nhà phát triển, các hệ quả rất rõ ràng:

Sự đánh đổi: đây là ưu tiên trình duyệt. Một công việc định kỳ chạy trên backend không thể sử dụng Puter nếu không có phiên người dùng đã đăng nhập.

Bước 1: Cài đặt

Chỉ một thẻ CDN, không cần bước build:

<script src="https://js.puter.com/v2/"></script>

Đó là toàn bộ quá trình cài đặt. Hoặc đối với một ứng dụng được đóng gói:

npm install @heyputer/puter.js
import { puter } from '@heyputer/puter.js';

Bước 2: Chọn một mô hình

Dòng Gemini trên Puter, với công cụ phù hợp cho từng mục đích:

ID Mô hình Khi nào nên dùng
google/gemini-2.5-pro Lý luận sâu sắc nhất; phân tích phức tạp và các tác vụ ngữ cảnh dài
google/gemini-2.5-flash Mô hình mặc định hàng ngày; cân bằng tốt giữa chi phí và chất lượng
google/gemini-2.5-flash-lite Biến thể Flash rẻ nhất; phân loại khối lượng lớn
google/gemini-2.0-flash Nền tảng ổn định; hành vi dễ hiểu
google/gemini-3-flash-preview Bản xem trước mới nhất; tốc độ tiên tiến
google/gemma-3-27b-it Gemma mã nguồn mở; đã được tinh chỉnh hướng dẫn, tốt cho việc tinh chỉnh các baseline
google/gemma-4-31b-it Gemma mã nguồn mở lớn nhất; gần với chất lượng Gemini đóng

Đối với hầu hết các ứng dụng, hãy mặc định sử dụng gemini-2.5-flash và chỉ dùng phiên bản Pro cho các lời nhắc khó. Các biến thể Lite nhanh hơn một bậc và đủ tốt cho việc gắn thẻ, phân loại và hỏi đáp đơn giản.

Bước 3: Làm cho Gemini nói chuyện

Lệnh gọi tối thiểu khả thi:

<!DOCTYPE html>
<html>
<body>
  <script src="https://js.puter.com/v2/"></script>
  <script>
    puter.ai.chat(
      "Giải thích học máy trong ba câu",
      { model: 'google/gemini-2.5-flash' }
    ).then(response => {
      puter.print(response);
    });
  </script>
</body>
</html>

Mở trong trình duyệt. Puter xử lý lệnh gọi, người dùng đăng nhập (hoặc tạo tài khoản Puter miễn phí khi chạy lần đầu), và phản hồi được in ra trang. Không có khóa API, không có biến môi trường, không có máy chủ.

Bước 4: Truyền trực tuyến phản hồi

Đối với giao diện trò chuyện và các câu trả lời dài, truyền trực tuyến là mặc định phù hợp:

const response = await puter.ai.chat(
  "Giải thích chi tiết quá trình quang hợp",
  {
    model: 'google/gemini-2.5-flash',
    stream: true,
  }
);

for await (const part of response) {
  if (part?.text) {
    outputDiv.innerHTML += part.text;
  }
}

Mỗi part.text là một phần của phản hồi. Hãy nối vào UI của bạn; người dùng sẽ thấy văn bản xuất hiện từng chữ một.

Bước 5: Thị giác (đầu vào hình ảnh)

Tính năng mạnh nhất của Gemini là khả năng hiểu đa phương thức. Truyền một URL hình ảnh làm đối số thứ hai:

puter.ai.chat(
  "Bạn thấy gì trong hình ảnh này? Mô tả màu sắc, vật thể và tâm trạng.",
  "https://assets.puter.site/doge.jpeg",
  { model: 'google/gemini-2.5-flash' }
).then(response => {
  puter.print(response);
});

Các trường hợp sử dụng: tạo văn bản thay thế, QA hình ảnh, phân tích ảnh chụp màn hình, OCR, công cụ hỗ trợ tiếp cận, gắn thẻ hình ảnh sản phẩm. Chất lượng thị giác của Gemini luôn mạnh mẽ đối với hình ảnh tự nhiên và biểu đồ; đối với ảnh chụp màn hình văn bản dày đặc, GPT-5.x đôi khi vượt trội hơn.

Bước 6: Tinh chỉnh nhiệt độ

Truyền các tham số tiêu chuẩn trong đối tượng tùy chọn:

const response = await puter.ai.chat(
  'Viết một câu chuyện ngắn sáng tạo về một đầu bếp robot',
  {
    model: 'google/gemini-2.5-flash',
    temperature: 0.2,
  }
);

Nhiệt độ thấp hơn (0.0–0.3) cho đầu ra mang tính thực tế hoặc có cấu trúc, cao hơn (0.7–1.0) cho văn bản sáng tạo. Các thiết lập mặc định của Gemini Flash hoạt động tốt ở nhiệt độ 0.7 cho hầu hết các trường hợp sử dụng trò chuyện.

Bước 7: Cuộc hội thoại đa lượt

Truyền một mảng tin nhắn:

const messages = [
  { role: 'user', content: 'Tôi đang xây dựng một ứng dụng Next.js với Postgres.' },
  { role: 'assistant', content: 'Đã hiểu. Bạn cần trợ giúp về điều gì?' },
  { role: 'user', content: 'Tôi nên cấu trúc các migration như thế nào?' },
];

const response = await puter.ai.chat(messages, {
  model: 'google/gemini-2.5-pro',
});

console.log(response);

Đẩy mỗi tin nhắn của người dùng và mỗi phản hồi của trợ lý vào mảng trước lệnh gọi tiếp theo. Gemini đọc toàn bộ bản ghi và duy trì tính nhất quán qua các lượt.

So sánh Gemini với các mô hình khác trên cùng một lời nhắc

Puter cung cấp mọi LLM lớn thông qua một giao diện duy nhất. Cách nhanh nhất để tìm mô hình phù hợp cho trường hợp sử dụng của bạn là viết script cùng một lời nhắc cho các nhà cung cấp khác nhau:

const models = [
  'google/gemini-2.5-flash',
  'claude-sonnet-4-6',
  'gpt-5.5',
  'x-ai/grok-4.3',
];
const prompt = "Tái cấu trúc thành phần React này để sử dụng hooks: ...";

for (const model of models) {
  const start = performance.now();
  const response = await puter.ai.chat(prompt, { model });
  const elapsed = performance.now() - start;
  console.log(`${model}: ${elapsed.toFixed(0)}ms`);
  console.log(response);
  console.log('---');
}

Chạy một lần và bạn sẽ thấy mô hình đánh đổi. Gemini Flash thường thắng về độ trễ, Sonnet thắng về chất lượng trong lập trình, GPT-5.5 thắng về chất lượng trong viết văn dài, Grok 4.3 thắng về chi phí. Hãy chọn mô hình phù hợp với nhu cầu của bạn.

Những gì bạn nhận được và những gì bạn không nhận được

Sự phân chia rõ ràng:

Bạn nhận được:

Bạn có thể không nhận được (tùy thuộc vào phiên bản Puter):

Đối với các luồng tác nhân sâu cần thực thi mã và khả năng dựa trên, API Google AI Studio chính thức cung cấp nhiều hơn. Đối với các tác vụ trò chuyện, hỏi đáp, tạo nội dung và thị giác thông thường, Puter là đủ.

Khi nào nên sử dụng Puter so với API Gemini chính thức

Sự phân chia:

Sử dụng Puter khi:

Sử dụng API Gemini chính thức khi:

Để xem hướng dẫn chi tiết về Gemini 3 Flash, hãy xem Cách sử dụng API Gemini 3 Flash Preview.

Kiểm tra tích hợp trong Apidog

Các lệnh gọi của Puter xảy ra trong trình duyệt, vì vậy bạn không thể tạo script chúng từ một trình chạy thử nghiệm backend. Mô hình hoạt động tốt:

  1. Xây dựng một trang tĩnh nhỏ với script Puter và một tham số truy vấn cho lời nhắc.
  2. Sử dụng Apidog để xác thực bề mặt API Google Gemini upstream (khi bạn cuối cùng di chuyển).
  3. Giữ cả hai trong các môi trường riêng biệt trong cùng bộ sưu tập Apidog để bạn có thể chuyển đổi chỉ với một cú nhấp chuột.

Tải Apidog và thiết lập hai môi trường: puter-prototype (một URL localhost chứa trang Puter của bạn) và gemini-prod (https://generativelanguage.googleapis.com/v1). Bộ sưu tập sẽ được chuyển sạch sẽ khi bạn hoàn tất. Để biết các mô hình kiểm thử API rộng hơn, hãy xem công cụ kiểm thử API cho kỹ sư QA.

Các cách khác để sử dụng LLM miễn phí qua Puter

Cùng một mô hình người dùng trả phí hoạt động cho mọi LLM lớn:

Script Puter duy nhất xử lý tất cả. Thay đổi chuỗi model và bạn thay đổi nhà cung cấp.

Câu hỏi thường gặp

Đây có thực sự là không giới hạn, hay có một giới hạn ẩn nào không?Không giới hạn từ phía nhà phát triển, đúng vậy. Người dùng cuối có số dư trong tài khoản Puter của họ; tài khoản mới nhận được tín dụng khởi điểm và người dùng nạp thêm nếu muốn nhiều hơn.

Tôi có cần tài khoản Google hay dự án Google Cloud không?Không. Puter xử lý mối quan hệ với Google. Bạn sẽ không bao giờ thấy khóa Google API.

Tôi có thể sử dụng cái này trong sản xuất không?Có, đối với các ứng dụng dựa trên trình duyệt. Puter vận hành cơ sở hạ tầng sản xuất. Câu hỏi đúng là liệu người dùng của bạn có chấp nhận bước đăng nhập Puter hay không.

Gemini qua Puter có hoạt động giống hệt như API chính thức không?Đầu ra của mô hình là như nhau; Puter gọi API của Google thay mặt người dùng. Độ trễ có thể cao hơn một chút do bước trung gian, nhưng hành vi của mô hình không thay đổi.

Vậy còn cửa sổ ngữ cảnh 2 triệu token khổng lồ của Gemini thì sao?Puter hiện không cung cấp đầy đủ giới hạn 2 triệu token cho mọi biến thể mô hình. Đối với ngữ cảnh cực kỳ dài, API Google AI Studio chính thức là lựa chọn đúng đắn. Hầu hết các trường hợp sử dụng đều dưới 200 nghìn token, khi đó Puter vẫn hoạt động tốt.

Tôi có thể sử dụng Gemini qua Puter trong một bot Discord hoặc dịch vụ backend không?Không hoàn toàn. Puter ưu tiên trình duyệt và giả định một phiên người dùng. Các dịch vụ backend nên sử dụng trực tiếp API Gemini chính thức.

Tôi nên mặc định sử dụng mô hình nào?google/gemini-2.5-flash. Đây là sự cân bằng phù hợp giữa chi phí, tốc độ và chất lượng cho hầu hết các lời nhắc. Chuyển sang google/gemini-2.5-pro cho các tác vụ suy luận khó, và google/gemini-2.5-flash-lite cho phân loại khối lượng lớn.

Có hỗ trợ tạo hình ảnh (Imagen) không?Puter hiện cung cấp tính năng tạo hình ảnh thông qua các biến thể `gpt-image-2` và DALL-E của OpenAI, không phải Imagen. Xem Nhận API GPT-5.5 không giới hạn miễn phí để biết cách tạo hình ảnh.

Tổng kết

Gemini không giới hạn miễn phí thông qua Puter.js là cách đơn giản nhất cho bất kỳ ứng dụng dựa trên trình duyệt nào muốn có đầu ra đa phương thức chất lượng Google mà không cần thiết lập Google Cloud. Chỉ cần thêm script, chọn gemini-2.5-flash, viết lời nhắc. Người dùng cuối chịu chi phí sử dụng; bạn triển khai mà không cần khóa.

Đối với Gemini phía máy chủ, tinh chỉnh, công cụ thực thi mã hoặc ngữ cảnh 2 triệu token đầy đủ, API Google AI Studio chính thức vẫn là câu trả lời đúng. Đối với các bản thử nghiệm, sản phẩm hackathon, ứng dụng công cộng miễn phí và trang web tĩnh, Puter là giải pháp.

Xây dựng yêu cầu một lần trong Apidog, đánh giá Puter so với API chính thức và chọn con đường phù hợp với nhu cầu của bạn.

nút

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API