Dòng mô hình Claude của Anthropic là dòng mô hình mã nguồn đóng có năng lực nhất cho các công việc lập trình nghiêm túc, tác nhân tự động và suy luận ngữ cảnh dài, và giá API phản ánh điều đó: Sonnet có giá 3 đô la / 15 đô la cho mỗi triệu token, Opus còn cao hơn. Chi phí đó khiến hầu hết các dự án phụ phải dừng lại trước khi chúng bắt đầu. Có một con đường đảo ngược mô hình thanh toán: Puter.js cung cấp toàn bộ dòng Claude (Opus 4.7, Sonnet 4.6, Haiku 4.5 và bảy biến thể khác) mà không cần khóa Anthropic, và tính phí người dùng cuối thay vì nhà phát triển. Đối với bạn với tư cách là người xây dựng, nó hoàn toàn miễn phí và không giới hạn về mặt cấu trúc.
Hướng dẫn này sẽ trình bày toàn bộ quá trình thiết lập: các ID mô hình, mã hoạt động, truyền phát trực tuyến và những đánh đổi bạn cần biết trước khi triển khai.
TL;DR (Tóm tắt)
- Puter.js cung cấp cho nhà phát triển quyền truy cập miễn phí, không giới hạn vào toàn bộ dòng Claude mà không cần khóa API, không tính phí Anthropic, không cần máy chủ.
- Người dùng cuối tự thanh toán chi phí sử dụng của họ từ tài khoản Puter; bạn không phải trả gì cả.
- Các mô hình được hỗ trợ: Opus 4.7, Opus 4.6, Opus 4.6 Fast, Opus 4.5, Opus 4.1, Opus 4, Sonnet 4.6, Sonnet 4.5, Sonnet 4, Haiku 4.5.
- Chỉ cần một thẻ
<script>, một lệnh gọi hàm (puter.ai.chat), và bạn có thể trò chuyện với Claude. - Tính năng truyền phát trực tuyến, lời nhắc hệ thống, các cuộc hội thoại nhiều lượt đều hoạt động; Puter phản ánh cấu trúc tin nhắn của Anthropic.
- Sử dụng Apidog để viết kịch bản cùng một lời nhắc chống lại Claude thông qua Puter và chống lại API Anthropic chính thức để đánh giá hiệu năng.
Cách thức hoạt động của mô hình “miễn phí không giới hạn”
Puter.js là một thư viện AI và đám mây không máy chủ chạy trong trình duyệt. Sự thay đổi kiến trúc: thay vì bạn giữ khóa API của Anthropic và chịu chi phí, người dùng cuối của bạn đăng nhập vào Puter (tài khoản miễn phí) và cuộc gọi sẽ được tính phí vào số dư của họ. Các tài khoản Puter mới đi kèm với tín dụng khởi đầu; người dùng nạp thêm nếu họ muốn sử dụng nhiều hơn.
Đối với nhà phát triển, điều này có nghĩa là ba điều sau:
- Không có khóa API trong kho lưu trữ của bạn. Không rủi ro rò rỉ, không cần xoay vòng, không cần quản lý khóa theo dự án.
- Không giới hạn sử dụng từ phía bạn. Mọi người dùng đều chạy trên tài khoản của riêng họ, vì vậy “giới hạn” của bạn sẽ tăng tuyến tính theo số lượng người dùng của bạn.
- Không cần mối quan hệ với Anthropic. Bạn không bao giờ ký hợp đồng với Anthropic; Puter là bên trung gian.
Sự đánh đổi: đây là giải pháp ưu tiên trình duyệt. Một tập lệnh Python phía backend không thể sử dụng Puter nếu không có phiên người dùng đã đăng nhập. Để sử dụng phía backend, hãy xem phần các lựa chọn thay thế bên dưới.
Bước 1: Chèn tập lệnh
Một thẻ trong HTML của bạn, không cần bước xây dựng:
<script src="https://js.puter.com/v2/"></script>
Đó là toàn bộ quá trình cài đặt. Không có npm install, không có cấu hình khóa, không có thiết lập DNS. Nếu bạn thích NPM cho một ứng dụng đóng gói:
npm install @heyputer/puter.js
import { puter } from '@heyputer/puter.js';
Thẻ CDN là con đường ít trở ngại nhất cho một trang web tĩnh hoặc một bản thử nghiệm nhanh. Việc import qua NPM cung cấp cho bạn tính năng tree-shaking và kiểu TypeScript trong một bản build Vite hoặc Webpack.
Bước 2: Chọn một mô hình Claude
Puter cung cấp toàn bộ danh mục của Anthropic. Các ID mô hình tuân theo cách đặt tên của Anthropic với dấu gạch ngang:
| ID Mô hình | Khi nào nên sử dụng |
|---|---|
claude-opus-4-7 |
Mô hình hàng đầu mới nhất; suy luận sâu sắc nhất, công việc tác nhân tự động tốt nhất |
claude-opus-4-6 |
Mô hình hàng đầu trước đây; lập trình mạnh mẽ, hơi rẻ hơn |
claude-opus-4.6-fast |
Biến thể Opus có độ trễ thấp hơn |
claude-opus-4-5 |
Lựa chọn ổn định cho các tác nhân sản xuất |
claude-opus-4-1 |
Ổn định cũ; hành vi được hiểu rõ |
claude-opus-4 |
Phiên bản gốc của Opus 4 |
claude-sonnet-4-6 |
Mô hình sử dụng hàng ngày mặc định; cân bằng tốt giữa chi phí/chất lượng |
claude-sonnet-4-5 |
Phiên bản Sonnet trước; rẻ hơn, vẫn xuất sắc cho hầu hết các tác vụ |
claude-sonnet-4 |
Phiên bản gốc của Sonnet 4 |
claude-haiku-4-5 |
Nhanh nhất, rẻ nhất; tốt cho phân loại khối lượng lớn |
Hai mô hình bạn nên ưu tiên đầu tiên: claude-sonnet-4-6 cho suy luận hàng ngày và claude-haiku-4-5 cho phân loại nhanh. Sử dụng claude-opus-4-7 khi bạn cần độ sâu thực sự (suy luận dài, đánh giá mã phức tạp, lập kế hoạch đa bước tác nhân tự động).
Bước 3: Cho Claude trò chuyện
Cuộc gọi tối thiểu khả dụng:
<!DOCTYPE html>
<html>
<body>
<script src="https://js.puter.com/v2/"></script>
<script>
puter.ai.chat(
"Explain quantum computing in simple terms",
{ model: 'claude-sonnet-4-6' }
).then(response => {
puter.print(response.message.content[0].text);
});
</script>
</body>
</html>
Mở tệp trong trình duyệt. Puter xử lý cuộc gọi API, người dùng đăng nhập (hoặc tạo tài khoản Puter miễn phí khi chạy lần đầu), và phản hồi sẽ được in ra trang.
Cấu trúc phản hồi phản ánh API tin nhắn của Anthropic. response.message.content là một mảng các khối nội dung; đối với các phản hồi văn bản thuần túy, bạn đọc [0].text. Đối với các phản hồi đa phần (văn bản + gọi công cụ), hãy lặp qua mảng.
Bước 4: Truyền phát phản hồi
Các câu trả lời dài sẽ cảm thấy chậm chạp nếu không có truyền phát trực tuyến. Truyền stream: true và sử dụng trình lặp:
const response = await puter.ai.chat(
"Write a detailed essay on the impact of artificial intelligence on society",
{ model: 'claude-sonnet-4-6', stream: true }
);
for await (const part of response) {
puter.print(part?.text);
}
Mẫu for await đọc các khối dữ liệu khi chúng đến. Đối với giao diện người dùng trò chuyện, hãy thêm từng part.text vào bong bóng tin nhắn của bạn; người dùng sẽ thấy văn bản xuất hiện từng từ một.
Bước 5: Cuộc hội thoại nhiều lượt
Truyền một mảng các tin nhắn thay vì một chuỗi đơn. Mỗi tin nhắn có một role và content:
const messages = [
{ role: 'user', content: 'I am building a Next.js app with Postgres.' },
{ role: 'assistant', content: 'Got it. What do you need help with?' },
{ role: 'user', content: 'How should I structure the migrations folder?' },
];
const response = await puter.ai.chat(messages, {
model: 'claude-opus-4-7',
});
console.log(response.message.content[0].text);
Để giữ trạng thái xuyên suốt các lượt, hãy đẩy mọi tin nhắn của người dùng và mọi phản hồi của trợ lý vào mảng trước cuộc gọi tiếp theo. Claude đọc toàn bộ bản ghi và duy trì tính nhất quán.
Bước 6: Lời nhắc hệ thống
Đặt vai trò, ràng buộc và định dạng đầu ra bằng một tin nhắn hệ thống ở đầu:
const messages = [
{ role: 'system', content: 'You are a senior backend engineer. Reply in numbered bullets, never more than five.' },
{ role: 'user', content: 'How do I prevent SQL injection in a Node app?' },
];
const response = await puter.ai.chat(messages, { model: 'claude-sonnet-4-6' });
Lời nhắc hệ thống được giữ xuyên suốt cuộc hội thoại và là nơi thích hợp để thiết lập giọng điệu, định dạng đầu ra và các rào cản hành vi.
So sánh các mô hình trên cùng một lời nhắc
Cách nhanh nhất để tìm mô hình Claude phù hợp cho trường hợp sử dụng của bạn là viết kịch bản cùng một lời nhắc trên tất cả các mô hình và so sánh. Một vòng lặp đánh giá hiệu năng nhỏ:
const models = ['claude-haiku-4-5', 'claude-sonnet-4-6', 'claude-opus-4-7'];
const prompt = "Refactor this React component to use hooks: ...";
for (const model of models) {
const start = performance.now();
const response = await puter.ai.chat(prompt, { model });
const elapsed = performance.now() - start;
console.log(`${model}: ${elapsed.toFixed(0)}ms`);
console.log(response.message.content[0].text);
console.log('---');
}
Chạy một lần và bạn sẽ thấy mô hình đánh đổi: Haiku nhanh hơn Opus 5–10 lần, Sonnet nằm ở giữa, Opus tạo ra câu trả lời tốt hơn rõ rệt cho các lời nhắc khó. Đối với hầu hết các ứng dụng, Sonnet 4.6 là lựa chọn mặc định phù hợp.
Để đánh giá hiệu năng con đường miễn phí của Puter so với API Anthropic chính thức trong Apidog, hãy giữ cả hai nhà cung cấp trong cùng một bộ sưu tập và chuyển đổi môi trường.
Bạn nhận được gì và không nhận được gì
Claude miễn phí không giới hạn thông qua Puter là có thật, nhưng bề mặt là một tập hợp con của API chính thức. Đây là danh sách trung thực:
Bạn nhận được:
- Toàn bộ danh mục mô hình Claude (Opus, Sonnet, Haiku, tất cả các phiên bản hiện tại)
- Các cuộc hội thoại nhiều lượt
- Lời nhắc hệ thống
- Phản hồi truyền phát trực tuyến
- Quy mô sẵn sàng sản xuất (Puter xử lý cơ sở hạ tầng)
- Không có rủi ro thanh toán nào đối với bạn với tư cách là nhà phát triển
Bạn có thể không nhận được (tùy thuộc vào phiên bản Puter):
- Sử dụng công cụ/gọi hàm gốc (kiểm tra tài liệu Puter mới nhất)
- Đầu vào hình ảnh (tệp đính kèm hình ảnh)
- Giảm chi phí nhờ bộ nhớ đệm lời nhắc của Anthropic
- Sử dụng phía máy chủ mà không có ngữ cảnh trình duyệt
- Khả năng hiển thị giới hạn tốc độ trực tiếp (bạn không thấy các tiêu đề của Anthropic)
Đối với các quy trình làm việc sử dụng công cụ chuyên sâu, API Anthropic chính thức hoặc kiểm thử máy chủ MCP trong Apidog mang lại cho bạn nhiều quyền kiểm soát hơn. Đối với một chatbot điển hình, ứng dụng hỏi đáp hoặc trình tạo nội dung, bề mặt của Puter là đủ.
Khi nào nên sử dụng Puter so với API Anthropic chính thức
Sự phân chia:
Sử dụng Puter khi:
- Bạn đang triển khai một ứng dụng công cộng miễn phí và không muốn chịu rủi ro về chi phí.
- Bạn đang tạo mẫu và chưa muốn thiết lập mối quan hệ thanh toán với Anthropic.
- Bạn muốn hỗ trợ Claude trong một trang web tĩnh, dự án hackathon hoặc tiện ích mở rộng trình duyệt mà không cần backend.
- Người dùng của bạn hài lòng khi đăng nhập vào Puter (hoặc đã sử dụng nó).
Sử dụng API Anthropic chính thức khi:
- Bạn cần các cuộc gọi phía máy chủ (cron jobs, điểm cuối API, xử lý hàng loạt).
- Bạn cần bộ nhớ đệm lời nhắc để tiết kiệm chi phí cho các lời nhắc hệ thống ổn định.
- Bạn cần sử dụng công cụ chi tiết, đầu vào hình ảnh hoặc API Tệp.
- Bạn cần một mối quan hệ hợp đồng để tuân thủ (BAA, SOC 2, cư trú theo khu vực).
- Người dùng của bạn sẽ không chấp nhận bước đăng nhập Puter.
Hầu hết các dự án bắt đầu trên Puter để tạo mẫu và chuyển sang API chính thức khi chúng đạt đến một trong các giới hạn trên. Việc chuyển đổi rất đơn giản; cấu trúc tin nhắn vẫn như cũ.
Để biết cách sử dụng GPT tương đương, hãy xem Cách sử dụng API GPT-5.5.
Kiểm tra tích hợp trong Apidog
Các cuộc gọi Puter diễn ra trong trình duyệt, vì vậy bạn không thể viết kịch bản chúng trực tiếp từ một công cụ chạy thử nghiệm backend. Mô hình hoạt động như sau:
- Xây dựng một trang tĩnh nhỏ với tập lệnh Puter và một tham số truy vấn cho lời nhắc.
- Sử dụng Apidog để xác thực bề mặt API Anthropic upstream (khi bạn chuyển đổi sau này).
- Giữ cả hai trong các môi trường riêng biệt trong cùng một bộ sưu tập Apidog để bạn có thể hoán đổi chỉ bằng một cú nhấp chuột.

Tải xuống Apidog và thiết lập hai môi trường: `puter-prototype` (một URL localhost lưu trữ trang Puter của bạn) và `anthropic-prod` (`https://api.anthropic.com/v1`). Bộ sưu tập sẽ được chuyển đổi một cách gọn gàng khi bạn chuyển từ Puter sang API chính thức.
Câu hỏi thường gặp
Điều này có thực sự không giới hạn, hay có giới hạn ẩn nào không?Không giới hạn từ phía nhà phát triển, vâng. Người dùng cuối có số dư trong tài khoản Puter của họ; tài khoản mới nhận được tín dụng khởi đầu và người dùng nạp thêm nếu họ muốn nhiều hơn. Không có giới hạn cho mỗi nhà phát triển.
Tôi có cần đăng ký Anthropic không?Không. Puter xử lý mối quan hệ với Anthropic. Bạn sẽ không bao giờ thấy khóa Anthropic.
Tôi có thể sử dụng cái này trong môi trường sản xuất không?Có, đối với các ứng dụng dựa trên trình duyệt. Puter vận hành cơ sở hạ tầng sản xuất. Câu hỏi đúng là liệu người dùng của bạn có sẵn lòng đăng nhập vào Puter hay không; nếu có, hãy triển khai.
Claude thông qua Puter có hoạt động giống hệt API chính thức không?Đầu ra mô hình là như nhau; Puter gọi API Anthropic chính thức thay mặt người dùng. Độ trễ có thể cao hơn một chút do có thêm một bước trung gian, nhưng hành vi của mô hình không thay đổi.
Còn về việc Claude tiết kiệm chi phí nhờ bộ nhớ đệm lời nhắc thì sao?Puter hiện không cung cấp các kiểm soát giá bộ nhớ đệm lời nhắc của Anthropic. Nếu bạn có một lời nhắc hệ thống ổn định dài 50 nghìn token và cần giảm giá nhờ bộ nhớ đệm, hãy sử dụng API chính thức.
Tôi có thể sử dụng Claude trong một bot Discord hoặc dịch vụ backend thông qua Puter không?Không được thuận tiện. Puter ưu tiên trình duyệt và giả định có một phiên người dùng. Các dịch vụ backend nên sử dụng API Anthropic chính thức.
Tôi nên chọn mô hình mặc định nào?claude-sonnet-4-6. Đây là sự cân bằng phù hợp giữa chi phí, tốc độ và chất lượng cho hầu hết các lời nhắc. Chuyển sang claude-opus-4-7 khi bạn cần suy luận sâu hơn, và claude-haiku-4-5 khi bạn cần phân loại số lượng lớn.
Người dùng của tôi có bị tính phí nhiều không?Hầu hết các trường hợp sử dụng kiểu trò chuyện chỉ tốn vài xu mỗi phiên theo mức giá của Anthropic. Một người dùng bình thường có thể thực hiện hàng chục cuộc trò chuyện bằng tín dụng khởi đầu của Puter trước khi họ cần nạp thêm.
Kết luận
Claude miễn phí không giới hạn thông qua Puter.js là con đường rõ ràng nhất cho bất kỳ ứng dụng dựa trên trình duyệt nào muốn có đầu ra chất lượng Anthropic mà không phải chịu chi phí của Anthropic. Chèn tập lệnh, chọn một mô hình, viết lời nhắc. Người dùng cuối chịu chi phí sử dụng; bạn triển khai mà không cần khóa.
Đối với các tác vụ phía máy chủ, bộ nhớ đệm lời nhắc hoặc quy trình sử dụng công cụ đầy đủ, API Anthropic chính thức vẫn là lựa chọn đúng đắn. Nhưng đối với các bản thử nghiệm, ứng dụng công cộng miễn phí, các dự án hackathon, các dự án phụ và các trang web tĩnh, Puter là câu trả lời.
Xây dựng yêu cầu một lần trong Apidog, đánh giá hiệu năng Puter so với API chính thức và chọn con đường phù hợp với yêu cầu của bạn.
