Thông báo Kimi K2.6 của Moonshot AI gọi đây là công nghệ tiên tiến nhất trong mã hóa nguồn mở, thực thi chuỗi tác vụ dài và đội hình tác nhân, với SWE-Bench Verified đạt 80.2%, Terminal-Bench 2.0 đạt 66.7%, và khả năng Agent Swarm mở rộng gấp 3 lần lên 300 tác nhân con và hơn 4.000 bước phối hợp. Điều tuyệt vời nhất cho các nhà phát triển là: nó hoàn toàn mã nguồn mở, và có những cách miễn phí thực sự để sử dụng nó trong trò chuyện, qua API và thậm chí cục bộ trên phần cứng của riêng bạn.
Bài đăng này bao gồm mọi phương pháp truy cập miễn phí hoạt động tính đến tháng 4 năm 2026: trò chuyện web tại kimi.com, ứng dụng Kimi, Cloudflare Workers AI, OpenRouter (có một số hạn chế), các bản lượng tử hóa tự lưu trữ, và các chương trình tín dụng miễn phí. Bạn sẽ thấy mỗi tùy chọn cung cấp gì, giới hạn gì và khi nào nên chọn nó.
TL;DR: 6 cách miễn phí để tiếp cận Kimi K2.6
| Phương pháp | Loại | Tốt nhất cho | Giới hạn hàng ngày |
|---|---|---|---|
| Trò chuyện web kimi.com | Giao diện trò chuyện | Câu hỏi nhanh, Agent Swarm, thị giác | Hạn mức tin nhắn hàng ngày |
| Ứng dụng di động Kimi | Giao diện trò chuyện | Sử dụng khi đang di chuyển | Tương tự bản web |
| Cloudflare Workers AI | API (tầng miễn phí) | Nhà phát triển trong Workers | 10K neuron/ngày |
| Các biến thể miễn phí của OpenRouter | API | Kiểm tra tích hợp nhanh | Chỉ Kimi K2 cũ hơn |
| Trọng số mở tự lưu trữ | Suy luận cục bộ | Các nhóm có phần cứng GPU | Không có |
| Các chương trình tín dụng miễn phí | Thử nghiệm API | Người dùng lần đầu | Theo tài khoản |
Chọn dựa trên những gì bạn đang xây dựng. Giao diện trò chuyện tức thì. Các tầng API có thể lập trình. Tự lưu trữ không tốn chi phí cho mỗi token nhưng tốn chi phí phần cứng thực tế.

Tùy chọn 1: Trò chuyện web Kimi (dễ nhất)
Cách miễn phí nhanh nhất là sản phẩm Kimi chính thức dành cho người tiêu dùng tại kimi. Moonshot lưu trữ mô hình K2.6 đầy đủ ở đó, với Agent Swarm hoạt động và không yêu cầu thẻ tín dụng.
Thiết lập
- Truy cập kimi.com.
- Nhấp vào Đăng ký (email, Google hoặc điện thoại).
- Chọn K2.6 từ menu thả xuống mô hình ở đầu cuộc trò chuyện.
Đó là toàn bộ thiết lập. Giờ đây bạn có thể sử dụng mô hình này để trò chuyện, chế độ tác nhân, lập trình (qua tích hợp Kimi Code), nhập liệu bằng hình ảnh (ảnh), hiểu video và chạy toàn bộ Agent Swarm.
Những gì bạn nhận được
- Kimi K2.6 và Kimi K2.6 Thinking đầy đủ
- Agent Swarm trong trình duyệt (bảng điều khiển bên hiển thị tiến độ của tác nhân con)
- Tích hợp terminal Kimi Code nếu bạn cài đặt CLI đi kèm
- Tải lên hình ảnh và video (MathVision 93.2%, MMMU-Pro 79.4%)
- Lịch sử trò chuyện qua các phiên
- Hạn mức tin nhắn hàng ngày được đặt lại sau mỗi 24 giờ
Tầng miễn phí đáp ứng hầu hết các nhu cầu cá nhân và nghiên cứu. Để sử dụng liên tục cho nhà phát triển, bạn sẽ cần một đường dẫn API; xem Tùy chọn 3.
Giới hạn
- Số lượng tin nhắn hàng ngày (Moonshot điều chỉnh điều này theo tải; ước tính 30-50 tin nhắn cho K2.6)
- Chế độ tác nhân được tính là nhiều tin nhắn cho mỗi tác vụ
- Không có quyền truy cập lập trình từ giao diện này
- Các tính năng dành cho doanh nghiệp (SSO, nhật ký kiểm tra, tài khoản nhóm) yêu cầu tư cách thành viên trả phí
Tùy chọn 2: Ứng dụng di động Kimi
Mô hình tương tự, dạng điện thoại. Tải xuống Kimi từ App Store hoặc Google Play. Đăng nhập bằng cùng một tài khoản bạn sử dụng trên web; lịch sử trò chuyện đồng bộ hóa trên các thiết bị.
Ứng dụng bổ sung nhập liệu bằng giọng nói, chụp ảnh để hiểu hình ảnh và thông báo đẩy khi các tác vụ tác nhân dài kết thúc. Một cặp hữu ích với ứng dụng web cho bất kỳ ai di chuyển giữa bàn làm việc và điện thoại.
Hạn mức miễn phí tương tự như web. Tương tự không có quyền truy cập lập trình.
Tùy chọn 3: Cloudflare Workers AI (tầng API miễn phí)
Cloudflare Workers AI lưu trữ Kimi K2.6 dưới dạng @cf/moonshotai/kimi-k2.6. Gói miễn phí Workers AI cấp 10.000 neuron mỗi ngày, tương đương khoảng 2 đến 5 triệu token suy luận K2.6 tùy thuộc vào độ dài của lời nhắc. Điều đó đủ cho hầu hết các dự án cá nhân và nguyên mẫu.
Thiết lập
- Đăng ký tại dash.cloudflare.com (miễn phí).
- Vào AI > Workers AI và chấp nhận các điều khoản.
- Trong Hồ sơ của tôi > Token API, tạo một token với phạm vi đọc/ghi Workers AI.
- Sao chép ID tài khoản của bạn (trên cùng trang Workers AI).
Gọi K2.6 qua Cloudflare REST API
curl https://api.cloudflare.com/client/v4/accounts/$ACCOUNT_ID/ai/run/@cf/moonshotai/kimi-k2.6 \
-H "Authorization: Bearer $CF_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"messages": [
{"role": "user", "content": "Write a haiku about APIs."}
]
}'
Trong một Cloudflare Worker (phù hợp nhất)
export default {
async fetch(request, env) {
const response = await env.AI.run("@cf/moonshotai/kimi-k2.6", {
messages: [
{ role: "user", content: "Explain recursion simply." }
],
});
return Response.json(response);
}
};
Triển khai với wrangler deploy. Giờ đây bạn có một điểm cuối K2.6 miễn phí tại URL Workers của riêng bạn.
Giới hạn
- 10.000 neuron/ngày miễn phí (đặt lại vào lúc nửa đêm UTC)
- Giới hạn cửa sổ ngữ cảnh cho mỗi yêu cầu (nhỏ hơn 262.144 token đầy đủ; kiểm tra giới hạn Workers AI hiện tại)
- Khả năng phát trực tuyến phụ thuộc vào phiên bản điểm cuối hiện tại
- Giới hạn tốc độ theo khu vực
Cloudflare Workers AI là tùy chọn API miễn phí tốt nhất cho nhà phát triển. Bạn có một URL sản xuất thực, triển khai nhanh chóng và không cần thẻ. Để kiểm tra tích hợp xung quanh rìa của tầng miễn phí, hãy kết hợp nó với chuyển đổi môi trường của Apidog để bạn có thể chuyển đổi giữa Cloudflare và điểm cuối Moonshot trả phí chỉ bằng một cú nhấp chuột.
Tùy chọn 4: OpenRouter (định tuyến miễn phí, chủ yếu trả phí)
OpenRouter cung cấp Kimi K2.6 ở tầng trả phí. Hai thủ thuật làm cho nó hữu ích cho các quy trình làm việc miễn phí:
Thủ thuật 1: các biến thể Kimi miễn phí cũ hơn
OpenRouter lưu trữ moonshotai/kimi-k2:free (Kimi K2 trước đó, trước 2.6). Nó miễn phí với giới hạn tốc độ. Chất lượng thấp hơn K2.6, nhưng nó hữu ích để kết nối mã tích hợp trước khi bạn trả tiền:
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "moonshotai/kimi-k2:free",
"messages": [{"role": "user", "content": "Hello"}]
}'
Phát triển với biến thể miễn phí, sau đó hoán đổi chuỗi mô hình thành moonshotai/kimi-k2.6 khi bạn sẵn sàng trả tiền. Để biết ngữ cảnh về cách Qwen xử lý cùng một mẫu, hãy xem hướng dẫn Qwen 3.6 OpenRouter của chúng tôi.
Thủ thuật 2: các chương trình khuyến mãi tín dụng miễn phí
OpenRouter thường xuyên chạy các chương trình khuyến mãi tài khoản mới với vài đô la tín dụng, đủ cho hàng triệu token K2.6. Kiểm tra bảng điều khiển OpenRouter hoặc Discord của họ để biết các ưu đãi hiện tại.
Giá trị của OpenRouter là sự linh hoạt. Một khóa API bao gồm Kimi K2.6, Claude, GPT, Gemini, DeepSeek và Qwen, với giá cả minh bạch cho mỗi mô hình.
Tùy chọn 5: tự lưu trữ trọng số mở (không tốn chi phí cho mỗi token)
Đây là tùy chọn “miễn phí” nhất, với thiết lập phức tạp nhất. Moonshot phát hành trọng số K2.6 đầy đủ theo giấy phép MIT đã sửa đổi tại huggingface.co/moonshotai/Kimi-K2.6. Bạn có thể tải xuống, chạy và tinh chỉnh chúng mà không phải trả tiền cho Moonshot.
Vấn đề phần cứng
K2.6 đầy đủ có 1 nghìn tỷ tham số. Ở FP8, đó là khoảng 1TB bộ nhớ GPU, nghĩa là một cụm H100 hoặc H200 đa GPU. Đây không phải là một cách "miễn phí" thực tế cho hầu hết các nhóm.
Lượng tử hóa giúp nó khả thi
Cộng đồng mã nguồn mở đã xuất bản các bản dựng lượng tử hóa:
- ubergarm/Kimi-K2.6-GGUF — các bản lượng tử hóa tương thích llama.cpp. Một bản lượng tử 4 bit vừa vặn trên một node 8xH100 kiểu DGX. Các bản lượng tử thấp hơn (Q3, Q2) chạy trên các thiết lập nhỏ hơn với chất lượng giảm sút.
- unsloth/Kimi-K2.6 — các bản lượng tử hóa thân thiện với việc tinh chỉnh được thiết kế cho tinh chỉnh LoRA.
- Thuê đám mây — RunPod, Vast.ai hoặc Modal để thuê GPU theo giờ. Không hoàn toàn miễn phí, nhưng một cuối tuần thử nghiệm tốn dưới 10 đô la.
Chạy cục bộ với llama.cpp
# Cài đặt llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make
# Tải xuống một bản dựng lượng tử hóa
huggingface-cli download ubergarm/Kimi-K2.6-GGUF kimi-k2.6-q4_K_M.gguf --local-dir ./models
# Chạy ở chế độ máy chủ
./llama-server -m ./models/kimi-k2.6-q4_K_M.gguf --host 0.0.0.0 --port 8080
Máy chủ hiển thị một API tương thích OpenAI tại http://localhost:8080/v1. Hướng OpenAI SDK hoặc Apidog vào đó và bạn có suy luận K2.6 hoàn toàn cục bộ, hoàn toàn miễn phí.
Tính toán bộ nhớ để tự lưu trữ
Tham khảo nhanh về những gì phù hợp ở đâu:
- Trọng số đầy đủ FP16: ~2 TB. Cần một tủ rack đầy đủ.
- FP8 lượng tử hóa: ~1 TB. 2 node 8xH100 80GB.
- 4-bit (Q4_K_M): ~500 GB. Một node 8xH100.
- 3-bit (Q3_K_M): ~375 GB. 4x H100 với một số CPU offload.
- 2-bit (Q2_K): ~250 GB. Chạy trên phần cứng dành cho người tiêu dùng chuyên nghiệp với chất lượng giảm sút.
Đối với những người có sở thích, một phiên bản 2x H100 thuê trên Vast.ai có giá khoảng 4 đô la/giờ và chạy lượng tử hóa Q4. Không miễn phí, nhưng đủ gần cho một cuối tuần.
Khi nào tự lưu trữ là lựa chọn đúng đắn
- Các yêu cầu tại chỗ (tuân thủ, chủ quyền dữ liệu, như các quy trình HIPAA được đề cập trong hướng dẫn API HIPAA của chúng tôi)
- Suy luận khối lượng lớn nơi chi phí API cho mỗi token tăng lên
- Tinh chỉnh dữ liệu độc quyền
- Bạn đã có phần cứng GPU
Khi nào không phải
- Bạn đang tạo nguyên mẫu (thiết lập phần cứng mất nhiều thời gian hơn nguyên mẫu)
- Bạn cần thông lượng cao hoặc độ trễ thấp
- Bạn không có khả năng DevOps
Tùy chọn 6: các chương trình tín dụng miễn phí
Hầu hết các nhà cung cấp thương mại đều cung cấp tín dụng miễn phí cho các tài khoản mới. Hãy tận dụng chúng:
- Nền tảng Moonshot: các tài khoản mới thường nhận được một số dư miễn phí nhỏ. Đăng ký tại platform.moonshot.ai hoặc platform.kimi.ai.
- OpenRouter: tín dụng khuyến mãi cho tài khoản mới.
- Together AI: tín dụng dùng thử miễn phí cho điểm cuối Kimi K2.6.
- Fireworks AI: tín dụng miễn phí cho người dùng lần đầu.
- Cloudflare Workers AI: 10K neuron/ngày miễn phí vĩnh viễn, không cần thẻ tín dụng.
Tín dụng cộng dồn có thể bao gồm hàng triệu token cho các dự án phụ, nguyên mẫu và đánh giá mô hình.
Bạn nên chọn tùy chọn miễn phí nào?
Sử dụng cá nhân hoặc nghiên cứu
Trò chuyện web kimi.com. Không cần thiết lập, Agent Swarm đầy đủ, hạn mức hàng ngày hào phóng.
Lập trình viên nghiệp dư
Cloudflare Workers AI. API có thể lập trình, 10K neuron/ngày miễn phí, URL sản xuất thực tế.
Tạo nguyên mẫu sản phẩm thương mại
Kết hợp. Lặp lại lời nhắc trên kimi.com, sau đó sử dụng tín dụng miễn phí của Moonshot và xây dựng tích hợp API thực tế với Apidog. Khi hết tín dụng, bạn đã có một tích hợp đã được chứng minh để lập ngân sách.
Công việc doanh nghiệp hoặc nhạy cảm với dữ liệu
Tự lưu trữ trọng số lượng tử hóa. Chỉ có đường dẫn miễn phí trong sản xuất. Xem công cụ kiểm thử API không nối mạng cho các mẫu doanh nghiệp liền kề.
Quy mô tác nhân hoặc tác nhân mã hóa
Bắt đầu với tầng miễn phí của Cloudflare, nâng cấp lên API trả phí của Moonshot khi bạn đạt giới hạn hàng ngày.
Các giới hạn tầng miễn phí bạn sẽ gặp phải
Mỗi đường dẫn đều có một rào cản. Biết được nó giúp bạn tránh thất vọng:
- kimi.com: số lượng tin nhắn hàng ngày, các tác vụ Agent Swarm được tính là nhiều tin nhắn.
- Cloudflare Workers AI: 10K neuron/ngày. Sử dụng K2.6 nhiều có thể hết trong vài trăm cuộc gọi.
- Các biến thể miễn phí của OpenRouter: bị giới hạn tốc độ, thường là 20 yêu cầu/phút trên các mô hình miễn phí.
- Tín dụng miễn phí của Moonshot: hết sau vài triệu token.
- Tự lưu trữ: không giới hạn token, nhưng tốn chi phí phần cứng + điện.
Pha trộn và kết hợp. Nhiều nhóm sử dụng kimi.com để khám phá, Cloudflare để phát triển/kiểm thử, và Moonshot trả phí để sản xuất.
Kiểm tra các điểm cuối miễn phí với Apidog
Khi bạn kết nối các tầng miễn phí trên kimi.com, Cloudflare, OpenRouter và bản dựng llama.cpp cục bộ, bạn sẽ có bốn hoặc năm cấu hình điểm cuối. Apidog tập trung chúng lại.

Trong một dự án Apidog duy nhất:
- Lưu điểm cuối Cloudflare Workers AI với ID tài khoản của bạn
- Lưu điểm cuối Moonshot API với token Bearer của bạn
- Lưu một điểm cuối cục bộ cho bản dựng tự lưu trữ của bạn
- Lưu một điểm cuối OpenRouter với tính năng chuyển đổi mô hình
- Chạy cùng một lời nhắc kiểm tra trên cả bốn và so sánh kết quả đầu ra
Apidog xử lý các luồng SSE trên tất cả các backend này, lưu lịch sử yêu cầu để bạn có thể phát lại các cuộc gọi không thành công sau này và hỗ trợ chia sẻ nhóm cho các quy trình làm việc tập trung vào nhà phát triển. Tầng miễn phí bao gồm sử dụng cá nhân với cộng tác nhóm cho tối đa bốn thành viên. Tải xuống Apidog và bạn có thể cấu hình cả bốn backend K2.6 miễn phí trong vòng chưa đầy 20 phút.
Để tìm hiểu sâu hơn về các mẫu kiểm thử công cụ liên quan, hãy xem các hướng dẫn của chúng tôi về kiểm thử API mà không cần Postman, Apidog trong VS Code và công cụ kiểm thử API cho kỹ sư QA.
Quy trình đánh giá tầng miễn phí trong 20 phút
Nếu bạn đang quyết định xem Kimi K2.6 có phù hợp với một dự án hay không, hãy chạy quy trình này trong 20 phút trước khi đốt tiền thật:
- 5 phút — đăng ký tại kimi.com và đưa ra lời nhắc khó nhất trong thực tế của bạn cho nó. Nó có hoàn thành nhiệm vụ không?
- 5 phút — tạo tài khoản Cloudflare Workers AI và gọi
@cf/moonshotai/kimi-k2.6từ curl. Thời gian phản hồi có phù hợp với ngân sách độ trễ của bạn không? - 5 phút — mở Apidog, lưu cả hai điểm cuối và chạy yêu cầu phát trực tuyến giống hệt nhau trên mỗi điểm cuối. So sánh số lượng token và nhịp độ phát trực tuyến.
- 5 phút — kiểm tra kimi.com/membership/pricing và bảng điều khiển Moonshot API để ước tính chi phí sản xuất sẽ là bao nhiêu.
Cuối 20 phút bạn sẽ có đủ thông tin để chọn một lộ trình sản xuất. Nếu trò chuyện là đủ, hãy tiếp tục sử dụng miễn phí. Nếu bạn cần API, hãy chọn giữa tầng miễn phí của Cloudflare, Moonshot trả phí hoặc tự lưu trữ.
Tránh các chiêu trò lừa đảo "khóa API Kimi K2.6 miễn phí"
Bạn sẽ thấy các trang web và nhóm Discord cung cấp "khóa API Kimi K2.6 miễn phí". Hãy bỏ qua chúng. Chúng thường là:
- Khóa bị đánh cắp sẽ ngừng hoạt động.
- Các dịch vụ proxy ghi lại lời nhắc của bạn.
- Các nỗ lực lừa đảo sau thông tin thanh toán của bạn.
Hãy tuân thủ các đường dẫn chính thức. Các tùy chọn miễn phí hợp pháp được liệt kê ở trên bao gồm việc sử dụng thực tế. Nếu bạn cần nhiều hơn, API Moonshot trả phí có giá cả phải chăng; hướng dẫn API Kimi K2.6 sẽ hướng dẫn bạn cách thiết lập.
Câu hỏi thường gặp
Kimi K2.6 có thực sự miễn phí không?Trò chuyện tiêu dùng tại kimi.com là miễn phí với hạn mức hàng ngày. Trọng số là miễn phí theo giấy phép MIT đã sửa đổi. Quyền truy cập API miễn phí đến một giới hạn (Cloudflare, tín dụng tài khoản mới) hoặc trả phí.
Tôi có cần thẻ tín dụng để sử dụng Kimi K2.6 miễn phí không?Không cần cho trò chuyện web kimi.com hoặc tầng miễn phí Cloudflare Workers AI. Đôi khi cần cho OpenRouter. Xác minh thẻ cho tín dụng nền tảng Moonshot có thể khác nhau.
Tôi có thể sử dụng Kimi K2.6 miễn phí cho các dự án thương mại không?Có. Giấy phép cho phép sử dụng thương mại. Ở quy mô rất lớn (>100 triệu người dùng hoạt động hàng tháng hoặc >20 triệu đô la doanh thu hàng tháng), bạn phải ghi rõ "Kimi K2.6." Dưới mức đó, không cần ghi nhận.
Tầng miễn phí có hỗ trợ Agent Swarm không?Trò chuyện web kimi.com có, với khả năng 300 tác nhân đầy đủ. Hầu hết các tầng miễn phí API có hỗ trợ cho mô hình cơ bản. Giới hạn tác nhân con có thể khác nhau tùy nhà cung cấp.
Kimi K2.6 tốn bao nhiêu sau khi hết tín dụng miễn phí?Xem kimi.com/membership/pricing để biết chi tiết tầng chính thức. OpenRouter và các cổng khác liệt kê mức giá cho mỗi token của riêng họ.
Tôi có thể sử dụng Kimi K2.6 miễn phí trên dòng lệnh không?Có. Cài đặt Kimi Code hoặc trỏ bất kỳ CLI tương thích OpenAI nào vào Cloudflare Workers AI. Tự lưu trữ với llama.cpp cung cấp cho bạn một CLI cục bộ không bao giờ nói chuyện với đám mây.
Dữ liệu của tôi có riêng tư trên tầng miễn phí không?Trên kimi.com, các cuộc trò chuyện có thể được sử dụng để cải thiện mô hình (kiểm tra cài đặt quyền riêng tư). Trên Cloudflare Workers AI, Cloudflare ghi nhật ký để thanh toán. Trên bản tự lưu trữ, dữ liệu không bao giờ rời khỏi máy của bạn. Nếu quyền riêng tư là rất quan trọng, hãy tự lưu trữ.
Tầng miễn phí có bao gồm các tính năng thị giác và video không?Trò chuyện kimi.com bao gồm đầu vào hình ảnh và video. Cloudflare Workers AI hỗ trợ văn bản và hình ảnh; hỗ trợ video phụ thuộc vào phiên bản điểm cuối. Các bản lượng tử hóa tự lưu trữ vẫn giữ được thị giác; hỗ trợ video khác nhau tùy bản dựng.
Kimi K2.6 so sánh với các mô hình AI truy cập miễn phí khác như thế nào?Đây là mô hình tác nhân mã nguồn mở mạnh nhất vào năm 2026. So với Qwen 3.6, nó dẫn đầu về điểm chuẩn mã hóa và tác nhân. So với Qwen3.5-Omni, nó đổi lấy sự đa dạng đa phương thức để tập trung sắc nét hơn vào tác nhân. So với DeepSeek V3.x, nó có lợi thế về điều phối tác nhân.
Tóm tắt
Kimi K2.6 là một trong số ít các mô hình tiên tiến mà "miễn phí" không phải là một chiêu trò dùng thử. Thông báo của Moonshot gọi nó là mã nguồn mở tiên tiến, và giấy phép hỗ trợ điều đó. Kimi cung cấp cho bạn mô hình đầy đủ để sử dụng thông thường. Cloudflare Workers AI cung cấp cho bạn một tầng API miễn phí có thể lập trình. Tự lưu trữ giúp bạn không tốn chi phí cho mỗi token nếu bạn có phần cứng.
Hãy chọn con đường phù hợp với những gì bạn đang xây dựng, kiểm tra nó với Apidog để phát hiện sớm các lỗi nhỏ, và chỉ nâng cấp lên API trả phí của Moonshot khi các tầng miễn phí không còn đủ. Đối với hầu hết các trường hợp sử dụng cá nhân và nhóm nhỏ, chúng không bao giờ hết.
