Moonshot AI đã ra mắt Kimi K2.6 với một tuyên bố mạnh mẽ: đây là công nghệ tiên tiến mới nhất trong lập trình mã nguồn mở, thực thi dài hạn và đàn tác nhân. Các con số đã chứng minh điều đó. 80,2% trên SWE-Bench Verified, 96,4% trên AIME 2026, 90,5% trên GPQA-Diamond và 73,1% trên OSWorld-Verified. Đó không phải là những đoạn quảng cáo tiếp thị; chúng đến trực tiếp từ thông báo chính thức trên kimi.
Bài viết này sẽ phân tích Kimi K2.6 là gì, cách kiến trúc Đàn tác nhân thay đổi những gì một mô hình duy nhất có thể làm, bức tranh điểm chuẩn so với GPT-5.4 và Claude 4.6, và nơi bạn có thể bắt đầu sử dụng nó ngay hôm nay.
TL;DR
- Phát hành: Moonshot AI, tháng 4 năm 2026, mã nguồn mở (trọng số trên Hugging Face, API trên platform.kimi.ai).
- Kiến trúc: Mô hình hỗn hợp chuyên gia 1 nghìn tỷ tham số, 32 tỷ tham số hoạt động trên mỗi token, ngữ cảnh 262.144 token (256K).
- Đầu ra tối đa: lên đến 98.304 token cho các tác vụ suy luận.
- Đàn tác nhân: lên đến 300 tác nhân con, hơn 4.000 bước phối hợp cho mỗi tác vụ (gấp 3 lần giới hạn của K2.5).
- Điểm chuẩn hàng đầu: SWE-Bench Verified 80,2%, Terminal-Bench 2.0 66,7%, AIME 2026 96,4%, HLE-Full (công cụ) 54,0%, OSWorld-Verified 73,1%.
- Nền tảng: Trò chuyện kimi.com, Ứng dụng Kimi, Kimi Code, API, trọng số mở.
Kimi K2.6 trong một đoạn văn
Kimi K2.6 là mô hình mã nguồn mở thế hệ tiếp theo của Moonshot AI, tập trung vào lập trình tiên tiến, thực thi dài hạn và đàn tác nhân. Nó chạy trên kimi.com, Ứng dụng Kimi, Kimi Code và API tại platform.kimi.ai. Đây là bản phát hành K-line đầu tiên nâng giới hạn Đàn tác nhân lên 300 tác nhân con và hơn 4.000 bước đồng thời, giúp nó có khả năng thực hiện các phiên làm việc tự động kéo dài hàng ngày, chứ không phải vài giây. Nếu bạn đã quen với cách các mô hình tiên tiến khác như Qwen 3.6 (xem hướng dẫn OpenRouter của chúng tôi) hoặc Qwen3.5-Omni phù hợp với quy trình làm việc API-first, thì Kimi K2.6 cũng tương tự với trọng tâm tác nhân sắc nét hơn.

Moonshot đã công bố bảng điểm chuẩn đầy đủ trong thông báo Kimi K2.6. Những điểm nổi bật:
Lập trình
| Điểm chuẩn | Kimi K2.6 |
|---|---|
| SWE-Bench Verified | 80.2% |
| SWE-Bench Multilingual | 76.7% |
| SWE-Bench Pro | 58.6% |
| Terminal-Bench 2.0 | 66.7% |
SWE-Bench Verified đạt 80,2% ngang bằng hoặc vượt trội Claude 4.6 trên cùng một bộ kiểm tra, và làm được điều đó với trọng số mở mà bạn có thể tải xuống. Terminal-Bench 2.0 đạt 66,7% cho thấy bước nhảy vọt 15,9 điểm so với K2.5, điều này chứng tỏ Moonshot đã tăng cường độ tin cậy trong việc xử lý shell và tệp.
Sử dụng tác nhân và công cụ
| Điểm chuẩn | Kimi K2.6 |
|---|---|
| HLE-Full (có công cụ) | 54.0% |
| BrowseComp | 83.2% (86.3% với Đàn tác nhân) |
| DeepSearchQA (F1) | 92.5% |
| Toolathlon | 50.0% |
| Claw Eval (pass@3) | 80.9% |
| OSWorld-Verified | 73.1% |
HLE-Full đạt 54,0% đưa K2.6 vượt lên trước GPT-5.4 (52,1%) và Claude 4.6 (53,0%) trên điểm chuẩn suy luận kết hợp công cụ cụ thể đó. OSWorld-Verified đạt 73,1% có nghĩa là K2.6 có thể điều khiển môi trường máy tính để bàn thực sự cho các tác vụ cấp hệ điều hành, đây là không gian mà Claude Code computer use nhắm đến.
Suy luận và kiến thức
| Điểm chuẩn | Kimi K2.6 |
|---|---|
| AIME 2026 | 96.4% |
| HMMT 2026 (tháng 2) | 92.7% |
| GPQA-Diamond | 90.5% |
| IMO-AnswerBench | 86.0% |
AIME 2026 đạt 96,4% là gần như hoàn hảo trên một điểm chuẩn toán học cạnh tranh mà các mô hình chỉ một năm trước đây còn gặp nhiều khó khăn.
Thị giác
| Điểm chuẩn | Kimi K2.6 |
|---|---|
| MathVision (với Python) | 93.2% |
| V* (với Python) | 96.9% |
| MMMU-Pro | 79.4% |
| CharXiv (RQ, với Python) | 86.7% |
Các kết quả “với Python” làm nổi bật cách thị giác giờ đây được kết nối với việc sử dụng công cụ: K2.6 đọc một hình ảnh, viết mã Python và tính toán câu trả lời trong cùng một quỹ đạo.
Đàn tác nhân: bước nhảy vọt về cấu trúc
Đàn tác nhân là thay đổi kiến trúc nổi bật trong K2.6. Blog của Moonshot trình bày rõ ràng: K2.6 điều phối tới 300 tác nhân con với hơn 4.000 bước phối hợp, mở rộng gấp 3 lần so với 100 tác nhân và 1.500 bước của K2.5.
Ba mô hình quan trọng:
- Phân rã tác vụ không đồng nhất. Mô hình không tự nhân bản 300 lần. Nó chia một tác vụ thành các tác vụ con với các hồ sơ kỹ năng khác nhau (mã, nghiên cứu, thị giác, lập kế hoạch) và định tuyến từng tác vụ đến chuyên gia phù hợp.
- Trí tuệ tổng hợp. Các tác nhân con giao tiếp thông qua một trạng thái chia sẻ, tạo ra các tài liệu, trang web, bản trình bày và bảng tính trong một phiên duy nhất. Điều này gần giống với cách các kiến trúc tác nhân Hermes cấu trúc việc điều phối đa tác nhân.
- Chuyển đổi tài liệu thành kỹ năng. Một đặc tả trở thành một kỹ năng bảo toàn "DNA cấu trúc," nghĩa là mô hình có thể tiếp thu một tài liệu thiết kế và hành động như thể nó có kiến thức nội bộ.
Các lần chạy thực tế từ thông báo của Kimi
Ba ví dụ về bằng chứng công việc:
- Tối ưu hóa suy luận Qwen3.5-0.8B trên Mac — hơn 12 giờ làm việc liên tục, hơn 4.000 lượt gọi công cụ, 14 lần lặp, nâng thông lượng từ 15 lên 193 token/giây (nhanh hơn khoảng 20% so với mức cơ bản của LM Studio).
- Điều chỉnh công cụ tài chính Exchange-core — 13 giờ, hơn 1.000 lượt gọi công cụ, hơn 4.000 dòng mã được sửa đổi, mức tăng thông lượng trung bình 185% (0,43 → 1,24 MT/s), thông lượng hiệu suất 133% (1,23 → 2,86 MT/s).
- Vận hành hạ tầng tự động 5 ngày — xử lý tác vụ đa luồng và phản ứng sự cố mà không cần sự giám sát của con người.
Nếu bạn từng thấy một tác nhân lập trình mất phương hướng sau 20 lượt gọi công cụ, những con số này sẽ mang ý nghĩa khác. Quy luật mở rộng thú vị ở đây không phải là tham số; mà là số giờ tác nhân làm việc.
Kiến trúc hoạt động như thế nào
Hỗn hợp chuyên gia (Mixture of Experts - MoE)
K2.6 là một mô hình MoE 1 nghìn tỷ tham số với 32 tỷ tham số hoạt động trên mỗi token. Bạn có được khả năng đẳng cấp tiên tiến với chi phí suy luận gần với một mô hình dày đặc 32B. Sự đánh đổi tương tự cũng áp dụng cho các bản phát hành thuộc họ MoE khác như API GLM-5V Turbo; định tuyến là nơi chi phí kỹ thuật tập trung vào.
Ngữ cảnh dài: 262.144 token
Cửa sổ ngữ cảnh chính xác là 262.144 token (con số tròn mà Moonshot trích dẫn). Độ dài tạo ra tối đa lên đến 98.304 token cho các tác vụ suy luận. Điều đó đủ để chứa:
- Toàn bộ một cơ sở mã cỡ trung bình và vẫn còn chỗ cho quỹ đạo tác nhân
- Một tài liệu pháp lý hoặc nghiên cứu đầy đủ với không gian cho hỏi đáp nhiều lượt
- Lịch sử gọi công cụ nhiều ngày cho các phiên tác nhân đang diễn ra
Moonshot đã viết lại một phần của ngăn xếp chú ý cho K2.6 để duy trì sự ổn định của suy luận ngữ cảnh dài, nơi K2.5 đã suy giảm.
Lấy mẫu mặc định
Blog khuyến nghị các tham số mặc định là nhiệt độ 1.0 và top-p 1.0 cho K2.6, điều này khá mạnh mẽ so với hầu hết các mô hình lập trình. Đừng máy móc áp dụng các giá trị mặc định nhiệt độ thấp mà bạn thấy trong tài liệu của OpenAI hoặc Anthropic; nhóm Kimi đã điều chỉnh K2.6 để tạo ra kết quả đáng tin cậy ở nhiệt độ cao hơn.
Claw Groups: lớp đa tác nhân nằm trên mô hình
Claw Groups là một bản xem trước nghiên cứu trong thông báo K2.6: một hệ sinh thái mở nơi nhiều tác nhân và con người cùng làm việc trên một tác vụ duy nhất trên máy tính xách tay, thiết bị di động và đám mây. Bốn khả năng:
- Đối sánh tác vụ động dựa trên bộ công cụ chuyên biệt
- Phát hiện lỗi với việc tự động gán lại tác vụ
- Triển khai đa thiết bị
- Điểm kiểm soát có sự tham gia của con người
Điểm Claw Eval 80,9% (pass@3) đo lường mức độ tin cậy mà K2.6 có thể hoạt động trong lớp này. Nếu bạn đang nghĩ về các nhóm tác nhân tự chủ theo cách công ty tác nhân AI của Paperclip mô tả, thì Claw Groups là một nền tảng sẵn có.
Phát triển dựa trên thiết kế và tác nhân chủ động
K2.6 đi kèm với khả năng tạo giao diện người dùng vượt ra ngoài việc hoàn thành mã trò chuyện. Từ bài đăng chính thức:
- Tạo toàn bộ ngăn xếp bao gồm xác thực, cơ sở dữ liệu và giao dịch
- Tích hợp công cụ tạo hình ảnh và video bên trong quỹ đạo tác nhân
- Hoạt ảnh kích hoạt cuộn, các yếu tố tương tác và đầu ra sẵn sàng cho sản xuất
Các tác nhân chủ động chạy 24/7 bên trong OpenClaw và Hermes, điều phối nhiều ứng dụng trong nền. Đó là cùng một mô hình "tác nhân không bao giờ ngủ" mà các nhóm đang xây dựng xung quanh Google Agent Smith và các ngăn xếp tùy chỉnh như tự xây dựng Claude Code của riêng bạn.
Kimi K2.6 so với các mô hình đóng
| Nhiệm vụ | K2.6 | GPT-5.4 | Claude 4.6 | Gemini 3.1 | K2.5 |
|---|---|---|---|---|---|
| HLE-Full (công cụ) | 54.0 | 52.1 | 53.0 | 51.4 | 50.2 |
| BrowseComp | 83.2 | 82.7 | 83.7 | 85.9 | 74.9 |
| Terminal-Bench 2.0 | 66.7 | 65.4 | 65.4 | 68.5 | 50.8 |
| SWE-Bench Pro | 58.6 | 57.7 | 53.4 | 54.2 | 50.7 |
Ba điểm chính cần lưu ý:
- K2.6 thắng hoặc hòa ba trong bốn mục trên bảng này, bao gồm vượt lên trước GPT-5.4 trên HLE-Full và SWE-Bench Pro.
- Gemini 3.1 dẫn đầu Terminal-Bench và BrowseComp, vì vậy đối với duyệt web hoặc độ tin cậy của terminal thuần túy, nó vẫn nằm trong danh sách rút gọn.
- K2.6 đi kèm với trọng số mở, điều mà không đối thủ đóng nào làm được.
Nơi Kimi K2.6 hoạt động
kimi.com (trò chuyện)
Giao diện Kimi dành cho người dùng là cách nhanh nhất để thử K2.6. Đăng nhập, chọn K2.6 trong bộ chọn mô hình, và bạn sẽ có trò chuyện, chế độ tác nhân, Đàn tác nhân, thị giác và tích hợp công cụ Kimi Code. Xem hướng dẫn đi kèm của chúng tôi về cách sử dụng Kimi K2.6 miễn phí để biết chi tiết.
Ứng dụng Kimi
Ứng dụng di động (iOS, Android) phản ánh trải nghiệm web với đầu vào giọng nói và thông báo đẩy cho các tác vụ tác nhân chạy dài.
Kimi Code
Kimi Code là giao diện lập trình gốc terminal. Nó mang lại cảm giác gần giống với quy trình làm việc của Claude Code hơn là một cửa sổ trò chuyện: K2.6 điều khiển hệ thống tệp cục bộ, thực hiện commit và kiểm thử của bạn, với Đàn tác nhân ẩn bên trong. Nếu bạn đang tìm kiếm các tác nhân lập trình, hãy so sánh nó với Cursor Composer 2.
API
API tương thích với OpenAI. URL cơ sở là https://api.moonshot.ai/v1, ID mô hình là kimi-k2.6 và kimi-k2.6-thinking. Chúng tôi đã viết một hướng dẫn đầy đủ trong Cách sử dụng API Kimi K2.6, bao gồm xác thực, truyền dữ liệu (streaming), gọi công cụ, thị giác, video và gọi Đàn tác nhân.
Trọng số mở trên Hugging Face
Toàn bộ trọng số K2.6 có sẵn trên Hugging Face tại moonshotai/Kimi-K2.6 theo giấy phép MIT đã sửa đổi. Các phiên bản lượng tử hóa cộng đồng (ubergarm GGUF, unsloth) giúp việc chạy nó trên phần cứng của riêng bạn khả thi đối với các nhóm có GPU lớp H100.
K2.6 được đào tạo như thế nào (những gì Moonshot đã công bố)
Thông báo về Kimi K2.6 không công bố công thức đào tạo đầy đủ, nhưng các tín hiệu sản phẩm cho bạn biết nỗ lực kỹ thuật đã đi đến đâu:
- Ổn định dài hạn — Moonshot chỉ ra các phiên chạy tác nhân 12 giờ và 13 giờ như bằng chứng về việc đào tạo chống lại các chế độ lỗi có độ dài phiên. K2.5 suy giảm sau vài trăm lượt gọi công cụ; K2.6 duy trì hơn 4.000 lượt.
- Độ tin cậy của việc gọi công cụ — Tỷ lệ thành công gọi công cụ 96,60% của CodeBuddy là con số công khai. Dữ liệu sử dụng công cụ tổng hợp trong quá trình đào tạo là cách phổ biến để các phòng thí nghiệm đạt được điều này.
- Đào tạo đàn tổng hợp — hành vi tác nhân con không đồng nhất ngụ ý tín hiệu đào tạo trên nhiều vai trò tác nhân (người lập kế hoạch, người viết mã, nhà nghiên cứu, người đánh giá), chứ không phải một chuyên gia tổng quát duy nhất.
- Chuỗi thị giác + mã — mô hình “MathVision với Python” (93,2%) cho thấy đào tạo đa phương thức + sử dụng công cụ chung, chứ không phải một bộ chuyển đổi thị giác bổ sung.
Nếu bạn đang viết một bài đánh giá về điều gì phân biệt một mô hình mở tốt của năm 2026 với một mô hình xuất sắc, bốn điểm đó là phần lớn câu chuyện.
Ai nên quan tâm
Hãy chọn Kimi K2.6 nếu bạn đang xây dựng
- Các tác nhân lập trình chạy dài. Các bản demo chạy 4.000 bước, 12 giờ không phải là quảng cáo; chúng là một phần của kiến trúc.
- Hệ thống đa tác nhân. Đàn tác nhân và Claw Groups cung cấp cho bạn khả năng điều phối 300 tác nhân mà không cần tự viết.
- Sản xuất trọng số mở. Bạn cần quyền kiểm soát mô hình, tinh chỉnh tùy chỉnh hoặc kiểm soát quy định.
- Công việc API thông lượng cao. Chi phí suy luận MoE thấp hơn nhiều so với giá của mô hình đóng, và API tương thích OpenAI có thể dễ dàng tích hợp vào mã hiện có.
Hãy giữ nguyên các mô hình đóng nếu bạn cần
- Căn chỉnh an toàn nghiêm ngặt. Claude 4.6 vẫn dẫn đầu về các từ chối tinh tế và tuân thủ chính sách.
- Độ trễ trò chuyện người dùng dưới một giây. Các phiên chạy của Đàn tác nhân kéo dài hàng phút, chứ không phải mili giây.
- SLA nhà cung cấp bị khóa. Đối với các ngành được quản lý, hợp đồng hỗ trợ của một phòng thí nghiệm tiên phong có thể quan trọng hơn chất lượng mô hình.
Cách kiểm tra Kimi K2.6 trong năm phút với Apidog
Khi bạn có khóa API Moonshot/Kimi, Apidog sẽ giúp bạn từ con số 0 đến một bài kiểm tra hoạt động trong vài phút:
- Tạo môi trường:
BASE_URL = https://api.moonshot.ai/v1,KIMI_API_KEY = sk-.... - Yêu cầu mới:
POST {{BASE_URL}}/chat/completions. - Tiêu đề:
Authorization: Bearer {{KIMI_API_KEY}},Content-Type: application/json. - Nội dung:
{
"model": "kimi-k2.6",
"messages": [{"role": "user", "content": "Tóm tắt thông báo Kimi K2.6."}],
"stream": true
}
- Nhấp Gửi. Xem các token được truyền vào.
Apidog cũng xử lý lịch sử yêu cầu (phát lại các chuỗi gọi công cụ thất bại), xác thực lược đồ so với đặc tả hoàn thành trò chuyện OpenAI, chia sẻ nhóm với các khóa cho từng thành viên và tích hợp VS Code để kiểm thử trong trình chỉnh sửa. Nếu bạn hiện đang sử dụng Postman, hướng dẫn của chúng tôi về kiểm thử API mà không cần Postman vào năm 2026 sẽ hướng dẫn bạn cách chuyển đổi.
Câu hỏi thường gặp
Kimi K2.6 có phải là mã nguồn mở không? Trọng số là mã nguồn mở theo giấy phép MIT đã sửa đổi (moonshotai/Kimi-K2.6). Dữ liệu đào tạo và mã đào tạo không công khai. Điều đó khiến nó được gọi là “trọng số mở” trong cách sử dụng thông thường.
Kimi K2.6 so với K2.5 như thế nào? Các bước nhảy vọt đáng kể trên tất cả các khía cạnh, theo bảng điểm chuẩn chính thức: +3,8 điểm trên HLE-Full, +8,3 trên BrowseComp, +15,9 trên Terminal-Bench 2.0, +7,9 trên SWE-Bench Pro, +20,5 trên Claw Eval, tăng 3 lần khả năng của Đàn tác nhân.
Cửa sổ ngữ cảnh của Kimi K2.6 là bao nhiêu? 262.144 token. Khả năng tạo tối đa cho các tác vụ suy luận lên đến 98.304 token.
Tôi có thể chạy Kimi K2.6 cục bộ không? Có, với phần cứng mạnh. MoE 1T đầy đủ cần các nút đa GPU lớp H100. Các bản dựng lượng tử hóa (4-bit, 3-bit) từ những người đóng góp cộng đồng có thể chạy trên các thiết lập nhỏ hơn với một số mất mát chất lượng. Xem hướng dẫn truy cập miễn phí của chúng tôi để biết các tùy chọn lượng tử hóa.
Kimi K2.6 có hỗ trợ gọi công cụ không? Có. API tuân theo định dạng gọi công cụ của OpenAI. Đàn tác nhân xử lý các cuộc gọi công cụ song song một cách tự nhiên.
Sự khác biệt giữa Kimi K2.6 và Kimi K2.6 Thinking là gì? K2.6 là biến thể tác nhân nhanh. K2.6 Thinking hiển thị một chuỗi suy nghĩ rõ ràng trước khi trả lời. Sử dụng Thinking cho các chứng minh toán học, gỡ lỗi khó hoặc lập kế hoạch phức tạp.
Làm cách nào để truy cập Kimi K2.6 miễn phí? Trò chuyện web kimi.com miễn phí với hạn mức hàng ngày. Cloudflare Workers AI có gói miễn phí. Tự host từ trọng số Hugging Face không tốn chi phí trên mỗi token một khi bạn có phần cứng. Chi tiết đầy đủ trong Cách sử dụng Kimi K2.6 miễn phí.
Kimi K2.6 so với các mô hình trọng số mở khác như thế nào? So với Qwen 3.6 và Qwen3.5-Omni, Kimi K2.6 dẫn đầu về điểm chuẩn lập trình và tác nhân; Qwen vẫn có các biến thể đa ngôn ngữ và mô hình nhỏ mạnh hơn. So với DeepSeek V3.x, K2.6 có lợi thế về điều phối tác nhân.
Tóm tắt
Kimi K2.6 là mô hình trọng số mở sẵn sàng cho sản xuất nhất được phát hành cho đến nay, dành cho lập trình tác nhân và công việc dài hạn. Đàn tác nhân 300 thành viên, thực thi 4.000 bước, cửa sổ ngữ cảnh 262K và trọng số mở kết hợp lại tạo nên một công cụ độc đáo trong dòng mô hình hiện tại. Bài đăng thông báo của Moonshot coi đây là công nghệ tiên tiến mới nhất trong công việc tác nhân mã nguồn mở, và các điểm chuẩn công khai đã hỗ trợ tuyên bố này.
Nếu bạn đang đánh giá các mô hình cho một tác nhân lập trình, một trợ lý nghiên cứu chạy dài hạn, hoặc một hệ thống đa tác nhân, Kimi K2.6 nên có trong danh sách rút gọn của bạn. Lấy khóa từ platform.kimi.ai, mở Apidog và gửi yêu cầu đầu tiên của bạn. Sau đó, tìm hiểu các hướng dẫn chuyên sâu của chúng tôi về API và các phương pháp truy cập miễn phí.
