Moonshot AI vừa ra mắt Kimi K2.7 Code, một mô hình mã nguồn mở được xây dựng đặc biệt để viết phần mềm và chạy các tác nhân mã hóa. Nó vẫn giữ quy mô hàng nghìn tỷ tham số của dòng Kimi K2, bổ sung khả năng thị giác và cắt giảm chi phí token suy nghĩ vốn làm cho các lần chạy tác nhân trước đó trở nên đắt đỏ. Nếu bạn đã sử dụng Kimi K2.6 hoặc API của nó, đây là phiên bản kế nhiệm được tinh chỉnh cho mã hóa; nó cũng đi kèm với một tác nhân dòng lệnh tên là Kimi Code, cạnh tranh trực tiếp với Claude Code và Codex.
Dưới đây là mô hình thực sự là gì, những thay đổi, cách nó đạt điểm và nơi bạn có thể chạy nó ngay hôm nay.
TL;DR
- Kimi K2.7 Code là một mô hình Mixture-of-Experts (Hỗn hợp chuyên gia): tổng cộng 1 nghìn tỷ tham số, 32 tỷ tham số hoạt động cho mỗi token.
- Nó bổ sung cửa sổ ngữ cảnh 256K token, khả năng thị giác (đầu vào hình ảnh và video thông qua bộ mã hóa MoonViT), và giảm khoảng 30% token suy nghĩ so với K2.6 cho cùng một công việc.
- Trọng số được công khai theo giấy phép MIT sửa đổi; bạn có thể tự lưu trữ với vLLM, SGLang hoặc KTransformers.
- Theo các điểm chuẩn do Moonshot báo cáo, nó chỉ xếp sau GPT-5.5 và Claude Opus về các tác vụ mã hóa và tác nhân; điểm nổi bật là trọng số mở cộng với chi phí, chứ không phải dẫn đầu bảng xếp hạng.
- Nó đi kèm với Kimi Code, một tác nhân mã hóa terminal và IDE, và một API tương thích với OpenAI mà bạn có thể thử nghiệm trong vài phút với Apidog.
Kimi K2.7 Code trong một đoạn văn
Kimi K2.7 Code là phiên bản chuyên biệt cho mã hóa của dòng K2 của Moonshot AI. Nó sử dụng cùng thiết kế Mixture-of-Experts thưa thớt như các mô hình Kimi gần đây, do đó chỉ một phần nhỏ trọng số của nó hoạt động trên bất kỳ token nào. Hậu tố “Code” là điểm nhấn: Moonshot đã tinh chỉnh điểm kiểm tra này cho phát triển phần mềm, các cuộc gọi công cụ đa bước và các phiên tác nhân dài thay vì trò chuyện chung. Các nâng cấp chính so với K2.6 là đầu vào đa phương thức tự nhiên, ngân sách lập luận tinh gọn hơn và tích hợp chặt chẽ hơn với framework tác nhân riêng của Moonshot. Bạn có thể sử dụng nó thông qua ứng dụng web Kimi, Kimi Code CLI, một API được lưu trữ, hoặc bằng cách tải trọng số từ Hugging Face.
Những thay đổi từ Kimi K2.6
Nếu bạn đã đọc bài giải thích Kimi K2.6 của chúng tôi, ba điểm khác biệt sau đây là quan trọng nhất.

Nó được tinh chỉnh cho mã hóa và tác nhân trước tiên. K2.6 là một mô hình tổng quát mạnh mẽ. K2.7 Code thu hẹp trọng tâm vào các quy trình làm việc mã hóa: tái cấu trúc, gỡ lỗi, khám phá cơ sở mã và chuỗi các cuộc gọi công cụ mà không bị lạc hướng giữa chừng một tác vụ.
Suy nghĩ rẻ hơn. Moonshot báo cáo giảm khoảng 30% mức sử dụng token suy nghĩ so với K2.6 để có kết quả tương đương. Token suy nghĩ là token bị tính phí, vì vậy việc cắt giảm 30% tác động trực tiếp đến chi phí và độ trễ khi chạy tác nhân của bạn. Trong một phiên mã hóa dài với hàng trăm cuộc gọi công cụ, điều đó nhanh chóng tích lũy.
Nó có khả năng nhìn. K2.7 Code đi kèm với một bộ mã hóa thị giác MoonViT 400M tham số, vì vậy nó có thể đọc ảnh chụp màn hình, sơ đồ và khung video. Điều này quan trọng đối với các tác nhân cần xem xét giao diện người dùng bị lỗi, ảnh chụp màn hình dấu vết ngăn xếp hoặc bản thiết kế trước khi hành động.
Bên trong kiến trúc
Kiến trúc của mô hình giải thích cả khả năng và chi phí phục vụ thấp của nó.
| Đặc tả | Kimi K2.7 Code |
|---|---|
| Tổng số tham số | 1 nghìn tỷ |
| Tham số hoạt động mỗi token | 32 tỷ |
| Chuyên gia | 384 tổng cộng, 8 được chọn mỗi token |
| Số lớp | 61 (1 dày đặc) |
| Cơ chế chú ý | Multi-head Latent Attention (MLA) |
| Cửa sổ ngữ cảnh | 256K token |
| Bộ mã hóa thị giác | MoonViT, 400M tham số |
| Giấy phép | MIT sửa đổi |
Thiết lập Mixture-of-Experts là lý do tại sao một mô hình “1 nghìn tỷ tham số” lại khả thi để chạy. Một bộ định tuyến chọn 8 trong số 384 chuyên gia cho mỗi token, vì vậy bạn chỉ phải trả chi phí tính toán cho 32 tỷ tham số hoạt động, chứ không phải toàn bộ nghìn tỷ. Bạn có được khả năng kiến thức của một mô hình khổng lồ với chi phí mỗi token gần với một mô hình cỡ trung bình.
Multi-head Latent Attention giữ cho bộ đệm khóa-giá trị nhỏ, điều này làm cho cửa sổ ngữ cảnh 256K trở nên phải chăng để phục vụ. Ngữ cảnh dài là phần mà các nhà phát triển cảm nhận được: bạn có thể đưa toàn bộ một dịch vụ, các bài kiểm tra của nó và cấu hình của nó vào một lời nhắc và yêu cầu một thay đổi tôn trọng tất cả những điều đó.
Các điểm chuẩn, đọc một cách trung thực
Moonshot đã công bố điểm số so với GPT-5.5 và Claude Opus trên các bộ công cụ mã hóa và tác nhân. Mô hình nhất quán: K2.7 Code có tính cạnh tranh và gần đạt được, nhưng nó không đứng đầu phân khúc đóng trong hầu hết các tác vụ.

Mã hóa
| Điểm chuẩn | Kimi K2.7 Code | GPT-5.5 | Claude Opus |
|---|---|---|---|
| Kimi Code Bench v2 | 62.0 | 69.0 | 67.4 |
| Program Bench | 53.6 | 69.1 | 63.8 |
| MLS Bench Lite | 35.1 | 35.5 | 42.8 |
Tác nhân và sử dụng công cụ
| Điểm chuẩn | Kimi K2.7 Code | GPT-5.5 | Claude Opus |
|---|---|---|---|
| Kimi Claw 24/7 | 46.9 | 52.8 | 50.4 |
| MCP Atlas | 76.0 | 79.4 | 81.3 |
| MCP Mark Verified | 81.1 | 92.9 | 76.4 |
Có hai lưu ý để giữ sự công bằng. Thứ nhất, một số bộ công cụ này là của Moonshot, vì vậy hãy coi chúng là cách trình bày của nhà cung cấp, chứ không phải bảng xếp hạng trung lập. Thứ hai, câu chuyện không phải là “Kimi chiến thắng”. Mà là “một mô hình trọng số mở mà bạn có thể tải xuống và tự lưu trữ chỉ kém vài điểm so với các mô hình mà bạn chỉ có thể thuê”. Trên MCP Mark Verified, nó thậm chí còn vượt qua Claude Opus. Đối với nhiều công việc thực tế, một mô hình tốt bằng 90% nhưng mở và rẻ hơn là một sự lựa chọn tốt hơn. Nếu khả năng mã hóa thô là thước đo duy nhất của bạn, bài so sánh DeepSeek V4 vs Claude Opus của chúng tôi sẽ đi sâu hơn vào khoảng cách giữa mô hình đóng và mở.
Tại sao lợi ích hiệu quả lại quan trọng
Mã hóa tác nhân tiêu tốn token trong một vòng lặp: đọc tệp, suy luận, gọi công cụ, đọc kết quả, suy luận lại. Hầu hết chi phí đó là để suy luận, không phải để tạo ra kết quả. Việc cắt giảm token suy nghĩ khoảng 30% thực hiện hai điều cùng lúc. Nó giảm chi phí cho mỗi tác vụ và rút ngắn thời gian thực hiện cho mỗi bước vì mô hình viết ít hơn trước khi hành động. Nếu bạn đã từng thấy một tác nhân mã hóa bị kẹt khi nó “suy nghĩ”, bạn sẽ hiểu tại sao điều đó có giá trị hơn một điểm chuẩn. Để biết thêm cách cắt giảm chi phí đó, hãy xem hướng dẫn của chúng tôi về giảm chi phí token tác nhân từ CLI.
Kimi Code: tác nhân đi kèm với mô hình
K2.7 Code không chỉ là một điểm kiểm tra. Moonshot đã xây dựng Kimi Code, một tác nhân mã hóa gốc terminal được thiết kế xoay quanh các điểm mạnh của mô hình: suy nghĩ được bảo toàn, lập luận xen kẽ và các cuộc gọi công cụ đa bước. Nó viết và chỉnh sửa tệp, chạy lệnh shell, tìm kiếm cơ sở mã của bạn, tìm nạp nội dung web và tạo các tác nhân con để làm việc song song. Bạn cài đặt nó bằng một lệnh:
curl -fsSL https://code.kimi.com/kimi-code/install.sh | bash
Sau đó chạy `kimi` trong bất kỳ thư mục dự án nào. Ngoài ra còn có một tiện ích mở rộng VS Code, cộng với hỗ trợ JetBrains và Zed thông qua giao thức ACP. Chúng tôi trình bày đầy đủ thiết lập, lệnh gạch chéo và quy trình làm việc lần chạy đầu tiên trong một hướng dẫn chuyên sâu; nếu bạn đã sử dụng Kimi CLI cũ, tác nhân mới là một bản xây dựng lại hoàn toàn, không phải là một bản thay đổi giao diện.
Kimi K2.7 Code có thể tìm thấy ở đâu
Bạn có bốn cách để truy cập mô hình.
- Ứng dụng web Kimi và Kimi App. Truy cập trò chuyện để hỏi nhanh và tạo mẫu, không cần thiết lập.
- Kimi Code CLI. Tác nhân terminal nêu trên, để mã hóa thực hành trong kho lưu trữ của bạn.
- API. Một điểm cuối tương thích với OpenAI trên nền tảng Moonshot. Sử dụng id mô hình `kimi-k2.7-code` và trỏ client OpenAI hiện có của bạn tới `https://api.moonshot.ai/v1`. Vì nó tương thích với OpenAI, nó có thể tích hợp vào các công cụ như Claude Code, Cursor và Cline chỉ bằng cách thay đổi URL cơ sở. (Gói đăng ký Kimi Code cố định sử dụng một id riêng, `kimi-for-coding`.)
- Trọng số mở. Tải xuống từ Hugging Face và tự lưu trữ. Moonshot khuyến nghị vLLM, SGLang hoặc KTransformers để phục vụ. Đây là lựa chọn nếu bạn cần dữ liệu nằm trên phần cứng của riêng mình.
Cách kiểm tra API Kimi K2.7 Code trong Apidog
Trước khi bạn kết nối mô hình vào một tác nhân, việc xem các yêu cầu và phản hồi thô sẽ rất hữu ích. Apidog cung cấp cho bạn một không gian làm việc trực quan để thực hiện điều đó mà không cần viết client.
- Mở Apidog và tạo một yêu cầu HTTP mới.
- Đặt phương thức là `POST` và URL là `https://api.moonshot.ai/v1/chat/completions`.
- Thêm một tiêu đề `Authorization: Bearer`. Lấy khóa từ bảng điều khiển nền tảng Kimi.
- Trong phần nội dung, gửi một tải trọng kiểu OpenAI với `"model": "kimi-k2.7-code"` và một mảng `messages`.
- Gửi yêu cầu và đọc phản hồi. Apidog định dạng JSON, hiển thị mức sử dụng token và cho phép bạn lưu cuộc gọi dưới dạng một bài kiểm tra có thể tái sử dụng.
Từ đó, bạn có thể xây dựng một kịch bản kiểm tra nhỏ: xác nhận trạng thái phản hồi, kiểm tra xem `usage.completion_tokens` có nằm trong ngân sách hay không và chạy nó trên mỗi bản cập nhật mô hình để phát hiện lỗi hồi quy. Vì điểm cuối tương thích với OpenAI, cùng một thiết lập này hoạt động cho bất kỳ mô hình nào trên nền tảng Kimi. Nếu bạn đang kiểm tra khả năng gọi công cụ của mô hình thông qua MCP, sổ tay kiểm thử máy chủ MCP của chúng tôi sẽ hướng dẫn các xác nhận quan trọng. Tải xuống Apidog để thực hành.
Ai nên chọn Kimi K2.7 Code
Hãy chọn nó nếu bạn đang xây dựng:
- Các tác nhân mã hóa mà chi phí token và độ trễ quyết định liệu sản phẩm có khả thi hay không.
- Các công cụ cần ngữ cảnh dài: chỉnh sửa toàn bộ kho lưu trữ, tái cấu trúc lớn, suy luận đa tệp.
- Bất cứ thứ gì phải chạy trên cơ sở hạ tầng của riêng bạn vì lý do riêng tư hoặc tuân thủ, vì trọng số là mã nguồn mở.
- Quy trình làm việc mã hóa đa phương thức đọc ảnh chụp màn hình, sơ đồ hoặc video.
Hãy chọn một mô hình tiên tiến đóng nếu bạn cần:
- Điểm mã hóa đơn lẻ cao nhất tuyệt đối, nơi một vài điểm chuẩn có thể biện minh cho giá cả.
- Hợp đồng SLA và hỗ trợ được quản lý thay vì tự lưu trữ.
Để có cái nhìn rộng hơn về lĩnh vực mã nguồn mở, bài so sánh MiniMax M3 vs DeepSeek V4 vs Qwen 3.7 của chúng tôi đặt các đối thủ của Kimi cạnh nhau.
Câu hỏi thường gặp
- Kimi K2.7 Code có phải là mã nguồn mở không? Trọng số được công khai theo giấy phép MIT sửa đổi, vì vậy bạn có thể tải xuống, chạy và tinh chỉnh chúng. Đọc các điều khoản giấy phép trên thẻ mô hình trước khi sử dụng thương mại.
- Kích thước cửa sổ ngữ cảnh là bao nhiêu? 256K token. Điều đó đủ cho một dịch vụ đầy đủ cộng với các bài kiểm tra của nó trong một lời nhắc duy nhất.
- Tôi có thể chạy nó cục bộ không? Có. Moonshot khuyến nghị vLLM, SGLang hoặc KTransformers. Toàn bộ trọng số rất lớn (quy mô nghìn tỷ tham số), vì vậy hãy lên kế hoạch cho bộ nhớ GPU nghiêm túc hoặc một bản dựng lượng tử hóa.
- ID mô hình cho API là gì? Sử dụng `kimi-k2.7-code` trên Moonshot API (`https://api.moonshot.ai/v1`); gói đăng ký Kimi Code cố định sử dụng `kimi-for-coding`. Điểm cuối tương thích với OpenAI, vì vậy hầu hết các client hiện có đều hoạt động với việc thay đổi URL cơ sở.
- Nó khác với Kimi K2.6 thông thường như thế nào? Nó được tinh chỉnh đặc biệt cho mã hóa và tác nhân, bổ sung khả năng thị giác và sử dụng ít hơn khoảng 30% token suy nghĩ để có kết quả tương đương.
- Nó có hỗ trợ gọi công cụ và MCP không? Có. Nó được xây dựng để lập luận xen kẽ và các cuộc gọi công cụ đa bước, và Kimi Code hỗ trợ Giao thức Ngữ cảnh Mô hình (Model Context Protocol).
- Nó có miễn phí không? Bạn có thể trò chuyện trong ứng dụng Kimi mà không mất phí và trọng số được tải xuống miễn phí. Việc sử dụng API và tác nhân Kimi Code chạy trên các gói đăng ký có giới hạn hạn mức.
Tóm tắt
Kimi K2.7 Code là cược của Moonshot rằng trọng số mở cộng với chi phí thấp sẽ đánh bại việc theo đuổi đỉnh bảng xếp hạng điểm chuẩn. Đây là một mô hình MoE 1T tham số với 32B hoạt động, cửa sổ ngữ cảnh 256K, khả năng thị giác và ngân sách suy luận nhẹ hơn ~30% so với K2.6. Nó sẽ không vượt qua GPT-5.5 hoặc Claude Opus trên hầu hết các bộ công cụ mã hóa, nhưng nó tiệm cận trong khi vẫn có thể tải xuống và chạy với chi phí thấp hơn, và nó đi kèm với một tác nhân terminal có năng lực. Nếu bạn đang xây dựng các công cụ mã hóa mà chi phí và kiểm soát quan trọng ngang với chất lượng thô, thì nó đáng để thử nghiệm thực tế. Bắt đầu bằng cách gửi một yêu cầu thông qua Apidog để xem API hoạt động như thế nào, sau đó quyết định xem có nên tự lưu trữ nó hay không.
