Moonshot AI는 소프트웨어 작성 및 코딩 에이전트 실행을 위해 특별히 제작된 오픈 가중치 모델인 Kimi K2.7 Code를 출시했습니다. Kimi K2 라인의 조 단위 매개변수 규모를 유지하고, 비전 기능을 추가했으며, 이전 에이전트 실행 비용을 높였던 사고 토큰 비용을 절감했습니다. Kimi K2.6 또는 그 API를 사용해 보셨다면, 이 모델은 코딩에 최적화된 후속작입니다. 또한 Claude Code 및 Codex와 정면으로 경쟁하는 Kimi Code라는 터미널 에이전트와 함께 제공됩니다.
다음은 이 모델이 실제로 무엇인지, 무엇이 변경되었는지, 점수는 어떤지, 그리고 오늘날 어디에서 실행할 수 있는지에 대한 내용입니다.
요약
- Kimi K2.7 Code는 MoE(Mixture-of-Experts) 모델입니다: 총 1조 개의 매개변수, 토큰당 320억 개의 활성 매개변수.
- 256K 토큰 컨텍스트 창, 비전(MoonViT 인코더를 통한 이미지 및 비디오 입력), 그리고 동일한 작업에서 K2.6보다 약 30% 적은 사고 토큰을 사용합니다.
- 가중치는 수정된 MIT 라이선스로 공개되어 있습니다; vLLM, SGLang 또는 KTransformers로 자체 호스팅할 수 있습니다.
- Moonshot이 보고한 벤치마크에서는 코딩 및 에이전트 작업에서 GPT-5.5 및 Claude Opus 바로 뒤에 위치합니다; 핵심은 차트 정상을 차지하는 것이 아니라 오픈 가중치와 비용 효율성입니다.
- Kimi Code라는 터미널 및 IDE 코딩 에이전트와 Apidog를 사용하여 몇 분 안에 테스트할 수 있는 OpenAI 호환 API와 함께 제공됩니다.
한 문장으로 설명하는 Kimi K2.7 Code
Kimi K2.7 Code는 Moonshot AI의 K2 제품군의 코딩 전문 출시 모델입니다. 최신 Kimi 모델과 동일한 희소 MoE(Mixture-of-Experts) 설계를 사용하므로, 주어진 토큰에 대해 가중치의 일부만 활성화됩니다. "Code" 접미사가 핵심입니다: Moonshot은 이 체크포인트를 일반 채팅보다는 소프트웨어 개발, 다단계 도구 호출 및 장기 에이전트 세션을 위해 튜닝했습니다. K2.6에 비해 주요 개선 사항은 기본 멀티모달 입력, 더욱 효율적인 추론 예산, 그리고 Moonshot 자체 에이전트 프레임워크와의 긴밀한 통합입니다. Kimi 웹 앱, Kimi Code CLI, 호스팅된 API를 통해 사용하거나 Hugging Face에서 가중치를 다운로드하여 사용할 수 있습니다.
Kimi K2.6에서 변경된 사항
저희의 Kimi K2.6 설명서를 이미 읽으셨다면, 세 가지 차이점이 가장 중요합니다.

코드 및 에이전트에 최적화되었습니다. K2.6은 강력한 범용 모델이었습니다. K2.7 Code는 코딩 워크플로우에 초점을 맞춥니다: 리팩토링, 디버깅, 코드베이스 탐색, 그리고 작업 도중 흐름을 잃지 않고 도구 호출을 연결하는 작업입니다.
사고 비용이 저렴해졌습니다. Moonshot은 K2.6과 비교하여 유사한 결과에 대해 사고 토큰 사용량이 약 30% 감소했다고 보고합니다. 추론 토큰은 청구되는 토큰이므로, 30% 감소는 에이전트 실행 비용과 지연 시간에 직접적인 영향을 미칩니다. 수백 번의 도구 호출이 포함된 긴 코딩 세션에서는 빠르게 누적되는 비용 절감 효과를 볼 수 있습니다.
비전 기능이 추가되었습니다. K2.7 Code는 4억 매개변수의 MoonViT 비전 인코더와 함께 제공되어 스크린샷, 다이어그램, 비디오 프레임을 읽을 수 있습니다. 이는 작동하기 전에 실패한 UI, 스택 트레이스 스크린샷 또는 디자인 목업을 살펴봐야 하는 에이전트에게 중요합니다.
아키텍처 내부
모델의 구조는 모델의 기능과 낮은 서비스 비용을 모두 설명합니다.
| 사양 | Kimi K2.7 Code |
|---|---|
| 총 매개변수 | 1조 개 |
| 토큰당 활성 매개변수 | 320억 개 |
| 전문가(Experts) | 총 384개, 토큰당 8개 선택 |
| 레이어 | 61개 (1개는 Dense) |
| 어텐션 | 멀티 헤드 잠재 어텐션 (Multi-head Latent Attention, MLA) |
| 컨텍스트 창 | 256K 토큰 |
| 비전 인코더 | MoonViT, 4억 매개변수 |
| 라이선스 | 수정된 MIT |
MoE(Mixture-of-Experts) 설정 덕분에 "1조 매개변수" 모델을 실용적으로 실행할 수 있습니다. 라우터가 각 토큰에 대해 384개의 전문가 중 8개를 선택하므로, 전체 1조 개가 아닌 320억 개의 활성 매개변수에 대한 컴퓨팅 비용만 지불합니다. 이는 거대 모델의 지식 용량을 가지면서도 중간 규모 모델에 가까운 토큰당 비용을 얻을 수 있음을 의미합니다.
멀티 헤드 잠재 어텐션(Multi-head Latent Attention)은 키-값 캐시를 작게 유지하여 256K 컨텍스트 창을 저렴하게 서비스할 수 있게 합니다. 개발자들이 체감하는 부분은 긴 컨텍스트입니다: 전체 서비스, 테스트, 구성 파일을 하나의 프롬프트에 넣고 모든 내용을 존중하는 변경을 요청할 수 있습니다.
솔직하게 읽는 벤치마크
Moonshot은 코딩 및 에이전트 스위트 전반에 걸쳐 GPT-5.5 및 Claude Opus에 대한 점수를 공개했습니다. 일관된 패턴은 다음과 같습니다: K2.7 Code는 경쟁력 있고 근접하지만, 대부분의 작업에서 폐쇄형 프론티어 모델을 능가하지는 못합니다.

코딩
| 벤치마크 | Kimi K2.7 Code | GPT-5.5 | Claude Opus |
|---|---|---|---|
| Kimi Code Bench v2 | 62.0 | 69.0 | 67.4 |
| Program Bench | 53.6 | 69.1 | 63.8 |
| MLS Bench Lite | 35.1 | 35.5 | 42.8 |
에이전트 및 도구 사용
| 벤치마크 | Kimi K2.7 Code | GPT-5.5 | Claude Opus |
|---|---|---|---|
| Kimi Claw 24/7 | 46.9 | 52.8 | 50.4 |
| MCP Atlas | 76.0 | 79.4 | 81.3 |
| MCP Mark Verified | 81.1 | 92.9 | 76.4 |
두 가지 주의사항을 통해 공정성을 유지합니다. 첫째, 이 스위트 중 일부는 Moonshot 자체의 것이므로, 중립적인 순위표가 아닌 공급업체의 시각으로 해석해야 합니다. 둘째, 이야기는 "Kimi가 이겼다"가 아닙니다. "다운로드하여 자체 호스팅할 수 있는 오픈 가중치 모델이 대여만 가능한 모델과 몇 점 차이로 근접한다"는 것입니다. MCP Mark Verified에서는 Claude Opus를 앞서기도 합니다. 많은 실제 작업에서 90%만큼 좋지만 오픈 소스이고 더 저렴한 모델이 더 나은 선택일 수 있습니다. 순수한 코딩 성능만이 유일한 기준이라면, 저희의 DeepSeek V4 대 Claude Opus 비교에서 폐쇄형 대 오픈형 모델의 격차를 더 자세히 다룹니다.
효율성 향상이 중요한 이유
에이전트 기반 코딩은 파일을 읽고, 추론하고, 도구를 호출하고, 결과를 읽고, 다시 추론하는 루프에서 토큰을 소모합니다. 대부분의 비용은 출력이 아닌 추론에 사용됩니다. 사고 토큰을 약 30% 절감하는 것은 두 가지 효과를 동시에 가져옵니다. 작업당 비용을 낮추고, 모델이 행동하기 전에 쓰는 양이 줄어들기 때문에 각 단계의 실제 시간을 단축합니다. 코딩 에이전트가 "생각하는" 동안 멈추는 것을 보셨다면, 왜 이것이 벤치마크 점수 이상으로 가치가 있는지 아실 것입니다. 비용을 절감하는 더 많은 방법을 보려면 CLI에서 에이전트 토큰 비용을 줄이는 방법에 대한 저희 가이드를 참조하십시오.
Kimi Code: 모델과 함께 제공되는 에이전트
K2.7 Code는 단순히 체크포인트가 아닙니다. Moonshot은 모델의 강점(보존된 사고, 인터리브된 추론, 다단계 도구 호출)을 중심으로 설계된 터미널 네이티브 코딩 에이전트인 Kimi Code를 구축했습니다. 파일을 작성하고 편집하며, 셸 명령을 실행하고, 코드베이스를 검색하고, 웹 콘텐츠를 가져오며, 병렬 작업을 위한 하위 에이전트를 생성합니다. 다음 한 가지 명령으로 설치할 수 있습니다:
curl -fsSL https://code.kimi.com/kimi-code/install.sh | bash
그런 다음 아무 프로젝트 디렉토리에서 kimi를 실행하십시오. VS Code 확장 기능도 있으며, ACP 프로토콜을 통해 JetBrains 및 Zed도 지원합니다. 저희는 전용 워크스루에서 전체 설정, 슬래시 명령 및 첫 실행 워크플로우를 다룹니다. 기존 Kimi CLI를 사용해 보셨다면, 새로운 에이전트는 단순히 재스킨이 아니라 전면적으로 재구축된 것입니다.
Kimi K2.7 Code가 있는 곳
모델에 접근하는 네 가지 방법이 있습니다.
- Kimi 웹 앱 및 Kimi 앱. 빠른 질문 및 프로토타이핑을 위한 채팅 접근, 설정 불필요.
- Kimi Code CLI. 위에서 언급된 터미널 에이전트로, 리포지토리 내에서 직접 코딩을 할 수 있습니다.
- API. Moonshot 플랫폼의 OpenAI 호환 엔드포인트.
kimi-k2.7-code모델 ID를 사용하고 기존 OpenAI 클라이언트를https://api.moonshot.ai/v1로 지정하십시오. OpenAI 호환이므로, 기본 URL만 변경하면 Claude Code, Cursor, Cline과 같은 도구에 쉽게 통합됩니다. (정액제 Kimi Code 구독은 별도의 IDkimi-for-coding을 사용합니다.) - 오픈 가중치. Hugging Face에서 다운로드하여 자체 호스팅할 수 있습니다. Moonshot은 vLLM, SGLang 또는 KTransformers를 서비스용으로 권장합니다. 데이터를 자체 하드웨어에 보관해야 하는 경우 이 방법을 사용하십시오.
Apidog에서 Kimi K2.7 Code API 테스트 방법
모델을 에이전트에 연결하기 전에 원시 요청과 응답을 확인하는 것이 도움이 됩니다. Apidog는 클라이언트를 작성할 필요 없이 시각적인 작업 공간을 제공합니다.
- Apidog를 열고 새 HTTP 요청을 생성합니다.
- 메서드를
POST로, URL을https://api.moonshot.ai/v1/chat/completions로 설정합니다. Authorization: Bearer <your-key>헤더를 추가합니다. Kimi 플랫폼 콘솔에서 키를 가져오십시오.- 본문에는
"model": "kimi-k2.7-code"및messages배열이 포함된 OpenAI 스타일 페이로드를 전송합니다. - 요청을 보내고 응답을 읽습니다. Apidog는 JSON을 형식화하고, 토큰 사용량을 표시하며, 호출을 재사용 가능한 테스트로 저장할 수 있게 합니다.
여기서부터 작은 테스트 시나리오를 구축할 수 있습니다: 응답 상태를 확인하고, usage.completion_tokens가 예산 내에 있는지 확인하며, 회귀를 잡기 위해 모든 모델 업데이트 시 실행합니다. 엔드포인트가 OpenAI 호환이므로, 동일한 설정이 Kimi 플랫폼의 모든 모델에 적용됩니다. MCP를 통해 모델의 도구 호출을 테스트하는 경우, 저희의 MCP 서버 테스트 플레이북에서 중요한 확인 사항들을 안내합니다. 함께 따라하려면 Apidog를 다운로드하십시오.
Kimi K2.7 Code를 선택해야 하는 경우
다음과 같은 것을 구축하고 있다면 선택하십시오:
- 토큰 비용과 지연 시간이 제품의 성공 여부를 결정하는 코딩 에이전트.
- 긴 컨텍스트가 필요한 도구: 전체 리포지토리 편집, 대규모 리팩토링, 다중 파일 추론.
- 가중치가 공개되어 있으므로 개인 정보 보호 또는 규정 준수를 위해 자체 인프라에서 실행해야 하는 모든 것.
- 스크린샷, 다이어그램 또는 비디오를 읽는 멀티모달 코딩 워크플로우.
다음과 같은 경우 폐쇄형 프론티어 모델을 고수하십시오:
- 몇 점의 벤치마크 점수가 가격을 정당화하는 절대적으로 가장 높은 단일 샷 코딩 점수가 필요한 경우.
- 자체 호스팅 대신 관리형 SLA 및 지원 계약이 필요한 경우.
오픈 가중치 분야에 대한 더 넓은 시야를 위해, 저희의 MiniMax M3 대 DeepSeek V4 대 Qwen 3.7 비교에서 Kimi의 경쟁자들을 나란히 비교합니다.
자주 묻는 질문 (FAQ)
- Kimi K2.7 Code는 오픈 소스인가요? 가중치는 수정된 MIT 라이선스에 따라 공개되어 있으므로 다운로드, 실행 및 파인튜닝할 수 있습니다. 상업적 사용 전에 모델 카드에 명시된 라이선스 조건을 읽어보십시오.
- 컨텍스트 창 크기는 얼마나 되나요? 256K 토큰입니다. 단일 프롬프트에 전체 서비스와 테스트를 담을 수 있는 충분한 크기입니다.
- 로컬에서 실행할 수 있나요? 예. Moonshot은 vLLM, SGLang 또는 KTransformers를 권장합니다. 전체 가중치는 매우 크므로(조 단위 매개변수 규모), 상당한 GPU 메모리 또는 양자화 빌드를 계획해야 합니다.
- API의 모델 ID는 무엇인가요? Moonshot API(
https://api.moonshot.ai/v1)에서kimi-k2.7-code를 사용하십시오. 정액제 Kimi Code 구독은kimi-for-coding을 사용합니다. 엔드포인트는 OpenAI 호환이므로, 대부분의 기존 클라이언트는 기본 URL 변경만으로 작동합니다. - 일반 Kimi K2.6과는 어떻게 다른가요? 코딩 및 에이전트에 특별히 튜닝되었으며, 비전 기능이 추가되었고, 유사한 결과에 대해 사고 토큰을 약 30% 적게 사용합니다.
- 도구 호출 및 MCP를 지원하나요? 예. 인터리브된 추론 및 다단계 도구 호출을 위해 구축되었으며, Kimi Code는 모델 컨텍스트 프로토콜(MCP)을 지원합니다.
- 무료인가요? Kimi 앱에서 무료로 채팅할 수 있으며, 가중치는 무료로 다운로드할 수 있습니다. API 및 Kimi Code 에이전트 사용은 할당량 제한이 있는 구독 플랜으로 운영됩니다.
요약
Kimi K2.7 Code는 오픈 가중치와 저렴한 비용이 벤치마크 차트의 정점을 쫓는 것보다 낫다는 Moonshot의 전략입니다. 이 모델은 1조 매개변수 MoE 모델로, 320억 개의 활성 매개변수, 256K 컨텍스트 창, 비전 기능, 그리고 K2.6보다 약 30% 더 효율적인 추론 예산을 특징으로 합니다. 대부분의 코딩 스위트에서 GPT-5.5나 Claude Opus를 능가하지는 못하겠지만, 다운로드 및 실행 비용이 저렴하면서도 근접한 성능을 보이며, 유능한 터미널 에이전트와 함께 제공됩니다. 원시 품질만큼이나 비용과 제어가 중요한 코딩 도구를 구축하고 있다면, 진지하게 테스트해 볼 가치가 있습니다. Apidog를 통해 요청을 보내 API 동작을 확인한 다음, 자체 호스팅 여부를 결정하는 것으로 시작하십시오.
