AI 기반 개발자 도구가 더 이상 새로운 것이 아니라 필수가 된 시대에, Visual Studio Code의 Copilot은 확고한 선두 주자로 자리매김했습니다. 그러나 AI의 진정한 힘은 그 다양성과 다양한 모델의 특화된 능력에 있습니다. 만약 Copilot의 기본 엔진을 더 강력하거나, 더 전문적이거나, 심지어 직접 실행하는 무언가로 교체할 수 있다면 어떨까요? 이 글은 Moonshot AI의 강력한 Kimi K2 언어 모델을 VSCode Copilot에 통합하는 과정을 안내할 것이며, 우리는 Fake Ollama라는 영리한 도구를 사용하여 이를 수행할 것입니다.
이 포괄적인 가이드는 API 키 획득부터 로컬 환경 설정, 그리고 마지막으로 즐겨 사용하는 편집기 안에서 1조 개 매개변수 모델의 힘을 직접 경험하는 것까지 전체 과정을 안내할 것입니다.
최대 생산성으로 개발팀이 함께 작업할 수 있는 통합된 올인원 플랫폼을 원하십니까?
Apidog는 귀하의 모든 요구를 충족시키며, Postman을 훨씬 저렴한 가격으로 대체합니다!
기술적인 세부 사항에 들어가기 전에, 이 설정의 주요 구성 요소들을 살펴보겠습니다.
Kimi K2란 무엇인가요?

Kimi K2는 Moonshot AI가 개발한 최첨단 대규모 언어 모델입니다. 이 모델은 총 1조 개의 매개변수를 가진 전문가 혼합(MoE) 모델이며, 추론 시에는 320억 개의 매개변수가 활성화됩니다.

이 아키텍처는 Kimi K2가 특히 다음을 포함한 광범위한 작업에서 뛰어난 성능을 발휘하도록 합니다.
- 코딩: LiveCodeBench 및 SWE-bench와 같은 벤치마크에서 인상적인 점수를 기록하며, Kimi K2는 코딩 분야의 강자입니다.
- 추론: 이 모델은 강력한 논리 및 추론 능력을 보여주어, 복잡한 문제 해결을 위한 훌륭한 파트너가 됩니다.
- 긴 컨텍스트 이해: Kimi K2는 최대 128,000 토큰의 방대한 컨텍스트 창을 처리할 수 있어, 대규모 코드베이스, 방대한 문서 및 긴 대화를 이해하고 작업할 수 있습니다.
Kimi K2는 두 가지 주요 변형으로 제공됩니다:
- Kimi-K2-Base: 기본 모델로, 미세 조정 및 맞춤형 솔루션 구축을 원하는 연구원 및 개발자에게 이상적입니다.
- Kimi-K2-Instruct: 채팅 및 에이전트 작업을 위해 최적화된 미세 조정 버전으로, 다른 지시 따르기 모델을 완벽하게 대체할 수 있습니다.
우리의 목적을 위해, 우리는 API를 통해 Instruct 모델을 사용할 것입니다.
VSCode Copilot이란 무엇인가요?
이 글을 읽고 계시다면, 아마 VSCode Copilot에 이미 익숙하실 것입니다. 이것은 GitHub와 OpenAI가 개발한 AI 기반 코드 완성 및 지원 도구입니다. 지능적인 코드 제안을 제공하고, 코딩 질문에 답변하며, 코드 리팩토링 및 디버깅까지 도울 수 있습니다. 기본적으로도 엄청나게 강력하지만, 최근 업데이트를 통해 사용자 지정 모델 사용의 길이 열렸으며, 이것이 우리가 활용할 기능입니다.
Fake Ollama란 무엇인가요?

이것이 우리의 통합을 가능하게 하는 비장의 무기입니다. Fake Ollama는 이름에서 알 수 있듯이, 로컬 언어 모델을 실행하고 관리하는 인기 있는 플랫폼인 Ollama의 API를 모방하는 서버를 생성하는 도구입니다.
최신 버전의 VSCode Copilot을 포함한 많은 애플리케이션은 Ollama API를 기본적으로 지원합니다. Fake Ollama를 실행함으로써, 우리는 VSCode Copilot이 표준 Ollama 인스턴스와 통신하고 있다고 착각하게 만들 수 있으며, 실제로는 Fake Ollama 서버가 Kimi K2 API로 요청을 전달합니다. 이는 사실상 모든 모델 API를 Ollama를 지원하는 모든 도구에 연결할 수 있게 하는 다용도 브릿지 역할을 합니다.
사전 준비 사항
시작하기 전에 다음 사항이 설치되어 준비되었는지 확인하십시오:
- Visual Studio Code: 사용할 Copilot 기능과의 호환성을 위해 최신 버전을 권장합니다.
- VSCode Copilot 확장: 활성 Copilot 구독이 있어야 하며 VSCode에 확장이 설치되어 있어야 합니다.
- Python: Fake Ollama 서버를 실행하려면 최신 버전의 Python (3.8 이상)이 필요합니다.
- Git: GitHub에서 Fake Ollama 저장소를 클론하려면 Git이 필요합니다.
- Kimi K2 API 키: 첫 번째 단계에서 이를 얻는 방법을 다룰 것입니다.
통합: 단계별 가이드
이제 본격적으로 Kimi K2를 VSCode Copilot에 통합해 봅시다.
1단계: Kimi K2 API 키 획득
Kimi K2 API 키를 얻는 데는 두 가지 주요 옵션이 있습니다:
- Moonshot AI 플랫폼: Moonshot AI 플랫폼에 직접 가입할 수 있습니다. 이를 통해 Kimi K2 API에 직접 접근할 수 있습니다.
- OpenRouter: 유연성 때문에 권장되는 방법입니다. OpenRouter는 Kimi K2를 포함한 방대한 AI 모델에 대한 통합 API를 제공하는 서비스입니다. OpenRouter를 사용하면 코드나 API 키를 변경하지 않고도 다른 모델 간에 쉽게 전환할 수 있습니다.
이 가이드에서는 OpenRouter를 사용한다고 가정합니다. 계정을 생성하고 API 키를 획득한 후에는 OpenAI Python 라이브러리를 사용하여 Kimi K2 모델과 상호 작용할 수 있습니다. 예시는 다음과 같습니다:Python
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="YOUR_OPENROUTER_API_KEY",
)
response = client.chat.completions.create(
model="moonshotai/kimi-k2",
messages=[
{"role": "user", "content": "Write a simple Python function to calculate the factorial of a number."},
],
)
print(response.choices[0].message.content)
OpenRouter API 키를 잘 보관해 두십시오. Fake Ollama 구성에 필요할 것입니다.
2단계: Fake Ollama 설정
먼저, GitHub에서 Fake Ollama 저장소를 클론해야 합니다. 터미널을 열고 다음 명령을 실행하십시오:Bash
git clone https://github.com/spoonnotfound/fake-ollama.git
다음으로, 클론한 디렉토리로 이동하여 필요한 Python 종속성을 설치하십시오:Bash
cd fake-ollama
pip install -r requirements.txt
3단계: Kimi K2를 위한 Fake Ollama 구성
이것이 가장 중요한 단계입니다. Fake Ollama가 OpenRouter API 키를 사용하고 Kimi K2 모델을 가리키도록 구성해야 합니다. 구성은 .env
파일에 있거나 메인 Python 스크립트에 직접 있을 수 있습니다. 이 가이드에서는 모범 사례를 위해 .env
파일을 가정합니다.
fake-ollama
디렉토리에 .env
라는 파일을 생성하고 다음 줄을 추가하십시오:
OPENAI_API_BASE=https://openrouter.ai/api/v1
OPENAI_API_KEY=YOUR_OPENROUTER_API_KEY
MODEL_NAME=moonshotai/kimi-k2
이 환경 변수들을 설정함으로써, Fake Ollama 서버는 OpenRouter 엔드포인트로 요청을 전달하고, 인증을 위해 API 키를 사용하며, moonshotai/kimi-k2
를 원하는 모델로 지정하는 방법을 알게 될 것입니다.
4단계: Fake Ollama 서버 실행
이제 Fake Ollama 서버를 시작할 시간입니다. 터미널에서 fake-ollama
디렉토리 안에서 다음을 실행하십시오:Bash
python main.py
모든 것이 올바르게 구성되었다면, 서버가 실행 중임을 나타내는 메시지가 표시될 것입니다. 일반적으로 http://localhost:11434
에서 실행됩니다. 이것이 우리가 VSCode에서 사용할 로컬 엔드포인트입니다.
5단계: VSCode Copilot 구성
마지막 단계는 VSCode Copilot에게 기본 GitHub Copilot 모델 대신 로컬 Fake Ollama 서버를 사용하도록 지시하는 것입니다.
- VSCode를 열고 Copilot 채팅 보기로 이동합니다.
- 채팅 입력창에
/
를 입력하고 "모델 선택"을 선택합니다. - "모델 관리..."를 클릭합니다.
- 나타나는 대화 상자에서 AI 공급자로 "Ollama"를 선택합니다.
- Ollama 서버 URL을 입력하라는 메시지가 표시됩니다. 로컬 Fake Ollama 서버 주소인
http://localhost:11434
를 입력합니다. - 다음으로 모델을 선택하라는 요청을 받습니다. Fake Ollama 구성에서 지정한 모델(
moonshotai/kimi-k2
)이 목록에 표시되어야 합니다. 해당 모델을 선택합니다.
이제 끝입니다! VSCode Copilot은 이제 Kimi K2 모델에 의해 구동됩니다. 새로운 채팅 세션을 시작하고 이 강력한 모델의 향상된 코딩 및 추론 기능을 경험할 수 있습니다.
API를 넘어서: vLLM, llama.cpp, ktransformers로 로컬 모델 사용하기
Fake Ollama 설정의 장점은 API 기반 모델에만 국한되지 않는다는 것입니다. 다음 강력한 추론 엔진을 사용하여 자신의 하드웨어에서 로컬로 실행되는 모델의 프론트엔드로도 사용할 수 있습니다:
- vLLM: LLM 추론 및 서빙 속도를 크게 향상시키는 오픈소스 라이브러리입니다.
- llama.cpp: LLaMA 모델의 C++ 구현으로, CPU 및 광범위한 하드웨어에서 실행되도록 최적화되었습니다.
- ktranformers: 최첨단 LLM 추론 최적화를 실험하기 위한 유연한 프레임워크입니다. 특히, ktranformers는 Kimi K2에 대한 지원을 발표했으며, 이는 모델의 양자화 버전을 로컬에서 실행할 수 있음을 의미합니다.
과정은 유사합니다: 먼저 이러한 추론 엔진 중 하나를 사용하여 원하는 모델을 설정하고 실행하면 로컬 API 엔드포인트가 노출됩니다. 그런 다음, Fake Ollama가 OpenRouter API 대신 해당 로컬 모델의 엔드포인트를 가리키도록 구성합니다. 이는 모델과 데이터에 대한 완전한 제어권을 제공하지만, 더 강력한 하드웨어가 필요하다는 단점이 있습니다.
결론
VSCode Copilot의 사용자 지정 모델 지원의 유연성과 Fake Ollama 도구의 영리함을 활용함으로써, 새로운 수준의 AI 지원 개발을 시작할 수 있습니다. Kimi K2를 통합하면 코딩, 추론 및 긴 컨텍스트 이해 능력이 크게 향상되어 Copilot이 훨씬 더 가치 있는 파트너가 됩니다.
대규모 언어 모델의 세계는 끊임없이 진화하고 있으며, 다양한 모델을 쉽게 교체하고 실험할 수 있는 능력은 판도를 바꾸는 요소입니다. Kimi K2와 같은 최첨단 API를 사용하든, 자체 모델을 로컬에서 실행하든, 도구를 사용자 지정할 수 있는 힘은 당신의 손에 있습니다. 즐거운 코딩 되세요!
최대 생산성으로 개발팀이 함께 작업할 수 있는 통합된 올인원 플랫폼을 원하십니까?
Apidog는 귀하의 모든 요구를 충족시키며, Postman을 훨씬 저렴한 가격으로 대체합니다!