Trong một kỷ nguyên mà các công cụ phát triển được hỗ trợ bởi AI không còn là điều mới lạ mà là một sự cần thiết, Copilot của Visual Studio Code đã vững chắc khẳng định vị thế dẫn đầu. Tuy nhiên, sức mạnh thực sự của AI nằm ở sự đa dạng và khả năng chuyên biệt của các mô hình khác nhau. Điều gì sẽ xảy ra nếu bạn có thể thay thế công cụ mặc định của Copilot bằng một thứ mạnh mẽ hơn, chuyên biệt hơn, hoặc thậm chí là một thứ bạn tự chạy? Bài viết này sẽ hướng dẫn bạn quy trình tích hợp mô hình ngôn ngữ Kimi K2 mạnh mẽ từ Moonshot AI vào VSCode Copilot của bạn, và chúng ta sẽ thực hiện điều đó với một công cụ thông minh có tên là Fake Ollama.
Hướng dẫn toàn diện này sẽ đưa bạn qua toàn bộ quy trình, từ việc lấy khóa API đến cấu hình môi trường cục bộ của bạn, và cuối cùng, chứng kiến sức mạnh của một mô hình một nghìn tỷ tham số ngay bên trong trình chỉnh sửa yêu thích của bạn.
Muốn có một nền tảng tích hợp, tất cả trong một để Đội ngũ phát triển của bạn làm việc cùng nhau với năng suất tối đa?
Apidog đáp ứng mọi yêu cầu của bạn, và thay thế Postman với mức giá phải chăng hơn nhiều!
nút
Trước khi chúng ta đi sâu vào các chi tiết kỹ thuật, hãy làm quen với các thành phần chính của thiết lập này.
Kimi K2 là gì?

Kimi K2 là một mô hình ngôn ngữ lớn tiên tiến được phát triển bởi Moonshot AI. Đây là một mô hình Hỗn hợp các Chuyên gia (MoE) với tổng số một nghìn tỷ tham số đáng kinh ngạc, trong đó 32 tỷ tham số hoạt động trong bất kỳ lần suy luận nào.

Kiến trúc này cho phép Kimi K2 vượt trội trong nhiều tác vụ, đặc biệt là trong:
- Mã hóa: Với điểm số ấn tượng trên các điểm chuẩn như LiveCodeBench và SWE-bench, Kimi K2 là một cường quốc về mã hóa.
- Lý luận: Mô hình thể hiện khả năng logic và lý luận mạnh mẽ, biến nó thành một đối tác xuất sắc cho việc giải quyết vấn đề phức tạp.
- Hiểu ngữ cảnh dài: Kimi K2 có thể xử lý một cửa sổ ngữ cảnh khổng lồ lên đến 128.000 token, cho phép nó hiểu và làm việc với các cơ sở mã lớn, tài liệu mở rộng và các cuộc hội thoại dài.
Kimi K2 có sẵn trong hai biến thể chính:
- Kimi-K2-Base: Mô hình nền tảng, lý tưởng cho các nhà nghiên cứu và nhà phát triển muốn tinh chỉnh và xây dựng các giải pháp tùy chỉnh.
- Kimi-K2-Instruct: Một phiên bản đã được tinh chỉnh, tối ưu hóa cho các tác vụ trò chuyện và tác nhân, biến nó thành một sự thay thế hoàn hảo cho các mô hình tuân thủ hướng dẫn khác.
Với mục đích của chúng ta, chúng ta sẽ sử dụng mô hình Instruct thông qua API.
VSCode Copilot là gì?
Nếu bạn đang đọc bài viết này, có thể bạn đã quen thuộc với VSCode Copilot. Đây là một công cụ hỗ trợ và hoàn thành mã được hỗ trợ bởi AI, được phát triển bởi GitHub và OpenAI. Nó cung cấp các gợi ý mã thông minh, trả lời các câu hỏi về mã hóa và thậm chí có thể giúp bạn tái cấu trúc và gỡ lỗi mã của mình. Mặc dù cực kỳ mạnh mẽ ngay từ đầu, các bản cập nhật gần đây đã mở ra cánh cửa cho việc sử dụng các mô hình tùy chỉnh, đây là tính năng mà chúng ta sẽ tận dụng.
Fake Ollama là gì?

Đây là bí quyết giúp tích hợp của chúng ta trở nên khả thi. Fake Ollama, như tên gọi của nó, là một công cụ tạo ra một máy chủ mô phỏng API của Ollama, một nền tảng phổ biến để chạy và quản lý các mô hình ngôn ngữ cục bộ.
Nhiều ứng dụng, bao gồm các phiên bản mới nhất của VSCode Copilot, có hỗ trợ tích hợp cho API Ollama. Bằng cách chạy Fake Ollama, chúng ta có thể đánh lừa VSCode Copilot nghĩ rằng nó đang giao tiếp với một phiên bản Ollama tiêu chuẩn, trong khi trên thực tế, máy chủ Fake Ollama của chúng ta đang chuyển tiếp các yêu cầu đến API Kimi K2. Điều này biến nó thành một cầu nối đa năng, cho phép chúng ta kết nối hầu như bất kỳ API mô hình nào với bất kỳ công cụ nào hỗ trợ Ollama.
Điều kiện tiên quyết
Trước khi bắt đầu, hãy đảm bảo bạn đã cài đặt và sẵn sàng các điều sau:
- Visual Studio Code: Nên sử dụng phiên bản mới nhất để đảm bảo tương thích với các tính năng Copilot mà chúng ta sẽ sử dụng.
- Tiện ích mở rộng VSCode Copilot: Bạn sẽ cần một gói đăng ký Copilot đang hoạt động và tiện ích mở rộng đã được cài đặt trong VSCode.
- Python: Cần có phiên bản Python gần đây (3.8 trở lên) để chạy máy chủ Fake Ollama.
- Git: Bạn sẽ cần Git để sao chép kho lưu trữ Fake Ollama từ GitHub.
- Khóa API Kimi K2: Chúng ta sẽ đề cập cách lấy khóa này trong bước đầu tiên.
Tích hợp: Hướng dẫn từng bước
Bây giờ, hãy bắt tay vào thực hiện và tích hợp Kimi K2 vào VSCode Copilot.
Bước 1: Lấy khóa API Kimi K2 của bạn
Bạn có hai lựa chọn chính để lấy khóa API Kimi K2:
- Nền tảng Moonshot AI: Bạn có thể đăng ký trực tiếp trên nền tảng Moonshot AI. Điều này sẽ cấp cho bạn quyền truy cập trực tiếp vào API Kimi K2.
- OpenRouter: Đây là phương pháp được khuyến nghị vì tính linh hoạt của nó. OpenRouter là một dịch vụ cung cấp API thống nhất cho một loạt các mô hình AI, bao gồm Kimi K2. Bằng cách sử dụng OpenRouter, bạn có thể dễ dàng chuyển đổi giữa các mô hình khác nhau mà không cần thay đổi mã hoặc khóa API của mình.
Đối với hướng dẫn này, chúng ta sẽ giả định bạn đang sử dụng OpenRouter. Sau khi bạn đã tạo tài khoản và lấy được khóa API, bạn có thể tương tác với mô hình Kimi K2 bằng thư viện OpenAI Python, như sau:Python
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="YOUR_OPENROUTER_API_KEY",
)
response = client.chat.completions.create(
model="moonshotai/kimi-k2",
messages=[
{"role": "user", "content": "Write a simple Python function to calculate the factorial of a number."},
],
)
print(response.choices[0].message.content)
Hãy giữ khóa API OpenRouter của bạn tiện dụng; bạn sẽ cần nó cho cấu hình Fake Ollama.
Bước 2: Thiết lập Fake Ollama
Đầu tiên, bạn sẽ cần sao chép kho lưu trữ Fake Ollama từ GitHub. Mở terminal của bạn và chạy lệnh sau:Bash
git clone https://github.com/spoonnotfound/fake-ollama.git
Tiếp theo, điều hướng vào thư mục đã sao chép và cài đặt các phụ thuộc Python cần thiết:Bash
cd fake-ollama
pip install -r requirements.txt
Bước 3: Cấu hình Fake Ollama cho Kimi K2
Đây là bước quan trọng nhất. Chúng ta cần cấu hình Fake Ollama để sử dụng khóa API OpenRouter của chúng ta và trỏ đến mô hình Kimi K2. Cấu hình có thể sẽ nằm trong tệp .env
hoặc trực tiếp trong tập lệnh Python chính. Đối với hướng dẫn này, chúng ta sẽ giả định sử dụng tệp .env
để thực hành tốt nhất.
Tạo một tệp có tên .env
trong thư mục fake-ollama
và thêm các dòng sau:
OPENAI_API_BASE=https://openrouter.ai/api/v1
OPENAI_API_KEY=YOUR_OPENROUTER_API_KEY
MODEL_NAME=moonshotai/kimi-k2
Bằng cách đặt các biến môi trường này, máy chủ Fake Ollama sẽ biết cách chuyển tiếp các yêu cầu đến điểm cuối OpenRouter, sử dụng khóa API của bạn để xác thực và chỉ định moonshotai/kimi-k2
làm mô hình mong muốn.
Bước 4: Chạy máy chủ Fake Ollama
Bây giờ, đã đến lúc khởi động máy chủ Fake Ollama. Trong terminal của bạn, từ bên trong thư mục fake-ollama
, hãy chạy:Bash
python main.py
Nếu mọi thứ được cấu hình đúng, bạn sẽ thấy một thông báo cho biết máy chủ đang chạy, thường là trên http://localhost:11434
. Đây là điểm cuối cục bộ mà chúng ta sẽ sử dụng trong VSCode.
Bước 5: Cấu hình VSCode Copilot
Bước cuối cùng là hướng dẫn VSCode Copilot sử dụng máy chủ Fake Ollama cục bộ của chúng ta thay vì các mô hình GitHub Copilot mặc định.
- Mở VSCode và đi tới chế độ xem Copilot Chat.
- Trong ô nhập trò chuyện, gõ
/
và chọn "Chọn một mô hình". - Nhấp vào "Quản lý mô hình...".
- Trong hộp thoại xuất hiện, chọn "Ollama" làm nhà cung cấp AI.
- Bạn sẽ được yêu cầu nhập URL máy chủ Ollama. Nhập địa chỉ máy chủ Fake Ollama cục bộ của bạn:
http://localhost:11434
. - Tiếp theo, bạn sẽ được yêu cầu chọn một mô hình. Bạn sẽ thấy mô hình bạn đã chỉ định trong cấu hình Fake Ollama của mình (
moonshotai/kimi-k2
) trong danh sách. Chọn nó.
Và thế là xong! VSCode Copilot của bạn giờ đây đã được cung cấp sức mạnh bởi mô hình Kimi K2. Bạn có thể bắt đầu một phiên trò chuyện mới và trải nghiệm các khả năng mã hóa và lý luận được nâng cao của mô hình mạnh mẽ này.
Vượt xa API: Sử dụng các mô hình cục bộ với vLLM, llama.cpp và ktransformers
Vẻ đẹp của thiết lập Fake Ollama là nó không giới hạn ở các mô hình dựa trên API. Bạn cũng có thể sử dụng nó làm giao diện người dùng cho các mô hình chạy cục bộ trên phần cứng của riêng bạn bằng cách sử dụng các công cụ suy luận mạnh mẽ như:
- vLLM: Một thư viện mã nguồn mở giúp tăng tốc đáng kể suy luận và phục vụ LLM.
- llama.cpp: Một triển khai C++ của các mô hình LLaMA, được tối ưu hóa để chạy trên CPU và nhiều loại phần cứng.
- ktranformers: Một khung linh hoạt để thử nghiệm các tối ưu hóa suy luận LLM tiên tiến. Đáng chú ý, ktranformers đã công bố hỗ trợ Kimi K2, điều đó có nghĩa là bạn có thể chạy một phiên bản lượng tử hóa của mô hình cục bộ.
Quá trình này tương tự: trước tiên bạn sẽ thiết lập và chạy mô hình mong muốn của mình bằng cách sử dụng một trong các công cụ suy luận này, công cụ này sẽ hiển thị một điểm cuối API cục bộ. Sau đó, bạn sẽ cấu hình Fake Ollama để trỏ đến điểm cuối của mô hình cục bộ đó thay vì API OpenRouter. Điều này mang lại cho bạn toàn quyền kiểm soát các mô hình và dữ liệu của mình, với sự đánh đổi là yêu cầu phần cứng mạnh mẽ hơn.
Kết luận
Bằng cách tận dụng sự linh hoạt của tính năng hỗ trợ mô hình tùy chỉnh của VSCode Copilot và sự khéo léo của công cụ Fake Ollama, bạn có thể mở khóa một cấp độ mới trong phát triển được hỗ trợ bởi AI. Tích hợp Kimi K2 mang lại sự thúc đẩy đáng kể trong mã hóa, lý luận và hiểu ngữ cảnh dài, biến Copilot của bạn thành một đối tác thậm chí còn có giá trị hơn.
Thế giới các mô hình ngôn ngữ lớn không ngừng phát triển, và khả năng dễ dàng hoán đổi và thử nghiệm với các mô hình khác nhau là một yếu tố thay đổi cuộc chơi. Dù bạn đang sử dụng một API tiên tiến như Kimi K2 hay chạy các mô hình của riêng mình cục bộ, sức mạnh để tùy chỉnh các công cụ của bạn nằm trong tay bạn. Chúc mã hóa vui vẻ!
Muốn có một nền tảng tích hợp, tất cả trong một để Đội ngũ phát triển của bạn làm việc cùng nhau với năng suất tối đa?
Apidog đáp ứng mọi yêu cầu của bạn, và thay thế Postman với mức giá phải chăng hơn nhiều!
nút