Comment Utiliser Kimi K2 dans VSCode Copilot

À une époque où les outils de développement alimentés par l'IA ne sont plus une nouveauté mais une nécessité, Copilot de Visual Studio Code s'est solidement établi comme un leader. Cependant, la véritable puissance de l'IA réside dans sa diversité et les capacités spécialisées des différents modèles. Et si vous pouviez remplacer le moteur par défaut de votre Copilot par quelque chose de plus puissant, de plus spécialisé, ou même quelque chose que vous exécutez vous-même ? Cet article vous guidera à travers le processus d'intégration du formidable modèle de langage Kimi K2 de Moonshot AI dans votre Copilot VSCode, et nous le ferons avec un outil astucieux appelé Fake Ollama.

Ce guide complet vous accompagnera tout au long du processus, de l'obtention de vos clés API à la configuration de votre environnement local, et enfin, à la découverte de la puissance d'un modèle d'un billion de paramètres directement dans votre éditeur préféré.

💡

Vous voulez un excellent outil de test API qui génère une belle documentation API ?

Vous voulez une plateforme intégrée tout-en-un pour que votre équipe de développeurs travaille avec une productivité maximale ?

Apidog répond à toutes vos exigences et remplace Postman à un prix beaucoup plus abordable !

button

Avant de plonger dans les détails techniques, familiarisons-nous avec les composants clés de cette configuration.

Qu'est-ce que Kimi K2 ?

Kimi K2 est un modèle de langage étendu de pointe développé par Moonshot AI. C'est un modèle de type Mixture-of-Experts (MoE) avec un nombre impressionnant d'un billion de paramètres au total, dont 32 milliards sont actifs lors de chaque inférence.

Cette architecture permet à Kimi K2 d'exceller dans un large éventail de tâches, notamment en :

Codage : Avec des scores impressionnants sur des benchmarks comme LiveCodeBench et SWE-bench, Kimi K2 est une puissance en matière de codage.
Raisonnement : Le modèle démontre de solides capacités de logique et de raisonnement, ce qui en fait un excellent partenaire pour la résolution de problèmes complexes.
Compréhension de contexte long : Kimi K2 peut gérer une fenêtre de contexte massive allant jusqu'à 128 000 jetons, ce qui lui permet de comprendre et de travailler avec de grandes bases de code, une documentation étendue et de longues conversations.

Kimi K2 est disponible en deux variantes principales :

Kimi-K2-Base : Le modèle fondamental, idéal pour les chercheurs et les développeurs qui souhaitent affiner et construire des solutions personnalisées.
Kimi-K2-Instruct : Une version affinée optimisée pour le chat et les tâches d'agent, ce qui en fait un remplacement parfait pour d'autres modèles suivant des instructions.

Pour nos besoins, nous utiliserons le modèle Instruct via une API.

Qu'est-ce que VSCode Copilot ?

Si vous lisez cet article, vous êtes probablement déjà familier avec VSCode Copilot. C'est un outil d'assistance et de complétion de code alimenté par l'IA, développé par GitHub et OpenAI. Il fournit des suggestions de code intelligentes, répond aux questions de codage et peut même vous aider à refactoriser et déboguer votre code. Bien qu'incroyablement puissant dès le départ, des mises à jour récentes ont ouvert la porte à l'utilisation de modèles personnalisés, ce qui est la fonctionnalité que nous allons exploiter.

Qu'est-ce que Fake Ollama ?

C'est l'ingrédient secret qui rend notre intégration possible. Fake Ollama, comme son nom l'indique, est un outil qui crée un serveur mimant l'API d'Ollama, une plateforme populaire pour l'exécution et la gestion de modèles de langage locaux.

De nombreuses applications, y compris les dernières versions de VSCode Copilot, prennent en charge l'API Ollama. En exécutant Fake Ollama, nous pouvons faire croire à VSCode Copilot qu'il communique avec une instance Ollama standard, alors qu'en réalité, notre serveur Fake Ollama transmet les requêtes à l'API Kimi K2. Cela en fait un pont polyvalent, nous permettant de connecter pratiquement n'importe quelle API de modèle à n'importe quel outil prenant en charge Ollama.

Prérequis

Avant de commencer, assurez-vous d'avoir les éléments suivants installés et prêts :

Visual Studio Code : La dernière version est recommandée pour assurer la compatibilité avec les fonctionnalités Copilot que nous utiliserons.
Extension VSCode Copilot : Vous aurez besoin d'un abonnement Copilot actif et de l'extension installée dans VSCode.
Python : Une version récente de Python (3.8 ou supérieure) est requise pour exécuter le serveur Fake Ollama.
Git : Vous aurez besoin de Git pour cloner le dépôt Fake Ollama depuis GitHub.
Une clé API Kimi K2 : Nous verrons comment l'obtenir à la première étape.

L'intégration : Un guide étape par étape

Maintenant, mettons la main à la pâte et intégrons Kimi K2 dans VSCode Copilot.

Étape 1 : Obtenez votre clé API Kimi K2

Vous avez deux options principales pour obtenir une clé API Kimi K2 :

Plateforme Moonshot AI : Vous pouvez vous inscrire directement sur la plateforme Moonshot AI. Cela vous donnera un accès direct à l'API Kimi K2.
OpenRouter : C'est l'approche recommandée pour sa flexibilité. OpenRouter est un service qui fournit une API unifiée pour une vaste gamme de modèles d'IA, y compris Kimi K2. En utilisant OpenRouter, vous pouvez facilement basculer entre différents modèles sans modifier votre code ou vos clés API.

Pour ce guide, nous supposerons que vous utilisez OpenRouter. Une fois que vous avez créé un compte et obtenu votre clé API, vous pouvez interagir avec le modèle Kimi K2 en utilisant la bibliothèque Python d'OpenAI, comme suit : Python

from openai import OpenAI

client = OpenAI(
  base_url="https://openrouter.ai/api/v1",
  api_key="YOUR_OPENROUTER_API_KEY",
)

response = client.chat.completions.create(
  model="moonshotai/kimi-k2",
  messages=[
    {"role": "user", "content": "Write a simple Python function to calculate the factorial of a number."},
  ],
)
print(response.choices[0].message.content)

Gardez votre clé API OpenRouter à portée de main ; vous en aurez besoin pour la configuration de Fake Ollama.

Étape 2 : Configurer Fake Ollama

Tout d'abord, vous devrez cloner le dépôt Fake Ollama depuis GitHub. Ouvrez votre terminal et exécutez la commande suivante : Bash

git clone https://github.com/spoonnotfound/fake-ollama.git

Ensuite, naviguez dans le répertoire cloné et installez les dépendances Python requises : Bash

cd fake-ollama
pip install -r requirements.txt

Étape 3 : Configurer Fake Ollama pour Kimi K2

C'est l'étape la plus cruciale. Nous devons configurer Fake Ollama pour qu'il utilise notre clé API OpenRouter et qu'il pointe vers le modèle Kimi K2. La configuration se trouvera probablement dans un fichier `.env` ou directement dans le script Python principal. Pour ce guide, nous supposerons un fichier `.env` pour les meilleures pratiques.

Créez un fichier nommé `.env` dans le répertoire `fake-ollama` et ajoutez les lignes suivantes :

OPENAI_API_BASE=https://openrouter.ai/api/v1
OPENAI_API_KEY=YOUR_OPENROUTER_API_KEY
MODEL_NAME=moonshotai/kimi-k2

En définissant ces variables d'environnement, le serveur Fake Ollama saura transmettre les requêtes au point de terminaison OpenRouter, utiliser votre clé API pour l'authentification et spécifier `moonshotai/kimi-k2` comme modèle désiré.

Étape 4 : Exécuter le serveur Fake Ollama

Il est maintenant temps de démarrer le serveur Fake Ollama. Dans votre terminal, depuis le répertoire `fake-ollama`, exécutez : Bash

python main.py

Si tout est configuré correctement, vous devriez voir un message indiquant que le serveur est en cours d'exécution, généralement sur `http://localhost:11434`. C'est le point de terminaison local que nous utiliserons dans VSCode.

Étape 5 : Configurer VSCode Copilot

La dernière étape consiste à indiquer à VSCode Copilot d'utiliser notre serveur Fake Ollama local au lieu des modèles Copilot de GitHub par défaut.

Ouvrez VSCode et accédez à la vue Copilot Chat.
Dans le champ de saisie du chat, tapez / et sélectionnez "Select a Model" (Sélectionner un modèle).
Cliquez sur "Manage Models..." (Gérer les modèles...).
Dans la boîte de dialogue qui apparaît, sélectionnez "Ollama" comme fournisseur d'IA.
Il vous sera demandé d'entrer l'URL du serveur Ollama. Entrez l'adresse de votre serveur Fake Ollama local : http://localhost:11434.
Ensuite, il vous sera demandé de sélectionner un modèle. Vous devriez voir le modèle que vous avez spécifié dans votre configuration Fake Ollama (moonshotai/kimi-k2) dans la liste. Sélectionnez-le.

Et voilà ! Votre Copilot VSCode est maintenant alimenté par le modèle Kimi K2. Vous pouvez démarrer une nouvelle session de chat et découvrir les capacités de codage et de raisonnement améliorées de ce puissant modèle.

Au-delà de l'API : Utilisation de modèles locaux avec vLLM, llama.cpp et ktransformers

La beauté de la configuration Fake Ollama est qu'elle ne se limite pas aux modèles basés sur une API. Vous pouvez également l'utiliser comme interface pour des modèles exécutés localement sur votre propre matériel en utilisant de puissants moteurs d'inférence comme :

vLLM : Une bibliothèque open-source qui accélère considérablement l'inférence et le service des LLM.
llama.cpp : Une implémentation C++ des modèles LLaMA, optimisée pour fonctionner sur les CPU et une large gamme de matériel.
ktranformers : Un cadre flexible pour expérimenter des optimisations d'inférence LLM de pointe. Notamment, ktranformers a annoncé la prise en charge de Kimi K2, ce qui signifie que vous pouvez exécuter une version quantifiée du modèle localement.

Le processus est similaire : vous configurerez et exécuterez d'abord le modèle souhaité à l'aide de l'un de ces moteurs d'inférence, qui exposera un point de terminaison API local. Ensuite, vous configurerez Fake Ollama pour qu'il pointe vers le point de terminaison de ce modèle local au lieu de l'API OpenRouter. Cela vous donne un contrôle total sur vos modèles et vos données, avec le compromis de nécessiter un matériel plus puissant.

Conclusion

En tirant parti de la flexibilité de la prise en charge des modèles personnalisés de VSCode Copilot et de l'ingéniosité de l'outil Fake Ollama, vous pouvez débloquer un nouveau niveau de développement assisté par l'IA. L'intégration de Kimi K2 apporte une amélioration significative en matière de codage, de raisonnement et de compréhension de contexte long, faisant de votre Copilot un partenaire encore plus précieux.

Le monde des grands modèles de langage est en constante évolution, et la capacité à échanger et expérimenter facilement différents modèles change la donne. Que vous utilisiez une API de pointe comme Kimi K2 ou que vous exécutiez vos propres modèles localement, le pouvoir de personnaliser vos outils est entre vos mains. Bon codage !

💡

button