Kimi K2 in VSCode Copilot nutzen

In einer Ära, in der KI-gestützte Entwicklertools keine Neuheit mehr, sondern eine Notwendigkeit sind, hat sich Copilot von Visual Studio Code fest als führend etabliert. Die wahre Stärke der KI liegt jedoch in ihrer Vielfalt und den spezialisierten Fähigkeiten verschiedener Modelle. Was wäre, wenn Sie die Standard-Engine Ihres Copilot durch etwas Leistungsfähigeres, Spezialisierteres oder sogar etwas, das Sie selbst betreiben, ersetzen könnten? Dieser Artikel führt Sie durch den Prozess der Integration des beeindruckenden Sprachmodells Kimi K2 von Moonshot AI in Ihren VSCode Copilot, und wir werden dies mit einem cleveren Tool namens Fake Ollama tun.

Dieser umfassende Leitfaden führt Sie durch den gesamten Prozess, von der Beschaffung Ihrer API-Schlüssel über die Konfiguration Ihrer lokalen Umgebung bis hin zum Erleben der Leistung eines Modells mit einer Billion Parametern direkt in Ihrem Lieblingseditor.

💡

Möchten Sie ein großartiges API-Testtool, das schöne API-Dokumentation generiert?

Möchten Sie eine integrierte All-in-One-Plattform für Ihr Entwicklerteam, um mit maximaler Produktivität zusammenzuarbeiten?

Apidog erfüllt alle Ihre Anforderungen und ersetzt Postman zu einem wesentlich günstigeren Preis!

Schaltfläche

Bevor wir uns in die technischen Details vertiefen, machen wir uns mit den Schlüsselkomponenten dieses Setups vertraut.

Was ist Kimi K2?

Kimi K2 ist ein hochmodernes großes Sprachmodell, das von Moonshot AI entwickelt wurde. Es ist ein Mixture-of-Experts (MoE)-Modell mit beeindruckenden einer Billion Gesamtparametern, wobei 32 Milliarden während jeder Inferenz aktiv sind.

Diese Architektur ermöglicht es Kimi K2, in einer Vielzahl von Aufgaben zu glänzen, insbesondere in:

Codierung: Mit beeindruckenden Ergebnissen bei Benchmarks wie LiveCodeBench und SWE-bench ist Kimi K2 ein Codierungs-Kraftpaket.
Argumentation: Das Modell zeigt starke logische und Argumentationsfähigkeiten, was es zu einem ausgezeichneten Partner für komplexe Problemlösungen macht.
Langzeit-Kontextverständnis: Kimi K2 kann ein riesiges Kontextfenster von bis zu 128.000 Tokens verarbeiten, wodurch es große Codebasen, umfangreiche Dokumentationen und lange Gespräche verstehen und damit arbeiten kann.

Kimi K2 ist in zwei Hauptvarianten erhältlich:

Kimi-K2-Base: Das grundlegende Modell, ideal für Forscher und Entwickler, die benutzerdefinierte Lösungen feinabstimmen und erstellen möchten.
Kimi-K2-Instruct: Eine feinabgestimmte Version, optimiert für Chat- und Agentenaufgaben, was sie zu einem perfekten direkten Ersatz für andere instruktionsfolgende Modelle macht.

Für unsere Zwecke werden wir das Instruct-Modell über eine API verwenden.

Was ist VSCode Copilot?

Wenn Sie diesen Artikel lesen, sind Sie wahrscheinlich bereits mit VSCode Copilot vertraut. Es ist ein KI-gestütztes Tool zur Code-Vervollständigung und -Unterstützung, das von GitHub und OpenAI entwickelt wurde. Es bietet intelligente Code-Vorschläge, beantwortet Codierungsfragen und kann Ihnen sogar beim Refactoring und Debugging Ihres Codes helfen. Obwohl es von Haus aus unglaublich leistungsstark ist, haben jüngste Updates die Tür zur Verwendung benutzerdefinierter Modelle geöffnet, was die Funktion ist, die wir nutzen werden.

Was ist Fake Ollama?

Das ist die Geheimzutat, die unsere Integration ermöglicht. Fake Ollama ist, wie der Name schon sagt, ein Tool, das einen Server erstellt, der die API von Ollama nachahmt, einer beliebten Plattform zum Ausführen und Verwalten lokaler Sprachmodelle.

Viele Anwendungen, einschließlich der neuesten Versionen von VSCode Copilot, verfügen über eine integrierte Unterstützung für die Ollama-API. Durch das Ausführen von Fake Ollama können wir VSCode Copilot vorgaukeln, es kommuniziere mit einer Standard-Ollama-Instanz, während unser Fake Ollama-Server in Wirklichkeit die Anfragen an die Kimi K2-API weiterleitet. Dies macht es zu einer vielseitigen Brücke, die es uns ermöglicht, praktisch jede Modell-API mit jedem Tool zu verbinden, das Ollama unterstützt.

Voraussetzungen

Bevor wir beginnen, stellen Sie sicher, dass Sie Folgendes installiert und bereit haben:

Visual Studio Code: Die neueste Version wird empfohlen, um die Kompatibilität mit den Copilot-Funktionen zu gewährleisten, die wir verwenden werden.
VSCode Copilot Extension: Sie benötigen ein aktives Copilot-Abonnement und die in VSCode installierte Erweiterung.
Python: Eine aktuelle Version von Python (3.8 oder höher) ist erforderlich, um den Fake Ollama-Server auszuführen.
Git: Sie benötigen Git, um das Fake Ollama-Repository von GitHub zu klonen.
Ein Kimi K2 API-Schlüssel: Wir werden im ersten Schritt behandeln, wie Sie diesen erhalten.

Die Integration: Eine Schritt-für-Schritt-Anleitung

Jetzt krempeln wir die Ärmel hoch und integrieren Kimi K2 in VSCode Copilot.

Schritt 1: Beschaffen Sie Ihren Kimi K2 API-Schlüssel

Sie haben zwei Hauptoptionen, um einen Kimi K2 API-Schlüssel zu erhalten:

Moonshot AI Plattform: Sie können sich direkt auf der Moonshot AI Plattform anmelden. Dies gibt Ihnen direkten Zugriff auf die Kimi K2 API.
OpenRouter: Dies ist der empfohlene Ansatz aufgrund seiner Flexibilität. OpenRouter ist ein Dienst, der eine einheitliche API für eine Vielzahl von KI-Modellen, einschließlich Kimi K2, bereitstellt. Durch die Verwendung von OpenRouter können Sie problemlos zwischen verschiedenen Modellen wechseln, ohne Ihren Code oder Ihre API-Schlüssel ändern zu müssen.

Für diesen Leitfaden gehen wir davon aus, dass Sie OpenRouter verwenden. Sobald Sie ein Konto erstellt und Ihren API-Schlüssel erhalten haben, können Sie mit dem Kimi K2-Modell über die OpenAI Python-Bibliothek interagieren, wie folgt:Python

from openai import OpenAI

client = OpenAI(
  base_url="https://openrouter.ai/api/v1",
  api_key="YOUR_OPENROUTER_API_KEY",
)

response = client.chat.completions.create(
  model="moonshotai/kimi-k2",
  messages=[
    {"role": "user", "content": "Write a simple Python function to calculate the factorial of a number."},
  ],
)
print(response.choices[0].message.content)

Halten Sie Ihren OpenRouter API-Schlüssel bereit; Sie werden ihn für die Fake Ollama-Konfiguration benötigen.

Schritt 2: Fake Ollama einrichten

Zuerst müssen Sie das Fake Ollama-Repository von GitHub klonen. Öffnen Sie Ihr Terminal und führen Sie den folgenden Befehl aus:Bash

git clone https://github.com/spoonnotfound/fake-ollama.git

Navigieren Sie als Nächstes in das geklonte Verzeichnis und installieren Sie die erforderlichen Python-Abhängigkeiten:Bash

cd fake-ollama
pip install -r requirements.txt

Schritt 3: Fake Ollama für Kimi K2 konfigurieren

Dies ist der wichtigste Schritt. Wir müssen Fake Ollama so konfigurieren, dass es unseren OpenRouter API-Schlüssel verwendet und auf das Kimi K2-Modell verweist. Die Konfiguration wird wahrscheinlich in einer .env-Datei oder direkt im Haupt-Python-Skript vorgenommen. Für diesen Leitfaden gehen wir von einer .env-Datei für Best Practices aus.

Erstellen Sie eine Datei namens .env im fake-ollama-Verzeichnis und fügen Sie die folgenden Zeilen hinzu:

OPENAI_API_BASE=https://openrouter.ai/api/v1
OPENAI_API_KEY=YOUR_OPENROUTER_API_KEY
MODEL_NAME=moonshotai/kimi-k2

Durch das Setzen dieser Umgebungsvariablen weiß der Fake Ollama-Server, dass er Anfragen an den OpenRouter-Endpunkt weiterleiten, Ihren API-Schlüssel zur Authentifizierung verwenden und moonshotai/kimi-k2 als gewünschtes Modell angeben soll.

Schritt 4: Den Fake Ollama Server starten

Jetzt ist es an der Zeit, den Fake Ollama-Server zu starten. Führen Sie in Ihrem Terminal, aus dem fake-ollama-Verzeichnis heraus, Folgendes aus:Bash

python main.py

Wenn alles richtig konfiguriert ist, sollten Sie eine Meldung sehen, die anzeigt, dass der Server läuft, typischerweise unter http://localhost:11434. Dies ist der lokale Endpunkt, den wir in VSCode verwenden werden.

Schritt 5: VSCode Copilot konfigurieren

Der letzte Schritt besteht darin, VSCode Copilot mitzuteilen, dass es unseren lokalen Fake Ollama-Server anstelle der Standard-GitHub Copilot-Modelle verwenden soll.

Öffnen Sie VSCode und gehen Sie zur Copilot Chat-Ansicht.
Geben Sie in der Chat-Eingabe / ein und wählen Sie „Modell auswählen“.
Klicken Sie auf „Modelle verwalten...“.
Wählen Sie im erscheinenden Dialogfeld „Ollama“ als KI-Anbieter aus.
Sie werden aufgefordert, die Ollama-Server-URL einzugeben. Geben Sie die Adresse Ihres lokalen Fake Ollama-Servers ein: http://localhost:11434.
Als Nächstes werden Sie aufgefordert, ein Modell auszuwählen. Sie sollten das Modell, das Sie in Ihrer Fake Ollama-Konfiguration (moonshotai/kimi-k2) angegeben haben, in der Liste sehen. Wählen Sie es aus.

Und das war's! Ihr VSCode Copilot wird jetzt vom Kimi K2-Modell angetrieben. Sie können eine neue Chat-Sitzung starten und die verbesserten Codierungs- und Argumentationsfähigkeiten dieses leistungsstarken Modells erleben.

Jenseits der API: Lokale Modelle mit vLLM, llama.cpp und ktransformers verwenden

Das Schöne am Fake Ollama-Setup ist, dass es nicht auf API-basierte Modelle beschränkt ist. Sie können es auch als Frontend für Modelle verwenden, die lokal auf Ihrer eigenen Hardware mit leistungsstarken Inferenz-Engines wie den folgenden ausgeführt werden:

vLLM: Eine Open-Source-Bibliothek, die die LLM-Inferenz und -Bereitstellung erheblich beschleunigt.
llama.cpp: Eine C++-Implementierung der LLaMA-Modelle, optimiert für die Ausführung auf CPUs und einer Vielzahl von Hardware.
ktranformers: Ein flexibles Framework zum Experimentieren mit modernsten LLM-Inferenzoptimierungen. Insbesondere hat ktranformers die Unterstützung für Kimi K2 angekündigt, was bedeutet, dass Sie eine quantisierte Version des Modells lokal ausführen können.

Der Prozess ist ähnlich: Sie würden zuerst Ihr gewünschtes Modell mit einer dieser Inferenz-Engines einrichten und ausführen, die einen lokalen API-Endpunkt bereitstellt. Dann würden Sie Fake Ollama so konfigurieren, dass es auf den Endpunkt dieses lokalen Modells anstatt auf die OpenRouter-API verweist. Dies gibt Ihnen die vollständige Kontrolle über Ihre Modelle und Daten, mit dem Kompromiss, dass leistungsfähigere Hardware erforderlich ist.

Fazit

Durch die Nutzung der Flexibilität der benutzerdefinierten Modellunterstützung von VSCode Copilot und der Cleverness des Fake Ollama-Tools können Sie ein neues Niveau der KI-gestützten Entwicklung erreichen. Die Integration von Kimi K2 bietet einen erheblichen Schub in Bezug auf Codierung, Argumentation und Langzeit-Kontextverständnis, wodurch Ihr Copilot zu einem noch wertvolleren Partner wird.

Die Welt der großen Sprachmodelle entwickelt sich ständig weiter, und die Möglichkeit, Modelle einfach auszutauschen und zu experimentieren, ist ein entscheidender Vorteil. Egal, ob Sie eine hochmoderne API wie Kimi K2 verwenden oder Ihre eigenen Modelle lokal ausführen, die Macht, Ihre Tools anzupassen, liegt in Ihren Händen. Viel Spaß beim Codieren!

💡

Schaltfläche