Kimi K2.6 API Nutzung: Eine Anleitung

Die Ankündigung von Kimi K2.6 von Moonshot AI positioniert es als den neuen Open-Source-Stand der Technik für Codierung, Langzeit-Ausführung und Agentenschwärme. Die API, die es antreibt, ist OpenAI-kompatibel, wird unter https://api.moonshot.ai/v1 gehostet und ist auf der Plattform dokumentiert. Wenn Sie das OpenAI SDK installiert haben, können Sie innerhalb von etwa fünf Minuten echte Anfragen senden.

Dieser Leitfaden führt Sie durch die Authentifizierung, Ihre erste Anfrage, Streaming, Tool-Aufrufe, Bild- und Videoeingabe, den Denkmodus und wie Sie Agent Swarm mit 300 Sub-Agenten steuern, und zeigt, wie Sie jeden Endpunkt mit Apidog testen, bevor Sie Integrationscode schreiben.

💡

Schnellstart: Testen Sie die Kimi K2.6 API visuell in Apidog, bevor Sie Integrationscode committen. Ein Import, ein Bearer-Token, und Sie stellen echte gestreamte Anfragen mit vollständiger Historie und Schema-Validierung. Laden Sie Apidog kostenlos herunter.

Button

TL;DR: Kimi K2.6 API in 60 Sekunden

Basis-URL: https://api.moonshot.ai/v1
Endpunkt: POST /chat/completions
Modell-IDs: kimi-k2.6, kimi-k2.6-thinking
Authentifizierung: Authorization: Bearer $KIMI_API_KEY
Format: OpenAI Chat Completions Schema (Nachrichten, Tools, Stream, etc.)
Kontext: 262.144 Eingabe-Tokens, bis zu 98.304 Ausgabe-Tokens für Argumentation
Standardwerte: Temperatur 1.0, Top-P 1.0 (gemäß Moonshots offizieller Anleitung)

Minimaler Curl-Befehl:

curl https://api.moonshot.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $KIMI_API_KEY" \
  -d '{
    "model": "kimi-k2.6",
    "messages": [{"role": "user", "content": "Write a Python function that reverses a string."}]
  }'

Das ist alles. Der Rest dieses Leitfadens erläutert die Details, einschließlich Agent Swarm und die von Moonshot genannte Ausführungsgrenze von 4.000 Schritten.

Was Sie tatsächlich mit dieser API tun können

Laut der Kimi K2.6-Ankündigung ermöglicht die API all dies in der Produktion:

Code-Agenten, die über 12 Stunden an einer einzigen Aufgabe arbeiten (siehe Qwen3.5-0.8B Mac-Inferenz-Demo: über 4.000 Tool-Aufrufe, Durchsatz von 15 auf 193 Tokens/Sek. erhöht).
Autonomes Infrastrukturmanagement über mehrtägige Sitzungen mit automatischer Vorfallreaktion.
Langfristige Zuverlässigkeit über Rust, Go, Python und Zig hinweg.
Agentenschwärme von bis zu 300 Sub-Agenten, die über 4.000 koordinierte Schritte ausführen.
Designgetriebene Entwicklung, die Full-Stack-Anwendungen mit Authentifizierung, Datenbanken und Transaktionen aus einem einzigen Prompt generiert.
Vision + Python Tool-Nutzungs-Pipelines (MathVision mit Python: 93,2 %).

Wenn Sie Tools in derselben Kategorie wie Claude Code Computernutzung, eigenes Claude Code erstellen oder Cursor Composer 2 entwickeln, ist die K2.6 API ein direkter Austausch auf der Modellebene.

Schritt 1: API-Schlüssel erhalten

Gehen Sie zu platform.moonshot.ai (oder platform.kimi.ai) und registrieren Sie sich. E-Mail oder Google OAuth funktioniert.
Verifizieren Sie Ihr Konto. Internationale Benutzer benötigen möglicherweise eine SMS-Verifizierung.
Fügen Sie Abrechnungsinformationen hinzu. Moonshot schreibt neuen Konten typischerweise ein kleines kostenloses Guthaben gut.
Öffnen Sie API-Schlüssel im Dashboard und klicken Sie auf Schlüssel erstellen.
Kopieren Sie den Schlüssel sofort (er wird nur einmal angezeigt).
Exportieren Sie ihn:

export KIMI_API_KEY="sk-..."

Fügen Sie ihn zu .zshrc, .bashrc oder einem Secret Manager für die Produktion hinzu. Committen Sie ihn niemals.

Möchten Sie während der Entwicklung keine Kosten verursachen? Kimi K2.6 kostenlos nutzen behandelt Cloudflare Workers AI, selbst gehostete Gewichte und kostenlose Guthabenprogramme.

Schritt 2: Wählen Sie Ihr SDK

Die API ist OpenAI-kompatibel, daher funktionieren die offiziellen OpenAI SDKs, nachdem Sie die Basis-URL geändert haben.

Option	Installation	Am besten geeignet für
curl	integriert	Schnelle Tests, CI
OpenAI Python	`pip install openai`	Python-Dienste
OpenAI Node	`npm install openai`	JS/TS-Anwendungen

Python

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("KIMI_API_KEY"),
    base_url="https://api.moonshot.ai/v1",
)

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[{"role": "user", "content": "What is the capital of France?"}],
)

print(response.choices[0].message.content)

Node.js

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.KIMI_API_KEY,
  baseURL: "https://api.moonshot.ai/v1",
});

const response = await client.chat.completions.create({
  model: "kimi-k2.6",
  messages: [{ role: "user", content: "What is the capital of France?" }],
});

console.log(response.choices[0].message.content);

Curl

curl https://api.moonshot.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $KIMI_API_KEY" \
  -d '{
    "model": "kimi-k2.6",
    "messages": [{"role": "user", "content": "What is the capital of France?"}]
  }'

Alle drei geben dieselbe Antwortstruktur zurück.

Schritt 3: Den Request Body verstehen

Dieselbe Felder wie OpenAI Chat Completions:

{
  "model": "kimi-k2.6",
  "messages": [
    { "role": "system", "content": "You are a helpful assistant." },
    { "role": "user", "content": "Your prompt here." }
  ],
  "temperature": 1.0,
  "top_p": 1.0,
  "max_tokens": 8192,
  "stream": false,
  "tools": [],
  "tool_choice": "auto",
  "thinking": { "type": "disabled" }
}

Zwei Moonshot-spezifische Hinweise:

Standardwerte sind hoch. Der offizielle Blog empfiehlt Temperatur 1.0 und Top-P 1.0 als optimierte Standardwerte. Übernehmen Sie keine Gewohnheiten bezüglich Temperatur 0.2 aus OpenAI-Coding-Workflows.
thinking schaltet die Denkspur bei kimi-k2.6-thinking um. {"type": "disabled"} unterdrückt sie für schnelle Antworten.

Schritt 4: Streaming

Streaming ist die richtige Standardeinstellung für jede Benutzeroberfläche oder lange Generierung. Die maximale Ausgabe für Aufgaben, die Argumentation erfordern, kann 98.304 Tokens erreichen; Sie möchten nicht auf alles gleichzeitig warten.

Python

stream = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[{"role": "user", "content": "Write a 500-word essay on MoE models."}],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Node.js

const stream = await client.chat.completions.create({
  model: "kimi-k2.6",
  messages: [{ role: "user", content: "Write a 500-word essay on MoE models." }],
  stream: true,
});

for await (const chunk of stream) {
  const delta = chunk.choices[0]?.delta?.content;
  if (delta) process.stdout.write(delta);
}

Streaming funktioniert auch mit Tool-Aufrufen; die Argumente kommen als JSON-Deltas an, die Sie verketten.

Schritt 5: Tool-Aufrufe

Moonshot meldet einen Toolathlon-Score von 50,0 % und eine 96,60 %ige Erfolgsquote bei Tool-Aufrufen in Partnertests. Das Format entspricht dem Standard-OpenAI-Funktionsaufruf-Schema, sodass bestehende API-Test-Workflows für QA-Ingenieure anwendbar sind.

Tools definieren

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get the current weather in a location.",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "City name"},
                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
                },
                "required": ["location"]
            }
        }
    }
]

Erster Aufruf (Modell entscheidet)

import json

messages = [{"role": "user", "content": "What's the weather in Tokyo?"}]

resp = client.chat.completions.create(
    model="kimi-k2.6",
    messages=messages,
    tools=tools,
    tool_choice="auto",
)

msg = resp.choices[0].message
messages.append(msg)

if msg.tool_calls:
    for call in msg.tool_calls:
        args = json.loads(call.function.arguments)
        result = fetch_weather(args["location"], args.get("unit", "celsius"))
        messages.append({
            "role": "tool",
            "tool_call_id": call.id,
            "content": json.dumps(result),
        })

Zweiter Aufruf (endgültige Antwort)

final = client.chat.completions.create(
    model="kimi-k2.6",
    messages=messages,
    tools=tools,
)
print(final.choices[0].message.content)

K2.6 ist stark in mehrstufigen Tool-Ketten, was langlaufende Code-Agenten wie Kimi Code realisierbar macht. Für einen Framework-Vergleich behandelt Claude Code Workflows denselben Loop mit einem anderen Backend.

Schritt 6: Vision-Eingabe

K2.6 erreicht 79,4 % bei MMMU-Pro und 96,9 % bei V* (mit Python). Bilder werden in der Benutzernachricht im image_url-Inhaltsformat von OpenAI übermittelt:

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Describe this image in one sentence."},
                {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
            ]
        }
    ],
)

Für lokale Dateien kodieren Sie diese in Base64:

import base64
with open("photo.jpg", "rb") as f:
    b64 = base64.b64encode(f.read()).decode("utf-8")

image_url = f"data:image/jpeg;base64,{b64}"

Für OCR oder das Lesen von Diagrammen kombinieren Sie eine klare Textanweisung mit dem Bild. Für mathematische Probleme fügen Sie ein Python-Interpreter-Tool hinzu; der MathVision-Score von 93,2 % wurde mit aktiviertem Python-Zugriff gemessen.

Schritt 7: Video-Eingabe

Geben Sie eine Video-URL oder eine Bildsequenz an:

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Summarize what happens in this video."},
                {"type": "video_url", "video_url": {"url": "https://example.com/clip.mp4"}}
            ]
        }
    ],
)

Kurze Clips (<30s) funktionieren in einem einzigen Aufruf. Längere Videos profitieren vom Streaming, da die Frame-für-Frame-Inferenz viele Tokens produziert.

Schritt 8: Denkmodus

kimi-k2.6-thinking erzeugt eine sichtbare Denkspur (ähnlich den o1-Modellen von OpenAI). Moonshot meldet 96,4 % bei AIME 2026 und 90,5 % bei GPQA-Diamond mit aktiviertem Denkmodus.

Denkmodus an (Standard für das Denkmodell):

response = client.chat.completions.create(
    model="kimi-k2.6-thinking",
    messages=[{"role": "user", "content": "Prove sqrt(2) is irrational."}],
)

Denkmodus aus:

response = client.chat.completions.create(
    model="kimi-k2.6-thinking",
    messages=[{"role": "user", "content": "Quick: what's 17 * 23?"}],
    extra_body={"thinking": {"type": "disabled"}},
)

Die Denkspur wird in einem reasoning-Feld der Antwort zurückgegeben. Sie können sie vor Endbenutzern verbergen und nur die endgültige Antwort anzeigen oder sie in ein Debug-Log leiten.

Schritt 9: Agenten-Schwarm

Agenten-Schwarm ist die Funktion, die am meisten Beachtung verdient. Aus dem Kimi K2.6 Blog: bis zu 300 Sub-Agenten, über 4.000 koordinierte Schritte, 3x die Kapazität von K2.5.

Rufen Sie es über den Agent-Parameter der Plattform auf:

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[{
        "role": "user",
        "content": "Build a 5-page marketing site for a coffee brand with responsive design and a newsletter signup."
    }],
    extra_body={
        "agent": {
            "type": "swarm",
            "max_agents": 30,
            "max_steps": 4000
        }
    },
)

Schwarm-Aufrufe laufen Minuten oder Stunden. Drei praktische Tipps:

Streaming verwenden. Sie werden den Fortschritt sehen und fehlerhafte Läufe frühzeitig beenden wollen.
Begrenzen Sie max_agents. 300 ist das Maximum; 10 bis 30 ist für die meisten Aufgaben vorhersehbarer.
Legen Sie ein Budget fest. Lange Schwarm-Aufgaben können schnell Tokens verbrauchen; protokollieren Sie die usage bei jeder Antwort und leiten Sie sie in Ihre Metriken.

Der Kimi-Blog beschreibt Demo-Läufe, die über 4.000 Codezeilen in 13 Stunden geändert haben. Die Architektur macht dies möglich; das API-Flag schaltet es lediglich ein.

Schritt 10: Alles mit Apidog testen

Jeder oben genannte Abschnitt führt eine andere Body-Struktur, Header-Anforderung oder ein anderes Antwortformat ein. Apidog verwandelt den Debugging-Loop in einen visuellen Workflow.

Kimi K2.6 Einrichtung in Apidog

Laden Sie Apidog herunter und erstellen Sie ein Projekt.
Erstellen Sie eine kimi-prod Umgebung mit zwei Variablen: BASE_URL = https://api.moonshot.ai/v1 und KIMI_API_KEY = sk-....
Neue API-Anfrage: POST {{BASE_URL}}/chat/completions.
Header: Authorization: Bearer {{KIMI_API_KEY}}, Content-Type: application/json.
Body (Streaming-Beispiel):

{
  "model": "kimi-k2.6",
  "messages": [{ "role": "user", "content": "Hello, Kimi K2.6!" }],
  "stream": true
}

Klicken Sie auf Senden. Tokens strömen in Echtzeit in das Antwortpanel.

Was Apidog zusätzlich bietet

Schema-Validierung gemäß der OpenAI Chat Completions Spezifikation, sodass fehlende Felder sofort angezeigt werden.
Anfragehistorie, damit Sie den genauen Aufruf, der eine merkwürdige Antwort erzeugt hat, wiederholen können.
Umgebungsumschaltung zwischen Dev-, Staging- und Prod-Schlüsseln mit einem Klick.
Team-Sharing über Projektexport; siehe API-Tests für Teams von über 50 Ingenieuren.
Mock-Server für den Fall, dass Moonshot einen Vorfall hat oder Sie offline sind.
SSE-Stream-Unterstützung, die Kimis Streaming-Format sauber verarbeitet (viele API-Tools tun dies nicht).

Für Tests im Editor ist Apidog auch als VS Code Erweiterung verfügbar. Wenn Sie derzeit an Postman gebunden sind, beschreibt wie man API-Tests ohne Postman durchführt den Umstieg.

Fehlerbehandlung, die Sie nicht bekämpft

Moonshot verwendet Standard-HTTP-Statuscodes:

400: Schlechte Anfrage. Normalerweise ein fehlerhafter Body oder falscher Modellname.
401: Authentifizierungsfehler. Schlüssel fehlt, ist falsch oder abgelaufen.
429: Ratenlimit oder Kontingent erschöpft.
500: Serverfehler. Wiederholen Sie mit exponentiellem Backoff.
529: Überlastet. Versuchen Sie es in wenigen Sekunden erneut.

Retry-Wrapper:

import time
from openai import OpenAI, RateLimitError, APIError

def call_kimi(messages, max_retries=5):
    for attempt in range(max_retries):
        try:
            return client.chat.completions.create(
                model="kimi-k2.6",
                messages=messages,
            )
        except RateLimitError:
            time.sleep(2 ** attempt)
        except APIError as e:
            if e.status_code >= 500 and attempt < max_retries - 1:
                time.sleep(2 ** attempt)
            else:
                raise
    raise RuntimeError("Kimi K2.6 failed after retries")

Bei Verbindungsabbrüchen während des Streams verfolgen Sie die empfangenen Tokens und starten Sie mit einer "hier fortfahren"-Anweisung neu, falls die Verbindung abbricht. Die Obergrenze von 98.304 Tokens für die Denk-Ausgabe bedeutet, dass lange Streams normal sind und kein Fehler.

Kostenkontrolle

Moonshot veröffentlicht die Preise unter kimi.com/membership/pricing. Drei praxiserprobte Tipps, um die Kosten vorhersehbar zu halten:

Begrenzen Sie max_tokens. Setzen Sie den Wert auf das Minimum für Ihren Anwendungsfall. 2.048 sind ausreichend für Chat-Antworten.
System-Prompts cachen. Moonshots Prompt-Caching greift bei wiederholten Systemnachrichten; platzieren Sie statische Anweisungen zuerst.
usage protokollieren. Jede Antwort enthält prompt_tokens, completion_tokens und total_tokens. Leiten Sie diese in Prometheus oder Ihren bevorzugten Metriken-Stack und richten Sie Alarme ein.

Produktionsmuster: Ein GitHub-Issue-Fixer

Hier ist ein Agent, der ein GitHub-Issue liest, den relevanten Code findet, eine Korrektur vorschlägt und Tests ausführt, strukturiert um die Kimi K2.6 Tool-Calling-Schleife:

from openai import OpenAI
import os, json

client = OpenAI(
    api_key=os.getenv("KIMI_API_KEY"),
    base_url="https://api.moonshot.ai/v1",
)

tools = [
    {"type": "function", "function": {
        "name": "read_file",
        "description": "Read a file in the repo.",
        "parameters": {
            "type": "object",
            "properties": {"path": {"type": "string"}},
            "required": ["path"]
        }
    }},
    {"type": "function", "function": {
        "name": "search_code",
        "description": "Ripgrep the codebase for a pattern.",
        "parameters": {
            "type": "object",
            "properties": {"query": {"type": "string"}},
            "required": ["query"]
        }
    }},
    {"type": "function", "function": {
        "name": "run_tests",
        "description": "Run the project test suite.",
        "parameters": {"type": "object", "properties": {}}
    }},
]

def tool_dispatch(name, args):
    if name == "read_file":
        with open(args["path"]) as f:
            return f.read()
    if name == "search_code":
        return run_ripgrep(args["query"])
    if name == "run_tests":
        return run_pytest()
    raise ValueError(f"Unknown tool: {name}")

messages = [
    {"role": "system", "content": "You are a senior engineer. Fix the described bug."},
    {"role": "user", "content": "Issue: login form submits twice on slow networks."}
]

while True:
    resp = client.chat.completions.create(
        model="kimi-k2.6",
        messages=messages,
        tools=tools,
    )
    msg = resp.choices[0].message
    messages.append(msg)

    if not msg.tool_calls:
        print(msg.content)
        break

    for call in msg.tool_calls:
        result = tool_dispatch(call.function.name, json.loads(call.function.arguments))
        messages.append({
            "role": "tool",
            "tool_call_id": call.id,
            "content": result,
        })

Dies skaliert mit Agenten-Schwarm durch Hinzufügen der extra_body Schwarm-Konfiguration. Es funktioniert auch gut mit dem Hermes Multi-Agenten-Stack, wenn Sie menschliche Kontrollpunkte im Loop wünschen.

FAQ

Benötige ich ein Moonshot-spezifisches SDK?Nein. Die OpenAI Python- und Node-SDKs funktionieren, nachdem Sie die base_url geändert haben.
Ist die API ratenbegrenzt?Ja. Die Limits skalieren mit Ihrem Tarif und Ihrer Nutzungshistorie. Überprüfen Sie das Dashboard.
Funktioniert Kimi K2.6 mit LangChain, LlamaIndex, Vercel AI SDK?Ja. Jedes Framework, das eine OpenAI-kompatible Basis-URL akzeptiert, funktioniert.
Unterstützt Kimi K2.6 den JSON-Modus?Ja. Übergeben Sie response_format: {"type": "json_object"} für eine gültige JSON-Ausgabe oder {"type": "json_schema", "json_schema": {...}} für strikte Schemas.
Wie groß ist das Kontextfenster genau?262.144 Eingabe-Tokens, maximal 98.304 Ausgabe-Tokens für Argumentationsaufgaben, laut offiziellem Blog.
Kann ich Kimi K2.6 über die API feinabstimmen?Noch nicht. Vorerst bedeutet Feinabstimmung, die offenen Gewichte auf Ihrer eigenen Hardware auszuführen.
Was ist der Unterschied zwischen kimi-k2.6 und kimi-k2.6-thinking?kimi-k2.6 ist das schnelle Agentenmodell. kimi-k2.6-thinking legt seine Denk-Schritte offen und ist für Mathematik, Logik und anspruchsvolle Planung optimiert (AIME 2026: 96,4 %, GPQA-Diamond: 90,5 %).
Gibt es einen kostenlosen Tarif?Siehe unseren Leitfaden zum kostenlosen Zugriff auf Kimi K2.6 für Cloudflare Workers AI, kimi.com Chat und selbst gehostete Optionen.

Zusammenfassung

Die Kimi K2.6 API lässt sich mit zwei Änderungen in jede OpenAI-kompatible Toolchain integrieren: die Basis-URL und Ihr API-Schlüssel. Von dort erhalten Sie ein 262K-Kontextfenster, Agenten-Schwarm mit 300 Sub-Agenten, Tool-Aufrufe, die auf 96,60 % Aufruferfolg abgestimmt sind, und die Open-Source-Gewichte als Fallback, falls Sie jemals von der gehosteten API wegwechseln möchten.

Wenn Sie eine neue Integration erstellen, verwenden Sie Apidog, um jeden Endpunkt zuerst zu konstruieren und zu verifizieren. Sie werden Schemafehler, Streaming-Bugs und Authentifizierungsprobleme abfangen, bevor sie in Ihre Codebasis gelangen. Anschließend portieren Sie die funktionierenden Anfragen mit Zuversicht in Ihren Python- oder Node-Dienst.

Referenzen und weiterführende Lektüre

Offizielle Ankündigung: Kimi K2.6 – Moonshot AI Blog
API-Schnellstart: platform.kimi.ai
API-Plattform: platform.moonshot.ai
Kimi Code Terminal-Agent: kimi.com/code
Preise: kimi.com/membership/pricing
Offene Gewichte: huggingface.co/moonshotai/Kimi-K2.6
Verwandte Apidog-Anleitungen: Was ist Kimi K2.6, Kimi K2.6 kostenlos nutzen, Qwen 3.6 kostenlos auf OpenRouter, Qwen3.5-Omni API, Apidog in VS Code, API-Tests ohne Postman, API-Tests für über 50 Ingenieure, Claude Code Workflows, Cursor Composer 2.