Kimi K2.6: Moonshot AI's 1T Parameter Open Model erklärt

Ashley Innocent

Ashley Innocent

21 April 2026

Kimi K2.6: Moonshot AI's 1T Parameter Open Model erklärt

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

Moonshot AI hat Kimi K2.6 mit einer kühnen Behauptung veröffentlicht: Es ist der neue Stand der Technik in den Bereichen Open-Source-Codierung, Langzeit-Ausführung und Agenten-Schwärme. Die Zahlen bestätigen dies. 80,2 % auf SWE-Bench Verified, 96,4 % auf AIME 2026, 90,5 % auf GPQA-Diamond und 73,1 % auf OSWorld-Verified. Das sind keine Marketingausschnitte; sie stammen direkt aus der offiziellen Ankündigung auf kimi.

Dieser Beitrag erläutert, was Kimi K2.6 ist, wie die Agent Swarm-Architektur die Möglichkeiten eines einzelnen Modells verändert, das Benchmark-Bild im Vergleich zu GPT-5.4 und Claude 4.6 und wo Sie es heute verwenden können.

💡
Möchten Sie Kimi K2.6 mit Ihren eigenen API-Workloads testen? Apidog konfiguriert den OpenAI-kompatiblen Moonshot/Kimi-Endpunkt in einem visuellen Arbeitsbereich vor. Importieren Sie einmal, speichern Sie Ihr Bearer-Token und führen Sie gestreamte Chats, Tool-Aufrufe und Vision-Anfragen mit vollständigem Verlauf aus. Laden Sie Apidog kostenlos herunter.
App herunterladen

TL;DR

Kimi K2.6 in einem Absatz

Kimi K2.6 ist Moonshot AI's Open-Source-Modell der nächsten Generation, das sich auf hochmoderne Codierung, Langzeit-Ausführung und Agenten-Schwärme konzentriert. Es läuft auf kimi.com, der Kimi App, Kimi Code und der API unter platform.kimi.ai. Es ist die erste K-Line-Veröffentlichung, die die Agent Swarm-Kapazität auf 300 Sub-Agenten und über 4.000 gleichzeitige Schritte erweitert, wodurch es in der Lage ist, autonome Arbeitssitzungen durchzuführen, die Tage statt Sekunden dauern. Wenn Sie mit der Integration anderer Spitzenmodelle wie Qwen 3.6 (siehe unseren OpenRouter-Leitfaden) oder Qwen3.5-Omni in einen API-First-Workflow vertraut sind, passt Kimi K2.6 in das gleiche Schema, jedoch mit einem stärkeren Fokus auf Agenten.

Moonshot hat eine vollständige Benchmark-Tabelle in der Kimi K2.6-Ankündigung veröffentlicht. Die Highlights:

Codierung

Benchmark Kimi K2.6
SWE-Bench Verified 80,2%
SWE-Bench Multilingual 76,7%
SWE-Bench Pro 58,6%
Terminal-Bench 2.0 66,7%

SWE-Bench Verified mit 80,2 % erreicht oder übertrifft Claude 4.6 auf derselben Testumgebung, und das mit offenen Gewichten, die Sie herunterladen können. Terminal-Bench 2.0 mit 66,7 % stellt einen Sprung von 15,9 Punkten gegenüber K2.5 dar, was zeigt, dass Moonshot die Zuverlässigkeit bei Shell- und Dateimanipulationen deutlich verbessert hat.

Agenten- und Werkzeugnutzung

Benchmark Kimi K2.6
HLE-Full (mit Tools) 54,0%
BrowseComp 83,2% (86,3% mit Agent Swarm)
DeepSearchQA (F1) 92,5%
Toolathlon 50,0%
Claw Eval (pass@3) 80,9%
OSWorld-Verified 73,1%

HLE-Full mit 54,0 % platziert K2.6 vor GPT-5.4 (52,1 %) und Claude 4.6 (53,0 %) bei diesem spezifischen Benchmark für Reasoning-plus-Tools. OSWorld-Verified mit 73,1 % bedeutet, dass K2.6 eine echte Desktop-Umgebung für Aufgaben auf Betriebssystemebene steuern kann, was derselbe Bereich ist, den Claude Code computer use abzielt.

Argumentation und Wissen

Benchmark Kimi K2.6
AIME 2026 96,4%
HMMT 2026 (Feb) 92,7%
GPQA-Diamond 90,5%
IMO-AnswerBench 86,0%

AIME 2026 mit 96,4 % ist nahezu perfekt bei einem Wettbewerbs-Mathe-Benchmark, der für Modelle noch vor einem Jahr brutal war.

Vision

Benchmark Kimi K2.6
MathVision (mit Python) 93,2%
V* (mit Python) 96,9%
MMMU-Pro 79,4%
CharXiv (RQ, mit Python) 86,7%

Die „mit Python“-Ergebnisse verdeutlichen, wie Vision jetzt in die Werkzeugnutzung integriert ist: K2.6 liest eine Abbildung, schreibt Python und berechnet die Antwort im selben Trajektorie.

Agent Swarm: Der strukturelle Sprung

Agent Swarm ist die herausragende architektonische Änderung in K2.6. Moonshots Blog formuliert es klar: K2.6 orchestriert bis zu 300 Sub-Agenten mit über 4.000 koordinierten Schritten, eine 3-fache Erweiterung gegenüber K2.5 mit 100 Agenten und 1.500 Schritten.

Drei Muster sind entscheidend:

  1. Heterogene Aufgabenzerlegung. Das Modell klont sich nicht 300 Mal. Es zerlegt eine Aufgabe in Unteraufgaben mit unterschiedlichen Fähigkeiten (Code, Forschung, Vision, Planung) und leitet jede an den richtigen Spezialisten weiter.
  2. Kompositionale Intelligenz. Sub-Agenten kommunizieren über einen gemeinsamen Zustand und erzeugen in einer einzigen Sitzung Dokument-, Website-, Folien- und Tabellenkalkulationsausgaben. Dies ähnelt im Geiste der Art und Weise, wie Hermes-Agentenarchitekturen die Multi-Agenten-Orchestrierung strukturieren.
  3. Dokument-zu-Fähigkeit-Konvertierung. Eine Spezifikation wird zu einer Fähigkeit, die die „strukturelle DNA“ bewahrt, was bedeutet, dass das Modell ein Design-Dokument aufnehmen und so handeln kann, als ob es über tribales Wissen verfügen würde.

Echte Läufe aus der Kimi-Ankündigung

Drei Beispiele für Machbarkeitsnachweise:

Wenn Sie jemals einen Codierungsagenten gesehen haben, der nach 20 Tool-Aufrufen den Faden verloren hat, lesen sich diese Zahlen anders. Das interessante Skalierungsgesetz hier sind nicht die Parameter; es sind die Agenten-Stunden.

Wie die Architektur standhält

Mixture of Experts

K2.6 ist ein 1-Billion-Parameter MoE-Modell mit 32 Milliarden aktiven Parametern pro Token. Sie erhalten Fähigkeiten der Spitzenklasse mit Inferenzkosten, die einem dichten 32B-Modell näher kommen. Der gleiche Kompromiss gilt wie bei anderen MoE-Familienveröffentlichungen wie der GLM-5V Turbo API; das Routing ist der Bereich, in den die technischen Investitionen fließen.

Langer Kontext: 262.144 Tokens

Das Kontextfenster beträgt genau 262.144 Tokens (die von Moonshot zitierte gerundete Zahl). Maximale Generierungslängen reichen für Reasoning-Aufgaben bis zu 98.304 Tokens. Das reicht aus, um Folgendes unterzubringen:

Moonshot hat Teile des Attention Stacks für K2.6 umgeschrieben, um die Inferenz mit langem Kontext stabil zu halten, wo K2.5 schlechter abschnitt.

Standard-Sampling

Der Blog empfiehlt Standardparameter von Temperatur 1.0 und Top-P 1.0 für K2.6, was im Vergleich zu den meisten Codierungsmodellen aggressiv ist. Übernehmen Sie nicht blind die niedrigen Temperatur-Standardwerte, die Sie in der OpenAI- oder Anthropic-Dokumentation sehen; das Kimi-Team hat K2.6 darauf abgestimmt, zuverlässige Ausgaben bei höheren Temperaturen zu erzeugen.

Claw Groups: Die Multi-Agenten-Schicht über dem Modell

Claw Groups ist eine Forschungsvorschau in der K2.6-Ankündigung: ein offenes Ökosystem, in dem mehrere Agenten und Menschen an derselben Aufgabe über Laptops, Mobilgeräte und die Cloud hinweg zusammenarbeiten. Vier Funktionen:

Der Claw Eval-Score von 80,9 % (pass@3) misst, wie zuverlässig K2.6 innerhalb dieser Schicht operieren kann. Wenn Sie über Teams autonomer Agenten nachdenken, so wie es Paperclip’s AI Agenten-Unternehmen beschreibt, ist Claw Groups ein fertiges Substrat.

Design-orientierte Entwicklung und proaktive Agenten

K2.6 bietet Frontend-Generierungsfähigkeiten, die über die Chat-Code-Vervollständigung hinausgehen. Aus dem offiziellen Beitrag:

Proaktive Agenten laufen 24/7 in OpenClaw und Hermes und orchestrieren mehrere Anwendungen im Hintergrund. Das ist das gleiche „Agent schläft nie“-Muster, das Teams um Google Agent Smith und benutzerdefinierte Stacks wie „build your own Claude Code“ herum aufbauen.

Kimi K2.6 im Vergleich zu den geschlossenen Spitzenmodellen

Aus der offiziellen Vergleichstabelle:

Aufgabe K2.6 GPT-5.4 Claude 4.6 Gemini 3.1 K2.5
HLE-Full (Tools) 54,0 52,1 53,0 51,4 50,2
BrowseComp 83,2 82,7 83,7 85,9 74,9
Terminal-Bench 2.0 66,7 65,4 65,4 68,550,8
SWE-Bench Pro 58,6 57,7 53,4 54,250,7

Drei Erkenntnisse:

  1. K2.6 gewinnt oder liegt bei drei der vier in dieser Tabelle gleichauf, einschließlich eines Vorsprungs vor GPT-5.4 bei HLE-Full und SWE-Bench Pro.
  2. Gemini 3.1 führt bei Terminal-Bench und BrowseComp, daher ist es für reines Browsing oder Terminal-Zuverlässigkeit immer noch in der engeren Auswahl.
  3. K2.6 wird mit offenen Gewichten ausgeliefert, was keiner der geschlossenen Konkurrenten tut.

Wo Kimi K2.6 zu finden ist

kimi.com (Chat)

Die Kimi-Benutzeroberfläche für Endverbraucher ist der schnellste Weg, K2.6 auszuprobieren. Melden Sie sich an, wählen Sie K2.6 im Modellselektor, und Sie haben Chat, Agentenmodus, Agent Swarm, Vision und Kimi Code Tool-Integration. Spezifisches finden Sie in unserem begleitenden Leitfaden zur kostenlosen Nutzung von Kimi K2.6.

Kimi App

Die mobile App (iOS, Android) spiegelt das Weberlebnis mit Spracheingabe und Push-Benachrichtigungen für lang laufende Agentenaufgaben wider.

Kimi Code

Kimi Code ist die Terminal-native Codierungs-Oberfläche. Es fühlt sich näher an Claude Code Workflows an als an ein Chat-Fenster: K2.6 steuert Ihr lokales Dateisystem, Commits und Tests, mit Agent Swarm unter der Haube. Wenn Sie Codierungsagenten suchen, vergleichen Sie es mit Cursor Composer 2.

API

Die API ist OpenAI-kompatibel. Die Basis-URL ist https://api.moonshot.ai/v1, die Modell-IDs sind kimi-k2.6 und kimi-k2.6-thinking. Einen vollständigen Überblick haben wir in How to Use the Kimi K2.6 API beschrieben, einschließlich Authentifizierung, Streaming, Tool-Aufrufen, Vision, Video und Agent Swarm-Aufruf.

Offene Gewichte auf Hugging Face

Die vollständigen K2.6-Gewichte sind auf Hugging Face unter moonshotai/Kimi-K2.6 unter einer modifizierten MIT-Lizenz verfügbar. Community-Quantisierungen (ubergarm GGUF, unsloth) machen den Betrieb auf eigener Hardware für Teams mit H100-Klasse-GPUs machbar.

Wie K2.6 trainiert wurde (was Moonshot offengelegt hat)

Die Kimi K2.6-Ankündigung veröffentlicht nicht das vollständige Trainingsrezept, aber die Produkthinweise verraten, wohin der technische Aufwand geflossen ist:

Wenn Sie eine Retrospektive darüber schreiben, was ein gutes offenes Modell aus der Ära 2026 von einem großartigen unterscheidet, bilden diese vier Punkte den größten Teil der Geschichte.

Wen es interessieren sollte

Wählen Sie Kimi K2.6, wenn Sie Folgendes entwickeln

Bleiben Sie bei geschlossenen Modellen, wenn Sie Folgendes benötigen

So testen Sie Kimi K2.6 in fünf Minuten mit Apidog

Sobald Sie einen Moonshot/Kimi API-Schlüssel haben, bringt Sie Apidog in wenigen Minuten von Null zu einem funktionierenden Test:

  1. Erstellen Sie eine Umgebung: BASE_URL = https://api.moonshot.ai/v1, KIMI_API_KEY = sk-....
  2. Neue Anfrage: POST {{BASE_URL}}/chat/completions.
  3. Header: Authorization: Bearer {{KIMI_API_KEY}}, Content-Type: application/json.
  4. Body:
{
  "model": "kimi-k2.6",
  "messages": [{"role": "user", "content": "Zusammenfassung der Kimi K2.6 Ankündigung."}],
  "stream": true
}
  1. Klicken Sie auf Senden. Beobachten Sie, wie die Tokens hereinfließen.

Apidog verwaltet auch den Anfrageverlauf (Wiederholung fehlgeschlagener Tool-Aufrufsequenzen), die Schema-Validierung gegen die OpenAI-Chat-Completions-Spezifikation, die Teamfreigabe mit Pro-Mitglied-Schlüsseln und die VS Code-Integration für das Testen im Editor. Wenn Sie derzeit Postman verwenden, erklärt unser Leitfaden zum API-Testen ohne Postman im Jahr 2026 den Wechsel.

FAQ

Ist Kimi K2.6 Open Source?Die Gewichte sind Open Source unter einer modifizierten MIT-Lizenz (moonshotai/Kimi-K2.6). Trainingsdaten und Trainingscode sind nicht öffentlich. Das macht es im allgemeinen Sprachgebrauch „Open-Weight“.

Wie schneidet Kimi K2.6 im Vergleich zu K2.5 ab?Umfassende Verbesserungen, laut der offiziellen Benchmark-Tabelle: +3,8 Punkte bei HLE-Full, +8,3 bei BrowseComp, +15,9 bei Terminal-Bench 2.0, +7,9 bei SWE-Bench Pro, +20,5 bei Claw Eval, 3-fache Steigerung der Agent Swarm-Kapazität.

Wie groß ist das Kontextfenster von Kimi K2.6?262.144 Tokens. Die maximale Generierung für Reasoning-Aufgaben reicht bis zu 98.304 Tokens.

Kann ich Kimi K2.6 lokal ausführen?Ja, mit entsprechender Hardware. Das volle 1T MoE benötigt Multi-GPU-Knoten der H100-Klasse. Quantisierte Builds (4-Bit, 3-Bit) von Community-Beitragenden passen auf kleinere Setups mit etwas Qualitätsverlust. Optionen zur Quantisierung finden Sie in unserem Leitfaden zum kostenlosen Zugriff.

Unterstützt Kimi K2.6 Tool-Aufrufe?Ja. Die API folgt dem OpenAI-Tool-Aufruf-Format. Agent Swarm verarbeitet parallele Tool-Aufrufe nativ.

Was ist der Unterschied zwischen Kimi K2.6 und Kimi K2.6 Thinking?K2.6 ist die schnelle Agenten-Variante. K2.6 Thinking zeigt vor der Beantwortung eine sichtbare Gedankenkette. Verwenden Sie Thinking für mathematische Beweise, schwieriges Debugging oder komplexe Planung.

Wie greife ich kostenlos auf Kimi K2.6 zu?Der kimi.com Web-Chat ist mit einem Tageskontingent kostenlos. Cloudflare Workers AI bietet einen kostenlosen Tarif. Das Self-Hosting von Hugging Face-Gewichten hat keine Token-Kosten, sobald Sie die Hardware besitzen. Eine vollständige Aufschlüsselung finden Sie in Wie man Kimi K2.6 kostenlos nutzt.

Wie schneidet Kimi K2.6 im Vergleich zu anderen Open-Weight-Modellen ab?Im Vergleich zu Qwen 3.6 und Qwen3.5-Omni ist Kimi K2.6 bei Codierungs- und Agenten-Benchmarks führend; Qwen hat immer noch stärkere mehrsprachige und Kleinmodell-Varianten. Im Vergleich zu DeepSeek V3.x hat K2.6 den Vorteil bei der Agenten-Orchestrierung.

Zusammenfassung

Kimi K2.6 ist das bisher produktionsreifste Open-Weight-Modell für Agenten-basierte Codierung und Langzeitaufgaben. Der Schwarm von 300 Agenten, die Ausführung von 4.000 Schritten, das 262K Kontextfenster und die offenen Gewichte machen es zu einem einzigartigen Werkzeug in der aktuellen Modellpalette. Moonshots Ankündigungsbeitrag stellt es als den neuen Stand der Technik in der Open-Source-Agentenarbeit dar, und die öffentlichen Benchmarks untermauern diese Behauptung.

Wenn Sie Modelle für einen Codierungsagenten, einen lang laufenden Forschungsassistenten oder ein Multi-Agenten-System evaluieren, gehört Kimi K2.6 auf Ihre engere Auswahlliste. Holen Sie sich einen Schlüssel von platform.kimi.ai, öffnen Sie Apidog und senden Sie Ihre erste Anfrage. Dann arbeiten Sie sich durch unsere detaillierteren Leitfäden zur API und zu kostenlosen Zugriffsmethoden.

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen