Moonshot AI hat Kimi K2.6 mit einer kühnen Behauptung veröffentlicht: Es ist der neue Stand der Technik in den Bereichen Open-Source-Codierung, Langzeit-Ausführung und Agenten-Schwärme. Die Zahlen bestätigen dies. 80,2 % auf SWE-Bench Verified, 96,4 % auf AIME 2026, 90,5 % auf GPQA-Diamond und 73,1 % auf OSWorld-Verified. Das sind keine Marketingausschnitte; sie stammen direkt aus der offiziellen Ankündigung auf kimi.
Dieser Beitrag erläutert, was Kimi K2.6 ist, wie die Agent Swarm-Architektur die Möglichkeiten eines einzelnen Modells verändert, das Benchmark-Bild im Vergleich zu GPT-5.4 und Claude 4.6 und wo Sie es heute verwenden können.
TL;DR
- Veröffentlichung: Moonshot AI, April 2026, Open Source (Gewichte auf Hugging Face, API auf platform.kimi.ai).
- Architektur: 1T-Parameter Mixture-of-Experts, 32B aktive Parameter pro Token, 262.144-Token Kontext (256K).
- Max. Ausgabe: bis zu 98.304 Tokens für Reasoning-Aufgaben.
- Agent Swarm: bis zu 300 Sub-Agenten, 4.000+ koordinierte Schritte pro Aufgabe (3x die K2.5-Kapazität).
- Top-Benchmarks: SWE-Bench Verified 80.2%, Terminal-Bench 2.0 66.7%, AIME 2026 96.4%, HLE-Full (Tools) 54.0%, OSWorld-Verified 73.1%.
- Oberflächen: kimi.com Chat, Kimi App, Kimi Code, API, offene Gewichte.
Kimi K2.6 in einem Absatz
Kimi K2.6 ist Moonshot AI's Open-Source-Modell der nächsten Generation, das sich auf hochmoderne Codierung, Langzeit-Ausführung und Agenten-Schwärme konzentriert. Es läuft auf kimi.com, der Kimi App, Kimi Code und der API unter platform.kimi.ai. Es ist die erste K-Line-Veröffentlichung, die die Agent Swarm-Kapazität auf 300 Sub-Agenten und über 4.000 gleichzeitige Schritte erweitert, wodurch es in der Lage ist, autonome Arbeitssitzungen durchzuführen, die Tage statt Sekunden dauern. Wenn Sie mit der Integration anderer Spitzenmodelle wie Qwen 3.6 (siehe unseren OpenRouter-Leitfaden) oder Qwen3.5-Omni in einen API-First-Workflow vertraut sind, passt Kimi K2.6 in das gleiche Schema, jedoch mit einem stärkeren Fokus auf Agenten.

Moonshot hat eine vollständige Benchmark-Tabelle in der Kimi K2.6-Ankündigung veröffentlicht. Die Highlights:
Codierung
| Benchmark | Kimi K2.6 |
|---|---|
| SWE-Bench Verified | 80,2% |
| SWE-Bench Multilingual | 76,7% |
| SWE-Bench Pro | 58,6% |
| Terminal-Bench 2.0 | 66,7% |
SWE-Bench Verified mit 80,2 % erreicht oder übertrifft Claude 4.6 auf derselben Testumgebung, und das mit offenen Gewichten, die Sie herunterladen können. Terminal-Bench 2.0 mit 66,7 % stellt einen Sprung von 15,9 Punkten gegenüber K2.5 dar, was zeigt, dass Moonshot die Zuverlässigkeit bei Shell- und Dateimanipulationen deutlich verbessert hat.
Agenten- und Werkzeugnutzung
| Benchmark | Kimi K2.6 |
|---|---|
| HLE-Full (mit Tools) | 54,0% |
| BrowseComp | 83,2% (86,3% mit Agent Swarm) |
| DeepSearchQA (F1) | 92,5% |
| Toolathlon | 50,0% |
| Claw Eval (pass@3) | 80,9% |
| OSWorld-Verified | 73,1% |
HLE-Full mit 54,0 % platziert K2.6 vor GPT-5.4 (52,1 %) und Claude 4.6 (53,0 %) bei diesem spezifischen Benchmark für Reasoning-plus-Tools. OSWorld-Verified mit 73,1 % bedeutet, dass K2.6 eine echte Desktop-Umgebung für Aufgaben auf Betriebssystemebene steuern kann, was derselbe Bereich ist, den Claude Code computer use abzielt.
Argumentation und Wissen
| Benchmark | Kimi K2.6 |
|---|---|
| AIME 2026 | 96,4% |
| HMMT 2026 (Feb) | 92,7% |
| GPQA-Diamond | 90,5% |
| IMO-AnswerBench | 86,0% |
AIME 2026 mit 96,4 % ist nahezu perfekt bei einem Wettbewerbs-Mathe-Benchmark, der für Modelle noch vor einem Jahr brutal war.
Vision
| Benchmark | Kimi K2.6 |
|---|---|
| MathVision (mit Python) | 93,2% |
| V* (mit Python) | 96,9% |
| MMMU-Pro | 79,4% |
| CharXiv (RQ, mit Python) | 86,7% |
Die „mit Python“-Ergebnisse verdeutlichen, wie Vision jetzt in die Werkzeugnutzung integriert ist: K2.6 liest eine Abbildung, schreibt Python und berechnet die Antwort im selben Trajektorie.
Agent Swarm: Der strukturelle Sprung
Agent Swarm ist die herausragende architektonische Änderung in K2.6. Moonshots Blog formuliert es klar: K2.6 orchestriert bis zu 300 Sub-Agenten mit über 4.000 koordinierten Schritten, eine 3-fache Erweiterung gegenüber K2.5 mit 100 Agenten und 1.500 Schritten.
Drei Muster sind entscheidend:
- Heterogene Aufgabenzerlegung. Das Modell klont sich nicht 300 Mal. Es zerlegt eine Aufgabe in Unteraufgaben mit unterschiedlichen Fähigkeiten (Code, Forschung, Vision, Planung) und leitet jede an den richtigen Spezialisten weiter.
- Kompositionale Intelligenz. Sub-Agenten kommunizieren über einen gemeinsamen Zustand und erzeugen in einer einzigen Sitzung Dokument-, Website-, Folien- und Tabellenkalkulationsausgaben. Dies ähnelt im Geiste der Art und Weise, wie Hermes-Agentenarchitekturen die Multi-Agenten-Orchestrierung strukturieren.
- Dokument-zu-Fähigkeit-Konvertierung. Eine Spezifikation wird zu einer Fähigkeit, die die „strukturelle DNA“ bewahrt, was bedeutet, dass das Modell ein Design-Dokument aufnehmen und so handeln kann, als ob es über tribales Wissen verfügen würde.
Echte Läufe aus der Kimi-Ankündigung
Drei Beispiele für Machbarkeitsnachweise:
- Qwen3.5-0.8B Inferenzoptimierung auf Mac – über 12 Stunden kontinuierliche Arbeit, über 4.000 Tool-Aufrufe, 14 Iterationen, Steigerung des Durchsatzes von 15 auf 193 Tokens/Sek. (etwa 20 % schneller als die LM Studio-Baseline).
- Abstimmung einer Finanzmaschine mit Exchange-Kern – 13 Stunden, über 1.000 Tool-Aufrufe, über 4.000 geänderte Codezeilen, mittlerer Durchsatzgewinn von 185 % (0,43 → 1,24 MT/s), Leistungsdurchsatz von 133 % (1,23 → 2,86 MT/s).
- Autonomer 5-Tages-Infrastrukturlauf – Multithread-Aufgabenbearbeitung und Incident Response ohne menschliche Aufsicht.
Wenn Sie jemals einen Codierungsagenten gesehen haben, der nach 20 Tool-Aufrufen den Faden verloren hat, lesen sich diese Zahlen anders. Das interessante Skalierungsgesetz hier sind nicht die Parameter; es sind die Agenten-Stunden.
Wie die Architektur standhält
Mixture of Experts
K2.6 ist ein 1-Billion-Parameter MoE-Modell mit 32 Milliarden aktiven Parametern pro Token. Sie erhalten Fähigkeiten der Spitzenklasse mit Inferenzkosten, die einem dichten 32B-Modell näher kommen. Der gleiche Kompromiss gilt wie bei anderen MoE-Familienveröffentlichungen wie der GLM-5V Turbo API; das Routing ist der Bereich, in den die technischen Investitionen fließen.
Langer Kontext: 262.144 Tokens
Das Kontextfenster beträgt genau 262.144 Tokens (die von Moonshot zitierte gerundete Zahl). Maximale Generierungslängen reichen für Reasoning-Aufgaben bis zu 98.304 Tokens. Das reicht aus, um Folgendes unterzubringen:
- Eine komplette mittelgroße Codebasis und immer noch Platz für die Agenten-Trajektorie
- Ein vollständiges Rechts- oder Forschungsdokument mit Platz für Multi-Turn Q&A
- Eine mehrtägige Tool-Aufrufliste für laufende Agenten-Sitzungen
Moonshot hat Teile des Attention Stacks für K2.6 umgeschrieben, um die Inferenz mit langem Kontext stabil zu halten, wo K2.5 schlechter abschnitt.
Standard-Sampling
Der Blog empfiehlt Standardparameter von Temperatur 1.0 und Top-P 1.0 für K2.6, was im Vergleich zu den meisten Codierungsmodellen aggressiv ist. Übernehmen Sie nicht blind die niedrigen Temperatur-Standardwerte, die Sie in der OpenAI- oder Anthropic-Dokumentation sehen; das Kimi-Team hat K2.6 darauf abgestimmt, zuverlässige Ausgaben bei höheren Temperaturen zu erzeugen.
Claw Groups: Die Multi-Agenten-Schicht über dem Modell
Claw Groups ist eine Forschungsvorschau in der K2.6-Ankündigung: ein offenes Ökosystem, in dem mehrere Agenten und Menschen an derselben Aufgabe über Laptops, Mobilgeräte und die Cloud hinweg zusammenarbeiten. Vier Funktionen:
- Dynamische Aufgabenabstimmung basierend auf spezialisierten Toolkits
- Fehlererkennung mit automatischer Aufgabenneuzuordnung
- Geräteübergreifende Bereitstellung
- Mensch-in-der-Schleife-Kontrollpunkte
Der Claw Eval-Score von 80,9 % (pass@3) misst, wie zuverlässig K2.6 innerhalb dieser Schicht operieren kann. Wenn Sie über Teams autonomer Agenten nachdenken, so wie es Paperclip’s AI Agenten-Unternehmen beschreibt, ist Claw Groups ein fertiges Substrat.
Design-orientierte Entwicklung und proaktive Agenten
K2.6 bietet Frontend-Generierungsfähigkeiten, die über die Chat-Code-Vervollständigung hinausgehen. Aus dem offiziellen Beitrag:
- Full-Stack-Generierung einschließlich Authentifizierung, Datenbanken und Transaktionen
- Integration von Bild- und Videoerstellungstools innerhalb von Agenten-Trajektorien
- Scroll-getriggerte Animationen, interaktive Elemente und produktionsreife Ausgabe
Proaktive Agenten laufen 24/7 in OpenClaw und Hermes und orchestrieren mehrere Anwendungen im Hintergrund. Das ist das gleiche „Agent schläft nie“-Muster, das Teams um Google Agent Smith und benutzerdefinierte Stacks wie „build your own Claude Code“ herum aufbauen.
Kimi K2.6 im Vergleich zu den geschlossenen Spitzenmodellen
Aus der offiziellen Vergleichstabelle:
| Aufgabe | K2.6 | GPT-5.4 | Claude 4.6 | Gemini 3.1 | K2.5 |
|---|---|---|---|---|---|
| HLE-Full (Tools) | 54,0 | 52,1 | 53,0 | 51,4 | 50,2 |
| BrowseComp | 83,2 | 82,7 | 83,7 | 85,9 | 74,9 |
| Terminal-Bench 2.0 | 66,7 | 65,4 | 65,4 | 68,5 | 50,8 |
| SWE-Bench Pro | 58,6 | 57,7 | 53,4 | 54,2 | 50,7 |
Drei Erkenntnisse:
- K2.6 gewinnt oder liegt bei drei der vier in dieser Tabelle gleichauf, einschließlich eines Vorsprungs vor GPT-5.4 bei HLE-Full und SWE-Bench Pro.
- Gemini 3.1 führt bei Terminal-Bench und BrowseComp, daher ist es für reines Browsing oder Terminal-Zuverlässigkeit immer noch in der engeren Auswahl.
- K2.6 wird mit offenen Gewichten ausgeliefert, was keiner der geschlossenen Konkurrenten tut.
Wo Kimi K2.6 zu finden ist
kimi.com (Chat)
Die Kimi-Benutzeroberfläche für Endverbraucher ist der schnellste Weg, K2.6 auszuprobieren. Melden Sie sich an, wählen Sie K2.6 im Modellselektor, und Sie haben Chat, Agentenmodus, Agent Swarm, Vision und Kimi Code Tool-Integration. Spezifisches finden Sie in unserem begleitenden Leitfaden zur kostenlosen Nutzung von Kimi K2.6.
Kimi App
Die mobile App (iOS, Android) spiegelt das Weberlebnis mit Spracheingabe und Push-Benachrichtigungen für lang laufende Agentenaufgaben wider.
Kimi Code
Kimi Code ist die Terminal-native Codierungs-Oberfläche. Es fühlt sich näher an Claude Code Workflows an als an ein Chat-Fenster: K2.6 steuert Ihr lokales Dateisystem, Commits und Tests, mit Agent Swarm unter der Haube. Wenn Sie Codierungsagenten suchen, vergleichen Sie es mit Cursor Composer 2.
API
Die API ist OpenAI-kompatibel. Die Basis-URL ist https://api.moonshot.ai/v1, die Modell-IDs sind kimi-k2.6 und kimi-k2.6-thinking. Einen vollständigen Überblick haben wir in How to Use the Kimi K2.6 API beschrieben, einschließlich Authentifizierung, Streaming, Tool-Aufrufen, Vision, Video und Agent Swarm-Aufruf.
Offene Gewichte auf Hugging Face
Die vollständigen K2.6-Gewichte sind auf Hugging Face unter moonshotai/Kimi-K2.6 unter einer modifizierten MIT-Lizenz verfügbar. Community-Quantisierungen (ubergarm GGUF, unsloth) machen den Betrieb auf eigener Hardware für Teams mit H100-Klasse-GPUs machbar.
Wie K2.6 trainiert wurde (was Moonshot offengelegt hat)
Die Kimi K2.6-Ankündigung veröffentlicht nicht das vollständige Trainingsrezept, aber die Produkthinweise verraten, wohin der technische Aufwand geflossen ist:
- Langzeitstabilität – Moonshot verweist auf 12-stündige und 13-stündige Agentenläufe als Beweis für das Training gegen fehlerhafte Sitzungslängen. K2.5 verschlechterte sich nach einigen hundert Tool-Aufrufen; K2.6 hält über 4.000+ durch.
- Zuverlässigkeit von Tool-Aufrufen – CodeBuddys 96,60 % Erfolgsrate bei Tool-Aufrufen ist die öffentlich bekannte Zahl. Synthetische Tool-Nutzungsdaten im Training sind der übliche Weg, wie Labore dies erreichen.
- Kompositionelles Schwarmtraining – heterogenes Sub-Agenten-Verhalten impliziert ein Trainingssignal über mehrere Agentenrollen (Planer, Coder, Forscher, Prüfer) hinweg, nicht nur einen einzelnen Generalisten.
- Vision + Code-Verkettung – das „MathVision mit Python“-Muster (93,2 %) deutet auf ein multimodales + Tool-Nutzungs-Verbundtraining hin, nicht auf einen nachträglich aufgesetzten Vision-Adapter.
Wenn Sie eine Retrospektive darüber schreiben, was ein gutes offenes Modell aus der Ära 2026 von einem großartigen unterscheidet, bilden diese vier Punkte den größten Teil der Geschichte.
Wen es interessieren sollte
Wählen Sie Kimi K2.6, wenn Sie Folgendes entwickeln
- Lang laufende Codierungsagenten. Die 4.000-Schritte, 12-Stunden-Demo-Läufe sind kein Marketing; sie sind Teil der Architektur.
- Multi-Agenten-Systeme. Agent Swarm und Claw Groups ermöglichen Ihnen die Orchestrierung von 300 Agenten, ohne sie selbst schreiben zu müssen.
- Open-Weight-Produktion. Sie benötigen Modellhoheit, benutzerdefinierte Feinabstimmung oder regulatorische Kontrolle.
- API-Arbeit mit hohem Durchsatz. Die MoE-Inferenzkosten liegen weit unter den Preisen geschlossener Modelle, und die OpenAI-kompatible API lässt sich in bestehenden Code integrieren.
Bleiben Sie bei geschlossenen Modellen, wenn Sie Folgendes benötigen
- Strikte Sicherheitsausrichtung. Claude 4.6 ist immer noch führend bei nuancierten Ablehnungen und Richtlinienkonformität.
- Chat-Latenz für Endverbraucher im Sub-Sekunden-Bereich. Agent Swarm-Läufe dauern Minuten, nicht Millisekunden.
- Feste Anbieter-SLAs. Für regulierte Branchen kann ein Supportvertrag eines führenden Labors wichtiger sein als die Modellqualität.
So testen Sie Kimi K2.6 in fünf Minuten mit Apidog
Sobald Sie einen Moonshot/Kimi API-Schlüssel haben, bringt Sie Apidog in wenigen Minuten von Null zu einem funktionierenden Test:
- Erstellen Sie eine Umgebung:
BASE_URL = https://api.moonshot.ai/v1,KIMI_API_KEY = sk-.... - Neue Anfrage:
POST {{BASE_URL}}/chat/completions. - Header:
Authorization: Bearer {{KIMI_API_KEY}},Content-Type: application/json. - Body:
{
"model": "kimi-k2.6",
"messages": [{"role": "user", "content": "Zusammenfassung der Kimi K2.6 Ankündigung."}],
"stream": true
}
- Klicken Sie auf Senden. Beobachten Sie, wie die Tokens hereinfließen.
Apidog verwaltet auch den Anfrageverlauf (Wiederholung fehlgeschlagener Tool-Aufrufsequenzen), die Schema-Validierung gegen die OpenAI-Chat-Completions-Spezifikation, die Teamfreigabe mit Pro-Mitglied-Schlüsseln und die VS Code-Integration für das Testen im Editor. Wenn Sie derzeit Postman verwenden, erklärt unser Leitfaden zum API-Testen ohne Postman im Jahr 2026 den Wechsel.
FAQ
Ist Kimi K2.6 Open Source?Die Gewichte sind Open Source unter einer modifizierten MIT-Lizenz (moonshotai/Kimi-K2.6). Trainingsdaten und Trainingscode sind nicht öffentlich. Das macht es im allgemeinen Sprachgebrauch „Open-Weight“.
Wie schneidet Kimi K2.6 im Vergleich zu K2.5 ab?Umfassende Verbesserungen, laut der offiziellen Benchmark-Tabelle: +3,8 Punkte bei HLE-Full, +8,3 bei BrowseComp, +15,9 bei Terminal-Bench 2.0, +7,9 bei SWE-Bench Pro, +20,5 bei Claw Eval, 3-fache Steigerung der Agent Swarm-Kapazität.
Wie groß ist das Kontextfenster von Kimi K2.6?262.144 Tokens. Die maximale Generierung für Reasoning-Aufgaben reicht bis zu 98.304 Tokens.
Kann ich Kimi K2.6 lokal ausführen?Ja, mit entsprechender Hardware. Das volle 1T MoE benötigt Multi-GPU-Knoten der H100-Klasse. Quantisierte Builds (4-Bit, 3-Bit) von Community-Beitragenden passen auf kleinere Setups mit etwas Qualitätsverlust. Optionen zur Quantisierung finden Sie in unserem Leitfaden zum kostenlosen Zugriff.
Unterstützt Kimi K2.6 Tool-Aufrufe?Ja. Die API folgt dem OpenAI-Tool-Aufruf-Format. Agent Swarm verarbeitet parallele Tool-Aufrufe nativ.
Was ist der Unterschied zwischen Kimi K2.6 und Kimi K2.6 Thinking?K2.6 ist die schnelle Agenten-Variante. K2.6 Thinking zeigt vor der Beantwortung eine sichtbare Gedankenkette. Verwenden Sie Thinking für mathematische Beweise, schwieriges Debugging oder komplexe Planung.
Wie greife ich kostenlos auf Kimi K2.6 zu?Der kimi.com Web-Chat ist mit einem Tageskontingent kostenlos. Cloudflare Workers AI bietet einen kostenlosen Tarif. Das Self-Hosting von Hugging Face-Gewichten hat keine Token-Kosten, sobald Sie die Hardware besitzen. Eine vollständige Aufschlüsselung finden Sie in Wie man Kimi K2.6 kostenlos nutzt.
Wie schneidet Kimi K2.6 im Vergleich zu anderen Open-Weight-Modellen ab?Im Vergleich zu Qwen 3.6 und Qwen3.5-Omni ist Kimi K2.6 bei Codierungs- und Agenten-Benchmarks führend; Qwen hat immer noch stärkere mehrsprachige und Kleinmodell-Varianten. Im Vergleich zu DeepSeek V3.x hat K2.6 den Vorteil bei der Agenten-Orchestrierung.
Zusammenfassung
Kimi K2.6 ist das bisher produktionsreifste Open-Weight-Modell für Agenten-basierte Codierung und Langzeitaufgaben. Der Schwarm von 300 Agenten, die Ausführung von 4.000 Schritten, das 262K Kontextfenster und die offenen Gewichte machen es zu einem einzigartigen Werkzeug in der aktuellen Modellpalette. Moonshots Ankündigungsbeitrag stellt es als den neuen Stand der Technik in der Open-Source-Agentenarbeit dar, und die öffentlichen Benchmarks untermauern diese Behauptung.
Wenn Sie Modelle für einen Codierungsagenten, einen lang laufenden Forschungsassistenten oder ein Multi-Agenten-System evaluieren, gehört Kimi K2.6 auf Ihre engere Auswahlliste. Holen Sie sich einen Schlüssel von platform.kimi.ai, öffnen Sie Apidog und senden Sie Ihre erste Anfrage. Dann arbeiten Sie sich durch unsere detaillierteren Leitfäden zur API und zu kostenlosen Zugriffsmethoden.
