Moonshot AI a lancé Kimi K2.6 avec une affirmation audacieuse : c'est le nouvel état de l'art en matière de codage open-source, d'exécution à long terme et d'essaims d'agents. Les chiffres le confirment. 80,2 % sur SWE-Bench Verified, 96,4 % sur AIME 2026, 90,5 % sur GPQA-Diamond et 73,1 % sur OSWorld-Verified. Ce ne sont pas des extraits marketing ; ils proviennent directement de l'annonce officielle sur kimi.
Cet article explique ce qu'est Kimi K2.6, comment l'architecture Agent Swarm modifie les capacités d'un modèle unique, présente les benchmarks par rapport à GPT-5.4 et Claude 4.6, et indique où vous pouvez commencer à l'utiliser dès aujourd'hui.
bouton
En bref
- Lancement : Moonshot AI, avril 2026, open source (poids sur Hugging Face, API sur platform.kimi.ai).
- Architecture : Mélange d'experts à 1T de paramètres, 32 milliards de paramètres actifs par jeton, contexte de 262 144 jetons (256K).
- Sortie maximale : jusqu'à 98 304 jetons pour les tâches de raisonnement.
- Essaim d'agents : jusqu'à 300 sous-agents, plus de 4 000 étapes coordonnées par tâche (3 fois la capacité de K2.5).
- Meilleurs benchmarks : SWE-Bench Verified 80,2 %, Terminal-Bench 2.0 66,7 %, AIME 2026 96,4 %, HLE-Full (outils) 54,0 %, OSWorld-Verified 73,1 %.
- Plateformes : Chat kimi.com, Kimi App, Kimi Code, API, poids ouverts.
Kimi K2.6 en un paragraphe
Kimi K2.6 est le modèle open-source de nouvelle génération de Moonshot AI, axé sur le codage de pointe, l'exécution à long terme et les essaims d'agents. Il fonctionne sur kimi.com, l'application Kimi, Kimi Code et l'API sur platform.kimi.ai. C'est la première version de la ligne K à porter la capacité de l'Essaim d'agents à 300 sous-agents et plus de 4 000 étapes simultanées, ce qui le rend capable de sessions de travail autonomes qui durent des jours, et non des secondes. Si vous êtes familiarisé avec la façon dont d'autres modèles de pointe comme Qwen 3.6 (voir notre guide OpenRouter) ou Qwen3.5-Omni s'intègrent dans un flux de travail API-first, Kimi K2.6 s'inscrit dans la même lignée avec une focalisation plus nette sur les agents.

Moonshot a publié un tableau de benchmarks complet dans l'annonce de Kimi K2.6. Les points forts :
Codage
| Benchmark | Kimi K2.6 |
|---|---|
| SWE-Bench Verified | 80.2% |
| SWE-Bench Multilingual | 76.7% |
| SWE-Bench Pro | 58.6% |
| Terminal-Bench 2.0 | 66.7% |
SWE-Bench Verified à 80,2 % égale ou dépasse Claude 4.6 sur le même harnais, et ce, avec des poids ouverts que vous pouvez télécharger. Terminal-Bench 2.0 à 66,7 % représente un bond de 15,9 points par rapport à K2.5, ce qui montre que Moonshot a mis le paquet sur la fiabilité de la manipulation de la ligne de commande et des fichiers.
Utilisation d'agents et d'outils
| Benchmark | Kimi K2.6 |
|---|---|
| HLE-Full (avec outils) | 54.0% |
| BrowseComp | 83.2% (86.3% avec Agent Swarm) |
| DeepSearchQA (F1) | 92.5% |
| Toolathlon | 50.0% |
| Claw Eval (pass@3) | 80.9% |
| OSWorld-Verified | 73.1% |
HLE-Full à 54,0 % place K2.6 devant GPT-5.4 (52,1 %) et Claude 4.6 (53,0 %) sur ce benchmark spécifique de raisonnement et d'utilisation d'outils. OSWorld-Verified à 73,1 % signifie que K2.6 peut piloter un environnement de bureau réel pour des tâches au niveau du système d'exploitation, ce qui est le même domaine ciblé par l'utilisation de l'ordinateur par Claude Code.
Raisonnement et connaissances
| Benchmark | Kimi K2.6 |
|---|---|
| AIME 2026 | 96.4% |
| HMMT 2026 (Fév) | 92.7% |
| GPQA-Diamond | 90.5% |
| IMO-AnswerBench | 86.0% |
AIME 2026 à 96,4 % est presque parfait sur un benchmark de mathématiques de compétition qui était brutal pour les modèles il y a seulement un an.
Vision
| Benchmark | Kimi K2.6 |
|---|---|
| MathVision (avec Python) | 93.2% |
| V* (avec Python) | 96.9% |
| MMMU-Pro | 79.4% |
| CharXiv (RQ, avec Python) | 86.7% |
Les résultats « avec Python » soulignent comment la vision s'intègre désormais à l'utilisation d'outils : K2.6 lit une figure, écrit du Python et calcule la réponse dans la même trajectoire.
Agent Swarm : le saut structurel
Agent Swarm est le changement architectural majeur de K2.6. Le blog de Moonshot l'explique clairement : K2.6 orchestre jusqu'à 300 sous-agents avec plus de 4 000 étapes coordonnées, une expansion de 3x par rapport aux 100 agents et 1 500 étapes de K2.5.
Trois modèles sont importants :
- Décomposition hétérogène des tâches. Le modèle ne se clone pas 300 fois. Il divise une tâche en sous-tâches avec des profils de compétences différents (code, recherche, vision, planification) et achemine chacune vers le bon spécialiste.
- Intelligence compositionnelle. Les sous-agents communiquent via un état partagé, produisant des documents, des sites web, des diapositives et des feuilles de calcul en une seule session. Ceci est proche de la manière dont les architectures d'agents Hermes structurent l'orchestration multi-agents.
- Conversion document-compétence. Une spécification devient une compétence préservant l'« ADN structurel », ce qui signifie que le modèle peut absorber un document de conception et agir comme s'il possédait une connaissance tribale.
Exécutions réelles de l'annonce de Kimi
Trois exemples de preuve de concept :
- Optimisation de l'inférence de Qwen3.5-0.8B sur Mac — Plus de 12 heures de travail continu, plus de 4 000 appels d'outils, 14 itérations, augmentant le débit de 15 à 193 jetons/sec (environ 20 % plus rapide que la base de référence de LM Studio).
- Réglage du moteur financier Exchange-core — 13 heures, plus de 1 000 appels d'outils, plus de 4 000 lignes de code modifiées, gain de débit moyen de 185 % (0,43 → 1,24 MT/s), débit de performance de 133 % (1,23 → 2,86 MT/s).
- Exécution autonome d'infrastructure de 5 jours — gestion de tâches multi-threadées et réponse aux incidents sans surveillance humaine.
Si vous avez déjà vu un agent de codage perdre le fil après 20 appels d'outils, ces chiffres se lisent différemment. La loi d'échelle intéressante ici n'est pas celle des paramètres ; ce sont les heures-agents.
Comment l'architecture tient la route
Mélange d'experts
K2.6 est un modèle MoE (Mixture of Experts) d'un billion de paramètres avec 32 milliards de paramètres actifs par jeton. Vous obtenez une capacité de pointe avec un coût d'inférence plus proche de celui d'un modèle dense de 32 milliards de paramètres. Le même compromis s'applique qu'avec d'autres versions de la famille MoE, comme l'API GLM-5V Turbo ; le routage est là où vont les efforts d'ingénierie.
Contexte long : 262 144 jetons
La fenêtre de contexte est exactement de 262 144 jetons (le nombre arrondi cité par Moonshot). Les longueurs de génération maximales atteignent 98 304 jetons pour les tâches de raisonnement. C'est suffisant pour contenir :
- Une base de code entière de taille moyenne et encore de la place pour la trajectoire de l'agent
- Un document juridique ou de recherche complet avec de la place pour des questions-réponses multi-tours
- Un historique d'appels d'outils sur plusieurs jours pour les sessions d'agents en cours
Moonshot a réécrit des parties de la pile d'attention pour K2.6 afin de maintenir la stabilité de l'inférence sur de longs contextes là où K2.5 se dégradait.
Échantillonnage par défaut
Le blog recommande des paramètres par défaut de température 1.0 et top-p 1.0 pour K2.6, ce qui est agressif par rapport à la plupart des modèles de codage. Ne suivez pas aveuglément les valeurs par défaut à basse température que vous voyez dans la documentation d'OpenAI ou d'Anthropic ; l'équipe Kimi a réglé K2.6 pour produire un résultat fiable à des températures plus élevées.
Claw Groups : la couche multi-agents au-dessus du modèle
Claw Groups est un aperçu de recherche dans l'annonce de K2.6 : un écosystème ouvert où plusieurs agents et humains travaillent sur la même tâche via des ordinateurs portables, des mobiles et le cloud. Quatre capacités :
- Correspondance dynamique des tâches basée sur des boîtes à outils spécialisées
- Détection des pannes avec réaffectation automatique des tâches
- Déploiement multi-appareils
- Points de contrôle avec intervention humaine
Le score Claw Eval de 80,9 % (pass@3) mesure la fiabilité avec laquelle K2.6 peut fonctionner au sein de cette couche. Si vous envisagez des équipes d'agents autonomes comme le décrit l'entreprise d'agents IA Paperclip, Claw Groups est un substrat prêt à l'emploi.
Développement axé sur le design et agents proactifs
K2.6 est livré avec des capacités de génération de frontend au-delà de la complétion de code de chat. Selon le billet officiel :
- Génération full-stack incluant l'authentification, les bases de données et les transactions
- Intégration d'outils de génération d'images et de vidéos dans les trajectoires des agents
- Animations déclenchées par le défilement, éléments interactifs et sortie prête pour la production
Des agents proactifs fonctionnent 24h/24 et 7j/7 au sein d'OpenClaw et Hermes, orchestrant plusieurs applications en arrière-plan. C'est le même modèle d'« agent qui ne dort jamais » que les équipes construisent autour de Google Agent Smith et de piles personnalisées comme créez votre propre Claude Code.
Kimi K2.6 face à la frontière fermée
Extrait du tableau de comparaison officiel :
| Tâche | K2.6 | GPT-5.4 | Claude 4.6 | Gemini 3.1 | K2.5 |
|---|---|---|---|---|---|
| HLE-Full (outils) | 54.0 | 52.1 | 53.0 | 51.4 | 50.2 |
| BrowseComp | 83.2 | 82.7 | 83.7 | 85.9 | 74.9 |
| Terminal-Bench 2.0 | 66.7 | 65.4 | 65.4 | 68.5 | 50.8 |
| SWE-Bench Pro | 58.6 | 57.7 | 53.4 | 54.2 | 50.7 |
Trois points à retenir :
- K2.6 gagne ou fait match nul sur trois des quatre de ce tableau, y compris en dépassant GPT-5.4 sur HLE-Full et SWE-Bench Pro.
- Gemini 3.1 est en tête sur Terminal-Bench et BrowseComp, donc pour la navigation pure ou la fiabilité du terminal, il reste sur la liste restreinte.
- K2.6 est livré avec des poids ouverts, ce qu'aucun des concurrents fermés ne fait.
Où trouver Kimi K2.6
kimi.com (chat)
L'interface Kimi grand public est le moyen le plus rapide d'essayer K2.6. Connectez-vous, choisissez K2.6 dans le sélecteur de modèle, et vous aurez accès au chat, au mode agent, à Agent Swarm, à la vision et à l'intégration d'outils Kimi Code. Consultez notre guide d'accompagnement sur l'utilisation gratuite de Kimi K2.6 pour les détails.
Kimi App
L'application mobile (iOS, Android) reproduit l'expérience web avec la saisie vocale et les notifications push pour les tâches d'agent de longue durée.
Kimi Code
Kimi Code est l'interface de codage native au terminal. Il est plus proche des flux de travail de Claude Code qu'à une fenêtre de chat : K2.6 pilote votre système de fichiers local, les commits et les tests, avec Agent Swarm en coulisses. Si vous cherchez des agents de codage, comparez-le à Cursor Composer 2.
API
L'API est compatible OpenAI. L'URL de base est https://api.moonshot.ai/v1, les ID de modèle sont kimi-k2.6 et kimi-k2.6-thinking. Nous avons rédigé un guide complet dans Comment utiliser l'API Kimi K2.6, incluant l'authentification, le streaming, l'appel d'outils, la vision, la vidéo et l'invocation d'Agent Swarm.
Poids ouverts sur Hugging Face
Les poids complets de K2.6 sont disponibles sur Hugging Face à moonshotai/Kimi-K2.6 sous une licence MIT modifiée. Les quantifications communautaires (ubergarm GGUF, unsloth) rendent son exécution sur votre propre matériel faisable pour les équipes disposant de GPU de classe H100.
Comment K2.6 a été entraîné (ce que Moonshot a divulgué)
L'annonce de Kimi K2.6 ne publie pas la recette d'entraînement complète, mais les indices du produit vous indiquent où les efforts d'ingénierie ont été concentrés :
- Stabilité à long terme — Moonshot cite des exécutions d'agents de 12 et 13 heures comme preuve d'entraînement contre les modes de défaillance liés à la durée de session. K2.5 se dégradait après quelques centaines d'appels d'outils ; K2.6 en supporte plus de 4 000.
- Fiabilité des appels d'outils — Le taux de réussite de 96,60 % de l'invocation d'outils de CodeBuddy est le chiffre public. Les données synthétiques d'utilisation d'outils dans l'entraînement sont la méthode courante utilisée par les laboratoires pour atteindre ce résultat.
- Entraînement d'essaim compositionnel — le comportement hétérogène des sous-agents implique un signal d'entraînement couvrant plusieurs rôles d'agent (planificateur, codeur, chercheur, réviseur), et non un seul généraliste.
- Chaînage Vision + code — le modèle « MathVision avec Python » (93,2 %) indique un entraînement conjoint multimodal + utilisation d'outils, et non un adaptateur de vision additionnel.
Si vous rédigez une rétrospective sur ce qui distingue un bon modèle ouvert de l'ère 2026 d'un excellent, ces quatre points constituent l'essentiel de l'histoire.
À qui cela devrait intéresser
Si vous construisez, optez pour Kimi K2.6
- Agents de codage à exécution longue. Les exécutions de démonstration de 4 000 étapes et 12 heures ne sont pas du marketing ; elles font partie de l'architecture.
- Systèmes multi-agents. Agent Swarm et Claw Groups vous offrent une orchestration de 300 agents sans avoir à l'écrire vous-même.
- Production avec poids ouverts. Vous avez besoin de la souveraineté du modèle, d'un ajustement fin personnalisé ou d'un contrôle réglementaire.
- Travail API à haut débit. Le coût d'inférence MoE est bien inférieur à celui des modèles fermés, et l'API compatible OpenAI s'intègre facilement dans le code existant.
Restez avec les modèles fermés si vous avez besoin de
- Alignement de sécurité strict. Claude 4.6 reste en tête en matière de refus nuancés et de conformité aux politiques.
- Latence de chat consommateur inférieure à la seconde. Les exécutions d'Agent Swarm durent des minutes, pas des millisecondes.
- Accords de niveau de service (SLA) de fournisseur. Pour les industries réglementées, un contrat de support d'un laboratoire de pointe peut être plus important que la qualité du modèle.
Comment tester Kimi K2.6 en cinq minutes avec Apidog
Une fois que vous avez une clé API Moonshot/Kimi, Apidog vous permet de passer de zéro à un test fonctionnel en quelques minutes :
- Créez un environnement :
BASE_URL = https://api.moonshot.ai/v1,KIMI_API_KEY = sk-.... - Nouvelle requête :
POST {{BASE_URL}}/chat/completions. - En-têtes :
Authorization: Bearer {{KIMI_API_KEY}},Content-Type: application/json. - Corps :
{
"model": "kimi-k2.6",
"messages": [{"role": "user", "content": "Summarize the Kimi K2.6 announcement."}],
"stream": true
}
- Cliquez sur Envoyer. Observez les jetons arriver en streaming.
Apidog gère également l'historique des requêtes (rejouer les séquences d'appels d'outils échouées), la validation de schéma par rapport à la spécification des complétions de chat OpenAI, le partage d'équipe avec des clés par membre, et l'intégration VS Code pour les tests en éditeur. Si vous utilisez actuellement Postman, notre guide sur les tests API sans Postman en 2026 explique comment effectuer la transition.
FAQ
Kimi K2.6 est-il open source ? Les poids sont open source sous une licence MIT modifiée (moonshotai/Kimi-K2.6). Les données d'entraînement et le code d'entraînement ne sont pas publics. Cela en fait un modèle à « poids ouverts » dans l'usage courant.
Comment Kimi K2.6 se compare-t-il à K2.5 ? Des bonds majeurs partout, selon le tableau de benchmarks officiel : +3,8 points sur HLE-Full, +8,3 sur BrowseComp, +15,9 sur Terminal-Bench 2.0, +7,9 sur SWE-Bench Pro, +20,5 sur Claw Eval, augmentation de 3x de la capacité d'Agent Swarm.
Quelle est la fenêtre de contexte de Kimi K2.6 ? 262 144 jetons. La génération maximale pour les tâches de raisonnement peut atteindre 98 304 jetons.
Puis-je exécuter Kimi K2.6 localement ? Oui, avec un matériel puissant. Le MoE de 1T complet nécessite des nœuds multi-GPU de classe H100. Les versions quantifiées (4 bits, 3 bits) des contributeurs de la communauté s'adaptent à des configurations plus petites avec une certaine perte de qualité. Consultez notre guide d'accès gratuit pour les options de quantification.
Kimi K2.6 prend-il en charge les appels d'outils ? Oui. L'API suit le format d'appel d'outils d'OpenAI. Agent Swarm gère les appels d'outils parallèles de manière native.
Quelle est la différence entre Kimi K2.6 et Kimi K2.6 Thinking ? K2.6 est la variante d'agent rapide. K2.6 Thinking expose une chaîne de pensée visible avant de répondre. Utilisez Thinking pour les preuves mathématiques, le débogage difficile ou la planification complexe.
Comment accéder gratuitement à Kimi K2.6 ? Le chat web de kimi.com est gratuit avec un quota quotidien. Cloudflare Workers AI propose un niveau gratuit. L'auto-hébergement à partir des poids de Hugging Face n'a aucun coût par jeton une fois que vous avez le matériel. Tous les détails sont dans Comment utiliser Kimi K2.6 gratuitement.
Comment Kimi K2.6 se compare-t-il aux autres modèles à poids ouverts ? Par rapport à Qwen 3.6 et Qwen3.5-Omni, Kimi K2.6 est en tête sur les benchmarks de codage et d'agents ; Qwen a toujours des variantes multilingues et de petits modèles plus performantes. Par rapport à DeepSeek V3.x, K2.6 a l'avantage en matière d'orchestration d'agents.
Résumé
Kimi K2.6 est le modèle à poids ouverts le plus prêt pour la production à ce jour pour le codage agentique et le travail à long terme. L'essaim de 300 agents, l'exécution en 4 000 étapes, la fenêtre de contexte de 262K et les poids ouverts se combinent pour en faire un outil unique dans la gamme de modèles actuelle. Le billet d'annonce de Moonshot le présente comme le nouvel état de l'art dans le travail d'agent open-source, et les benchmarks publics étayent cette affirmation.
Si vous évaluez des modèles pour un agent de codage, un assistant de recherche à long terme ou un système multi-agents, Kimi K2.6 devrait figurer sur votre liste restreinte. Procurez-vous une clé sur platform.kimi.ai, ouvrez Apidog et envoyez votre première requête. Ensuite, parcourez nos guides plus détaillés sur l'API et les méthodes d'accès gratuit.
