Moonshot AI, iddialı bir açıklamayla Kimi K2.6'yı piyasaya sürdü: açık kaynak kodlama, uzun ufuklu yürütme ve ajan sürüleri konusunda yeni teknolojinin zirvesi. Sayılar da bunu destekliyor. SWE-Bench Verified'da %80,2, AIME 2026'da %96,4, GPQA-Diamond'da %90,5 ve OSWorld-Verified'da %73,1. Bunlar pazarlama alıntıları değil; doğrudan kimi üzerindeki resmi duyurudan geliyorlar.
Bu yazı Kimi K2.6'nın ne olduğunu, Ajan Sürüsü mimarisinin tek bir modelin yapabildiklerini nasıl değiştirdiğini, GPT-5.4 ve Claude 4.6'ya karşı benchmark resmini ve onu bugün nerede kullanmaya başlayabileceğinizi açıklıyor.
button
Özet (TL;DR)
- Sürüm: Moonshot AI, Nisan 2026, açık kaynak (Hugging Face'de ağırlıklar, platform.kimi.ai'de API).
- Mimari: 1T parametreli uzman karışımı (mixture-of-experts), jeton başına 32B aktif parametre, 262.144 jeton bağlam (256K).
- Maksimum çıktı: muhakeme görevleri için 98.304 jetona kadar.
- Ajan Sürüsü: 300'e kadar alt ajan, görev başına 4.000'den fazla koordineli adım (K2.5 sınırının 3 katı).
- En iyi benchmarklar: SWE-Bench Verified %80,2, Terminal-Bench 2.0 %66,7, AIME 2026 %96,4, HLE-Full (araçlarla) %54,0, OSWorld-Verified %73,1.
- Kullanım Alanları: kimi.com sohbet, Kimi Uygulaması, Kimi Code, API, açık ağırlıklar.
Kimi K2.6 tek paragrafta
Kimi K2.6, Moonshot AI'ın son teknoloji kodlama, uzun ufuklu yürütme ve ajan sürüleri üzerine odaklanmış yeni nesil açık kaynak modelidir. kimi.com, Kimi Uygulaması, Kimi Code ve platform.kimi.ai adresindeki API üzerinden çalışır. Ajan Sürüsü kapasitesini 300 alt ajana ve 4.000'den fazla eşzamanlı adıma çıkaran ilk K-serisi sürüm olup, saniyeler değil günler süren otonom çalışma oturumları yapabilir. Qwen 3.6 (OpenRouter rehberimize bakın) veya Qwen3.5-Omni gibi diğer öncü modellerin API öncelikli bir iş akışına nasıl uyduğunu biliyorsanız, Kimi K2.6 daha keskin bir ajan odaklılığı ile aynı formata uyar.

Moonshot, Kimi K2.6 duyurusunda tam bir benchmark tablosu yayınladı. Öne çıkanlar:
Kodlama
| Benchmark | Kimi K2.6 |
|---|---|
| SWE-Bench Verified | %80,2 |
| SWE-Bench Multilingual | %76,7 |
| SWE-Bench Pro | %58,6 |
| Terminal-Bench 2.0 | %66,7 |
SWE-Bench Verified'da %80,2, aynı test düzeneğinde Claude 4.6'yı yakalar veya geçer ve bunu indirebileceğiniz açık ağırlıklarla yapar. Terminal-Bench 2.0'da %66,7, K2.5'e göre 15,9 puanlık bir artışı temsil eder, bu da Moonshot'un kabuk ve dosya manipülasyonu güvenilirliğine ağırlık verdiğini gösterir.
Ajan ve araç kullanımı
| Benchmark | Kimi K2.6 |
|---|---|
| HLE-Full (araçlarla) | %54,0 |
| BrowseComp | %83,2 (%86,3 Ajan Sürüsü ile) |
| DeepSearchQA (F1) | %92,5 |
| Toolathlon | %50,0 |
| Claw Eval (pass@3) | %80,9 |
| OSWorld-Verified | %73,1 |
HLE-Full'da %54,0, K2.6'yı bu spesifik muhakeme artı araçlar benchmark'ında GPT-5.4 (%52,1) ve Claude 4.6'nın (%53,0) önüne geçirir. OSWorld-Verified'da %73,1, K2.6'nın işletim sistemi düzeyindeki görevler için gerçek bir masaüstü ortamını kullanabileceği anlamına gelir, bu da Claude Code bilgisayar kullanımının hedeflediği alandır.
Muhakeme ve bilgi
| Benchmark | Kimi K2.6 |
|---|---|
| AIME 2026 | %96,4 |
| HMMT 2026 (Şubat) | %92,7 |
| GPQA-Diamond | %90,5 |
| IMO-AnswerBench | %86,0 |
AIME 2026'da %96,4, sadece bir yıl önce modeller için çok zorlu olan bir yarışma matematik benchmark'ında neredeyse mükemmel bir sonuçtur.
Görüş
| Benchmark | Kimi K2.6 |
|---|---|
| MathVision (Python ile) | %93,2 |
| V* (Python ile) | %96,9 |
| MMMU-Pro | %79,4 |
| CharXiv (RQ, Python ile) | %86,7 |
"Python ile" sonuçları, görüşün artık araç kullanımına nasıl zincirlendiğini vurgular: K2.6 bir şekli okur, Python kodu yazar ve aynı yörüngede cevabı hesaplar.
Ajan Sürüsü: yapısal sıçrama
Ajan Sürüsü, K2.6'daki en önemli mimari değişikliktir. Moonshot'un blogu bunu açıkça belirtiyor: K2.6, 300'e kadar alt ajanı 4.000'den fazla koordineli adımla yönetir, bu K2.5'in 100 ajanı ve 1.500 adımına göre 3 kat bir genişlemedir.
Üç önemli kalıp:
- Heterojen görev ayrıştırması. Model kendini 300 kez klonlamaz. Bir görevi, farklı beceri profillerine (kod, araştırma, görüş, planlama) sahip alt görevlere böler ve her birini doğru uzmana yönlendirir.
- Bileşik zeka. Alt ajanlar paylaşılan bir durum üzerinden konuşarak tek bir oturumda belge, web sitesi, slayt ve elektronik tablo çıktıları üretir. Bu, Hermes ajan mimarilerinin çoklu ajan düzenlemesini nasıl yapılandırdığına ruhsal olarak yakındır.
- Belgeden beceriye dönüştürme. Bir spesifikasyon, "yapısal DNA"yı koruyan bir beceri haline gelir, yani model bir tasarım belgesini özümseyebilir ve sanki kabile bilgisine sahipmiş gibi davranabilir.
Kimi duyurusundaki gerçek çalıştırmalar
Üç iş kanıtı örneği:
- Mac üzerinde Qwen3.5-0.8B çıkarım optimizasyonu — 12+ saat kesintisiz çalışma, 4.000+ araç çağrısı, 14 iterasyon, verimi 15'ten 193 jeton/sn'ye yükseltme (LM Studio'nun temel çizgisinden yaklaşık %20 daha hızlı).
- Borsa-çekirdek finans motoru ayarlaması — 13 saat, 1.000+ araç çağrısı, değiştirilen 4.000+ satır kod, ortalama verim artışı %185 (0.43 → 1.24 MT/s), performans verimi %133 (1.23 → 2.86 MT/s).
- Otonom 5 günlük altyapı çalıştırması — insan denetimi olmadan çok iş parçacıklı görev yönetimi ve olay müdahalesi.
Eğer bir kodlama ajanının 20 araç çağrısından sonra nasıl yoldan çıktığını izlediyseniz, bu sayılar farklı okunur. Buradaki ilginç ölçekleme yasası parametreler değil; ajan-saatleridir.
Mimari nasıl dayanıyor
Uzman karışımı
K2.6, jeton başına 32 milyar aktif parametreye sahip 1 trilyon parametreli bir MoE modelidir. Sınır sınıfı yeteneği, 32B yoğun bir modele daha yakın bir çıkarım maliyetiyle elde edersiniz. Aynı ödünleşme, GLM-5V Turbo API gibi diğer MoE ailesi sürümlerinde de geçerlidir; mühendislik parası yönlendirmeye gider.
Uzun bağlam: 262.144 jeton
Bağlam penceresi tam olarak 262.144 jetondur (Moonshot'un belirttiği yuvarlak sayı). Muhakeme görevleri için maksimum üretim uzunlukları 98.304 jetona kadar çıkar. Bu, şunları sığdırmak için yeterlidir:
- Orta büyüklükte bir kod tabanının tamamı ve yine de ajan yörüngesi için yer kalır.
- Çoklu dönüşlü Soru-Cevap için yer olan tam bir yasal veya araştırma belgesi.
- Devam eden ajan oturumları için çok günlük bir araç çağrısı geçmişi.
Moonshot, K2.6 için dikkat yığınının bazı kısımlarını yeniden yazdı ve K2.5'in bozulduğu yerlerde uzun bağlam çıkarımını sabit tuttu.
Varsayılan örnekleme
Blog, K2.6 için varsayılan parametreler olarak sıcaklık 1.0 ve top-p 1.0'ı öneriyor, bu da çoğu kodlama modeline göre agresif. OpenAI veya Anthropic belgelerinde gördüğünüz düşük sıcaklık varsayılanlarını körü körüne takip etmeyin; Kimi ekibi K2.6'yı daha yüksek sıcaklıklarda güvenilir çıktı üretecek şekilde ayarladı.
Claw Grupları: modelin üzerindeki çoklu ajan katmanı
Claw Grupları, K2.6 duyurusunda bir araştırma önizlemesidir: birden fazla ajanın ve insanın dizüstü bilgisayarlar, mobil cihazlar ve bulut genelinde aynı görev üzerinde çalıştığı açık bir ekosistem. Dört yetenek:
- Özel araç takımlarına dayalı dinamik görev eşleştirme
- Otomatik görev yeniden atamasıyla hata tespiti
- Cihazlar arası dağıtım
- Döngüde insan kontrol noktaları
Claw Eval'daki %80,9'luk (pass@3) skor, K2.6'nın bu katman içinde ne kadar güvenilir bir şekilde çalışabildiğini ölçer. Eğer otonom ajan takımlarını Paperclip'in AI ajan şirketinin tanımladığı şekilde düşünüyorsanız, Claw Grupları hazır bir alt yapıdır.
Tasarım odaklı geliştirme ve proaktif ajanlar
K2.6, sohbet kod tamamlama ötesinde frontend üretim yetenekleriyle birlikte geliyor. Resmi gönderiden:
- Kimlik doğrulama, veritabanları ve işlemler dahil olmak üzere tam yığın üretim
- Ajan yörüngeleri içinde görüntü ve video üretim aracı entegrasyonu
- Kaydırma tetiklemeli animasyonlar, etkileşimli öğeler ve üretime hazır çıktı
Proaktif ajanlar, OpenClaw ve Hermes içinde 7/24 çalışarak arka planda birden fazla uygulamayı düzenler. Bu, ekiplerin Google Agent Smith ve kendi Claude Code'unuzu oluşturmak gibi özel yığınlar etrafında inşa ettikleri "ajan asla uyumaz" kalıbının aynısıdır.
Kimi K2.6 vs. kapalı sınır
Resmi karşılaştırma tablosundan:
| Görev | K2.6 | GPT-5.4 | Claude 4.6 | Gemini 3.1 | K2.5 |
|---|---|---|---|---|---|
| HLE-Full (araçlarla) | 54,0 | 52,1 | 53,0 | 51,4 | 50,2 |
| BrowseComp | 83,2 | 82,7 | 83,7 | 85,9 | 74,9 |
| Terminal-Bench 2.0 | 66,7 | 65,4 | 65,4 | 68,5 | 50,8 |
| SWE-Bench Pro | 58,6 | 57,7 | 53,4 | 54,2 | 50,7 |
Üç çıkarım:
- K2.6, bu tablodaki dört görevin üçünü kazanır veya berabere kalır; HLE-Full ve SWE-Bench Pro'da GPT-5.4'ün önüne geçer.
- Gemini 3.1, Terminal-Bench ve BrowseComp'ta önde, bu yüzden saf tarama veya terminal güvenilirliği için hala kısa listede.
- K2.6, açık ağırlıklarla birlikte gelir; kapalı rakiplerin hiçbiri bunu yapmaz.
Kimi K2.6 nerede yaşar
kimi.com (sohbet)
Tüketici Kimi arayüzü, K2.6'yı denemenin en hızlı yoludur. Giriş yapın, model seçicide K2.6'yı seçin ve sohbet, ajan modu, Ajan Sürüsü, görüş ve Kimi Code araç entegrasyonuna sahip olun. Ayrıntılar için Kimi K2.6'yı ücretsiz kullanma rehberimize bakın.
Kimi Uygulaması
Mobil uygulama (iOS, Android), uzun süreli ajan görevleri için ses girişi ve push bildirimleriyle web deneyimini yansıtır.
Kimi Code
Kimi Code, terminale özgü kodlama yüzeyidir. Bir sohbet penceresinden çok Claude Code iş akışlarına benzer bir his verir: K2.6, arka planda Ajan Sürüsü ile yerel dosya sisteminizi, commit'lerinizi ve testlerinizi yönetir. Kodlama ajanları araştırıyorsanız, Cursor Composer 2 ile karşılaştırın.
API
API, OpenAI ile uyumludur. Temel URL https://api.moonshot.ai/v1, model ID'leri kimi-k2.6 ve kimi-k2.6-thinking'dir. Kimi K2.6 API'si Nasıl Kullanılır başlıklı yazımızda, kimlik doğrulama, akış, araç çağırma, görüş, video ve Ajan Sürüsü çağrısı dahil olmak üzere tam bir rehber yazdık.
Hugging Face'de açık ağırlıklar
K2.6'nın tam ağırlıkları, değiştirilmiş bir MIT lisansı altında Hugging Face'de moonshotai/Kimi-K2.6 adresinde bulunmaktadır. Topluluk nicelemeleri (ubergarm GGUF, unsloth), H100 sınıfı GPU'lara sahip ekipler için kendi donanımınızda çalıştırmayı mümkün kılar.
K2.6 nasıl eğitildi (Moonshot'un açıkladıkları)
Kimi K2.6 duyurusu, tam eğitim tarifini yayınlamıyor, ancak ürün ipuçları mühendislik çabasının nereye gittiğini gösteriyor:
- Uzun ufuklu kararlılık — Moonshot, oturum uzunluğu arıza modlarına karşı eğitimin kanıtı olarak 12 saatlik ve 13 saatlik ajan çalıştırmalarını işaret ediyor. K2.5 birkaç yüz araç çağrısından sonra bozuluyordu; K2.6 4.000+'yı sürdürüyor.
- Araç çağırma güvenilirliği — CodeBuddy'nin %96,60 araç çağırma başarı oranı kamuya açık sayıdır. Eğitimde sentetik araç kullanımı verileri, laboratuvarların buna ulaşmasının yaygın yoludur.
- Bileşik sürü eğitimi — heterojen alt ajan davranışı, tek bir genelleştirici yerine birden fazla ajan rolünde (planlayıcı, kodlayıcı, araştırmacı, gözden geçiren) eğitim sinyalini ima eder.
- Görüş + kod zincirleme — "Python ile MathVision" kalıbı (%93,2), ek bir görüş adaptörü değil, çok modlu + araç kullanımı ortak eğitimini gösterir.
Eğer iyi bir 2026 dönemi açık modelini harika olandan ayıran şeyin ne olduğu üzerine bir retrospektif yazıyorsanız, bu dört madde hikayenin çoğunu oluşturur.
Kimler ilgilenmeli
Eğer inşa ediyorsanız Kimi K2.6'yı seçin
- Uzun süreli kodlama ajanları. 4.000 adımlı, 12 saatlik demo çalıştırmaları pazarlama değil; mimarinin bir parçası.
- Çoklu ajan sistemleri. Ajan Sürüsü ve Claw Grupları, kendiniz yazmadan 300 ajan düzenlemesini size sunar.
- Açık ağırlıklı üretim. Model egemenliği, özel ince ayar veya düzenleyici kontrole ihtiyacınız var.
- Yüksek verimli API işleri. MoE çıkarım maliyeti, kapalı model fiyatlandırmasının çok altındadır ve OpenAI uyumlu API, mevcut kodlara kolayca entegre olur.
İhtiyacınız varsa kapalı modellerle devam edin
- Katı güvenlik uyumu. Claude 4.6, nüanslı retler ve politika uyumu konusunda hala önde.
- Saniye altı tüketici sohbet gecikmesi. Ajan Sürüsü çalıştırmaları saniyeler değil, dakikalar sürer.
- Kilitli satıcı SLA'ları. Düzenlenmiş endüstriler için, öncü bir laboratuvarın destek sözleşmesi, model kalitesinden daha önemli olabilir.
Kimi K2.6'yı Apidog ile beş dakikada nasıl test edersiniz
Bir Moonshot/Kimi API anahtarınız olduğunda, Apidog sizi dakikalar içinde sıfırdan çalışan bir teste ulaştırır:
- Bir ortam oluşturun:
BASE_URL = https://api.moonshot.ai/v1,KIMI_API_KEY = sk-.... - Yeni istek:
POST {{BASE_URL}}/chat/completions. - Başlıklar:
Authorization: Bearer {{KIMI_API_KEY}},Content-Type: application/json. - Gövde:
{
"model": "kimi-k2.6",
"messages": [{"role": "user", "content": "Summarize the Kimi K2.6 announcement."}],
"stream": true
}
- Gönder'e tıklayın. Jetonların akışını izleyin.
Apidog ayrıca istek geçmişini (başarısız araç çağrısı dizilerini tekrar oynatma), OpenAI sohbet tamamlama spesifikasyonuna karşı şema doğrulamasını, üye başına anahtarlarla ekip paylaşımını ve editör içi test için VS Code entegrasyonunu da yönetir. Eğer şu anda Postman kullanıyorsanız, 2026'da Postman olmadan API testi rehberimiz geçişi adım adım açıklar.
Sıkça Sorulan Sorular (SSS)
Kimi K2.6 açık kaynak mı?Ağırlıklar, değiştirilmiş bir MIT lisansı altında açık kaynaktır (moonshotai/Kimi-K2.6). Eğitim verileri ve eğitim kodu kamuya açık değildir. Bu, genel kullanımda onu "açık ağırlıklı" yapar.
Kimi K2.6, K2.5 ile nasıl karşılaştırılır?Resmi benchmark tablosuna göre genel olarak büyük sıçramalar var: HLE-Full'da +3,8 puan, BrowseComp'ta +8,3, Terminal-Bench 2.0'da +15,9, SWE-Bench Pro'da +7,9, Claw Eval'da +20,5, Ajan Sürüsü kapasitesinde 3 kat artış.
Kimi K2.6 bağlam penceresi nedir?262.144 jeton. Muhakeme görevleri için maksimum üretim 98.304 jetona kadar çıkar.
Kimi K2.6'yı yerel olarak çalıştırabilir miyim?Evet, ciddi donanımla. Tam 1T MoE, çoklu GPU H100 sınıfı düğümlere ihtiyaç duyar. Topluluk katkıcılarından gelen nicelenmiş yapılar (4-bit, 3-bit), bir miktar kalite kaybıyla daha küçük kurulumlara sığar. Niceleme seçenekleri için ücretsiz erişim rehberimize bakın.
Kimi K2.6 araç çağırmayı destekliyor mu?Evet. API, OpenAI araç çağırma formatını takip eder. Ajan Sürüsü, paralel araç çağrılarını doğal olarak işler.
Kimi K2.6 ile Kimi K2.6 Thinking arasındaki fark nedir?K2.6 hızlı ajan varyantıdır. K2.6 Thinking, cevaplamadan önce görünür bir düşünce zincirini ortaya koyar. Matematik kanıtları, zor hata ayıklama veya karmaşık planlama için Thinking'i kullanın.
Kimi K2.6'ya ücretsiz nasıl erişebilirim?kimi.com web sohbeti günlük kota ile ücretsizdir. Cloudflare Workers AI'ın ücretsiz bir katmanı vardır. Hugging Face ağırlıklarından kendi barındırmanız, donanımınız olduğunda jeton başına sıfır maliyetlidir. Tam ayrıntılar Kimi K2.6'yı Ücretsiz Nasıl Kullanılır makalesinde.
Kimi K2.6 diğer açık ağırlıklı modellerle nasıl karşılaştırılır?Qwen 3.6 ve Qwen3.5-Omni'ye karşı Kimi K2.6, kodlama ve ajan benchmarklarında öndedir; Qwen hala daha güçlü çok dilli ve küçük model varyantlarına sahiptir. DeepSeek V3.x'e karşı K2.6, ajan orkestrasyonu avantajına sahiptir.
Özet
Kimi K2.6, bugüne kadar ajan tabanlı kodlama ve uzun ufuklu çalışmalar için piyasaya sürülen en üretime hazır açık ağırlıklı modeldir. 300 ajanlı sürü, 4.000 adımlı yürütme, 262K bağlam penceresi ve açık ağırlıklar, onu mevcut model dizilişinde benzersiz bir araç haline getirir. Moonshot'un duyuru gönderisi, onu açık kaynak ajan çalışmalarında yeni teknolojinin zirvesi olarak çerçeveler ve kamu benchmarkları bu iddiayı destekler.
Eğer bir kodlama ajanı, uzun süreli bir araştırma asistanı veya çoklu ajan sistemi için modelleri değerlendiriyorsanız, Kimi K2.6 kısa listenizde yer almalıdır. platform.kimi.ai adresinden bir anahtar alın, Apidog'u açın ve ilk isteğinizi gönderin. Ardından API ve ücretsiz erişim yöntemleri hakkındaki daha derin rehberlerimizi inceleyin.
