Kimi K2.6とは? Moonshot AIの1Tパラメータオープンモデルを解説

Ashley Innocent

Ashley Innocent

21 4月 2026

Kimi K2.6とは? Moonshot AIの1Tパラメータオープンモデルを解説

Apidog エンタープライズ

オンプレミスデプロイ

SSO & RBAC

SOC 2 準拠

Apidog Enterpriseを見る

Moonshot AIは、オープンソースのコーディング、長期間にわたる実行、およびエージェントスウォームにおいて新たな最先端技術であると大胆に主張し、Kimi K2.6を出荷しました。その主張は数値によって裏付けられています。SWE-Bench Verifiedで80.2%、AIME 2026で96.4%、GPQA-Diamondで90.5%、OSWorld-Verifiedで73.1%を達成。これらは単なるマーケティング文句ではなく、kimiでの公式発表から直接引用されています。

この記事では、Kimi K2.6とは何か、エージェントスウォームアーキテクチャが単一モデルにできることをどのように変えるか、GPT-5.4やClaude 4.6とのベンチマーク比較、そして今日から使い始める方法について詳しく解説します。

💡
ご自身のAPIワークロードでKimi K2.6をテストしてみませんか? Apidogは、Moonshot/KimiのOpenAI互換エンドポイントを視覚的なワークスペースにあらかじめ設定します。一度インポートし、Bearerトークンを保存すれば、ストリーミングチャット、ツール呼び出し、ビジョンリクエストを完全な履歴付きで実行できます。Apidogを無料でダウンロード。
アプリをダウンロード

要点

Kimi K2.6を1パラグラフで解説

Kimi K2.6は、Moonshot AIの次世代オープンソースモデルであり、最先端のコーディング、長期間にわたる実行、およびエージェントスウォームに焦点を当てています。kimi.com、Kimiアプリ、Kimi Code、およびplatform.kimi.aiのAPIで動作します。エージェントスウォームのキャップを300サブエージェント、4,000以上の同時ステップにまで引き上げた初のKラインリリースであり、数秒ではなく数日間にわたる自律的な作業セッションを可能にします。Qwen 3.6(OpenRouterガイドを参照)やQwen3.5-Omniのような他のフロンティアモデルがAPIファーストのワークフローにどのように適合するかをご存知であれば、Kimi K2.6も同様の枠組みに収まりますが、よりエージェントに焦点を当てています。

MoonshotはKimi K2.6の発表で完全なベンチマーク表を公開しました。主な点は以下の通りです。

コーディング

ベンチマーク Kimi K2.6
SWE-Bench Verified 80.2%
SWE-Bench Multilingual 76.7%
SWE-Bench Pro 58.6%
Terminal-Bench 2.0 66.7%

SWE-Bench Verifiedで80.2%を達成したことは、同じハーネスにおいてClaude 4.6と同等かそれを上回る性能を示しており、これはダウンロード可能なオープンウェイトで実現されています。Terminal-Bench 2.0で66.7%という数値は、K2.5から15.9ポイントの向上を表しており、Moonshotがシェルおよびファイル操作の信頼性に注力したことを示しています。

エージェントとツール利用

ベンチマーク Kimi K2.6
HLE-Full (ツール使用時) 54.0%
BrowseComp 83.2% (エージェントスウォーム使用時86.3%)
DeepSearchQA (F1) 92.5%
Toolathlon 50.0%
Claw Eval (pass@3) 80.9%
OSWorld-Verified 73.1%

HLE-Fullで54.0%という数値は、特定の推論とツール使用のベンチマークにおいて、K2.6がGPT-5.4(52.1%)やClaude 4.6(53.0%)を上回っていることを示しています。OSWorld-Verifiedで73.1%を達成したことは、K2.6がオペレーティングシステムレベルのタスクのために実際のデスクトップ環境を操作できることを意味し、これはClaude Codeのコンピューター利用が目指す分野と同じです。

推論と知識

ベンチマーク Kimi K2.6
AIME 2026 96.4%
HMMT 2026 (2月) 92.7%
GPQA-Diamond 90.5%
IMO-AnswerBench 86.0%

AIME 2026で96.4%という数値は、わずか1年前にはモデルにとって非常に厳しかった競技数学のベンチマークにおいて、ほぼ完璧な結果です。

ビジョン

ベンチマーク Kimi K2.6
MathVision (Python使用) 93.2%
V* (Python使用) 96.9%
MMMU-Pro 79.4%
CharXiv (RQ, Python使用) 86.7%

「Python使用」の結果は、ビジョンがツール利用にどのように連鎖するようになったかを強調しています。K2.6は図を読み込み、Pythonを書き、同じ軌道上で答えを計算します。

エージェントスウォーム:構造的な飛躍

エージェントスウォームは、K2.6における主要なアーキテクチャ変更点です。Moonshotのブログでは、K2.6が最大300のサブエージェントを4,000以上の協調ステップでオーケストレーションし、K2.5の100エージェント、1,500ステップから3倍に拡張されたと明快に述べています。

3つのパターンが重要です。

  1. 異種タスクの分解。 モデルは自分自身を300回クローンするわけではありません。タスクを異なるスキルプロファイル(コード、研究、ビジョン、計画)を持つサブタスクに分割し、それぞれを適切なスペシャリストにルーティングします。
  2. 構成的インテリジェンス。 サブエージェントは共有状態を介して通信し、単一のセッションでドキュメント、ウェブサイト、スライド、スプレッドシートの出力を生成します。これはHermesエージェントアーキテクチャがマルチエージェントオーケストレーションを構築する方法と精神的に近いものです。
  3. ドキュメントからスキルへの変換。 仕様書は「構造的DNA」を保持したスキルとなり、モデルは設計ドキュメントを吸収し、あたかも部族の知識を持っているかのように行動できます。

Kimi発表からの実際の実行例

3つの実証例は以下の通りです。

コーディングエージェントが20回のツール呼び出し後に道を見失うのを見たことがあるなら、これらの数値は異なる意味を持つでしょう。ここでの興味深いスケーリング法則はパラメータではなく、「エージェント時間」です。

アーキテクチャの評価

混合エキスパート(MoE)

K2.6は1兆パラメータのMoEモデルであり、トークンあたり320億のアクティブパラメータを持っています。320億の密なモデルに近い推論コストで、フロンティアクラスの機能が得られます。GLM-5V Turbo APIのような他のMoEファミリーのリリースと同様のトレードオフが適用されます。つまり、エンジニアリングコストはルーティングに費やされます。

長文脈:262,144トークン

コンテキストウィンドウは正確に262,144トークンです(Moonshotが引用する丸い数字です)。推論タスクでの最大生成長は98,304トークンに達します。これは以下を収容するのに十分です。

Moonshotは、K2.5で性能が低下した長文脈推論を安定させるために、K2.6のアテンションスタックの一部を書き直しました。

デフォルトのサンプリング

ブログでは、K2.6のデフォルトパラメータとして温度1.0とtop-p 1.0を推奨しています。これはほとんどのコーディングモデルと比較して積極的な設定です。OpenAIやAnthropicのドキュメントで見られる低温のデフォルト設定を盲目的に模倣しないでください。Kimiチームは、K2.6が高い温度でも信頼性の高い出力を生成するように調整しました。

Claw Groups:モデルの上位にあるマルチエージェント層

Claw Groupsは、K2.6の発表で研究プレビューとして紹介されています。これは、複数のエージェントと人間がラップトップ、モバイル、クラウドを横断して同じタスクに取り組むオープンなエコシステムです。4つの機能があります。

Claw Evalの80.9%(pass@3)というスコアは、K2.6がこの層内でどれほど信頼性高く動作できるかを示しています。PaperclipのAIエージェント企業が説明するような自律エージェントのチームを考えているなら、Claw Groupsはすぐに使える基盤となります。

デザイン駆動開発とプロアクティブなエージェント

K2.6には、チャットコード補完を超えたフロントエンド生成機能が搭載されています。公式投稿より:

プロアクティブなエージェントはOpenClawとHermes内で24時間年中無休で動作し、複数のアプリケーションをバックグラウンドでオーケストレーションします。これは、Google Agent Smith独自のClaude Code構築のようなカスタムスタックの周りでチームが構築している「エージェントは決して眠らない」パターンと同じです。

Kimi K2.6 vs. クローズドフロンティアモデル

公式の比較表より:

タスク K2.6 GPT-5.4 Claude 4.6 Gemini 3.1 K2.5
HLE-Full (ツール) 54.0 52.1 53.0 51.4 50.2
BrowseComp 83.2 82.7 83.7 85.9 74.9
Terminal-Bench 2.0 66.7 65.4 65.4 68.5 50.8
SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7

3つの要点:

  1. この表では、HLE-FullとSWE-Bench ProでGPT-5.4を上回るなど、4つのうち3つでK2.6が勝利または同等の成績を収めています。
  2. Gemini 3.1はTerminal-BenchとBrowseCompでトップであり、純粋なブラウジングやターミナルの信頼性に関しては、依然として候補の一つです。
  3. K2.6はオープンウェイトで提供されており、これはクローズドな競合他社にはない特徴です。

Kimi K2.6の利用場所

kimi.com (チャット)

コンシューマー向けKimiインターフェースは、K2.6を試す最も速い方法です。サインインし、モデルセレクターでK2.6を選択すれば、チャット、エージェントモード、エージェントスウォーム、ビジョン、Kimi Codeツール統合が利用できます。詳細については、Kimi K2.6を無料で利用する方法に関するガイドをご覧ください。

Kimiアプリ

モバイルアプリ(iOS、Android)は、音声入力と長時間の実行されるエージェントタスクのプッシュ通知により、ウェブ体験を反映しています。

Kimi Code

Kimi Codeは、ターミナルネイティブのコーディングサーフェスです。チャットウィンドウというよりはClaude Codeのワークフローに近い感覚で、K2.6がバックエンドでAgent Swarmを使いながら、ローカルファイルシステム、コミット、テストを駆動します。コーディングエージェントを探しているなら、Cursor Composer 2と比較検討してみてください。

API

APIはOpenAI互換です。ベースURLはhttps://api.moonshot.ai/v1で、モデルIDはkimi-k2.6kimi-k2.6-thinkingです。認証、ストリーミング、ツール呼び出し、ビジョン、ビデオ、およびエージェントスウォームの呼び出しを含む完全なウォークスルーをKimi K2.6 APIの使い方にまとめました。

Hugging Faceのオープンウェイト

K2.6の完全なウェイトは、修正されたMITライセンスの下でHugging Faceのmoonshotai/Kimi-K2.6で公開されています。コミュニティによる量子化(ubergarm GGUF、unsloth)により、H100クラスのGPUを持つチームであれば、自身のハードウェアで実行することが可能になります。

K2.6の学習方法(Moonshotが公開している情報)

Kimi K2.6の発表では完全な学習レシピは公開されていませんが、製品のヒントからエンジニアリングの努力がどこに注がれたかを知ることができます。

2026年時代の優れたオープンモデルと最高のモデルを分けるものは何かについて回顧録を書くのであれば、これら4つの項目がほとんどの物語を語るでしょう。

どのような人々に注目されるべきか

構築中ならKimi K2.6を選びましょう

以下が必要な場合はクローズドモデルに固執しましょう

ApidogでKimi K2.6を5分でテストする方法

Moonshot/KimiのAPIキーがあれば、Apidogを使えば数分で動作するテストをゼロから開始できます。

  1. 環境を作成: BASE_URL = https://api.moonshot.ai/v1, KIMI_API_KEY = sk-...
  2. 新規リクエスト: POST {{BASE_URL}}/chat/completions
  3. ヘッダー: Authorization: Bearer {{KIMI_API_KEY}}, Content-Type: application/json
  4. ボディ:
{
  "model": "kimi-k2.6",
  "messages": [{"role": "user", "content": "Summarize the Kimi K2.6 announcement."}],
  "stream": true
}
  1. 「送信」をクリック。トークンがストリーミングされるのを確認します。

Apidogは、リクエスト履歴(失敗したツール呼び出しシーケンスの再生)、OpenAIチャット補完仕様に対するスキーマ検証、メンバーごとのキーによるチーム共有、およびエディタ内テストのためのVS Code統合も扱います。現在Postmanを使用している場合は、2026年におけるPostmanなしでのAPIテストガイドで移行手順が説明されています。

FAQ(よくある質問)

Kimi K2.6はオープンソースですか? 重みは修正されたMITライセンス(moonshotai/Kimi-K2.6)の下でオープンソースです。学習データと学習コードは公開されていません。一般的には「オープンウェイト」と呼ばれます。

Kimi K2.6はK2.5と比較してどうですか? 公式ベンチマーク表によると、全体的に大幅な飛躍を遂げています。HLE-Fullで+3.8ポイント、BrowseCompで+8.3、Terminal-Bench 2.0で+15.9、SWE-Bench Proで+7.9、Claw Evalで+20.5、エージェントスウォームの容量は3倍に増加しました。

Kimi K2.6のコンテキストウィンドウはどれくらいですか? 262,144トークンです。推論タスクでの最大生成は98,304トークンに達します。

Kimi K2.6をローカルで実行できますか? はい、強力なハードウェアがあれば可能です。完全な1T MoEはマルチGPUのH100クラスノードを必要とします。コミュニティ貢献者による量子化ビルド(4ビット、3ビット)は、品質の低下を伴いますが、より小さなセットアップに適合します。量子化オプションについては、無料アクセスガイドをご覧ください。

Kimi K2.6はツール呼び出しをサポートしていますか? はい。APIはOpenAIのツール呼び出し形式に従います。エージェントスウォームは並列ツール呼び出しをネイティブで処理します。

Kimi K2.6とKimi K2.6 Thinkingの違いは何ですか? K2.6は高速エージェントバリアントです。K2.6 Thinkingは、回答前に思考の可視化された連鎖を提示します。数学の証明、困難なデバッグ、複雑な計画にはThinkingを使用してください。

Kimi K2.6に無料でアクセスするにはどうすればよいですか? kimi.comのウェブチャットは、1日のクォータ内で無料です。Cloudflare Workers AIには無料枠があります。Hugging Faceのウェイトから自己ホスティングする場合、ハードウェアがあればトークンあたりのコストはゼロです。詳細はKimi K2.6を無料で利用する方法をご覧ください。

Kimi K2.6は他のオープンウェイトモデルと比較してどうですか? Qwen 3.6およびQwen3.5-Omniと比較して、Kimi K2.6はコーディングとエージェントのベンチマークでリードしています。Qwenは依然としてより強力な多言語および小型モデルのバリアントを持っています。DeepSeek V3.xと比較すると、K2.6はエージェントオーケストレーションで優位に立っています。

まとめ

Kimi K2.6は、エージェント型コーディングと長期間の作業向けにこれまでにリリースされた中で最も実用性の高いオープンウェイトモデルです。300エージェントのスウォーム、4,000ステップの実行、262Kのコンテキストウィンドウ、そしてオープンウェイトが組み合わさることで、現在のモデルラインナップの中でユニークなツールとなっています。Moonshotの発表記事では、オープンソースのエージェント作業における新たな最先端技術であると位置付けており、公開されたベンチマークがその主張を裏付けています。

コーディングエージェント、長期間にわたる研究アシスタント、またはマルチエージェントシステム向けのモデルを評価しているなら、Kimi K2.6は候補リストに含めるべきでしょう。platform.kimi.aiでキーを取得し、Apidogを開いて最初のリクエストを送信してください。その後、API無料アクセス方法に関する詳細ガイドを読み進めてください。

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる