Moonshot AI Kimi-Dev-72B: 最高性能のコーディングモデルか？

Moonshot AIは、ソフトウェアエンジニアリングタスク向けに設計された強力なオープンソース大規模言語モデル（LLM）であるKimi-Dev-72Bをリリースしました。このモデルは、SWE-bench Verifiedで最先端の解決率60.4%を達成し、他のオープンソースモデルを凌駕しています。開発者や研究者にとって、Kimi-Dev-72Bはコーディングの効率化、問題のデバッグ、ソフトウェア開発プロセスの自動化のための堅牢なツールを提供します。

💡

そのAPI統合機能を探索するには、Apidogを無料でダウンロードしてください。ApidogはAPIテストとドキュメント作成を簡素化し、プロジェクトでKimi-Dev-72Bの高度なコーディング機能を活用するための理想的なコンパニオンとなります。

button

Kimi-Dev-72Bとは？

Kimi-Dev-72Bは、オープンソースイノベーションを通じて人工知能の進歩に注力する北京を拠点とする企業、Moonshot AIによって開発された720億パラメータのコーディングLLMです。汎用LLMとは異なり、Kimi-Dev-72Bはバグ修正、コード生成、単体テスト作成などのソフトウェアエンジニアリングタスクに特化しています。Moonshot AIは、このモデルをMITライセンスの下でリリースし、Hugging FaceやGitHubなどのプラットフォームで自由にアクセスできるようにしました。その結果、世界中の開発者がダウンロード、デプロイ、およびその開発に貢献でき、協力的なエコシステムを育んでいます。

このモデルは、Transformerベースのアーキテクチャを活用しており、大規模な強化学習（RL）と、GitHubのイシューやプルリクエストのコミットを含む約1500億トークンの高品質な実世界データによる中間トレーニングを通じて最適化されています。このアプローチにより、Kimi-Dev-72Bは実際のコーディングシナリオで優れ、業界標準に準拠しています。例えば、Docker環境でリポジトリを自律的にパッチ適用し、完全なテストスイートに対してソリューションを検証する能力は、競合他社との差別化要因となっています。

Kimi-Dev-72Bの技術アーキテクチャ

デュオ設計：BugFixerとTestWriter

Kimi-Dev-72Bの中核には、BugFixerとTestWriterというデュアルコンポーネントフレームワークがあります。これらのコンポーネントは連携してソフトウェアエンジニアリングの課題に対処します。BugFixerはコードの問題を特定して修正し、TestWriterは修正を検証するための単体テストを生成します。どちらのコンポーネントも、ファイル特定（File Localization）とコード編集（Code Edits）の2段階プロセスに従います。ファイル特定の段階では、モデルはリポジトリ内の関連ファイルを正確に特定します。続いて、コード編集の段階では、バグのパッチ適用であろうとテスト関数の追加であろうと、正確な変更を実装します。

このデュオ設計は効率を高めます。例えば、BugFixerはパッチが単体テストを通過することを保証し、TestWriterはバグに対してアサーションエラーを引き起こし、修正が適用されると通過するテストを作成します。これらの役割を統合することで、Kimi-Dev-72Bは複雑なコーディングタスク、例えば人間の介入を最小限に抑えてGitHubのイシューを解決する際に、堅牢なパフォーマンスを発揮します。

中間トレーニングとデータ戦略

Kimi-Dev-72Bを構築するために、Moonshot AIはQwen 2.5-72Bベースモデルから始め、厳選されたデータセットによる中間トレーニングでそれを強化しました。このデータセットは、数百万のGitHubイシューとプルリクエストで構成されており、モデルが人間の開発者がコーディングの課題をどのように推論するかを学ぶことを可能にします。厳格なデータ除染により、SWE-bench Verifiedリポジトリとの重複がないことが保証され、評価の整合性が維持されます。

約1500億トークンを含む中間トレーニング段階は、Kimi-Dev-72Bのバグ修正と単体テスト作成に関する事前知識を強化します。さらに、教師ありファインチューニング（SFT）は、そのファイル特定能力を洗練させ、モデルが大規模なコードベースを正確にナビゲートできるようにします。このデータ駆動型アプローチは、モデルが実世界のソフトウェアエンジニアリングタスクを効果的に処理する能力の基盤となっています。

強化学習とテスト時自己対戦

Kimi-Dev-72Bのパフォーマンスは、大規模な強化学習から大きく恩恵を受けています。RLトレーニング中、モデルは何千ものイシュー解決タスクに取り組み、テストスイート全体が通過した場合にのみ報酬を受け取ります。この厳格なプロセスにより、生成されたパッチが正しく、かつ堅牢であることが保証されます。さらに、Kimi-Dev-72Bはテスト時自己対戦メカニズムを採用しており、BugFixerとTestWriterが協力して、イシューごとに最大40のパッチ候補と40のテスト候補を生成します。この反復的なアプローチは、モデルが自己評価を通じて出力を洗練させるため、精度を高めます。

RLパイプラインは、Moonshot AIのスケーラブルな内部エージェントインフラストラクチャを活用しており、多様なタスクにわたる効率的なトレーニングを可能にしています。その結果、Kimi-Dev-72BはSWE-bench Verifiedで60.4%の解決率を達成し、以前のオープンソースリーダーを上回り、Gemini 2.5 Proのようなクローズドソースモデルのパフォーマンスに近づいています。

パフォーマンス指標とベンチマーク結果

Kimi-Dev-72Bは、オープンソースのコーディングLLMの新しいベンチマークを設定しました。ソフトウェアエンジニアリングタスクの厳格な評価フレームワークであるSWE-bench Verifiedでは、60.4%の解決率を達成し、他のオープンソースモデルを凌駕し、トップティアのクローズドソースモデルにわずかに遅れをとるのみです。この指標は、オープンソースリポジトリのバグのような実世界のコーディング問題を、高い精度で解決するモデルの能力を反映しています。

比較のために、Xの投稿ではKimi-Dev-72Bの優位性が強調されており、「10倍大きいサイズのモデルを凌駕する」能力や、「Gemini 2.5 Proのすぐ後ろにつける」結果を達成していると述べられています。しかし、OpenHandsを使用するなどの一部のコミュニティ実験では、エージェントベースとエージェントレスの評価ハーネスの違いにより、より低い精度（17%）が報告されています。この不一致は、一貫したパフォーマンス指標を保証するための標準化されたテスト環境の重要性を示しています。

Kimi-Dev-72Bの実用的な応用

ソフトウェア開発の自動化

Kimi-Dev-72Bは、反復的なソフトウェア開発タスクの自動化に優れています。例えば、尾翼番号、航空機タイプ、巡航速度、最大航続距離などの属性を持つAircraftクラスを作成するなど、複雑な要件に対してクリーンで適切に文書化されたPythonコードを生成できます。このモデルには型ヒントとdocstringが含まれており、コード品質のベストプラクティスに準拠しています。この機能は開発時間を短縮し、エラーを最小限に抑えるため、初心者および経験豊富な開発者の両方にとって価値があります。

さらに、Kimi-Dev-72BはDocker環境でリポジトリを自律的にパッチ適用し、実世界のワークフローとの互換性を保証します。完全なテストスイートに対してパッチを検証することで、堅牢なソリューションを保証し、継続的インテグレーションおよびデプロイメント（CI/CD）パイプラインにとって信頼できるツールとなります。

開発者の生産性向上

開発者は、Kimi-Dev-72Bを活用してデバッグおよびテストプロセスを効率化できます。TestWriterコンポーネントはプロジェクトの要件に沿った単体テストを生成し、コードの信頼性を確保するために必要な手作業を削減します。さらに、モデルが大規模なコードベースを処理し、ファイルを特定する能力は、手動ナビゲーションに時間がかかる大規模プロジェクトでの有用性を高めます。

例えば、Pythonプロジェクトに取り組んでいる開発者は、Kimi-Dev-72Bを使用して特定のモジュールのバグを特定し修正できます。モデルは正しいファイルを提案するだけでなく、説明コメント付きで正確なコード編集を提供します。この機能は、馴染みのないリポジトリでイシューに対処する必要があるオープンソース貢献者にとって特に便利です。

研究とイノベーションの支援

オープンソースモデルとして、Kimi-Dev-72Bはコミュニティの貢献を奨励し、AI駆動型ソフトウェア開発におけるイノベーションを育みます。研究者は、Hugging FaceおよびGitHubでモデルのウェイト、ソースコード、および技術レポート（近日公開予定）にアクセスできます。この透明性により、新しいトレーニング手法、ファインチューニング手法、およびKimi-Dev-72Bを専門のIDEやCI/CDツールに統合するなどのアプリケーションの実験が可能になります。

さらに、Moonshot AIのオープンサイエンスへのコミットメントは、より広範なAIコミュニティの目標と一致しています。MITライセンスの下でKimi-Dev-72Bをリリースすることで、同社は開発者や研究者がその基盤の上に構築することを奨励しており、自動コードレビューやAI支援ペアプログラミングなどの分野での進歩につながる可能性があります。

Kimi-Dev-72Bの利用開始

インストールとセットアップ

Kimi-Dev-72Bのデプロイは、Hugging FaceおよびGitHubでの提供により簡単です。以下に、モデルをローカルでセットアップするためのステップバイステップガイドを示します。

リポジトリのクローン:

git clone https://github.com/MoonshotAI/Kimi-Dev.git
cd Kimi-Dev

仮想環境の作成:

conda create -n kimidev python=3.12
conda activate kimidev

依存関係のインストール:

pip install -e .
pip install vllm --extra-index-url https://download.pytorch.org/whl/cu128

前処理済みデータのダウンロード（オプション、SWE-benchタスク向け）:
GitHubリポジトリからswebench_repo_structure.zipファイルをダウンロードし、解凍してリポジトリ処理を効率化します。

モデルのロード:
以下のPythonコードを使用して、Kimi-Dev-72Bをロードし、応答を生成します。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "moonshotai/Kimi-Dev-72B"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Write a Python function to calculate Fibonacci numbers."
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(**model_inputs, max_new_tokens=512)
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

このセットアップにより、開発者はKimi-Dev-72Bをコード生成、デバッグ、テストなどのワークフローに統合できます。

ApidogとのAPI統合

Kimi-Dev-72Bの可能性を最大限に引き出すために、開発者はApidogのようなツールを使用してAPI駆動型ワークフローに統合できます。ApidogはAPIテスト、ドキュメント作成、モニタリングを簡素化し、Kimi-Dev-72Bの機能とのシームレスなインタラクションを可能にします。例えば、APIエンドポイントを作成してモデルにコーディングクエリを送信し、生成されたコードやバグ修正をリアルタイムで受け取ることができます。

課題と制限

Kimi-Dev-72Bは多くの分野で優れていますが、制限もあります。Xでのコミュニティフィードバックで指摘されているように、モデルのパフォーマンスは評価ハーネスによって異なる場合があります。反復的なインタラクションを含むエージェント型フレームワークは、エージェントレスセットアップと比較して異なる結果をもたらす可能性があり、標準化されたテストプロトコルの必要性を浮き彫りにしています。

さらに、Kimi-Dev-72Bの720億パラメータサイズは、かなりの計算リソースを必要とし、ハードウェアに制約のある開発者にとってアクセスを制限する可能性があります。Moonshot AIは、コミュニティの議論で示唆されているように、Q4またはFP8のような量子化技術を通じて、将来のバージョンの効率を最適化することでこれに対処する予定です。

結論

Kimi-Dev-72Bは、オープンソースのコーディングLLMにおける重要な進歩を表しています。SWE-bench Verifiedでの60.4%の解決率と、革新的なBugFixerおよびTestWriterフレームワークは、開発者や研究者にとって強力なツールとしての地位を確立しています。複雑なソフトウェアエンジニアリングタスクの自動化、生産性の向上、コミュニティ協力の促進により、Kimi-Dev-72BはAI駆動型開発の新時代への道を開きます。

始めるには、Hugging FaceまたはGitHubからKimi-Dev-72Bをダウンロードし、その機能を探索してください。シームレスなAPI統合には、ワークフローを効率化するためにApidogをお試しください。Moonshot AIが革新を続ける中、Kimi-Dev-72BはオープンソースAIがソフトウェア開発を変革する可能性の証として立っています。

button