DeepSeekオープンソースウィークは、2025年2月24日から2月28日まで開催され、オープンソースAIコミュニティにおける重要なマイルストーンを示しました。このイニシアチブは、中国のAIスタートアップDeepSeekが主導し、高度なAIツールへのアクセスを民主化し、世界中の開発者と研究者間のコラボレーションを促進することを目的としました。5日間にわたり、DeepSeekはAI開発の重要な課題に対応するために設計された5つの最先端リポジトリを発表しました。以下は、イベントの詳細な概要、そのハイライト、提供されたリポジトリのサマリーです。
DeepSeekオープンソースウィークの概要
イベントは2025年2月21日に発表され、DeepSeekは透明性とコミュニティ主導のイノベーションへのコミットメントを強調しました。同社はこのイニシアチブを、ドキュメント化され、生産環境にデプロイされ、テストされたオンラインサービスの「謙虚な構成要素」を共有する方法として説明しました。リリースは、計算効率、モデル最適化、大規模データ処理を強化するツールを提供することで、AI開発を加速することを目的としていました。
イベントの主な目的には以下が含まれていました:
リポジトリ名 | 説明 | GitHubリンク |
---|---|---|
FlashMLA | Hopper GPUに最適化された効率的なMLAデコーディングカーネル | FlashMLA |
DeepEP | Mixture-of-Expertsモデル用の通信ライブラリ | DeepEP |
DeepGEMM | 最適化された一般的な行列乗算ライブラリ | DeepGEMM |
最適化された並列戦略 | 分散ディープラーニングにおける並列性を最適化するためのフレームワーク | 最適化された並列戦略 |
Fire-Flyerファイルシステム (3FS) | 機械学習ワークフローに最適化された分散ファイルシステム | Fire-Flyerファイルシステム |
DeepSeek-V3/R1推論システム | クロスノード専門家並列性を使用した大規模推論システム | DeepSeek-V3/R1推論システム |
1日目: FlashMLA
説明: FlashMLAは、NVIDIA Hopper GPU用に最適化された効率的なマルチヘッド潜在注意(MLA)デコーディングカーネルです。

主な特徴:
BF16とFP16データタイプをサポート。
ブロックサイズ64のページ化されたKVキャッシュ。
パフォーマンスベンチマーク:メモリバウンド操作で3000 GB/s、計算バウンドタスクで580 TFLOPS。
CUDA 12.3+およびPyTorch 2.0+が必要です。
重要性: このツールは、大規模な言語モデル(LLM)の推論速度を向上させ、高性能なAIアプリケーションに最適です。
2日目: DeepEP
説明: DeepEPは、Mixture-of-Experts(MoE)モデル用に特別に設計された最初のオープンソース通信ライブラリです。

主な特徴:
ノード内およびノード間の全対全通信を効率化。
トレーニングおよび推論の事前充填用の高スループットカーネル。
推論デコーディング用の低遅延カーネル。
ネイティブのFP8ディスパッチサポート。
計算タスクと通信タスクの重なりを考慮した柔軟なGPUリソース管理。
重要性: DeepEPは、MoEモデルのトレーニングと推論におけるボトルネックに対処し、スケーラブルな分散計算を可能にします。
3日目: DeepGEMM
説明: ディープラーニングワークロード用に設計された高度に最適化された一般的な行列乗算(GEMM)ライブラリです。

主な特徴:
密行列演算のための高度なカーネル最適化。
混合精度演算(FP16/BF16)をサポート。
TensorFlowやPyTorchなどの人気のあるフレームワークとのシームレスな統合。
重要性: DeepGEMMは、特に密な層のニューラルネットワークのトレーニングにおいて、計算効率を向上させます。
4日目: DualPipe: 最適化された並列戦略
説明: 分散ディープラーニングタスクにおける並列性を最適化する戦略を提供するフレームワークです。

主な特徴:
データ並列性、モデル並列性、パイプライン並列性のためのテクニック。
GPUとノード間での動的負荷分散。
計算と通信を重なり合うための内蔵サポート。
重要性: このツールは、並列戦略の実装を簡素化し、大規模モデルのトレーニング時間を短縮します。
5日目: Fire-Flyerファイルシステム (3FS)
説明: 機械学習ワークフローに最適化された分散ファイルシステムです。

主な特徴:
クラスター全体での高スループットデータアクセス。
低遅延のI/O操作を持つ大規模データセットをサポート。
HDFSやS3などの人気のストレージバックエンドとの互換性。
重要性: Fire-Flyerファイルシステムは、分散AIトレーニング環境における効率的なデータ処理を促進します。
6日目: もう一つのこと – DeepSeek-V3/R1推論システム
DeepSeekオープンソースウィークの最終日には、DeepSeek-V3/R1推論システムの包括的な概要が紹介され、大規模なAI推論タスクのスループットと待機時間を最適化するために設計された最先端のソリューションです。このシステムは、クロスノード専門家並列性(EP)を活用してバッチサイズをスケールし、GPU効率を向上させ、メモリアクセス要求を低減し、更なるスループットの向上と待機時間の短縮を実現します。
DeepSeekのデザインの新しい点
DeepSeek-V3/R1推論システムは、大規模クロスノードEPを用いて、多数の専門家を持つモデルの高いスパース性を処理します(例:256人の専門家のうち、レイヤーごとにわずか8人がアクティブ化される)。このシステムは、事前充填およびデコーディングフェーズ間の異なる並列戦略を使用します:
事前充填フェーズ: 4ノードに渡る共有専門家DP32を伴うルーティングされた専門家EP32。
デコーディングフェーズ: 18ノードに渡る共有専門家DP144を伴うルーティングされた専門家EP144。

デュアルバッチオーバーラップ戦略は、リクエストを2つのマイクロバッチに分割することにより通信の遅延を隠します。事前充填中は、1つのマイクロバッチの通信がもう1つの計算と重なります。
デコーディング中には、5段階のパイプラインが注意レイヤーを2つのステップに分割し、シームレスな通信と計算の重なりを確保します。
負荷分散メカニズム:
- 事前充填負荷分散器: GPU間でコア注意計算とディスパッチ負荷を均等にバランスします。
- デコード負荷分散器: GPUごとのKVCache使用量とリクエスト数を等化します。
- 専門家並列負荷分散器: ボトルネックを最小限に抑えるために、専門家の計算負荷をGPU間で均等に分配します。
コストと収益の分析

ピークノード占有率は278ノードに達し、平均占有率は226.75ノード(ノードごとに8 GPU)でした。
日々の運用コスト:$87,072(H800 GPU毎に$2/時間に基づく)。
理論上の1日当たりの収益:$562,027(DeepSeek-R1の価格に基づく)。
利益率:545%と印象的ですが、実際の収益は無料サービス、割引、およびDeepSeek-V3の低価格により低くなっています。
このシステムの革新的な設計原則と最適化により、大規模なAI推論タスクのために最新のソリューションとなり、効率とスケーラビリティの基準を設定しています。
結論
DeepSeekオープンソースウィークは、DeepSeek-V3/R1推論システムの発表で終了し、AIインフラの進展に対する同社のコミットメントを示しました。これらのリポジトリをオープンソース化することで、DeepSeekは開発者に力を与えただけでなく、AIの効率性、スケーラビリティ、アクセシビリティに新たな基準を設定しました。このイニシアチブは、AIコミュニティに長期的な影響を与え、前例のない規模でのコラボレーションとイノベーションを促進しました。