딥시크 오픈 소스 주간(DeepSeek Open Source Week)은 2025년 2월 24일부터 2월 28일까지 열렸으며, 오픈 소스 AI 커뮤니티에서 중요한 이정표를 세웠습니다. 중국 AI 스타트업인 딥시크가 주도한 이 이니셔티브는 고급 AI 도구에 대한 접근을 민주화하고 전 세계 개발자 및 연구자 간의 협력을 촉진하는 것을 목표로 했습니다. 5일 동안 딥시크는 AI 개발의 중요한 과제를 해결하기 위해 설계된 5개의 최첨단 저장소를 공개했습니다. 아래는 이 이벤트에 대한 자세한 요약, 주요 내용, 제공된 저장소에 대한 설명입니다.
딥시크 오픈 소스 주간 개요
이 행사는 2025년 2월 21일에 발표되었으며, 딥시크는 투명성 및 커뮤니티 주도의 혁신에 대한 헌신을 강조했습니다. 회사는 이 이니셔티브를 온라인 서비스의 "소박한 빌딩 블록"을 공유하는 방법으로 설명하며, 이 블록들은 문서화되고 배포되며 프로덕션 환경에서 테스트되었습니다. 이번 릴리스를 통해 AI 개발을 가속화하고 계산 효율성, 모델 최적화 및 대규모 데이터 처리 기능을 향상시키는 도구를 제공하고자 했습니다.
이번 이벤트의 주요 목표는 다음과 같습니다:
저장소 이름 | 설명 | GitHub 링크 |
---|---|---|
FlashMLA | Hopper GPU에 최적화된 효율적인 MLA 디코딩 커널 | FlashMLA |
DeepEP | Mixture-of-Experts 모델을 위한 통신 라이브러리 | DeepEP |
DeepGEMM | 최적화된 일반 행렬 곱셈 라이브러리 | DeepGEMM |
최적화된 병렬 처리 전략 | 분산 딥 러닝의 병렬 처리 최적화를 위한 프레임워크 | 최적화된 병렬 처리 전략 |
Fire-Flyer 파일 시스템(3FS) | 기계 학습 워크플로우에 최적화된 분산 파일 시스템 | Fire-Flyer 파일 시스템 |
DeepSeek-V3/R1 추론 시스템 | 크로스 노드 전문가 병렬성을 사용하는 대규모 추론 시스템 | DeepSeek-V3/R1 추론 시스템 |
1일차: FlashMLA
설명: FlashMLA는 NVIDIA Hopper GPU에 최적화된 효율적인 멀티헤드 잠재 주의(Multi-head Latent Attention, MLA) 디코딩 커널입니다.

주요 기능:
BF16 및 FP16 데이터 타입 지원.
64의 블록 크기를 가진 페이지 KV 캐시.
성능 벤치마크: 메모리 바운드 작업에 대한 3000 GB/s 및 계산 바운드 작업에 대한 580 TFLOPS.
CUDA 12.3+ 및 PyTorch 2.0+ 필요.
의의: 이 도구는 대형 언어 모델(LLM)의 추론 속도를 향상시켜 고성능 AI 응용 프로그램에 이상적입니다.
2일차: DeepEP
설명: DeepEP는 Mixture-of-Experts(MoE) 모델을 위해 맞춤화된 첫 번째 오픈 소스 통신 라이브러리입니다.

주요 기능:
노드 내 및 노드 간 설정을 위한 효율적인 모두 대 모두 통신.
교육 및 추론 사전 채우기를 위한 높은 처리량 커널.
추론 디코딩을 위한 낮은 대기 시간 커널.
네이티브 FP8 디스패치 지원.
계산 및 통신 작업의 중복 처리를 위한 유연한 GPU 리소스 관리.
의의: DeepEP는 MoE 모델 교육 및 추론의 병목 현상을 해결하여 확장 가능한 분산 컴퓨팅을 가능하게 합니다.
3일차: DeepGEMM
설명: 딥 러닝 작업 부하를 위한 고도로 최적화된 일반 행렬 곱셈(GEMM) 라이브러리입니다.

주요 기능:
밀집 행렬 연산을 위한 고급 커널 최적화.
혼합 정밀도 산술(FP16/BF16) 지원.
TensorFlow 및 PyTorch와 같은 인기 있는 프레임워크와의 매끄러운 통합.
의의: DeepGEMM은 신경망 훈련의 계산 효율성을 개선하여 특히 밀집 레이어에서 효과적입니다.
4일차: DualPipe: 최적화된 병렬 처리 전략
설명: 분산 딥 러닝 작업에서 병렬성을 최적화하기 위한 전략을 제공하는 프레임워크입니다.

주요 기능:
데이터 병렬 처리, 모델 병렬 처리 및 파이프라인 병렬 처리를 위한 기술.
GPU와 노드 간의 동적 부하 균형.
통신과 중복 처리를 내장 지원.
의의: 이 도구는 병렬 처리 전략의 구현을 단순화하여 대규모 모델의 훈련 시간을 단축합니다.
5일차: Fire-Flyer 파일 시스템(3FS)
설명: 기계 학습 워크플로우에 최적화된 분산 파일 시스템입니다.

주요 기능:
클러스터 전반에 걸쳐 높은 처리량 데이터 접근.
낮은 대기 시간 I/O 작업을 갖춘 대규모 데이터 세트 지원.
HDFS 및 S3와 같은 인기 있는 저장소 백엔드와의 호환성.
의의: Fire-Flyer 파일 시스템은 분산 AI 교육 환경에서 효율적인 데이터 처리를 촉진합니다.
6일차: 한 가지 더 – DeepSeek-V3/R1 추론 시스템
딥시크 오픈 소스 주간의 마지막 날에는 대규모 AI 추론 작업에 대한 처리량과 대기 시간을 최적화하기 위해 설계된 최첨단 솔루션인 DeepSeek-V3/R1 추론 시스템에 대한 포괄적인 개요가 소개되었습니다. 이 시스템은 크로스 노드 전문가 병렬성(EP)을 활용하여 배치 크기를 확장하고, GPU 효율성을 개선하며, 메모리 접근 요구를 줄이며, 더 높은 처리량과 낮은 대기 시간이라는 두 가지 목표를 충족합니다.
딥시크 디자인의 새로운 점
DeepSeek-V3/R1 추론 시스템은 많은 전문가(예: 각 레이어당 256명의 전문가 중 단 8명만 활성화됨)의 높은 희소성을 처리하기 위해 대규모 크로스 노드 EP를 사용합니다. 이 시스템은 사전 채우기 및 디코딩 단계에서 서로 다른 병렬 처리 전략을 사용합니다:
사전 채우기 단계: 4개 노드 간 Shared Expert DP32의 Routed Expert EP32.
디코딩 단계: 18개 노드 간 Shared Expert DP144의 Routed Expert EP144.

이중 배치 중첩 전략은 요청을 두 개의 마이크로 배치로 나누어 통신 지연을 숨깁니다. 사전 채우기 동안 하나의 마이크로 배치에 대한 통신이 다른 배치의 계산과 겹칠 수 있습니다.
디코딩 중에는 5단계 파이프라인이 주의 레이어를 두 개의 단계로 분할하여 원활한 통신-계산 겹침을 보장합니다.
부하 균형 메커니즘:
- 사전 채우기 부하 균형기: GPU 간의 핵심 주의 계산 및 전달 발송 부하를 균형 있게 맞춥니다.
- 디코드 부하 균형기: GPU당 KVCache 활용도와 요청 수를 균등하게 조정합니다.
- 전문가 병렬 부하 균형기: 병목 현상을 최소화하기 위해 GPU 간의 전문가 계산 작업 부하를 고르게 분산합니다.
비용 및 수익 분석

최대 노드 점유율은 278개 노드에 도달했으며, 평균 점유율은 226.75개 노드(노드당 8개 GPU)입니다.
일일 운영 비용: $87,072(시간당 $2의 H800 GPU 기준).
이론적 일일 수익: DeepSeek-R1 가격에 따라 $562,027입니다.
수익률: 인상적인 545%, 하지만 무료 서비스, 할인 및 DeepSeek-V3의 낮은 가격으로 인해 실제 수익은 더 낮습니다.
시스템의 혁신적인 디자인 원칙과 최적화는 대규모 AI 추론 작업을 위한 최첨단 솔루션을 만들어내어 효율성과 확장성에서 기준을 설정하고 있습니다.
결론
딥시크 오픈 소스 주간은 DeepSeek-V3/R1 추론 시스템의 공개로 마무리되었으며, 이는 AI 인프라 발전에 대한 회사의 헌신을 입증합니다. 이러한 저장소를 오픈 소스화함으로써 딥시크는 개발자에게 힘을 실어주었을 뿐만 아니라 AI의 효율성, 확장성 및 접근성에 대한 새로운 기준을 세웠습니다. 이 이니셔티브는 AI 커뮤니티에 지속적인 영향을 주어 협력과 혁신을 전례 없는 규모로 촉진했습니다.