Apidog

올인원 협업 API 개발 플랫폼

API 설계

API 문서

API 디버깅

API 모킹

API 자동화 테스트

DeepSeek픈 소스 주간: 완벽한 요약

Young-jae

Young-jae

Updated on March 4, 2025

딥시크 오픈 소스 주간(DeepSeek Open Source Week)은 2025년 2월 24일부터 2월 28일까지 열렸으며, 오픈 소스 AI 커뮤니티에서 중요한 이정표를 세웠습니다. 중국 AI 스타트업인 딥시크가 주도한 이 이니셔티브는 고급 AI 도구에 대한 접근을 민주화하고 전 세계 개발자 및 연구자 간의 협력을 촉진하는 것을 목표로 했습니다. 5일 동안 딥시크는 AI 개발의 중요한 과제를 해결하기 위해 설계된 5개의 최첨단 저장소를 공개했습니다. 아래는 이 이벤트에 대한 자세한 요약, 주요 내용, 제공된 저장소에 대한 설명입니다.

💡
DeepSeek의 오픈 소스 도구인 DualPipe와 3FS가 성능을 향상시키는 동안, Apidog를 통합하면 API 개발을 간소화할 수 있습니다. Apidog의 올인원 플랫폼은 API를 효율적으로 설계, 문서화, 모의 및 테스트할 수 있게 해 주어 시간을 절약하고 오류를 줄여줍니다. 내장된 자동화된 테스트와 원활한 통합으로 Apidog는 작업 흐름을 개선하고, AI 모델과 데이터 파이프라인 구축 및 최적화에 집중할 수 있도록 도와줍니다.
버튼

딥시크 오픈 소스 주간 개요

이 행사는 2025년 2월 21일에 발표되었으며, 딥시크는 투명성 및 커뮤니티 주도의 혁신에 대한 헌신을 강조했습니다. 회사는 이 이니셔티브를 온라인 서비스의 "소박한 빌딩 블록"을 공유하는 방법으로 설명하며, 이 블록들은 문서화되고 배포되며 프로덕션 환경에서 테스트되었습니다. 이번 릴리스를 통해 AI 개발을 가속화하고 계산 효율성, 모델 최적화 및 대규모 데이터 처리 기능을 향상시키는 도구를 제공하고자 했습니다.

이번 이벤트의 주요 목표는 다음과 같습니다:

저장소 이름설명GitHub 링크
FlashMLAHopper GPU에 최적화된 효율적인 MLA 디코딩 커널FlashMLA
DeepEPMixture-of-Experts 모델을 위한 통신 라이브러리DeepEP
DeepGEMM최적화된 일반 행렬 곱셈 라이브러리DeepGEMM
최적화된 병렬 처리 전략분산 딥 러닝의 병렬 처리 최적화를 위한 프레임워크최적화된 병렬 처리 전략
Fire-Flyer 파일 시스템(3FS)기계 학습 워크플로우에 최적화된 분산 파일 시스템Fire-Flyer 파일 시스템
DeepSeek-V3/R1 추론 시스템크로스 노드 전문가 병렬성을 사용하는 대규모 추론 시스템DeepSeek-V3/R1 추론 시스템

1일차: FlashMLA

설명: FlashMLA는 NVIDIA Hopper GPU에 최적화된 효율적인 멀티헤드 잠재 주의(Multi-head Latent Attention, MLA) 디코딩 커널입니다.

FlashMLA

주요 기능:

BF16 및 FP16 데이터 타입 지원.

64의 블록 크기를 가진 페이지 KV 캐시.

성능 벤치마크: 메모리 바운드 작업에 대한 3000 GB/s 및 계산 바운드 작업에 대한 580 TFLOPS.

CUDA 12.3+ 및 PyTorch 2.0+ 필요.

의의: 이 도구는 대형 언어 모델(LLM)의 추론 속도를 향상시켜 고성능 AI 응용 프로그램에 이상적입니다.

2일차: DeepEP

설명: DeepEP는 Mixture-of-Experts(MoE) 모델을 위해 맞춤화된 첫 번째 오픈 소스 통신 라이브러리입니다.

DeepEP

주요 기능:

노드 내 및 노드 간 설정을 위한 효율적인 모두 대 모두 통신.

교육 및 추론 사전 채우기를 위한 높은 처리량 커널.

추론 디코딩을 위한 낮은 대기 시간 커널.

네이티브 FP8 디스패치 지원.

계산 및 통신 작업의 중복 처리를 위한 유연한 GPU 리소스 관리.

의의: DeepEP는 MoE 모델 교육 및 추론의 병목 현상을 해결하여 확장 가능한 분산 컴퓨팅을 가능하게 합니다.

3일차: DeepGEMM

설명: 딥 러닝 작업 부하를 위한 고도로 최적화된 일반 행렬 곱셈(GEMM) 라이브러리입니다.

DeepGEMM

주요 기능:

밀집 행렬 연산을 위한 고급 커널 최적화.

혼합 정밀도 산술(FP16/BF16) 지원.

TensorFlow 및 PyTorch와 같은 인기 있는 프레임워크와의 매끄러운 통합.

의의: DeepGEMM은 신경망 훈련의 계산 효율성을 개선하여 특히 밀집 레이어에서 효과적입니다.

4일차: DualPipe: 최적화된 병렬 처리 전략

설명: 분산 딥 러닝 작업에서 병렬성을 최적화하기 위한 전략을 제공하는 프레임워크입니다.

DualPipe: 최적화된 병렬 처리 전략

주요 기능:

데이터 병렬 처리, 모델 병렬 처리 및 파이프라인 병렬 처리를 위한 기술.

GPU와 노드 간의 동적 부하 균형.

통신과 중복 처리를 내장 지원.

의의: 이 도구는 병렬 처리 전략의 구현을 단순화하여 대규모 모델의 훈련 시간을 단축합니다.

5일차: Fire-Flyer 파일 시스템(3FS)

설명: 기계 학습 워크플로우에 최적화된 분산 파일 시스템입니다.

Fire-Flyer 파일 시스템(3FS)

주요 기능:

클러스터 전반에 걸쳐 높은 처리량 데이터 접근.

낮은 대기 시간 I/O 작업을 갖춘 대규모 데이터 세트 지원.

HDFS 및 S3와 같은 인기 있는 저장소 백엔드와의 호환성.

의의: Fire-Flyer 파일 시스템은 분산 AI 교육 환경에서 효율적인 데이터 처리를 촉진합니다.

6일차: 한 가지 더 – DeepSeek-V3/R1 추론 시스템

딥시크 오픈 소스 주간의 마지막 날에는 대규모 AI 추론 작업에 대한 처리량과 대기 시간을 최적화하기 위해 설계된 최첨단 솔루션인 DeepSeek-V3/R1 추론 시스템에 대한 포괄적인 개요가 소개되었습니다. 이 시스템은 크로스 노드 전문가 병렬성(EP)을 활용하여 배치 크기를 확장하고, GPU 효율성을 개선하며, 메모리 접근 요구를 줄이며, 더 높은 처리량과 낮은 대기 시간이라는 두 가지 목표를 충족합니다.

딥시크 디자인의 새로운 점

DeepSeek-V3/R1 추론 시스템은 많은 전문가(예: 각 레이어당 256명의 전문가 중 단 8명만 활성화됨)의 높은 희소성을 처리하기 위해 대규모 크로스 노드 EP를 사용합니다. 이 시스템은 사전 채우기디코딩 단계에서 서로 다른 병렬 처리 전략을 사용합니다:

사전 채우기 단계: 4개 노드 간 Shared Expert DP32의 Routed Expert EP32.

디코딩 단계: 18개 노드 간 Shared Expert DP144의 Routed Expert EP144.

이중 배치 중첩 전략은 요청을 두 개의 마이크로 배치로 나누어 통신 지연을 숨깁니다. 사전 채우기 동안 하나의 마이크로 배치에 대한 통신이 다른 배치의 계산과 겹칠 수 있습니다.

디코딩 중에는 5단계 파이프라인이 주의 레이어를 두 개의 단계로 분할하여 원활한 통신-계산 겹침을 보장합니다.

부하 균형 메커니즘:

  • 사전 채우기 부하 균형기: GPU 간의 핵심 주의 계산 및 전달 발송 부하를 균형 있게 맞춥니다.
  • 디코드 부하 균형기: GPU당 KVCache 활용도와 요청 수를 균등하게 조정합니다.
  • 전문가 병렬 부하 균형기: 병목 현상을 최소화하기 위해 GPU 간의 전문가 계산 작업 부하를 고르게 분산합니다.

비용 및 수익 분석

최대 노드 점유율은 278개 노드에 도달했으며, 평균 점유율은 226.75개 노드(노드당 8개 GPU)입니다.

일일 운영 비용: $87,072(시간당 $2의 H800 GPU 기준).

이론적 일일 수익: DeepSeek-R1 가격에 따라 $562,027입니다.

수익률: 인상적인 545%, 하지만 무료 서비스, 할인 및 DeepSeek-V3의 낮은 가격으로 인해 실제 수익은 더 낮습니다.

시스템의 혁신적인 디자인 원칙과 최적화는 대규모 AI 추론 작업을 위한 최첨단 솔루션을 만들어내어 효율성과 확장성에서 기준을 설정하고 있습니다.

결론

딥시크 오픈 소스 주간은 DeepSeek-V3/R1 추론 시스템의 공개로 마무리되었으며, 이는 AI 인프라 발전에 대한 회사의 헌신을 입증합니다. 이러한 저장소를 오픈 소스화함으로써 딥시크는 개발자에게 힘을 실어주었을 뿐만 아니라 AI의 효율성, 확장성 및 접근성에 대한 새로운 기준을 세웠습니다. 이 이니셔티브는 AI 커뮤니티에 지속적인 영향을 주어 협력과 혁신을 전례 없는 규모로 촉진했습니다.

버튼