Tuần lễ Open Source của DeepSeek, diễn ra từ ngày 24 tháng 2 đến ngày 28 tháng 2 năm 2025, đã đánh dấu một cột mốc quan trọng trong cộng đồng AI mã nguồn mở. Sáng kiến này, do công ty khởi nghiệp AI của Trung Quốc DeepSeek dẫn đầu, nhằm mục đích dân chủ hóa quyền truy cập vào các công cụ AI tiên tiến và thúc đẩy sự hợp tác giữa các nhà phát triển và nhà nghiên cứu trên toàn thế giới. Trong năm ngày, DeepSeek đã phát hành năm kho lưu trữ tiên tiến, mỗi kho được thiết kế để giải quyết các thách thức quan trọng trong phát triển AI. Dưới đây là tóm tắt chi tiết về sự kiện, những điểm nổi bật và các kho lưu trữ đã được cung cấp.
Tổng Quan Về Tuần Lễ Open Source Của DeepSeek
Sự kiện đã được công bố vào ngày 21 tháng 2 năm 2025, với DeepSeek nhấn mạnh cam kết của mình đối với tính minh bạch và đổi mới do cộng đồng dẫn dắt. Công ty mô tả sáng kiến này như một cách chia sẻ "các khối xây dựng khiêm tốn" của dịch vụ trực tuyến của họ, đã được tài liệu hóa, triển khai và thử nghiệm trong các môi trường sản xuất. Các bản phát hành nhằm mục đích tăng tốc phát triển AI bằng cách cung cấp các công cụ nâng cao hiệu suất tính toán, tối ưu mô hình và xử lý dữ liệu quy mô lớn.
Các mục tiêu chính của sự kiện bao gồm:
Tên Kho Lưu Trữ | Mô Tả | Liên Kết GitHub |
---|---|---|
FlashMLA | Nhân mã hóa MLA hiệu quả cho GPU Hopper | FlashMLA |
DeepEP | Thư viện giao tiếp cho mô hình Mixture-of-Experts | DeepEP |
DeepGEMM | Thư viện Nhân Đa Ma Trận Tối Ưu | DeepGEMM |
Chiến Lược Tối Ưu Hóa Song Song | Khung làm việc để tối ưu hóa song song trong học sâu phân tán | Chiến Lược Tối Ưu Hóa Song Song |
Hệ Thống Tập Tin Fire-Flyer (3FS) | Hệ thống tập tin phân tán tối ưu cho quy trình làm việc máy học | Hệ Thống Tập Tin Fire-Flyer |
Hệ Thống Suy Diễn DeepSeek-V3/R1 | Hệ thống suy diễn quy mô lớn sử dụng Cross-node Expert Parallelism | Hệ Thống Suy Diễn DeepSeek-V3/R1 |
Ngày 1: FlashMLA
Mô Tả: FlashMLA là một nhân mã hóa Multi-head Latent Attention (MLA) hiệu quả được tối ưu hóa cho GPU NVIDIA Hopper.

Các Tính Năng Chính:
Hỗ trợ kiểu dữ liệu BF16 và FP16.
Bộ đệm KV phân trang với kích thước khối 64.
Thước đo hiệu suất: 3000 GB/s cho các tác vụ giới hạn bộ nhớ và 580 TFLOPS cho các tác vụ tính toán.
Cần CUDA 12.3+ và PyTorch 2.0+.
Tầm Quan Trọng: Công cụ này nâng cao tốc độ suy diễn của các mô hình ngôn ngữ lớn (LLMs), khiến nó trở thành lý tưởng cho các ứng dụng AI hiệu suất cao.
Ngày 2: DeepEP
Mô Tả: DeepEP là thư viện giao tiếp mã nguồn mở đầu tiên được thiết kế cho các mô hình Mixture-of-Experts (MoE).

Các Tính Năng Chính:
Giao tiếp hiệu quả cho cả thiết lập trong và giữa các nút.
Kernels độ thông lượng cao cho việc huấn luyện và suy diễn prefilling.
Kernels độ trễ thấp cho việc giải mã suy diễn.
Hỗ trợ phân phối FP8 bản địa.
Quản lý tài nguyên GPU linh hoạt cho các tác vụ tính toán và giao tiếp chồng chéo.
Tầm Quan Trọng: DeepEP giải quyết các nút thắt trong huấn luyện và suy diễn mô hình MoE, cho phép tính toán phân tán quy mô lớn.
Ngày 3: DeepGEMM
Mô Tả: Thư viện Nhân Đa Ma Trận (GEMM) được tối ưu hóa cao dành cho khối lượng công việc học sâu.

Các Tính Năng Chính:
Tối ưu hóa nhân nâng cao cho các tác vụ ma trận dày đặc.
Hỗ trợ toán học độ chính xác hỗn hợp (FP16/BF16).
Tích hợp liền mạch với các khung framework phổ biến như TensorFlow và PyTorch.
Tầm Quan Trọng: DeepGEMM cải thiện hiệu quả tính toán trong đào tạo mạng nơ-ron, đặc biệt cho các lớp dày đặc.
Ngày 4: DualPipe: Chiến Lược Tối Ưu Hóa Song Song
Mô Tả: Một khung làm việc cung cấp các chiến lược để tối ưu hóa song song trong các tác vụ học sâu phân tán.

Các Tính Năng Chính:
Kỹ thuật cho song song dữ liệu, song song mô hình, và song song đường ống.
Cân bằng tải động giữa các GPU và nút.
Hỗ trợ tích hợp cho tính toán chồng chéo với giao tiếp.
Tầm Quan Trọng: Công cụ này đơn giản hóa việc thực hiện các chiến lược song song, giảm thời gian đào tạo cho các mô hình quy mô lớn.
Ngày 5: Hệ Thống Tập Tin Fire-Flyer (3FS)
Mô Tả: Hệ thống tập tin phân tán tối ưu cho quy trình làm việc máy học.

Các Tính Năng Chính:
Truy cập dữ liệu có độ thông lượng cao giữa các cụm.
Hỗ trợ cho các tập dữ liệu quy mô lớn với các thao tác I/O độ trễ thấp.
Khả năng tương thích với các backend lưu trữ phổ biến như HDFS và S3.
Tầm Quan Trọng: Hệ thống Tập Tin Fire-Flyer tạo điều kiện thuận lợi cho việc xử lý dữ liệu hiệu quả trong các môi trường đào tạo AI phân tán.
Ngày 6: Một Điều Nữa – Hệ Thống Suy Diễn DeepSeek-V3/R1
Ngày cuối cùng của Tuần lễ Open Source của DeepSeek giới thiệu một cái nhìn tổng quát toàn diện về Hệ Thống Suy Diễn DeepSeek-V3/R1, một giải pháp tiên tiến được thiết kế để tối ưu hóa thông lượng và độ trễ cho các tác vụ suy diễn AI quy mô lớn. Hệ thống này tận dụng cross-node Expert Parallelism (EP) để mở rộng kích thước lô, cải thiện hiệu quả GPU và giảm nhu cầu truy cập bộ nhớ, giải quyết hai mục tiêu kép là tăng thông lượng và giảm độ trễ.
Điều Gì Mới Ở Thiết Kế Của Deepseek
Hệ Thống Suy Diễn DeepSeek-V3/R1 sử dụng EP quy mô lớn giữa các nút để xử lý mức độ thưa thớt cao của các mô hình với nhiều chuyên gia (ví dụ: chỉ 8 trong số 256 chuyên gia trên mỗi lớp được kích hoạt). Hệ thống sử dụng các chiến lược song song khác nhau trong các giai đoạn prefilling và decoding:
Giai Đoạn Prefilling: Chủ động Expert EP32 với Chuyên gia chung DP32 giữa 4 nút.
Giai Đoạn Giải Mã: Chủ động Expert EP144 với Chuyên gia chung DP144 giữa 18 nút.

Chiến lược chồng lô đôi ẩn đi độ trễ giao tiếp bằng cách chia yêu cầu thành hai microbatches. Trong quá trình prefilling, việc giao tiếp cho một microbatch được chồng lên với tính toán cho microbatch còn lại.
Trong quá trình giải mã, một đường ống 5 giai đoạn chia nhỏ lớp attention thành hai bước, đảm bảo giao tiếp và tính toán diễn ra suôn sẻ.
Các Cơ Chế Cân Bằng Tải:
- Cân Bằng Tải Prefill: Cân bằng tính toán core-attention và tải gửi phân phối qua các GPU.
- Cân Bằng Tải Giải Mã: Đều hóa việc sử dụng KVCache và số lượng yêu cầu trên mỗi GPU.
- Cân Bằng Tải Song Pararellel: Phân phối đều khối lượng công việc tính toán expert qua các GPU để giảm thiểu nút thắt cổ chai.
Phân Tích Chi Phí và Doanh Thu

Độ chiếm dụng nút tối đa đạt 278 nút, với độ chiếm dụng trung bình là 226,75 nút (8 GPU trên một nút).
Chi phí hoạt động hàng ngày: 87.072 USD (dựa trên 2 USD/giờ cho mỗi GPU H800).
Doanh thu lý thuyết hàng ngày: 562.027 USD dựa trên báo giá của DeepSeek-R1.
Biên lợi nhuận: 545%, mặc dù doanh thu thực tế thấp hơn do dịch vụ miễn phí, giảm giá và mức giá thấp hơn cho DeepSeek-V3.
Các nguyên tắc thiết kế và tối ưu hóa sáng tạo của hệ thống này biến nó thành một giải pháp hiện đại cho các tác vụ suy diễn AI quy mô lớn, đặt ra các tiêu chuẩn về hiệu suất và khả năng mở rộng.
Kết Luận
Tuần lễ Open Source của DeepSeek đã kết thúc với việc ra mắt Hệ Thống Suy Diễn DeepSeek-V3/R1, một minh chứng cho cam kết của công ty trong việc phát triển hạ tầng AI. Bằng cách mã nguồn mở các kho lưu trữ này, DeepSeek không chỉ trao quyền cho các nhà phát triển mà còn thiết lập các tiêu chuẩn mới về hiệu suất, khả năng mở rộng và tính khả dụng trong AI. Sáng kiến này đã để lại tác động lâu dài đối với cộng đồng AI, thúc đẩy sự hợp tác và đổi mới ở quy mô chưa từng có.