A Semana de Código Aberto da DeepSeek, realizada de 24 a 28 de fevereiro de 2025, marcou um marco significativo na comunidade de IA de código aberto. A iniciativa, liderada pela startup chinesa de IA DeepSeek, tinha como objetivo democratizar o acesso a ferramentas avançadas de IA e fomentar a colaboração entre desenvolvedores e pesquisadores em todo o mundo. Ao longo de cinco dias, a DeepSeek lançou cinco repositórios de ponta, cada um projetado para abordar desafios críticos no desenvolvimento de IA. Abaixo está um resumo detalhado do evento, seus destaques e os repositórios disponibilizados.
Visão Geral da Semana de Código Aberto da DeepSeek
O evento foi anunciado em 21 de fevereiro de 2025, com a DeepSeek enfatizando seu compromisso com a transparência e a inovação orientada pela comunidade. A empresa descreveu a iniciativa como uma forma de compartilhar "blocos de construção humildes" de seus serviços online, que foram documentados, implementados e testados em ambientes de produção. Os lançamentos foram direcionados a acelerar o desenvolvimento de IA, proporcionando ferramentas que aumentam a eficiência computacional, a otimização de modelos e o manuseio de dados em larga escala.
Os principais objetivos do evento incluíram:
Nome do Repositório | Descrição | Link do GitHub |
---|---|---|
FlashMLA | Núcleo de decodificação MLA eficiente para GPUs Hopper | FlashMLA |
DeepEP | Biblioteca de comunicação para modelos Mixture-of-Experts | DeepEP |
DeepGEMM | Biblioteca otimizada de Multiplicação de Matrizes Gerais | DeepGEMM |
Estratégias de Paralelismo Otimizadas | Framework para otimizar o paralelismo em aprendizado profundo distribuído | Estratégias de Paralelismo Otimizadas |
Sistema de Arquivos Fire-Flyer (3FS) | Sistema de arquivos distribuído otimizado para fluxos de trabalho de aprendizado de máquina | Sistema de Arquivos Fire-Flyer |
Sistema de Inferência DeepSeek-V3/R1 | Sistema de inferência em larga escala usando Paralelismo de Especialistas entre nós | Sistema de Inferência DeepSeek-V3/R1 |
Dia 1: FlashMLA
Descrição: FlashMLA é um núcleo de decodificação Multi-head Latent Attention (MLA) eficiente otimizado para GPUs NVIDIA Hopper.

Principais Recursos:
Suporte para tipos de dados BF16 e FP16.
Cache KV paginado com tamanho de bloco de 64.
Benchmarks de desempenho: 3000 GB/s para operações limitadas por memória e 580 TFLOPS para tarefas limitadas por computação.
Requer CUDA 12.3+ e PyTorch 2.0+.
Significado: Esta ferramenta aumenta a velocidade de inferência de modelos de linguagem grandes (LLMs), tornando-a ideal para aplicações de IA de alto desempenho.
Dia 2: DeepEP
Descrição: DeepEP é a primeira biblioteca de comunicação de código aberto voltada para modelos Mixture-of-Experts (MoE).

Principais Recursos:
Comunicação eficiente all-to-all para configurações intranode e internode.
Kernels de alta vazão para pré-preenchimento de treinamento e inferência.
Kernels de baixa latência para decodificação de inferência.
Suporte nativo para dispatch FP8.
Gerenciamento flexível de recursos de GPU para sobreposição de tarefas de computação e comunicação.
Significado: DeepEP aborda gargalos no treinamento e inferência de modelos MoE, possibilitando computação distribuída escalável.
Dia 3: DeepGEMM
Descrição: Uma biblioteca de Multiplicação de Matrizes Gerais (GEMM) altamente otimizada projetada para cargas de trabalho de aprendizado profundo.

Principais Recursos:
Otimizações avançadas de núcleo para operações de matrizes densas.
Suporte para aritmética de precisão mista (FP16/BF16).
Integração perfeita com frameworks populares como TensorFlow e PyTorch.
Significado: DeepGEMM melhora a eficiência computacional no treinamento de redes neurais, especialmente para camadas densas.
Dia 4: DualPipe: Estratégias de Paralelismo Otimizadas
Descrição: Um framework que oferece estratégias para otimizar o paralelismo em tarefas de aprendizado profundo distribuído.

Principais Recursos:
Técnicas para paralelismo de dados, paralelismo de modelos e paralelismo em pipeline.
Balanceamento de carga dinâmico entre GPUs e nós.
Suporte embutido para sobreposição de computação com comunicação.
Significado: Esta ferramenta simplifica a implementação de estratégias de paralelismo, reduzindo o tempo de treinamento para modelos em larga escala.
Dia 5: Sistema de Arquivos Fire-Flyer (3FS)
Descrição: Um sistema de arquivos distribuído otimizado para fluxos de trabalho de aprendizado de máquina.

Principais Recursos:
Acesso a dados de alta vazão entre clusters.
Suporte para conjuntos de dados em larga escala com operações de I/O de baixa latência.
Compatibilidade com backends de armazenamento populares como HDFS e S3.
Significado: O Sistema de Arquivos Fire-Flyer facilita o manuseio eficiente de dados em ambientes de treinamento de IA distribuída.
Dia 6: Mais uma coisa – Sistema de Inferência DeepSeek-V3/R1
O último dia da Semana de Código Aberto da DeepSeek apresentou uma visão geral abrangente do Sistema de Inferência DeepSeek-V3/R1, uma solução de ponta projetada para otimizar a vazão e a latência em tarefas de inferência de IA em larga escala. Este sistema aproveita o Paralelismo de Especialistas entre nós (EP) para escalar tamanhos de lote, melhorar a eficiência da GPU e reduzir as demandas de acesso à memória, abordando os duplos objetivos de maior vazão e menor latência.
Novidades no Design da Deepseek
O Sistema de Inferência DeepSeek-V3/R1 emprega EP em larga escala entre nós para lidar com a alta esparsidade de modelos com numerosos especialistas (por exemplo, apenas 8 dos 256 especialistas por camada são ativados). O sistema usa distintas estratégias de paralelismo durante as fases de pré-preenchimento e decodificação:
Fase de Pré-preenchimento: EP32 de Especialista Roteado com DP32 de Especialista Compartilhado entre 4 nós.
Fase de Decodificação: EP144 de Especialista Roteado com DP144 de Especialista Compartilhado entre 18 nós.

Uma estratégia de sobreposição de lote duplo oculta a latência de comunicação dividindo solicitações em dois micro-lotes. Durante o pré-preenchimento, a comunicação para um micro-lote é sobreposta com a computação do outro.
Durante a decodificação, um pipeline de 5 estágios subdivide a camada de atenção em duas etapas, garantindo uma sobreposição contínua de comunicação e computação.
Mecanismos de Balanceamento de Carga:
- Balanceador de Carga de Pré-preenchimento: Equilibra a computação de atenção central e as cargas de envio de despacho entre as GPUs.
- Balanceador de Carga de Decodificação: Igualiza o uso do KVCache e as contagens de solicitações por GPU.
- Balanceador de Carga de Paralelismo de Especialistas: Distribui uniformemente as cargas de computação dos especialistas entre as GPUs para minimizar gargalos.
Análise de Custos e Receita

A ocupação máxima dos nós alcançou 278 nós, com uma ocupação média de 226,75 nós (8 GPUs por nó).
Custo operacional diário: $87,072 (com base em $2/hora por GPU H800).
Receita teórica diária: $562,027 com base nos preços da DeepSeek-R1.
Margem de lucro: Impressionantes 545%, embora a receita real seja menor devido a serviços gratuitos, descontos e preços mais baixos para a DeepSeek-V3.
Os princípios de design inovadores e as otimizações do sistema o tornam uma solução de ponta para tarefas de inferência de IA em larga escala, estabelecendo marcos em eficiência e escalabilidade.
Conclusão
A Semana de Código Aberto da DeepSeek concluiu com a apresentação do Sistema de Inferência DeepSeek-V3/R1, um testemunho do compromisso da empresa com o avanço da infraestrutura de IA. Ao abrir esses repositórios, a DeepSeek não apenas capacitou os desenvolvedores, mas também estabeleceu novos padrões em eficiência, escalabilidade e acessibilidade de IA. Esta iniciativa deixou um impacto duradouro na comunidade de IA, promovendo colaboração e inovação em uma escala sem precedentes.