Semana de Código Aberto DeepSeek: Um Resumo Completo

A Semana de Código Aberto da DeepSeek, realizada de 24 a 28 de fevereiro de 2025, marcou um marco significativo na comunidade de IA de código aberto. A iniciativa, liderada pela startup chinesa de IA DeepSeek, tinha como objetivo democratizar o acesso a ferramentas avançadas de IA e fomentar a colaboração entre desenvolvedores e pesquisadores em todo o mundo. Ao longo de cinco dias, a DeepSeek lançou cinco repositórios de ponta, cada um projetado para abordar desafios críticos no desenvolvimento de IA. Abaixo está um resumo detalhado do evento, seus destaques e os repositórios disponibilizados.

💡

Enquanto as ferramentas de código aberto da DeepSeek, como o DualPipe e o 3FS, melhoram o desempenho, a integração do Apidog pode otimizar o seu desenvolvimento de APIs. A plataforma tudo-em-um do Apidog permite que você projete, documente, simule e teste APIs de forma eficiente, economizando tempo e reduzindo erros. Com testes automatizados integrados e uma integração perfeita, o Apidog aprimora o seu fluxo de trabalho, permitindo que você se concentre na construção e otimização dos seus modelos de IA e pipelines de dados.

botão

Visão Geral da Semana de Código Aberto da DeepSeek

O evento foi anunciado em 21 de fevereiro de 2025, com a DeepSeek enfatizando seu compromisso com a transparência e a inovação orientada pela comunidade. A empresa descreveu a iniciativa como uma forma de compartilhar "blocos de construção humildes" de seus serviços online, que foram documentados, implementados e testados em ambientes de produção. Os lançamentos foram direcionados a acelerar o desenvolvimento de IA, proporcionando ferramentas que aumentam a eficiência computacional, a otimização de modelos e o manuseio de dados em larga escala.

Os principais objetivos do evento incluíram:

Nome do Repositório	Descrição	Link do GitHub
FlashMLA	Núcleo de decodificação MLA eficiente para GPUs Hopper	FlashMLA
DeepEP	Biblioteca de comunicação para modelos Mixture-of-Experts	DeepEP
DeepGEMM	Biblioteca otimizada de Multiplicação de Matrizes Gerais	DeepGEMM
Estratégias de Paralelismo Otimizadas	Framework para otimizar o paralelismo em aprendizado profundo distribuído	Estratégias de Paralelismo Otimizadas
Sistema de Arquivos Fire-Flyer (3FS)	Sistema de arquivos distribuído otimizado para fluxos de trabalho de aprendizado de máquina	Sistema de Arquivos Fire-Flyer
Sistema de Inferência DeepSeek-V3/R1	Sistema de inferência em larga escala usando Paralelismo de Especialistas entre nós	Sistema de Inferência DeepSeek-V3/R1

Dia 1: FlashMLA

Descrição: FlashMLA é um núcleo de decodificação Multi-head Latent Attention (MLA) eficiente otimizado para GPUs NVIDIA Hopper.

Principais Recursos:

Suporte para tipos de dados BF16 e FP16.

Cache KV paginado com tamanho de bloco de 64.

Benchmarks de desempenho: 3000 GB/s para operações limitadas por memória e 580 TFLOPS para tarefas limitadas por computação.

Requer CUDA 12.3+ e PyTorch 2.0+.

Significado: Esta ferramenta aumenta a velocidade de inferência de modelos de linguagem grandes (LLMs), tornando-a ideal para aplicações de IA de alto desempenho.

Dia 2: DeepEP

Descrição: DeepEP é a primeira biblioteca de comunicação de código aberto voltada para modelos Mixture-of-Experts (MoE).

Principais Recursos:

Comunicação eficiente all-to-all para configurações intranode e internode.

Kernels de alta vazão para pré-preenchimento de treinamento e inferência.

Kernels de baixa latência para decodificação de inferência.

Suporte nativo para dispatch FP8.

Gerenciamento flexível de recursos de GPU para sobreposição de tarefas de computação e comunicação.

Significado: DeepEP aborda gargalos no treinamento e inferência de modelos MoE, possibilitando computação distribuída escalável.

Dia 3: DeepGEMM

Descrição: Uma biblioteca de Multiplicação de Matrizes Gerais (GEMM) altamente otimizada projetada para cargas de trabalho de aprendizado profundo.

Principais Recursos:

Otimizações avançadas de núcleo para operações de matrizes densas.

Suporte para aritmética de precisão mista (FP16/BF16).

Integração perfeita com frameworks populares como TensorFlow e PyTorch.

Significado: DeepGEMM melhora a eficiência computacional no treinamento de redes neurais, especialmente para camadas densas.

Dia 4: DualPipe: Estratégias de Paralelismo Otimizadas

Descrição: Um framework que oferece estratégias para otimizar o paralelismo em tarefas de aprendizado profundo distribuído.

Principais Recursos:

Técnicas para paralelismo de dados, paralelismo de modelos e paralelismo em pipeline.

Balanceamento de carga dinâmico entre GPUs e nós.

Suporte embutido para sobreposição de computação com comunicação.

Significado: Esta ferramenta simplifica a implementação de estratégias de paralelismo, reduzindo o tempo de treinamento para modelos em larga escala.

Dia 5: Sistema de Arquivos Fire-Flyer (3FS)

Descrição: Um sistema de arquivos distribuído otimizado para fluxos de trabalho de aprendizado de máquina.

Principais Recursos:

Acesso a dados de alta vazão entre clusters.

Suporte para conjuntos de dados em larga escala com operações de I/O de baixa latência.

Compatibilidade com backends de armazenamento populares como HDFS e S3.

Significado: O Sistema de Arquivos Fire-Flyer facilita o manuseio eficiente de dados em ambientes de treinamento de IA distribuída.

Dia 6: Mais uma coisa – Sistema de Inferência DeepSeek-V3/R1

O último dia da Semana de Código Aberto da DeepSeek apresentou uma visão geral abrangente do Sistema de Inferência DeepSeek-V3/R1, uma solução de ponta projetada para otimizar a vazão e a latência em tarefas de inferência de IA em larga escala. Este sistema aproveita o Paralelismo de Especialistas entre nós (EP) para escalar tamanhos de lote, melhorar a eficiência da GPU e reduzir as demandas de acesso à memória, abordando os duplos objetivos de maior vazão e menor latência.

Novidades no Design da Deepseek

O Sistema de Inferência DeepSeek-V3/R1 emprega EP em larga escala entre nós para lidar com a alta esparsidade de modelos com numerosos especialistas (por exemplo, apenas 8 dos 256 especialistas por camada são ativados). O sistema usa distintas estratégias de paralelismo durante as fases de pré-preenchimento e decodificação:

Fase de Pré-preenchimento: EP32 de Especialista Roteado com DP32 de Especialista Compartilhado entre 4 nós.

Fase de Decodificação: EP144 de Especialista Roteado com DP144 de Especialista Compartilhado entre 18 nós.

Uma estratégia de sobreposição de lote duplo oculta a latência de comunicação dividindo solicitações em dois micro-lotes. Durante o pré-preenchimento, a comunicação para um micro-lote é sobreposta com a computação do outro.

Durante a decodificação, um pipeline de 5 estágios subdivide a camada de atenção em duas etapas, garantindo uma sobreposição contínua de comunicação e computação.

Mecanismos de Balanceamento de Carga:

Balanceador de Carga de Pré-preenchimento: Equilibra a computação de atenção central e as cargas de envio de despacho entre as GPUs.
Balanceador de Carga de Decodificação: Igualiza o uso do KVCache e as contagens de solicitações por GPU.
Balanceador de Carga de Paralelismo de Especialistas: Distribui uniformemente as cargas de computação dos especialistas entre as GPUs para minimizar gargalos.

Análise de Custos e Receita

A ocupação máxima dos nós alcançou 278 nós, com uma ocupação média de 226,75 nós (8 GPUs por nó).

Custo operacional diário: $87,072 (com base em $2/hora por GPU H800).

Receita teórica diária: $562,027 com base nos preços da DeepSeek-R1.

Margem de lucro: Impressionantes 545%, embora a receita real seja menor devido a serviços gratuitos, descontos e preços mais baixos para a DeepSeek-V3.

Os princípios de design inovadores e as otimizações do sistema o tornam uma solução de ponta para tarefas de inferência de IA em larga escala, estabelecendo marcos em eficiência e escalabilidade.

Conclusão

A Semana de Código Aberto da DeepSeek concluiu com a apresentação do Sistema de Inferência DeepSeek-V3/R1, um testemunho do compromisso da empresa com o avanço da infraestrutura de IA. Ao abrir esses repositórios, a DeepSeek não apenas capacitou os desenvolvedores, mas também estabeleceu novos padrões em eficiência, escalabilidade e acessibilidade de IA. Esta iniciativa deixou um impacto duradouro na comunidade de IA, promovendo colaboração e inovação em uma escala sem precedentes.

botão