Como Executar o Dia-1.6B Localmente (A Melhor Alternativa Open Source da ElevenLabs)

A paisagem da tecnologia de texto para fala (TTS) está avançando em uma velocidade impressionante, indo muito além das vozes robóticas do passado. Sistemas modernos de TTS impulsionados por IA podem produzir uma fala humana notavelmente realista e expressiva, criando novas possibilidades para criadores de conteúdo, desenvolvedores e empresas. Enquanto serviços sofisticados baseados em nuvem, como Eleven Labs, lideram a carga com saída de alta fidelidade e clonagem de vozes, eles geralmente vêm com custos de assinatura, considerações de privacidade de dados e controle limitado do usuário.

É aqui que os modelos de TTS de código aberto estão tendo um impacto significativo. Oferecendo transparência, flexibilidade e inovação orientada pela comunidade, eles apresentam alternativas atraentes. Um novo destaque neste espaço é Dia-1.6B, desenvolvido pela Nari Labs. Este modelo, com 1,6 bilhão de parâmetros, se destaca não apenas no TTS padrão, mas é especificamente projetado para gerar diálogo realista, completo com pistas não verbais e características de voz controláveis.

Este artigo fornece um guia abrangente sobre o Dia-1.6B. Vamos explorar suas capacidades únicas, detalhar por que ele se destaca como um forte concorrente de código aberto às plataformas estabelecidas, passar pelos passos para executá-lo em seu hardware local, cobrir seus requisitos técnicos e discutir as considerações éticas essenciais em torno de seu uso. Se você busca uma solução TTS potente, adaptável e transparente sob seu controle direto, o Dia-1.6B merece consideração séria.

💡

Quer uma ótima ferramenta de teste de API que gera documentação de API bonita?

Quer uma plataforma integrada e Tudo-em-Um para sua equipe de desenvolvedores trabalhar junto com máxima produtividade?

Apidog atende todas as suas demandas e substitui o Postman a um preço muito mais acessível!

botão

O que é o Dia-1.6B? Uma Introdução

Dia-1.6B é um grande modelo de linguagem adaptado para síntese de texto para fala, criado pela Nari Labs e disponibilizado através da plataforma Hugging Face. Sua principal distinção reside em sua otimização para gerar diálogo conversacional em vez de frases isoladas.

Dia é absolutamente deslumbrante 🤯

Modelo TTS de 1,6B parâmetros para criar diálogo realista a partir de texto. Controle emoção/tom através de condicionamento de áudio + gera não verbais como risadas & tosse. Licenciado Apache 2.0 🔥

⬇️ Compartilhando a demonstração online abaixo pic.twitter.com/b7jglAcwbG
— Victor M (@victormustar) 22 de abril de 2025

As características principais incluem:

Tamanho do Modelo: Com 1,6 bilhões de parâmetros, o Dia possui a capacidade de capturar nuances de fala intrincadas, incluindo entonação, ritmo e tom emocional.
Geração de Diálogo: Foi projetado para processar roteiros contendo múltiplos falantes. Tags simples como [S1] e [S2] designam diferentes falantes, permitindo a criação de conversas naturais.
Comunicação Não-Verbal: Para aumentar o realismo, o Dia pode gerar diretamente sons não-verbais comuns como risadas ((laughs)), tosse ((coughs)) ou limpeza de garganta ((clears throat)) quando essas pistas estão incluídas no texto de entrada.
Condicionamento de Áudio: Os usuários podem influenciar a voz de saída fornecendo uma amostra de áudio de entrada. Esse recurso permite controle sobre a emoção e o tom da fala gerada e forma a base para suas capacidades de clonagem de voz.
Pesos e Código Abertos: O Dia-1.6B é lançado com pesos de modelo abertos e código de inferência sob a licença permissiva Apache 2.0. Isso permite que qualquer pessoa baixe, examine, modifique e utilize o modelo livremente, promovendo colaboração e transparência. Os pesos do modelo estão hospedados na Hugging Face.
Suporte a Idiomas: Atualmente, o Dia-1.6B suporta exclusivamente a geração em inglês.

A Nari Labs também fornece uma página de demonstração comparando o Dia-1.6B com EleveLabs Studio e Sesame CSM-1B, e graças ao suporte da Hugging Face, um Espaço ZeroGPU está disponível para os usuários experimentarem o modelo sem configuração local.

Principais Características do Dia-1.6B

O Dia se destaca por várias características principais:

Síntese de Diálogo Realista: Sua arquitetura é especificamente ajustada para gerar conversas soando naturais entre múltiplos falantes indicados por etiquetas simples de texto.
Sonoros Não-Verbais Integrados: A capacidade de produzir sons como risadas ou tosse diretamente a partir de pistas de texto adiciona uma camada significativa de autenticidade frequentemente ausente em TTS padrão.
Clonagem e Condicionamento de Voz: Fornecendo uma amostra de áudio de referência e seu transcript (formatado corretamente), os usuários podem condicionar a saída do modelo para imitar características da voz da amostra ou controlar seu tom emocional. Um exemplo de script (example/voice_clone.py) está disponível no repositório. O Espaço Hugging Face também permite o upload de áudio para clonagem.
Acessibilidade de Código Aberto: Lançado sob a licença Apache 2.0 com pesos abertos, o Dia capacita os usuários com acesso total ao modelo para pesquisa, desenvolvimento ou projetos pessoais, livres de restrições de fornecedores.

Dia-1.6B vs. Elevenlabs vs Sesame 1B: Uma Comparação Rápida

pic.twitter.com/kaFdal8a9n Vamos lá, um modelo TTS de código aberto que supera Elevenlabs e Sesame 1b com apenas 1,6b.

Dia 1.6b é absolutamente incrível. Isso fica praticamente melhor. https://t.co/mCAWSOaa8q
— Chubby♨️ (@kimmonismus) 22 de abril de 2025

Enquanto plataformas como Eleven Labs oferecem interfaces polidas e resultados de alta qualidade, o Dia-1.6B proporciona vantagens distintas inerentes à sua abordagem de código aberto e local:

Custo: Serviços em nuvem geralmente envolvem taxas de assinatura ou preços baseados em uso, que podem se tornar substanciais. O Dia-1.6B é gratuito para download e uso; os únicos custos são o investimento em hardware e o consumo de eletricidade.
Controle & Privacidade: Usar TTS em nuvem significa enviar seus dados de texto para servidores externos. Executar o Dia localmente garante que seus dados permaneçam totalmente em sua máquina, oferecendo máxima privacidade e controle, o que é vital para informações sensíveis.
Transparência & Personalização: Pesos abertos permitem inspeção e, mais importante, ajuste fino em conjuntos de dados ou vozes específicas para aplicações únicas. Esse nível de personalização é geralmente impossível com sistemas fechados e proprietários.
Capacidade Offline: Plataformas em nuvem necessitam de conexão à internet. O Dia, uma vez instalado, pode ser executado totalmente offline, tornando-o adequado para ambientes com conectividade limitada ou necessidades de segurança aumentadas.
Comunidade & Inovação: Projetos de código aberto se beneficiam de contribuições da comunidade, incluindo correções de bugs, melhorias de recursos e aplicações inovadoras, potencialmente acelerando o progresso além da capacidade de um único fornecedor. A Nari Labs incentiva a participação da comunidade através de seu servidor Discord.
Liberdade de Dependência de Fornecedores: Confiar em um único serviço proprietário cria dependência. Se o fornecedor altera preços, características ou termos, os usuários têm opções limitadas. O código aberto oferece a liberdade de adaptar e mudar.

Escolher o Dia-1.6B significa optar por maior controle, privacidade e custo-benefício em troca de conveniência e requisitos de hardware.

Começando: Executando o Dia-1.6B Localmente

Aqui está como configurar e executar o Dia-1.6B em seu próprio computador, com base nas instruções da Nari Labs.

Requisitos de Hardware

Dependência de GPU: Atualmente, o Dia-1.6B requer uma GPU NVIDIA com suporte a CUDA. O suporte a CPU está planejado, mas ainda não implementado.
VRAM: O modelo completo precisa de aproximadamente 10GB de memória de GPU. Isso geralmente requer GPUs de consumo de médio a alto desempenho (como RTX 3070/4070 ou melhor) ou placas empresariais (como a A4000). Versões quantizadas futuras visam reduzir isso significativamente.
Velocidade de Inferência: O desempenho depende da GPU. Em GPUs empresariais, a geração pode ser mais rápida que em tempo real. Em uma NVIDIA A4000, a Nari Labs mediu cerca de 40 tokens/segundo (onde ~86 tokens constituem 1 segundo de áudio). GPUs mais antigas serão mais lentas.

Para usuários sem hardware adequado, a Nari Labs sugere experimentar o Espaço ZeroGPU da Hugging Face ou entrar na lista de espera para acessar versões hospedadas potencialmente maiores de seus modelos.

Pré-requisitos

GPU: Uma GPU NVIDIA com suporte a CUDA é essencial. O modelo foi testado com PyTorch 2.0+ e CUDA 12.6. Verifique se os drivers da sua GPU estão atualizados.
VRAM: Aproximadamente 10GB de memória de GPU é necessário para o modelo completo de 1,6B parâmetros. (Versões quantizadas planejadas para o futuro reduzirão isso).
Python: Uma instalação funcional do Python (por exemplo, Python 3.8+).
Git: Necessário para clonar o repositório de software.
uv (Recomendado): A Nari Labs utiliza uv, um gerenciador de pacotes Python rápido. Instale-o se você não o tiver (pip install uv). Embora opcional, seu uso simplifica a configuração.

Instalação e Rápida Iniciação (Gradio UI)

Clone o Repositório:
Abra seu terminal/prompt de comando, navegue até o diretório de instalação desejado e execute:

git clone https://github.com/nari-labs/dia.git

Navegue para o Diretório:

cd dia

Execute o Aplicativo (usando uv):
Este é o método recomendado. Ele lida automaticamente com a criação do ambiente virtual e a instalação das dependências.

uv run app.py

A primeira vez que você executar este comando, ele irá baixar as dependências, incluindo PyTorch, bibliotecas Hugging Face, Gradio, os pesos do modelo Dia (~1.6B parâmetros) e componentes do Codec de Áudio Descript. Essa configuração inicial pode demorar. Inícios subsequentes serão muito mais rápidos.

Execute o Aplicativo (Alternativa Manual):
Se não estiver usando uv, você normalmente faria:

# Crie um ambiente virtual
python -m venv .venv
# Ative-o (a sintaxe varia por OS)
# Linux/macOS: source .venv/bin/activate
# Windows: .venv\Scripts\activate
# Instale as dependências (verifique o pyproject.toml para detalhes)
pip install -r requirements.txt # Ou equivalente
# Execute o aplicativo
python app.py

(Nota: Verifique o arquivo pyproject.toml no repositório clonado para a lista exata de pacotes requeridos, se instalar manualmente.)

Acesse a Interface Gradio:
Depois que o servidor iniciar, seu terminal exibirá uma URL local, geralmente como http://127.0.0.1:7860. Abra essa URL em seu navegador.

Usando a UI do Gradio:
A interface da web permite interação fácil:

Entrada de Texto: Digite ou cole seu roteiro. Use [S1], [S2], etc., para os falantes e (laughs), (coughs) para sons não-verbais.
Prompt de Áudio (Opcional): Carregue um arquivo de áudio de referência para guiar o estilo da voz ou realizar clonagem. Lembre-se de colocar o transcript do áudio do prompt antes do seu roteiro principal na entrada de texto, seguindo o formato exigido (veja exemplos).
Gerar: Clique no botão para iniciar a síntese. O tempo de processamento depende da sua GPU e do comprimento do roteiro.
Saída: O áudio gerado aparecerá com controles de reprodução e uma opção de download.

Nota sobre Consistência de Voz: O modelo base Dia-1.6B não foi ajustado para uma voz específica. Consequentemente, gerar áudio várias vezes a partir do mesmo texto pode resultar em vozes soando diferentes. Para alcançar uma saída consistente de falante entre gerações, você pode:

Usar um Prompt de Áudio: Fornecer um clipe de áudio de referência (como descrito acima).
Fixar a Semente: Definir um valor específico de semente aleatória (se a UI do Gradio ou a função da biblioteca expuser esse parâmetro).

Para integração em aplicações personalizadas, aqui está um exemplo de um script Python utilizando o Dia:

import soundfile as sf
# Certifique-se de que o pacote 'dia' está corretamente instalado ou disponível no seu caminho do Python
from dia.model import Dia

# Carregar o modelo pré-treinado da Hugging Face (baixa se necessário)
model = Dia.from_pretrained("nari-labs/Dia-1.6B")

# Preparar o texto de entrada com etiquetas de diálogo e não-verbais
text = "[S1] Dia é um modelo de diálogo com pesos abertos. [S2] Você tem total controle sobre roteiros e vozes. [S1] Uau. Incrível. (laughs) [S2] Experimente agora no GitHub ou Hugging Face."

# Gerar a forma de onda de áudio (requer GPU)
# A saída é tipicamente um array NumPy
output_waveform = model.generate(text)

# Defina a taxa de amostragem (Dia usa comumente 44100 Hz)
sample_rate = 44100

# Salvar o áudio gerado em um arquivo
output_filename = "dialogue_output.wav" # Ou .mp3, etc.
sf.write(output_filename, output_waveform, sample_rate)

print(f"Áudio salvo com sucesso em {output_filename}")

Um pacote PyPI e uma ferramenta de interface de linha de comando (CLI) estão planejados para lançamento futuro para simplificar ainda mais isso.

💡

botão

Conclusão: Sua Voz, Seu Controle

O Dia-1.6B da Nari Labs marca um marco significativo no texto para fala de código aberto. Seu foco único na geração de diálogo, inclusão de sons não-verbais e compromisso com pesos abertos sob a licença Apache 2.0 fazem dele uma alternativa poderosa para usuários que buscam maior controle, privacidade e personalização do que os serviços em nuvem típicos oferecem. Embora exija hardware capaz e um grau de configuração técnica, os benefícios – nenhuma taxa de uso contínua, soberania total sobre dados, operação offline e o potencial para profunda adaptação – são atraentes. À medida que o Dia continua a evoluir com otimizações planejadas como quantização e suporte a CPU, sua acessibilidade e utilidade estão prontas para crescer, solidificando ainda mais o papel do código aberto no futuro da síntese vocal. Para aqueles equipados e dispostos a executar modelos localmente, o Dia-1.6B oferece um caminho para realmente possuir suas capacidades de geração de voz.