Chatterbox TTS: A Alternativa Open Source ao ElevenLabs?

Rebecca Kovács

Rebecca Kovács

6 junho 2025

Chatterbox TTS: A Alternativa Open Source ao ElevenLabs?
💡
Quer uma ótima ferramenta de Teste de API que gera documentação de API linda?

Quer uma plataforma integrada, Tudo-em-Um, para sua Equipe de Desenvolvedores trabalhar com produtividade máxima?

Apidog entrega todas as suas demandas e substitui o Postman por um preço muito mais acessível!
button

No cenário em constante evolução da inteligência artificial, modelos de Text-to-Speech (TTS) de alta qualidade tornaram-se ferramentas essenciais para desenvolvedores, criadores de conteúdo e empresas. Embora muitos sistemas TTS poderosos existam, eles são frequentemente de código fechado e vêm com licenças restritivas e altos custos. Hoje, vamos mergulhar fundo em um novo jogador revolucionário na área: o Chatterbox TTS da Resemble AI.

Este tutorial abrangente irá guiá-lo por tudo o que você precisa saber sobre o Chatterbox TTS. Exploraremos o que o torna especial, como colocá-lo em funcionamento e como aproveitar seus recursos poderosos para gerar fala expressiva e humana para seus projetos.

O que é Chatterbox TTS?

Uma Comparação entre Chatterbox e Elevenlabs

Chatterbox é um modelo TTS de código aberto, de nível de produção e de ponta, desenvolvido pela equipe da Resemble AI. Lançado sob a licença permissiva MIT, o Chatterbox capacita a todos a criar síntese de fala de alta qualidade sem estarem presos a um ecossistema proprietário.

Construído sobre um poderoso backbone Llama 0.5B, o Chatterbox foi treinado em um enorme conjunto de dados de meio milhão de horas de dados de áudio limpos. Este treinamento extenso resultou em um modelo que não é apenas altamente capaz, mas também foi comparado a alternativas de código fechado líderes como o ElevenLabs, sendo frequentemente preferido em comparações lado a lado.

Principais Recursos do Chatterbox TTS

Então, o que diferencia o Chatterbox da multidão? Aqui estão alguns de seus recursos de destaque:

Começando com o Chatterbox TTS

Agora que você está familiarizado com o que o Chatterbox pode fazer, vamos configurá-lo e prepará-lo para rodar.

Pré-requisitos

Antes de começar a gerar fala, você precisará ter o Python instalado em seu sistema. O Chatterbox requer Python versão 3.8 ou mais recente. Você também precisará do pip, o instalador de pacotes do Python, que geralmente vem com instalações modernas do Python.

Instalação

Instalar o Chatterbox é tão simples quanto executar um único comando no seu terminal. Este comando fará o download e instalará o Chatterbox e todas as suas dependências, incluindo bibliotecas poderosas como PyTorch e Transformers.

pip install chatterbox-tts

É isso! Com esse único comando, você está pronto para começar a sintetizar fala.

Suas Primeiras Palavras: Geração Básica de TTS

Vamos começar com um exemplo simples de geração de fala a partir de um texto. O script Python a seguir pegará uma frase e a salvará como um arquivo de áudio WAV.

import torch
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# Detecta automaticamente o melhor dispositivo disponível (GPU ou CPU)
if torch.cuda.is_available():
    device = "cuda"
elif hasattr(torch.backends, 'mps') and torch.backends.mps.is_available():
    device = "mps" # Para Macs com Apple Silicon
else:
    device = "cpu"

print(f"Usando dispositivo: {device}")

# Carrega o modelo Chatterbox
model = ChatterboxTTS.from_pretrained(device=device)

# O texto que você quer converter em fala
text = "Olá, mundo! Eu sou o Chatterbox, um poderoso motor text-to-speech de código aberto."

# Gera a forma de onda de áudio
wav = model.generate(text)

# Salva o áudio gerado em um arquivo
ta.save("hello_chatterbox.wav", wav, model.sr)

print("Áudio salvo como hello_chatterbox.wav")

Vamos detalhar o que está acontecendo neste script:

  1. Importamos as bibliotecas necessárias: torch para operações de tensor principais, torchaudio para manipulação de arquivos de áudio e ChatterboxTTS para o modelo principal.
  2. Incluímos um pedaço de código útil que detecta automaticamente se você tem uma GPU compatível (cuda para NVIDIA, mps para Apple Silicon) e volta para a CPU caso contrário. Isso garante que o código seja executado eficientemente em diferentes hardwares.
  3. Carregamos o modelo Chatterbox pré-treinado usando ChatterboxTTS.from_pretrained(), passando nosso dispositivo detectado.
  4. Definimos o texto que queremos sintetizar.
  5. Chamamos model.generate(text) para criar a forma de onda de áudio.
  6. Finalmente, usamos torchaudio.save() para salvar a forma de onda como um arquivo WAV. model.sr fornece a taxa de amostragem correta para o áudio.

A Arte da Clonagem de Voz

Uma das capacidades mais empolgantes do Chatterbox é a clonagem de voz. Você pode fornecer um pequeno clipe de áudio de uma voz, e o Chatterbox o usará para gerar fala nessa mesma voz.

Veja como você pode fazer isso:

Para melhores resultados, seu prompt de áudio deve ser uma gravação limpa de uma única pessoa falando, preferencialmente sem ruído de fundo. Alguns segundos de áudio são frequentemente suficientes para o Chatterbox ter uma boa noção da voz.

Para iniciar a interface web, você precisará primeiro instalar o Gradio:

pip install gradio

Em seguida, salve o código a seguir como um arquivo Python (por exemplo, app.py) e execute-o a partir do seu terminal com python app.py. Este script é frequentemente incluído como gradio_tts_app.py nos arquivos do projeto.

Após executar o script, você verá um URL local no seu terminal. Abra este URL no seu navegador web para acessar a interface.

Você será recebido com um layout limpo e intuitivo onde você pode:

O aplicativo Gradio é a maneira perfeita de experimentar rapidamente diferentes vozes e configurações sem precisar escrever nenhum código.

Ajustes Finos, Conversão de Voz e Marcas d'água de Voz no ChatterBox

É aqui que o Chatterbox realmente brilha. Você pode direcionar a performance da voz sintetizada usando dois parâmetros chave: exaggeration e cfg_weight.

Experimente estes parâmetros para encontrar a entrega perfeita para o seu conteúdo.

O Chatterbox também inclui um poderoso recurso de conversão de voz. Isso permite que você pegue uma gravação de áudio de alguém falando e a converta para uma voz alvo diferente.

Com grande poder vem grande responsabilidade. A Resemble AI integrou sua tecnologia de marca d'água PerTh (Perceptual Threshold) diretamente no Chatterbox. Cada pedaço de áudio gerado pelo modelo contém uma marca d'água inaudível. Esta marca d'água é robusta e pode sobreviver a manipulações de áudio comuns, permitindo que o áudio seja rastreado de volta ao modelo que o criou.

Conclusão: Sua Voz, Do Seu Jeito

O Chatterbox TTS é mais do que apenas mais um modelo text-to-speech. É uma plataforma poderosa, flexível e aberta para criar fala sintética expressiva e de alta qualidade. Sua combinação de performance de ponta, recursos únicos como controle de emoção e um compromisso com código aberto e IA responsável o torna uma ferramenta inestimável para qualquer desenvolvedor ou criador.

Seja você construindo o próximo grande assistente de IA, criando conteúdo envolvente para vídeos e jogos, ou apenas explorando as possibilidades criativas da síntese de fala, o Chatterbox lhe dá a liberdade e o poder de dar vida às suas ideias.

Para saber mais, experimente a demonstração ao vivo no Hugging Face Spaces:

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs