Chatterbox TTS: ¿La Alternativa Open Source a ElevenLabs?

💡

¿Quieres una gran herramienta de pruebas de API que genere hermosa documentación de API?

¿Quieres una plataforma integrada, todo en uno, para que tu equipo de desarrollo trabaje con máxima productividad?

Apidog cumple todas tus demandas, y reemplaza a Postman a un precio mucho más asequible!

button

En el panorama en constante evolución de la inteligencia artificial, los modelos de Texto a Voz (TTS) de alta calidad se han convertido en herramientas esenciales tanto para desarrolladores, creadores de contenido como para empresas. Si bien existen muchos sistemas TTS potentes, a menudo son de código cerrado y vienen con licencias restrictivas y altos costos. Hoy, nos sumergimos profundamente en un nuevo jugador revolucionario en el campo: Chatterbox TTS de Resemble AI.

Este tutorial completo te guiará a través de todo lo que necesitas saber sobre Chatterbox TTS. Exploraremos qué lo hace especial, cómo ponerlo en funcionamiento y cómo aprovechar sus potentes funciones para generar habla expresiva y similar a la humana para tus proyectos.

¿Qué es Chatterbox TTS?

Una comparación de Chatterbox y Elevenlabs

The team at @podonos did a subjective evaluation where they found that Chatterbox outperforms other proprietary models like ElevenLabs.https://t.co/ewcvNoSCrU pic.twitter.com/3KZhYSDh5R
— Resemble AI (@resembleai) May 28, 2025

Chatterbox es un modelo TTS de código abierto de última generación, listo para producción, desarrollado por el equipo de Resemble AI. Lanzado bajo la permisiva licencia MIT, Chatterbox permite a todos crear síntesis de voz de alta calidad sin estar atados a un ecosistema propietario.

Construido sobre una potente base Llama de 0.5B, Chatterbox ha sido entrenado en un conjunto de datos masivo de medio millón de horas de datos de audio limpios. Este extenso entrenamiento ha resultado en un modelo que no solo es altamente capaz, sino que también ha sido comparado con alternativas líderes de código cerrado como ElevenLabs, a menudo siendo preferido en comparaciones directas.

Características clave de Chatterbox TTS

Entonces, ¿qué diferencia a Chatterbox de la multitud? Aquí están algunas de sus características destacadas:

TTS Zero-Shot de Última Generación: Chatterbox sobresale en TTS "zero-shot", lo que significa que puede clonar una voz y hacer que hable cualquier texto, incluso con una muestra muy corta de la voz objetivo. Esto lo hace increíblemente versátil para una amplia gama de aplicaciones.
Control de Emoción y Exageración: Una de las características más únicas y potentes de Chatterbox es la capacidad de controlar la intensidad emocional del habla generada. Este "control de exageración" te permite ajustar la entrega para que sea más dramática, moderada o cualquier punto intermedio.
Síntesis Ultra Estable: Gracias a su proceso de inferencia informado por alineación, Chatterbox produce habla increíblemente estable y de sonido natural, libre de los artefactos y fallos que pueden afectar a otros modelos TTS.
Marca de Agua Integrada para IA Responsable: En una era donde los medios sintéticos son cada vez más prevalentes, las prácticas de IA responsables son cruciales. Chatterbox viene con una marca de agua perceptiva integrada, que incrusta una señal imperceptible en el audio generado para ayudar a rastrear su origen, promoviendo el uso ético de la tecnología.
Fácil Conversión de Voz: Más allá del texto a voz, Chatterbox también proporciona herramientas simples y efectivas para la conversión de voz, permitiéndote transformar una grabación de una voz a otra.
Verdaderamente de Código Abierto: Con su licencia MIT, Chatterbox te da la libertad de usar, modificar y distribuir el modelo para proyectos personales y comerciales.

Comenzando con Chatterbox TTS

Ahora que estás familiarizado con lo que Chatterbox puede hacer, vamos a configurarlo y prepararlo para funcionar.

Requisitos previos

Antes de poder comenzar a generar habla, necesitarás tener Python instalado en tu sistema. Chatterbox requiere Python versión 3.8 o superior. También necesitarás pip, el instalador de paquetes de Python, que generalmente viene con las instalaciones modernas de Python.

Instalación

Instalar Chatterbox es tan simple como ejecutar un solo comando en tu terminal. Este comando descargará e instalará Chatterbox y todas sus dependencias, incluidas potentes bibliotecas como PyTorch y Transformers.

pip install chatterbox-tts

¡Eso es todo! Con ese único comando, estás listo para comenzar a sintetizar habla.

Tus primeras palabras: Generación básica de TTS

Comencemos con un ejemplo simple de generación de habla a partir de un texto. El siguiente script de Python tomará una oración y la guardará como un archivo de audio WAV.

import torch
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# Automatically detect the best available device (GPU or CPU)
if torch.cuda.is_available():
    device = "cuda"
elif hasattr(torch.backends, 'mps') and torch.backends.mps.is_available():
    device = "mps" # For Apple Silicon Macs
else:
    device = "cpu"

print(f"Using device: {device}")

# Load the Chatterbox model
model = ChatterboxTTS.from_pretrained(device=device)

# The text you want to convert to speech
text = "Hello, world! I am Chatterbox, a powerful open-source text-to-speech engine."

# Generate the audio waveform
wav = model.generate(text)

# Save the generated audio to a file
ta.save("hello_chatterbox.wav", wav, model.sr)

print("Audio saved as hello_chatterbox.wav")

Analicemos lo que está sucediendo en este script:

Importamos las bibliotecas necesarias: torch para operaciones de tensor principales, torchaudio para manejar archivos de audio y ChatterboxTTS para el modelo principal.
Incluimos un práctico fragmento de código que detecta automáticamente si tienes una GPU compatible (cuda para NVIDIA, mps para Apple Silicon) y recurre a la CPU si no. Esto asegura que el código se ejecute eficientemente en diferentes hardware.
Cargamos el modelo pre-entrenado de Chatterbox usando ChatterboxTTS.from_pretrained(), pasando nuestro dispositivo detectado.
Definimos el texto que queremos sintetizar.
Llamamos a model.generate(text) para crear la forma de onda de audio.
Finalmente, usamos torchaudio.save() para guardar la forma de onda como un archivo WAV. model.sr proporciona la frecuencia de muestreo correcta para el audio.

El arte de la clonación de voz

Una de las capacidades más emocionantes de Chatterbox es la clonación de voz. Puedes proporcionar un clip de audio corto de una voz, y Chatterbox lo usará para generar habla en esa misma voz.

Así es como puedes hacerlo:

And to make it easy, we've put Chatterbox on @Gradio and @huggingface , so you can try it out yourself today!https://t.co/oXuqxzJEJw pic.twitter.com/6gK6buqpuk
— Resemble AI (@resembleai) May 28, 2025

Para obtener los mejores resultados, tu audio de referencia debe ser una grabación limpia de una sola persona hablando, preferiblemente sin ruido de fondo. Unos pocos segundos de audio suelen ser suficientes para que Chatterbox capte bien la voz.

Para iniciar la interfaz web, primero deberás instalar Gradio:

pip install gradio

Luego, guarda el siguiente código como un archivo Python (por ejemplo, app.py) y ejecútalo desde tu terminal con python app.py. Este script a menudo se incluye como gradio_tts_app.py en los archivos del proyecto.

Después de ejecutar el script, verás una URL local en tu terminal. Abre esta URL en tu navegador web para acceder a la interfaz.

Serás recibido con un diseño limpio e intuitivo donde puedes:

Escribe o pega tu texto.
Sube o graba un clip de audio de referencia.
Ajusta los deslizadores para Exageración, CFG/Ritmo, y otras opciones avanzadas como Temperatura (para aleatoriedad) y Semilla (para reproducibilidad).
Haz clic en "Generar" y escucha la salida directamente en tu navegador.

La aplicación Gradio es la forma perfecta de experimentar rápidamente con diferentes voces y configuraciones sin tener que escribir ningún código.

Ajuste fino, conversión de voz y marcas de agua de voz en ChatterBox

Aquí es donde Chatterbox realmente brilla. Puedes dirigir el rendimiento de la voz sintetizada utilizando dos parámetros clave: exaggeration y cfg_weight.

exaggeration: Esto controla la intensidad emocional del habla. Un valor de 0.5 es neutral. Aumentarlo hacia 2.0 hará que el habla sea más expresiva y dramática, mientras que reducirlo hacia 0.25 lo hará más moderado.
cfg_weight (Ritmo): Este parámetro influye en el ritmo y la deliberación del habla. El valor predeterminado es 0.5. Reducirlo puede ayudar si el hablante de referencia tiene un estilo de habla rápido, resultando en un ritmo más lento y medido.

Experimenta con estos parámetros para encontrar la entrega perfecta para tu contenido.

Chatterbox también incluye una potente función de conversión de voz. Esto te permite tomar una grabación de audio de alguien hablando y convertirla a una voz objetivo diferente.

Un gran poder conlleva una gran responsabilidad. Resemble AI ha integrado su tecnología de marca de agua PerTh (Umbral Perceptivo) directamente en Chatterbox. Cada pieza de audio generada por el modelo contiene una marca de agua inaudible. Esta marca de agua es robusta y puede sobrevivir a manipulaciones de audio comunes, permitiendo que el audio sea rastreado hasta el modelo que lo creó.

Conclusión: Tu voz, a tu manera

Chatterbox TTS es más que otro modelo de texto a voz. Es una plataforma potente, flexible y abierta para crear habla sintética expresiva y de alta calidad. Su combinación de rendimiento de última generación, características únicas como el control de emociones y un compromiso con el código abierto y la IA responsable lo convierten en una herramienta invaluable para cualquier desarrollador o creador.

Ya sea que estés construyendo el próximo gran asistente de IA, creando contenido atractivo para videos y juegos, o simplemente explorando las posibilidades creativas de la síntesis de voz, Chatterbox te brinda la libertad y el poder para dar vida a tus ideas.

Para saber más, prueba la demostración en vivo en Hugging Face Spaces: