Chatterbox TTS: Alternatif Open Source ElevenLabs Terbaik?

💡

Ingin alat Pengujian API hebat yang menghasilkan Dokumentasi API yang indah?

Ingin platform Terintegrasi, All-in-One untuk Tim Pengembang Anda agar bekerja bersama dengan produktivitas maksimum?

Apidog memenuhi semua kebutuhan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!

button

Dalam lanskap kecerdasan buatan yang terus berkembang, model Text-to-Speech (TTS) berkualitas tinggi telah menjadi alat penting bagi pengembang, pembuat konten, dan bisnis. Meskipun banyak sistem TTS yang kuat ada, mereka sering kali bersifat closed-source dan datang dengan lisensi yang membatasi serta biaya tinggi. Hari ini, kita akan menyelami pemain baru yang mengubah permainan di bidang ini: Chatterbox TTS oleh Resemble AI.

Tutorial komprehensif ini akan memandu Anda melalui semua yang perlu Anda ketahui tentang Chatterbox TTS. Kita akan menjelajahi apa yang membuatnya istimewa, cara menjalankannya, dan cara memanfaatkan fitur-fiturnya yang kuat untuk menghasilkan ucapan yang ekspresif dan mirip manusia untuk proyek Anda.

Apa itu Chatterbox TTS?

Perbandingan Chatterbox dan Elevenlabs

The team at @podonos did a subjective evaluation where they found that Chatterbox outperforms other proprietary models like ElevenLabs.https://t.co/ewcvNoSCrU pic.twitter.com/3KZhYSDh5R
— Resemble AI (@resembleai) May 28, 2025

Chatterbox adalah model TTS open-source tingkat produksi yang canggih, dikembangkan oleh tim di Resemble AI. Dirilis di bawah lisensi MIT yang permisif, Chatterbox memberdayakan setiap orang untuk membuat sintesis ucapan berkualitas tinggi tanpa terkunci dalam ekosistem berpemilik.

Dibangun di atas tulang punggung Llama 0.5B yang kuat, Chatterbox telah dilatih pada dataset besar yang terdiri dari setengah juta jam data audio yang bersih. Pelatihan ekstensif ini menghasilkan model yang tidak hanya sangat mumpuni tetapi juga telah diuji bandingkan dengan alternatif closed-source terkemuka seperti ElevenLabs, sering kali lebih disukai dalam perbandingan berdampingan.

Fitur Utama Chatterbox TTS

Jadi, apa yang membedakan Chatterbox dari yang lain? Berikut adalah beberapa fitur unggulannya:

TTS Zero-Shot Canggih: Chatterbox unggul dalam TTS "zero-shot", artinya ia dapat mengkloning suara dan membuatnya mengucapkan teks apa pun, bahkan dengan sampel suara target yang sangat singkat. Ini membuatnya sangat serbaguna untuk berbagai aplikasi.
Kontrol Emosi dan Eksagerasi: Salah satu fitur Chatterbox yang paling unik dan kuat adalah kemampuan untuk mengontrol intensitas emosional ucapan yang dihasilkan. "Kontrol eksagerasi" ini memungkinkan Anda menyempurnakan penyampaian agar lebih dramatis, tenang, atau apa pun di antaranya.
Sintesis Ultra-Stabil: Berkat proses inferensi yang diinformasikan oleh penyelarasan, Chatterbox menghasilkan ucapan yang sangat stabil dan terdengar alami, bebas dari artefak dan gangguan yang dapat mengganggu model TTS lainnya.
Watermarking Bawaan untuk AI yang Bertanggung Jawab: Di era media sintetis yang semakin marak, praktik AI yang bertanggung jawab sangat penting. Chatterbox dilengkapi dengan watermarking perseptual bawaan, yang menyematkan sinyal yang tidak terlihat ke dalam audio yang dihasilkan untuk membantu melacak asal-usulnya, mempromosikan penggunaan teknologi yang etis.
Konversi Suara Mudah: Selain text-to-speech, Chatterbox juga menyediakan alat yang sederhana dan efektif untuk konversi suara, memungkinkan Anda mengubah rekaman dari satu suara ke suara lain.
Benar-benar Open Source: Dengan lisensi MIT-nya, Chatterbox memberi Anda kebebasan untuk menggunakan, memodifikasi, dan mendistribusikan model untuk proyek pribadi dan komersial.

Memulai dengan Chatterbox TTS

Sekarang setelah Anda mengenal apa yang dapat dilakukan Chatterbox, mari kita siapkan dan jalankan.

Prasyarat

Sebelum Anda dapat mulai menghasilkan ucapan, Anda perlu menginstal Python di sistem Anda. Chatterbox memerlukan Python versi 3.8 atau yang lebih baru. Anda juga memerlukan pip, penginstal paket Python, yang biasanya disertakan dengan instalasi Python modern.

Instalasi

Menginstal Chatterbox semudah menjalankan satu perintah di terminal Anda. Perintah ini akan mengunduh dan menginstal Chatterbox serta semua dependensinya, termasuk pustaka canggih seperti PyTorch dan Transformers.

pip install chatterbox-tts

Itu saja! Dengan satu perintah itu, Anda siap untuk mulai mensintesis ucapan.

Kata Pertama Anda: Generasi TTS Dasar

Mari kita mulai dengan contoh sederhana menghasilkan ucapan dari sepotong teks. Skrip Python berikut akan mengambil sebuah kalimat dan menyimpannya sebagai file audio WAV.

import torch
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# Secara otomatis mendeteksi perangkat terbaik yang tersedia (GPU atau CPU)
if torch.cuda.is_available():
    device = "cuda"
elif hasattr(torch.backends, 'mps') and torch.backends.mps.is_available():
    device = "mps" # Untuk Mac Apple Silicon
else:
    device = "cpu"

print(f"Menggunakan perangkat: {device}")

# Memuat model Chatterbox
model = ChatterboxTTS.from_pretrained(device=device)

# Teks yang ingin Anda ubah menjadi ucapan
text = "Halo, dunia! Saya Chatterbox, mesin text-to-speech open-source yang kuat."

# Menghasilkan bentuk gelombang audio
wav = model.generate(text)

# Menyimpan audio yang dihasilkan ke file
ta.save("hello_chatterbox.wav", wav, model.sr)

print("Audio disimpan sebagai hello_chatterbox.wav")

Mari kita uraikan apa yang terjadi dalam skrip ini:

Kita mengimpor pustaka yang diperlukan: torch untuk operasi tensor inti, torchaudio untuk penanganan file audio, dan ChatterboxTTS untuk model utama.
Kita menyertakan sepotong kode praktis yang secara otomatis mendeteksi apakah Anda memiliki GPU yang kompatibel (cuda untuk NVIDIA, mps untuk Apple Silicon) dan kembali ke CPU jika tidak. Ini memastikan kode berjalan efisien pada perangkat keras yang berbeda.
Kita memuat model Chatterbox yang telah dilatih sebelumnya menggunakan ChatterboxTTS.from_pretrained(), meneruskan perangkat yang terdeteksi.
Kita mendefinisikan teks yang ingin kita sintesis.
Kita memanggil model.generate(text) untuk membuat bentuk gelombang audio.
Terakhir, kita menggunakan torchaudio.save() untuk menyimpan bentuk gelombang sebagai file WAV. model.sr menyediakan laju sampel yang benar untuk audio.

Seni Kloning Suara

Salah satu kemampuan Chatterbox yang paling menarik adalah kloning suara. Anda dapat menyediakan klip audio singkat dari sebuah suara, dan Chatterbox akan menggunakannya untuk menghasilkan ucapan dengan suara yang sama.

Berikut cara melakukannya:

And to make it easy, we've put Chatterbox on @Gradio and @huggingface , so you can try it out yourself today!https://t.co/oXuqxzJEJw pic.twitter.com/6gK6buqpuk
— Resemble AI (@resembleai) May 28, 2025

Untuk hasil terbaik, prompt audio Anda harus berupa rekaman bersih dari satu orang yang berbicara, sebaiknya tanpa suara latar. Beberapa detik audio seringkali cukup bagi Chatterbox untuk mendapatkan gambaran yang baik tentang suara tersebut.

Untuk meluncurkan UI web, Anda perlu menginstal Gradio terlebih dahulu:

pip install gradio

Kemudian, simpan kode berikut sebagai file Python (misalnya, app.py) dan jalankan dari terminal Anda dengan python app.py. Skrip ini sering disertakan sebagai gradio_tts_app.py dalam file proyek.

Setelah menjalankan skrip, Anda akan melihat URL lokal di terminal Anda. Buka URL ini di browser web Anda untuk mengakses antarmuka.

Anda akan disambut dengan tata letak yang bersih dan intuitif di mana Anda dapat:

Ketik atau tempel teks Anda.
Unggah atau rekam klip audio referensi.
Sesuaikan penggeser untuk Eksagerasi, CFG/Laju, dan opsi lanjutan lainnya seperti Suhu (untuk keacakan) dan Seed (untuk reproduktifitas).
Klik "Generate" dan dengarkan hasilnya langsung di browser Anda.

Aplikasi Gradio adalah cara sempurna untuk bereksperimen dengan cepat dengan suara dan pengaturan yang berbeda tanpa harus menulis kode apa pun.

Penyesuaian Halus, Konversi Suara, dan Watermark Suara di ChatterBox

Di sinilah Chatterbox benar-benar bersinar. Anda dapat mengarahkan kinerja suara yang disintesis menggunakan dua parameter kunci: exaggeration dan cfg_weight.

exaggeration: Ini mengontrol intensitas emosional ucapan. Nilai 0.5 adalah netral. Meningkatkannya menuju 2.0 akan membuat ucapan lebih ekspresif dan dramatis, sementara menurunkannya menuju 0.25 akan membuatnya lebih tenang.
cfg_weight (Laju): Parameter ini memengaruhi laju dan kesengajaan ucapan. Nilai default adalah 0.5. Menurunkannya dapat membantu jika pembicara referensi memiliki gaya bicara cepat, menghasilkan laju yang lebih lambat dan terukur.

Bereksperimenlah dengan parameter ini untuk menemukan penyampaian yang sempurna untuk konten Anda.

Chatterbox juga menyertakan fitur konversi suara yang kuat. Ini memungkinkan Anda mengambil rekaman audio seseorang yang berbicara dan mengubahnya menjadi suara target yang berbeda.

Dengan kekuatan besar datang tanggung jawab besar. Resemble AI telah mengintegrasikan teknologi watermarking PerTh (Perceptual Threshold) mereka langsung ke dalam Chatterbox. Setiap bagian audio yang dihasilkan oleh model berisi watermark yang tidak terdengar. Watermark ini kuat dan dapat bertahan dari manipulasi audio umum, memungkinkan audio dilacak kembali ke model yang membuatnya.

Kesimpulan: Suara Anda, Cara Anda

Chatterbox TTS lebih dari sekadar model text-to-speech lainnya. Ini adalah platform yang kuat, fleksibel, dan terbuka untuk membuat ucapan sintetis yang ekspresif dan berkualitas tinggi. Kombinasinya antara kinerja canggih, fitur unik seperti kontrol emosi, dan komitmen terhadap open-source serta AI yang bertanggung jawab menjadikannya alat yang sangat berharga bagi pengembang atau kreator mana pun.

Baik Anda sedang membangun asisten AI hebat berikutnya, membuat konten menarik untuk video dan game, atau sekadar menjelajahi kemungkinan kreatif sintesis ucapan, Chatterbox memberi Anda kebebasan dan kekuatan untuk mewujudkan ide-ide Anda.

Untuk mempelajari lebih lanjut, coba demo langsung di Hugging Face Spaces: