Chatterbox TTS: Alternatif Open Source ElevenLabs Terbaik?

Rebecca Kovács

Rebecca Kovács

6 June 2025

Chatterbox TTS: Alternatif Open Source ElevenLabs Terbaik?
💡
Ingin alat Pengujian API hebat yang menghasilkan Dokumentasi API yang indah?

Ingin platform Terintegrasi, All-in-One untuk Tim Pengembang Anda agar bekerja bersama dengan produktivitas maksimum?

Apidog memenuhi semua kebutuhan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!
button

Dalam lanskap kecerdasan buatan yang terus berkembang, model Text-to-Speech (TTS) berkualitas tinggi telah menjadi alat penting bagi pengembang, pembuat konten, dan bisnis. Meskipun banyak sistem TTS yang kuat ada, mereka sering kali bersifat closed-source dan datang dengan lisensi yang membatasi serta biaya tinggi. Hari ini, kita akan menyelami pemain baru yang mengubah permainan di bidang ini: Chatterbox TTS oleh Resemble AI.

Tutorial komprehensif ini akan memandu Anda melalui semua yang perlu Anda ketahui tentang Chatterbox TTS. Kita akan menjelajahi apa yang membuatnya istimewa, cara menjalankannya, dan cara memanfaatkan fitur-fiturnya yang kuat untuk menghasilkan ucapan yang ekspresif dan mirip manusia untuk proyek Anda.

Apa itu Chatterbox TTS?

Perbandingan Chatterbox dan Elevenlabs

Chatterbox adalah model TTS open-source tingkat produksi yang canggih, dikembangkan oleh tim di Resemble AI. Dirilis di bawah lisensi MIT yang permisif, Chatterbox memberdayakan setiap orang untuk membuat sintesis ucapan berkualitas tinggi tanpa terkunci dalam ekosistem berpemilik.

Dibangun di atas tulang punggung Llama 0.5B yang kuat, Chatterbox telah dilatih pada dataset besar yang terdiri dari setengah juta jam data audio yang bersih. Pelatihan ekstensif ini menghasilkan model yang tidak hanya sangat mumpuni tetapi juga telah diuji bandingkan dengan alternatif closed-source terkemuka seperti ElevenLabs, sering kali lebih disukai dalam perbandingan berdampingan.

Fitur Utama Chatterbox TTS

Jadi, apa yang membedakan Chatterbox dari yang lain? Berikut adalah beberapa fitur unggulannya:

Memulai dengan Chatterbox TTS

Sekarang setelah Anda mengenal apa yang dapat dilakukan Chatterbox, mari kita siapkan dan jalankan.

Prasyarat

Sebelum Anda dapat mulai menghasilkan ucapan, Anda perlu menginstal Python di sistem Anda. Chatterbox memerlukan Python versi 3.8 atau yang lebih baru. Anda juga memerlukan pip, penginstal paket Python, yang biasanya disertakan dengan instalasi Python modern.

Instalasi

Menginstal Chatterbox semudah menjalankan satu perintah di terminal Anda. Perintah ini akan mengunduh dan menginstal Chatterbox serta semua dependensinya, termasuk pustaka canggih seperti PyTorch dan Transformers.

pip install chatterbox-tts

Itu saja! Dengan satu perintah itu, Anda siap untuk mulai mensintesis ucapan.

Kata Pertama Anda: Generasi TTS Dasar

Mari kita mulai dengan contoh sederhana menghasilkan ucapan dari sepotong teks. Skrip Python berikut akan mengambil sebuah kalimat dan menyimpannya sebagai file audio WAV.

import torch
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# Secara otomatis mendeteksi perangkat terbaik yang tersedia (GPU atau CPU)
if torch.cuda.is_available():
    device = "cuda"
elif hasattr(torch.backends, 'mps') and torch.backends.mps.is_available():
    device = "mps" # Untuk Mac Apple Silicon
else:
    device = "cpu"

print(f"Menggunakan perangkat: {device}")

# Memuat model Chatterbox
model = ChatterboxTTS.from_pretrained(device=device)

# Teks yang ingin Anda ubah menjadi ucapan
text = "Halo, dunia! Saya Chatterbox, mesin text-to-speech open-source yang kuat."

# Menghasilkan bentuk gelombang audio
wav = model.generate(text)

# Menyimpan audio yang dihasilkan ke file
ta.save("hello_chatterbox.wav", wav, model.sr)

print("Audio disimpan sebagai hello_chatterbox.wav")

Mari kita uraikan apa yang terjadi dalam skrip ini:

  1. Kita mengimpor pustaka yang diperlukan: torch untuk operasi tensor inti, torchaudio untuk penanganan file audio, dan ChatterboxTTS untuk model utama.
  2. Kita menyertakan sepotong kode praktis yang secara otomatis mendeteksi apakah Anda memiliki GPU yang kompatibel (cuda untuk NVIDIA, mps untuk Apple Silicon) dan kembali ke CPU jika tidak. Ini memastikan kode berjalan efisien pada perangkat keras yang berbeda.
  3. Kita memuat model Chatterbox yang telah dilatih sebelumnya menggunakan ChatterboxTTS.from_pretrained(), meneruskan perangkat yang terdeteksi.
  4. Kita mendefinisikan teks yang ingin kita sintesis.
  5. Kita memanggil model.generate(text) untuk membuat bentuk gelombang audio.
  6. Terakhir, kita menggunakan torchaudio.save() untuk menyimpan bentuk gelombang sebagai file WAV. model.sr menyediakan laju sampel yang benar untuk audio.

Seni Kloning Suara

Salah satu kemampuan Chatterbox yang paling menarik adalah kloning suara. Anda dapat menyediakan klip audio singkat dari sebuah suara, dan Chatterbox akan menggunakannya untuk menghasilkan ucapan dengan suara yang sama.

Berikut cara melakukannya:

Untuk hasil terbaik, prompt audio Anda harus berupa rekaman bersih dari satu orang yang berbicara, sebaiknya tanpa suara latar. Beberapa detik audio seringkali cukup bagi Chatterbox untuk mendapatkan gambaran yang baik tentang suara tersebut.

Untuk meluncurkan UI web, Anda perlu menginstal Gradio terlebih dahulu:

pip install gradio

Kemudian, simpan kode berikut sebagai file Python (misalnya, app.py) dan jalankan dari terminal Anda dengan python app.py. Skrip ini sering disertakan sebagai gradio_tts_app.py dalam file proyek.

Setelah menjalankan skrip, Anda akan melihat URL lokal di terminal Anda. Buka URL ini di browser web Anda untuk mengakses antarmuka.

Anda akan disambut dengan tata letak yang bersih dan intuitif di mana Anda dapat:

Aplikasi Gradio adalah cara sempurna untuk bereksperimen dengan cepat dengan suara dan pengaturan yang berbeda tanpa harus menulis kode apa pun.

Penyesuaian Halus, Konversi Suara, dan Watermark Suara di ChatterBox

Di sinilah Chatterbox benar-benar bersinar. Anda dapat mengarahkan kinerja suara yang disintesis menggunakan dua parameter kunci: exaggeration dan cfg_weight.

Bereksperimenlah dengan parameter ini untuk menemukan penyampaian yang sempurna untuk konten Anda.

Chatterbox juga menyertakan fitur konversi suara yang kuat. Ini memungkinkan Anda mengambil rekaman audio seseorang yang berbicara dan mengubahnya menjadi suara target yang berbeda.

Dengan kekuatan besar datang tanggung jawab besar. Resemble AI telah mengintegrasikan teknologi watermarking PerTh (Perceptual Threshold) mereka langsung ke dalam Chatterbox. Setiap bagian audio yang dihasilkan oleh model berisi watermark yang tidak terdengar. Watermark ini kuat dan dapat bertahan dari manipulasi audio umum, memungkinkan audio dilacak kembali ke model yang membuatnya.

Kesimpulan: Suara Anda, Cara Anda

Chatterbox TTS lebih dari sekadar model text-to-speech lainnya. Ini adalah platform yang kuat, fleksibel, dan terbuka untuk membuat ucapan sintetis yang ekspresif dan berkualitas tinggi. Kombinasinya antara kinerja canggih, fitur unik seperti kontrol emosi, dan komitmen terhadap open-source serta AI yang bertanggung jawab menjadikannya alat yang sangat berharga bagi pengembang atau kreator mana pun.

Baik Anda sedang membangun asisten AI hebat berikutnya, membuat konten menarik untuk video dan game, atau sekadar menjelajahi kemungkinan kreatif sintesis ucapan, Chatterbox memberi Anda kebebasan dan kekuatan untuk mewujudkan ide-ide Anda.

Untuk mempelajari lebih lanjut, coba demo langsung di Hugging Face Spaces:

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.