Chatterbox TTS: Açık Kaynak ElevenLabs Alternatifi mi?

💡

Güzel API Dokümantasyonu oluşturan harika bir API Test Aracı mı istiyorsunuz?

Geliştirici Ekibinizin maksimum üretkenlikle birlikte çalışması için entegre, Hepsi Bir Arada bir platform mu istiyorsunuz?

Apidog tüm taleplerinizi karşılar ve Postman'ı çok daha uygun bir fiyata değiştirir!

button

Sürekli gelişen yapay zeka ortamında, yüksek kaliteli Metin-Konuşma (TTS) modelleri geliştiriciler, içerik oluşturucular ve işletmeler için vazgeçilmez araçlar haline gelmiştir. Birçok güçlü TTS sistemi mevcut olsa da, bunlar genellikle kapalı kaynaklıdır ve kısıtlayıcı lisanslar ile yüksek maliyetlerle gelir. Bugün, bu alanda ezber bozan yeni bir oyuncuya derinlemesine dalıyoruz: Resemble AI'ın Chatterbox TTS'i.

Bu kapsamlı eğitim, Chatterbox TTS hakkında bilmeniz gereken her konuda size rehberlik edecektir. Onu özel kılan şeyleri, nasıl çalıştırılacağını ve projeleriniz için etkileyici, insan benzeri konuşma üretmek için güçlü özelliklerinden nasıl yararlanılacağını keşfedeceğiz.

Chatterbox TTS Nedir?

Chatterbox ve Elevenlabs Karşılaştırması

The team at @podonos did a subjective evaluation where they found that Chatterbox outperforms other proprietary models like ElevenLabs.https://t.co/ewcvNoSCrU pic.twitter.com/3KZhYSDh5R
— Resemble AI (@resembleai) May 28, 2025

Chatterbox, Resemble AI ekibi tarafından geliştirilen, son teknoloji, üretim düzeyinde açık kaynaklı bir TTS modelidir. İzin verilen MIT lisansı altında yayınlanan Chatterbox, herkesin tescilli bir ekosisteme kilitlenmeden yüksek kaliteli konuşma sentezi oluşturmasına olanak tanır.

Güçlü bir 0.5B Llama omurgası üzerine inşa edilen Chatterbox, yarım milyon saatlik temizlenmiş ses verisinden oluşan devasa bir veri kümesi üzerinde eğitilmiştir. Bu kapsamlı eğitim, yalnızca son derece yetenekli olmakla kalmayıp aynı zamanda ElevenLabs gibi önde gelen kapalı kaynaklı alternatiflere karşı da kıyaslanmış ve genellikle yan yana karşılaştırmalarda tercih edilen bir modelle sonuçlanmıştır.

Chatterbox TTS'in Temel Özellikleri

Peki, Chatterbox'ı diğerlerinden ayıran nedir? İşte öne çıkan bazı özellikleri:

Son Teknoloji Sıfır Atışlı TTS: Chatterbox, "sıfır atışlı" TTS konusunda üstündür, yani bir sesi klonlayabilir ve hedef sesin çok kısa bir örneğiyle bile herhangi bir metni konuşturabilir. Bu, onu çok çeşitli uygulamalar için inanılmaz derecede çok yönlü kılar.
Duygu ve Abartı Kontrolü: Chatterbox'ın en benzersiz ve güçlü özelliklerinden biri, üretilen konuşmanın duygusal yoğunluğunu kontrol etme yeteneğidir. Bu "abartı kontrolü", sunumu daha dramatik, bastırılmış veya ikisi arasındaki herhangi bir şey olacak şekilde ince ayar yapmanıza olanak tanır.
Ultra Kararlı Sentez: Hizalama bilgili çıkarım süreci sayesinde Chatterbox, diğer TTS modellerini rahatsız edebilecek yapaylıklar ve hatalardan arınmış, inanılmaz derecede kararlı ve doğal sesli konuşma üretir.
Sorumlu Yapay Zeka İçin Yerleşik Filigranlama: Sentetik medyanın daha yaygın hale geldiği bir çağda, sorumlu yapay zeka uygulamaları çok önemlidir. Chatterbox, üretilen sese algılanamayan bir sinyal yerleştiren yerleşik algısal filigranlama ile birlikte gelir ve kaynağının izini sürmeye yardımcı olarak teknolojinin etik kullanımını teşvik eder.
Kolay Ses Dönüştürme: Metin-konuşmanın ötesinde, Chatterbox aynı zamanda ses dönüştürme için basit ve etkili araçlar sunarak, bir kaydı bir sesten diğerine dönüştürmenize olanak tanır.
Gerçekten Açık Kaynak: MIT lisansı ile Chatterbox, modeli hem kişisel hem de ticari projeler için kullanma, değiştirme ve dağıtma özgürlüğü verir.

Chatterbox TTS'e Başlarken

Artık Chatterbox'ın neler yapabileceğini öğrendiğinize göre, onu kuralım ve çalıştırmaya hazırlayalım.

Ön Koşullar

Konuşma üretmeye başlamadan önce, sisteminizde Python kurulu olması gerekir. Chatterbox, Python sürüm 3.8 veya daha yenisini gerektirir. Ayrıca, modern Python kurulumlarıyla birlikte gelen Python paket yükleyicisi olan pip'e de ihtiyacınız olacak.

Kurulum

Chatterbox'ı kurmak, terminalinizde tek bir komut çalıştırmak kadar basittir. Bu komut, Chatterbox'ı ve PyTorch ve Transformers gibi güçlü kütüphaneler dahil tüm bağımlılıklarını indirip kuracaktır.

pip install chatterbox-tts

İşte bu kadar! Bu tek komutla konuşma sentezlemeye başlamaya hazırsınız.

İlk Kelimeleriniz: Temel TTS Üretimi

Bir metin parçasından konuşma üretmenin basit bir örneğiyle başlayalım. Aşağıdaki Python betiği bir cümleyi alacak ve bir WAV ses dosyası olarak kaydedecektir.

import torch
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# Mevcut en iyi cihazı otomatik olarak algıla (GPU veya CPU)
if torch.cuda.is_available():
    device = "cuda"
elif hasattr(torch.backends, 'mps') and torch.backends.mps.is_available():
    device = "mps" # Apple Silicon Mac'ler için
else:
    device = "cpu"

print(f"Using device: {device}")

# Chatterbox modelini yükle
model = ChatterboxTTS.from_pretrained(device=device)

# Konuşmaya dönüştürmek istediğiniz metin
text = "Hello, world! I am Chatterbox, a powerful open-source text-to-speech engine."

# Ses dalga formunu üret
wav = model.generate(text)

# Üretilen sesi bir dosyaya kaydet
ta.save("hello_chatterbox.wav", wav, model.sr)

print("Audio saved as hello_chatterbox.wav")

Bu betikte neler olduğunu inceleyelim:

Gerekli kütüphaneleri içe aktarıyoruz: Çekirdek tensör işlemleri için torch, ses dosyası işleme için torchaudio ve ana model için ChatterboxTTS.
Uyumlu bir GPU'nuz olup olmadığını (NVIDIA için cuda, Apple Silicon için mps) otomatik olarak algılayan ve yoksa CPU'ya dönen kullanışlı bir kod parçası ekliyoruz. Bu, kodun farklı donanımlarda verimli çalışmasını sağlar.
Algılanan cihazımızı geçirerek ChatterboxTTS.from_pretrained() kullanarak önceden eğitilmiş Chatterbox modelini yüklüyoruz.
Sentezlemek istediğimiz metni tanımlıyoruz.
Ses dalga formunu oluşturmak için model.generate(text)'i çağırıyoruz.
Son olarak, dalga formunu bir WAV dosyası olarak kaydetmek için torchaudio.save() kullanıyoruz. model.sr, ses için doğru örnekleme hızını sağlar.

Ses Klonlama Sanatı

Chatterbox'ın en heyecan verici yeteneklerinden biri ses klonlamadır. Bir sesin kısa bir ses klibini sağlayabilirsiniz ve Chatterbox bunu aynı seste konuşma üretmek için kullanacaktır.

İşte nasıl yapabileceğiniz:

And to make it easy, we've put Chatterbox on @Gradio and @huggingface , so you can try it out yourself today!https://t.co/oXuqxzJEJw pic.twitter.com/6gK6buqpuk
— Resemble AI (@resembleai) May 28, 2025

En iyi sonuçlar için, sesli komutunuz tek bir kişinin konuştuğu temiz bir kayıt olmalı, tercihen arka plan gürültüsü olmadan. Birkaç saniyelik ses genellikle Chatterbox'ın sesi iyi anlaması için yeterlidir.

Web kullanıcı arayüzünü başlatmak için önce Gradio'yu kurmanız gerekecek:

pip install gradio

Ardından, aşağıdaki kodu bir Python dosyası olarak kaydedin (örneğin, app.py) ve terminalinizden python app.py ile çalıştırın. Bu betik genellikle proje dosyalarında gradio_tts_app.py olarak bulunur.

Betiği çalıştırdıktan sonra terminalinizde yerel bir URL göreceksiniz. Arayüze erişmek için bu URL'yi web tarayıcınızda açın.

Şunları yapabileceğiniz temiz ve sezgisel bir düzenle karşılaşacaksınız:

Metninizi yazın veya yapıştırın.
Bir referans ses klibi yükleyin veya kaydedin.
**Abartı**, **CFG/Tempo** ve **Sıcaklık** (rastgelelik için) ve **Çekirdek** (tekrarlanabilirlik için) gibi diğer gelişmiş seçenekler için kaydırıcıları ayarlayın.
"Oluştur"a tıklayın ve çıktıyı doğrudan tarayıcınızda dinleyin.

Gradio uygulaması, herhangi bir kod yazmak zorunda kalmadan farklı sesler ve ayarlar denemek için mükemmel bir yoldur.

ChatterBox'ta İnce Ayar, Ses Dönüştürme ve Ses Filigranları

Chatterbox'ın gerçekten parladığı yer burasıdır. Sentezlenmiş sesin performansını iki ana parametre kullanarak yönlendirebilirsiniz: exaggeration ve cfg_weight.

exaggeration: Bu, konuşmanın duygusal yoğunluğunu kontrol eder. 0.5 değeri nötrdür. 2.0'a doğru artırmak konuşmayı daha etkileyici ve dramatik hale getirirken, 0.25'e doğru düşürmek daha bastırılmış hale getirecektir.
cfg_weight (Tempo): Bu parametre, konuşmanın temposunu ve bilinçliliğini etkiler. Varsayılan değer 0.5'tir. Referans konuşmacının hızlı bir konuşma tarzı varsa, bunu düşürmek daha yavaş, daha ölçülü bir tempoya yardımcı olabilir.

İçeriğiniz için mükemmel sunumu bulmak amacıyla bu parametrelerle deney yapın.

Chatterbox ayrıca güçlü bir ses dönüştürme özelliği içerir. Bu, birinin konuşmasının ses kaydını alıp farklı bir hedef sese dönüştürmenize olanak tanır.

Büyük güç büyük sorumluluk getirir. Resemble AI, PerTh (Algısal Eşik) filigranlama teknolojilerini doğrudan Chatterbox'a entegre etmiştir. Model tarafından üretilen her ses parçası duyulamayan bir filigran içerir. Bu filigran sağlamdır ve yaygın ses manipülasyonlarından sağ çıkabilir, bu da sesin onu oluşturan modele kadar izlenmesine olanak tanır.

Sonuç: Sizin Sesiniz, Sizin Yolunuz

Chatterbox TTS, sadece başka bir metin-konuşma modelinden daha fazlasıdır. Etkileyici ve yüksek kaliteli sentetik konuşma oluşturmak için güçlü, esnek ve açık bir platformdur. Son teknoloji performansının, duygu kontrolü gibi benzersiz özelliklerinin ve açık kaynak ile sorumlu yapay zekaya olan bağlılığının birleşimi, onu herhangi bir geliştirici veya içerik oluşturucu için paha biçilmez bir araç haline getirir.

İster bir sonraki harika yapay zeka asistanını inşa ediyor, ister videolar ve oyunlar için ilgi çekici içerik oluşturuyor, ister sadece konuşma sentezinin yaratıcı olanaklarını keşfediyor olun, Chatterbox fikirlerinizi hayata geçirmek için size özgürlük ve güç verir.

Daha fazla bilgi edinmek için Hugging Face Spaces'teki canlı demoyu deneyin: