Chatterbox TTS: オープンソースのElevenLabs代替？

💡

美しいAPIドキュメントを生成する優れたAPIテストツールをお探しですか？

開発チームが最大限の生産性で連携するための、統合されたオールインワンプラットフォームをお探しですか？

Apidogは、お客様のあらゆるニーズに応え、Postmanをより手頃な価格で置き換えます！

button

進化し続ける人工知能の分野において、高品質なテキスト読み上げ（TTS）モデルは、開発者、コンテンツクリエイター、企業にとって不可欠なツールとなっています。多くの強力なTTSシステムが存在しますが、それらはクローズドソースであり、制限的なライセンスと高コストを伴うことがよくあります。今日、私たちはこの分野における画期的な新プレーヤーである、Resemble AIによるChatterbox TTSを深く掘り下げていきます。

この包括的なチュートリアルでは、Chatterbox TTSについて知っておくべきすべてのことについて説明します。その特別な点、実行方法、そしてその強力な機能を活用して、プロジェクトのために表現力豊かで人間らしい音声を生成する方法を探ります。

Chatterbox TTSとは？

ChatterboxとElevenlabsの比較

The team at @podonos did a subjective evaluation where they found that Chatterbox outperforms other proprietary models like ElevenLabs.https://t.co/ewcvNoSCrU pic.twitter.com/3KZhYSDh5R
— Resemble AI (@resembleai) May 28, 2025

Chatterboxは、Resemble AIのチームによって開発された、最先端のプロダクショングレードのオープンソースTTSモデルです。寛容なMITライセンスの下でリリースされており、Chatterboxは誰もが独自のエコシステムに縛られることなく、高品質な音声合成を作成できるようにします。

強力な0.5B Llamaバックボーンに基づいて構築されたChatterboxは、50万時間にも及ぶクリーンな音声データの大規模なデータセットでトレーニングされています。この広範なトレーニングにより、非常に高性能であるだけでなく、ElevenLabsのような主要なクローズドソースの代替モデルと比較され、並列比較でしばしば好まれるモデルが生まれました。

Chatterbox TTSの主な特徴

では、Chatterboxを他のモデルと区別するものは何でしょうか？以下にその際立った特徴をいくつか挙げます。

最先端のゼロショットTTS: Chatterboxは「ゼロショット」TTSに優れており、ターゲットの音声の非常に短いサンプルでも、音声をクローンして任意のテキストを話させることができます。これにより、幅広いアプリケーションで信じられないほど多用途になります。
感情と誇張の制御: Chatterboxの最もユニークで強力な機能の1つは、生成された音声の感情的な強度を制御できることです。この「誇張制御」により、より劇的に、控えめに、またはその中間になるように配信を微調整できます。
超安定合成: アライメントに基づいた推論プロセスにより、Chatterboxは非常に安定した自然な響きの音声を生成し、他のTTSモデルを悩ませる可能性のあるアーティファクトやグリッチがありません。
責任あるAIのための組み込み透かし: 合成メディアがより普及している時代において、責任あるAIの実践は非常に重要です。Chatterboxには知覚透かしが組み込まれており、生成された音声に知覚できない信号を埋め込み、その出所を追跡するのに役立ち、テクノロジーの倫理的な使用を促進します。
簡単な音声変換: テキスト読み上げに加えて、Chatterboxは音声変換のためのシンプルで効果的なツールも提供しており、ある音声の録音を別のターゲット音声に変換できます。
真のオープンソース: MITライセンスにより、Chatterboxは個人的なプロジェクトと商業的なプロジェクトの両方でモデルを使用、変更、配布する自由を提供します。

Chatterbox TTSの始め方

Chatterboxができることがわかったので、セットアップして実行できるようにしましょう。

前提条件

音声の生成を開始する前に、システムにPythonがインストールされている必要があります。ChatterboxにはPythonバージョン3.8以降が必要です。また、通常、最新のPythonインストールに含まれているPythonパッケージインストーラーであるpipも必要です。

インストール

Chatterboxのインストールは、ターミナルで単一のコマンドを実行するのと同じくらい簡単です。このコマンドは、Chatterboxとそのすべての依存関係（PyTorchやTransformersのような強力なライブラリを含む）をダウンロードしてインストールします。

pip install chatterbox-tts

これだけです！この1つのコマンドで、音声合成を開始する準備ができました。

最初の言葉：基本的なTTS生成

テキストから音声を生成する簡単な例から始めましょう。以下のPythonスクリプトは、文を取得してWAVオーディオファイルとして保存します。

import torch
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# Automatically detect the best available device (GPU or CPU)
if torch.cuda.is_available():
    device = "cuda"
elif hasattr(torch.backends, 'mps') and torch.backends.mps.is_available():
    device = "mps" # For Apple Silicon Macs
else:
    device = "cpu"

print(f"Using device: {device}")

# Load the Chatterbox model
model = ChatterboxTTS.from_pretrained(device=device)

# The text you want to convert to speech
text = "Hello, world! I am Chatterbox, a powerful open-source text-to-speech engine."

# Generate the audio waveform
wav = model.generate(text)

# Save the generated audio to a file
ta.save("hello_chatterbox.wav", wav, model.sr)

print("Audio saved as hello_chatterbox.wav")

このスクリプトで何が起こっているのかを分解してみましょう。

必要なライブラリをインポートします：コアテンソル操作のためのtorch、オーディオファイル処理のためのtorchaudio、メインモデルのためのChatterboxTTS。
互換性のあるGPU（NVIDIAの場合はcuda、Apple Siliconの場合はmps）があるかどうかを自動的に検出し、ない場合はCPUにフォールバックする便利なコードを含めます。これにより、コードが異なるハードウェアで効率的に実行されることが保証されます。
検出されたデバイスを渡して、ChatterboxTTS.from_pretrained()を使用して事前トレーニング済みのChatterboxモデルをロードします。
合成したいテキストを定義します。
model.generate(text)を呼び出して、オーディオ波形を作成します。
最後に、torchaudio.save()を使用して波形をWAVファイルとして保存します。model.srは、オーディオの正しいサンプルレートを提供します。

音声クローニングの芸術

Chatterboxの最もエキサイティングな機能の1つは音声クローニングです。音声の短いオーディオクリップを提供すると、Chatterboxはその音声を使用して同じ声で音声を生成します。

その方法は次のとおりです。

And to make it easy, we've put Chatterbox on @Gradio and @huggingface , so you can try it out yourself today!https://t.co/oXuqxzJEJw pic.twitter.com/6gK6buqpuk
— Resemble AI (@resembleai) May 28, 2025

最良の結果を得るには、オーディオプロンプトは1人の人物が話しているクリーンな録音であり、できればバックグラウンドノイズがないものが望ましいです。数秒のオーディオがあれば、Chatterboxが音声を十分に把握するのに十分です。

Web UIを起動するには、まずGradioをインストールする必要があります。

pip install gradio

次に、以下のコードをPythonファイル（例：app.py）として保存し、ターミナルからpython app.pyで実行します。このスクリプトは、プロジェクトファイルにgradio_tts_app.pyとして含まれていることがよくあります。

スクリプトを実行した後、ターミナルにローカルURLが表示されます。このURLをWebブラウザで開いてインターフェイスにアクセスします。

クリーンで直感的なレイアウトが表示され、そこで次のことができます。

テキストを入力または貼り付けます。
参照オーディオクリップをアップロードまたは録音します。
**誇張**、**CFG/ペース**、および**温度**（ランダム性用）、**シード**（再現性用）などの他の高度なオプションのスライダーを調整します。
「生成」をクリックし、ブラウザで直接出力を聞きます。

Gradioアプリは、コードを書くことなくさまざまな音声や設定をすばやく試すのに最適な方法です。

ChatterBoxでの微調整、音声変換、音声透かし

ここがChatterboxが真に輝くところです。exaggerationとcfg_weightという2つの主要なパラメータを使用して、合成音声のパフォーマンスを指示できます。

exaggeration: これは音声の感情的な強度を制御します。0.5の値はニュートラルです。2.0に近づけると、音声はより表現力豊かで劇的になり、0.25に近づけると、より控えめになります。
cfg_weight (ペース): このパラメータは、音声のペースと意図性に影響を与えます。デフォルトは0.5です。参照話者が速い話し方をする場合に値を下げると、より遅く、より測定されたペースになります。

これらのパラメータを試して、コンテンツに最適な配信を見つけてください。

Chatterboxには強力な**音声変換機能**も含まれています。これにより、誰かが話しているオーディオ録音を取得し、別のターゲット音声に変換できます。

大いなる力には大いなる責任が伴います。Resemble AIは、彼らのPerTh（知覚閾値）透かし技術をChatterboxに直接統合しました。モデルによって生成されたすべての音声には、聞こえない透かしが含まれています。この透かしは堅牢であり、一般的な音声操作にも耐えることができ、音声をそれが作成されたモデルにまで追跡することを可能にします。

結論：あなたの声、あなたのやり方で

Chatterbox TTSは、単なる別のテキスト読み上げモデルではありません。表現力豊かで高品質な合成音声を作成するための、強力で柔軟なオープンなプラットフォームです。最先端のパフォーマンス、感情制御のようなユニークな機能、そしてオープンソースと責任あるAIへのコミットメントの組み合わせにより、あらゆる開発者やクリエイターにとって貴重なツールとなっています。

次の素晴らしいAIアシスタントを構築している場合でも、ビデオやゲーム向けの魅力的なコンテンツを作成している場合でも、単に音声合成の創造的な可能性を探求している場合でも、Chatterboxはアイデアを実現するための自由と力を提供します。

詳細については、Hugging Face Spacesでライブデモを試してみてください。