Microsoft VibeVoiceとは？オープンソース音声AIモデルの使い方

結論

VibeVoiceは、Microsoftが提供するオープンソースの音声AIファミリーで、以下の3つのモデルが含まれています。テキスト読み上げ（最大90分、4話者）用のVibeVoice-1.5B、ストリーミングTTS用のVibeVoice-Realtime-0.5B、音声認識（60分の音声、50以上の言語、WER 7.77%）用のVibeVoice-ASRです。すべてのモデルはMITライセンスで提供され、ローカルで実行できます。このガイドでは、インストール、使用方法、およびAPI統合について説明します。

はじめに

Microsoftは2026年初頭にVibeVoiceをオープンソースの音声AIフレームワークとしてリリースしました。これは音声合成（テキスト読み上げ）と音声認識（自動音声認識）の両方のモデルを含み、すべてクラウドに依存することなく、お使いのハードウェア上でローカルに実行されます。

このフレームワークには3つのモデルがあります。

VibeVoice-1.5B は、テキストスクリプトから表現豊かな複数話者の対話音声を生成します。一度の処理で最大90分の音声を、4つの異なる話者で合成できます。
VibeVoice-Realtime-0.5B は、約300ミリ秒の初回チャンク遅延で音声を生成する軽量なストリーミング対応モデルです。
VibeVoice-ASR は、50以上の言語に対応し、話者識別、タイムスタンプ、構造化された出力を備えた、最大60分の連続音声を文字起こしします。

TTSモデルはリリース後に論争を巻き起こしました。Microsoftは、音声クローニングの悪用を発見した後、一時的に主要なGitHubリポジトリを無効にしました。コミュニティはコードをフォークし、Microsoftはその後、追加のセーフガード（生成された音声に埋め込まれる聞き取れるAI免責事項と、出所の検証のための知覚できない透かし）とともにリポジトリを再有効化しました。

VibeVoice-ASRは現在、クラウド展開のためにAzure AI Foundryで利用可能です。TTSモデルはMITライセンスで研究目的のままです。

このガイドでは、インストール、テキスト読み上げの生成、音声認識、API統合、およびApidogで音声AIエンドポイントをテストする方法について説明します。

アプリをダウンロード

VibeVoiceの仕組み：アーキテクチャ概要

トークナイザーの画期的な進歩

VibeVoiceの中核となる進歩は、**7.5 Hz**という超低フレームレートで動作する連続音声トークナイザーです。比較として、ほとんどの音声モデルは50-100 Hzで音声を処理します。このフレームレートの7〜13倍の削減により、モデルはコンテキストを使い果たすことなく、長いシーケンス（90分の音声）を処理できます。

このシステムは2つのトークナイザーを使用します。

アコースティックトークナイザー: 鏡面対称のエンコーダー・デコーダーに約3億4千万のパラメーターを持つシグマVAEのバリアントです。24kHzの入力音声から3,200倍のダウンサンプリングを行います。
セマンティックトークナイザー: アコースティックトークナイザーのアーキテクチャを模倣していますが、言語的な意味を捉えるためにASR（自動音声認識）プロキシタスクでトレーニングされています。

次トークン拡散

このモデルは、LLMバックボーン（Qwen2.5-1.5B）と軽量な拡散ヘッド（約1億2300万パラメーター）を組み合わせています。LLMはテキストのコンテキストと対話の流れを処理します。拡散ヘッドは、Classifier-Free Guidanceを用いたDDPM（Denoising Diffusion Probabilistic Models）を使用して、高忠実度の音響詳細を生成します。

総パラメーター数：**30億**（トークナイザーと拡散ヘッドを含む）。

トレーニングアプローチ

VibeVoiceはカリキュラム学習を使用し、4K、16K、32K、そして64Kトークンというように、より長いシーケンスで段階的にトレーニングを行います。この段階では事前学習済みのトークナイザーは固定され、LLMと拡散ヘッドのパラメーターのみが更新されます。これにより、モデルは短尺の機能を忘れることなく、ますます長尺の音声を処理できるようになります。

VibeVoiceモデルの仕様

モデル	パラメーター	目的	最大長	言語	ライセンス
VibeVoice-1.5B	3B (合計)	テキスト読み上げ	90分	英語、中国語	MIT
VibeVoice-Realtime-0.5B	約0.5B	ストリーミングTTS	長尺	英語、中国語	MIT
VibeVoice-ASR	約9B	音声認識	60分	50以上の言語	MIT

VibeVoice-1.5B (TTS)

仕様	値
LLMベース	Qwen2.5-1.5B
コンテキスト長	64Kトークン
最大話者数	4人同時
音声出力	24kHz WAV モノラル
テンソル型	BF16
形式	Safetensors
HuggingFaceダウンロード数	62,630/月
コミュニティフォーク数	12種類のファインチューニング済みバリアント

VibeVoice-ASR

仕様	値
アーキテクチャベース	Qwen2.5
パラメーター	約9B
音声処理	1回のパスで最大60分
フレームレート	7.5 Hz
平均WER	7.77%（8つの英語データセット全体）
LibriSpeech Clean WER	2.20%
TED-LIUM WER	2.57%
言語	50以上
出力	構造化（話者 + 時間 + 内容）
対応音声	16kHz以上のWAV、FLAC、MP3

インストールとセットアップ

前提条件

Python 3.8以降
CUDA対応NVIDIA GPU
TTSモデルには最低7-8 GBのVRAM
ASRモデルには最低24 GBのVRAM（A100/H100を推奨）
最低32 GBのRAM（ASRには64 GBを推奨）
CUDA 11.8以降（CUDA 12.0以降を推奨）

VibeVoice TTSをインストール

# リポジトリをクローン
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# 依存関係をインストール
pip install -r requirements.txt

モデルは初回実行時にHuggingFaceから自動的にダウンロードされます。事前にダウンロードすることもできます。

from huggingface_hub import snapshot_download

# 1.5B TTSモデルをダウンロード
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

pip経由でインストール（コミュニティパッケージ）

pip install vibevoice

ASR用にインストール

VibeVoice-ASRは別のセットアップを使用します。

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

あるいは、マネージドクラウド推論のためにAzure AI Foundry経由でデプロイします。

VibeVoice-1.5Bで音声を生成する

単一話者での生成

スクリプトを含むテキストファイルを作成します。

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

推論を実行します。

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

出力はoutputs/ディレクトリに.wavファイルとして保存されます。

複数話者のポッドキャスト生成

VibeVoiceは、録音全体で一貫した音声識別を持つ最大4人の話者を処理できます。

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

モデルは、90分の長さでも、会話全体を通して各話者の明確な音声特性を維持します。

音声クローニング（ゼロショット）

参照オーディオサンプルから音声をクローンします。

音声要件:

形式: WAV (モノラル)
サンプルレート: 24,000 Hz
再生時間: 30-60秒の明瞭な音声

既存の音声を正しい形式に変換します。

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

音声クローニングにはGradioデモインターフェースを使用します。

python demo/gradio_demo.py

これにより、http://127.0.0.1:7860 でウェブUIが起動し、参照音声をアップロードし、クローンする音声を選択して、音声を生成できます。

VibeVoice-Realtime-0.5Bによるストリーミング

低遅延の音声出力（初回チャンク約300ms）を必要とするアプリケーション向け:

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Realtimeモデルはより小さく高速ですが、フル1.5Bモデルよりも音質が低くなります。インタラクティブなアプリケーションにはRealtimeモデルを、事前生成するコンテンツには1.5Bモデルを使用してください。

PythonでVibeVoiceを使用する

パイプラインAPI

from transformers import pipeline
from huggingface_hub import snapshot_download

# モデルをダウンロード
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# パイプラインをロード
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# 複数話者スクリプトを準備
script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

# チャットテンプレートを適用
input_data = pipe.processor.apply_chat_template(script)

# 音声を生成
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

本番環境向けFastAPIラッパー

コミュニティは、VibeVoiceをOpenAI互換のTTS APIとして公開するFastAPIラッパーを構築しました。

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

これにより、OpenAIのTTS形式と互換性のあるAPIエンドポイントが提供されます。

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

このOpenAI互換のエンドポイントにより、OpenAIのTTS APIと同じリクエスト形式を使用して、ApidogでVibeVoice API統合をテストできます。エンドポイントをインポートし、リクエストボディを設定して、アプリケーションコードを書かずに音声生成をテストできます。

VibeVoice-ASRで音声認識を使用する

基本的な文字起こし

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

構造化出力形式

VibeVoice-ASRは、セグメントごとに3つのフィールドを持つ構造化された文字起こしを生成します。

話者: 話者の識別（話者1、話者2など）
時間: 開始および終了タイムスタンプ
内容: 文字起こしされたテキストコンテンツ

出力例:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

MCPサーバーとしてのASR

VibeVoice-ASRは、MCP（Model Context Protocol）サーバーとして動作し、Claude Code、Cursor、その他のAIコーディングツールに直接プラグインできます。

# MCPサーバーをインストール
pip install vibevoice-mcp-server

# 実行
vibevoice-mcp serve

これにより、コーディングエージェントはワークフローの一部として会議、音声メモ、または録音を文字起こしできます。要件を指示すると、MCPサーバーがそれを文字起こしし、コーディングエージェントがテキストを処理します。

VibeVoice-ASRとWhisperの使い分け

ユースケース	最適な選択肢	理由
長時間の会議（30-60分）	VibeVoice-ASR	60分を1回のパスで処理、話者識別
複数話者のインタビュー	VibeVoice-ASR	組み込みのダイアライゼーション
タイムスタンプが必要なポッドキャスト	VibeVoice-ASR	構造化された「話者/時間/内容」出力
多言語コンテンツ（50以上の言語）	VibeVoice-ASR	幅広い言語サポート
騒がしい環境での短いクリップ	Whisper	優れたノイズ耐性
エッジ/モバイル展開	Whisper	より小さなモデルサイズ、幅広いデバイスサポート
英語以外の言語（専門的）	Whisper	より成熟した多言語ファインチューニング

Apidogで音声AI APIをテストする

VibeVoice FastAPIラッパー、Azure AI Foundryエンドポイントを使用する場合でも、独自の音声AI APIを構築する場合でも、Apidogはこれらの統合のテストとデバッグを支援します。

TTSエンドポイントをテストする

ApidogでVibeVoice FastAPIサーバーを指す新しいPOSTリクエストを作成します。
リクエストボディをOpenAI互換の形式に設定します。

{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice",
  "response_format": "wav"
}

リクエストを送信し、レスポンスヘッダーにaudio/wavコンテンツタイプが含まれていることを確認します。
レスポンスをWAVファイルとして保存し、音質を確認します。

ASRエンドポイントをテストする

音声テキスト変換APIの場合:

multipart/form-dataでPOSTリクエストを設定します。
オーディオファイルをフォームフィールドとして添付します。
構造化されたJSONレスポンスに話者ID、タイムスタンプ、文字起こしされたテキストが含まれていることを確認します。

オーディオAPIコントラクトを検証する

音声AI APIは、JSONメタデータとともにバイナリデータ（オーディオファイル）を処理します。Apidogのリクエストビルダーは両方を処理します。

ASRエンドポイント向けのバイナリファイルアップロード
TTSエンドポイント向けのJSONボディフォーマット
構造化された文字起こし出力のレスポンス検証
ローカルエンドポイントとクラウドエンドポイントを切り替えるための環境変数

本番環境にデプロイする前に、Apidogをダウンロードして音声AI統合をテストしてください。

アプリをダウンロード

安全性と責任ある利用

Microsoftは、最初の悪用事件の後、いくつかの安全策を追加しました。

可聴AI免責事項: 生成されたすべての音声には、自動的に「このセグメントはAIによって生成されました」というメッセージが含まれます。
知覚できない透かし: 隠されたマーカーにより、VibeVoiceで生成されたコンテンツの第三者による検証が可能になります。
推論ログ記録: ハッシュ化されたログは、四半期ごとに集計された統計で悪用パターンを検出します。
MITライセンス: 商用利用を許可しますが、Microsoftはさらなるテストなしでの本番環境へのデプロイを推奨していません。

許可されること

研究および学術用途
内部プロトタイプ作成およびテスト
適切なAI開示を伴うポッドキャスト生成
アクセシビリティアプリケーション（視覚障害者向けテキスト読み上げ）

許可されないこと

明示的な書面による同意なしでの声の模倣
ディープフェイクや、AI音声を本物の人間の録音として提示すること
ライブディープフェイクアプリケーション向けのリアルタイム音声変換
非音声オーディオ（音楽、効果音）の生成

知っておくべき制限事項

TTSの言語サポートは限られています。 VibeVoice-1.5Bは英語と中国語をサポートしています。他の言語では理解不能な出力が生成されます。VibeVoice-ASRは50以上の言語でより幅広いカバー範囲を持っています。

ASRのハードウェア要件は厳しいです。 ASRモデルには24 GB以上のVRAM（A100/H100クラスのGPU）が必要です。TTSモデルは7-8 GBのVRAMを持つ消費者向けGPUで動作します。

重複する音声の処理はありません。 TTSモデルは、話者が互いに話し合う状況をモデル化しません。すべての対話はターンベースです。

継承されたモデルバイアス。 両方のモデルは、Qwen2.5ベースからバイアスを継承しています。出力には、予期せぬ、偏った、または不正確な内容が含まれる可能性があります。

研究レベルのソフトウェア。 これは本番環境向けではありません。エッジケース、エラー処理、非英語出力において粗削りな部分があることを想定してください。

Azure AI FoundryへのVibeVoice-ASRのデプロイ

GPUインフラストラクチャの管理を望まないチームのために、MicrosoftはAzure AI Foundryを通じてVibeVoice-ASRを提供しています。これにより、ハードウェアをプロビジョニングすることなく、マネージドAPIエンドポイントを利用できます。

Azureデプロイは、スケーリング、モデル更新、インフラストラクチャのメンテナンスを処理します。オーディオファイルを受け入れ、ローカルモデルと同じ「話者/時間/内容」形式で構造化された文字起こしを返すHTTPSエンドポイントを利用できます。

これは、セルフホスト型GPU推論では提供できない一貫した稼働時間とSLA保証が必要な本番ワークロードに特に役立ちます。最新の価格とデプロイオプションについては、Azure AI Foundryのモデルカタログを確認してください。

AzureでホストされているVibeVoiceエンドポイントをアプリケーションに統合する前にテストするには、ApidogでエンドポイントURLと認証ヘッダーを設定し、サンプルオーディオファイルに対してテスト文字起こしを実行してください。

コミュニティとエコシステム

VibeVoiceには活発なコミュニティがあります。

1.5BモデルのHuggingFace月間ダウンロード数**62,630以上**
HuggingFaceでの「いいね」**2,280以上**
モデルを実行しているHuggingFace Spaces**79以上**
コミュニティからのファインチューニングされたバリアント**12種類**
低VRAMデプロイメント向けの量子化バージョン**4種類**
活発なメンテナンスが行われているvibevoice-community/VibeVoiceの**コミュニティフォーク**

注目すべきコミュニティプロジェクト:

VibeVoice-FastAPI: Dockerサポート付きの本番REST APIラッパー
VibeVoice MCP Server: Model Context Protocolを介したAIコーディングツールとの統合
Apple Siliconサポート: MシリーズMac推論用のコミュニティスクリプト
量子化モデル: VRAM使用量を削減するためのGGUFおよびその他の形式

よくある質問

VibeVoiceは無料で使えますか？

はい。3つのモデルすべて（TTS 1.5B、Realtime 0.5B、ASR）はMITライセンスで提供されています。商用および非商用目的で利用できます。Azure AI Foundryのホスティングには、マネージドクラウド推論のための別途料金体系があります。

VibeVoiceはApple Silicon Macで動作しますか？

コミュニティはMシリーズMac推論用のスクリプトを提供しています。VibeVoice-1.5BモデルのHuggingFaceディスカッションを確認してください。CUDA GPUよりもパフォーマンスは低いですが、機能します。

VibeVoiceとElevenLabsの比較はどうですか？

VibeVoiceはローカルで実行され、APIコストがかからず、データがマシンから離れることもありません。ElevenLabsは、より高品質で多くの音声を提供し、セットアップも簡単ですが、有料サブスクリプションとクラウド処理が必要です。プライバシーに配慮したアプリケーションやオフラインでの使用にはVibeVoiceが優れています。本番環境の品質と使いやすさではElevenLabsが進んでいます。

GitHubリポジトリが一時的に無効化されたのはなぜですか？

Microsoftは、人々が音声クローニングを模倣やディープフェイクに利用していることを発見しました。彼らはリポジトリを無効化し、安全機能（可聴免責事項、透かし）を追加して再有効化しました。コミュニティフォークは、停止中も開発を継続しました。

VibeVoiceをカスタム音声でファインチューニングできますか？

はい。コミュニティはHuggingFaceで12種類のファインチューニングされたバリアントを公開しています。トレーニングには、音声サンプル（24kHzモノラルの明瞭なWAVオーディオで30-60秒）とGPUリソースが必要です。

VibeVoiceはどのようなオーディオ形式で出力しますか？

24,000 HzモノラルのWAVです。生成後にffmpegを使用してMP3、OGG、FLAC、その他の形式に変換できます。

VibeVoice-ASRをWhisperの代替として使用できますか？

話者識別を伴う長尺の音声には、はい、使用できます。VibeVoice-ASRは、組み込みのダイアライゼーションにより、60分の録音を1回のパスで処理します。Whisperは話者識別のために外部ツールを必要とし、チャンクなしでは30分を超える録音で苦労します。短くてノイズの多いクリップやエッジでの展開には、Whisperがより良い選択肢です。

VibeVoiceはリアルタイム音声チャットをサポートしていますか？

VibeVoice-Realtime-0.5Bは、約300ミリ秒の初回チャンク遅延でストリーミングテキスト入力をサポートします。これはほぼリアルタイムのアプリケーションで使用可能ですが、全二重音声会話のために設計されたものではありません。それには、Azure OpenAIのGPT-Realtimeまたは同様のホスト型ソリューションを検討してください。

アプリをダウンロード