Microsoft VibeVoiceとは?オープンソース音声AIモデルの使い方

Ashley Innocent

Ashley Innocent

2 4月 2026

Microsoft VibeVoiceとは?オープンソース音声AIモデルの使い方

結論

VibeVoiceは、Microsoftが提供するオープンソースの音声AIファミリーで、以下の3つのモデルが含まれています。テキスト読み上げ(最大90分、4話者)用のVibeVoice-1.5B、ストリーミングTTS用のVibeVoice-Realtime-0.5B、音声認識(60分の音声、50以上の言語、WER 7.77%)用のVibeVoice-ASRです。すべてのモデルはMITライセンスで提供され、ローカルで実行できます。このガイドでは、インストール、使用方法、およびAPI統合について説明します。

はじめに

Microsoftは2026年初頭にVibeVoiceをオープンソースの音声AIフレームワークとしてリリースしました。これは音声合成(テキスト読み上げ)と音声認識(自動音声認識)の両方のモデルを含み、すべてクラウドに依存することなく、お使いのハードウェア上でローカルに実行されます。

このフレームワークには3つのモデルがあります。

TTSモデルはリリース後に論争を巻き起こしました。Microsoftは、音声クローニングの悪用を発見した後、一時的に主要なGitHubリポジトリを無効にしました。コミュニティはコードをフォークし、Microsoftはその後、追加のセーフガード(生成された音声に埋め込まれる聞き取れるAI免責事項と、出所の検証のための知覚できない透かし)とともにリポジトリを再有効化しました。

VibeVoice-ASRは現在、クラウド展開のためにAzure AI Foundryで利用可能です。TTSモデルはMITライセンスで研究目的のままです。

このガイドでは、インストール、テキスト読み上げの生成、音声認識、API統合、およびApidogで音声AIエンドポイントをテストする方法について説明します。

アプリをダウンロード

VibeVoiceの仕組み:アーキテクチャ概要

トークナイザーの画期的な進歩

VibeVoiceの中核となる進歩は、**7.5 Hz**という超低フレームレートで動作する連続音声トークナイザーです。比較として、ほとんどの音声モデルは50-100 Hzで音声を処理します。このフレームレートの7〜13倍の削減により、モデルはコンテキストを使い果たすことなく、長いシーケンス(90分の音声)を処理できます。

このシステムは2つのトークナイザーを使用します。

次トークン拡散

このモデルは、LLMバックボーン(Qwen2.5-1.5B)と軽量な拡散ヘッド(約1億2300万パラメーター)を組み合わせています。LLMはテキストのコンテキストと対話の流れを処理します。拡散ヘッドは、Classifier-Free Guidanceを用いたDDPM(Denoising Diffusion Probabilistic Models)を使用して、高忠実度の音響詳細を生成します。

総パラメーター数:**30億**(トークナイザーと拡散ヘッドを含む)。

トレーニングアプローチ

VibeVoiceはカリキュラム学習を使用し、4K、16K、32K、そして64Kトークンというように、より長いシーケンスで段階的にトレーニングを行います。この段階では事前学習済みのトークナイザーは固定され、LLMと拡散ヘッドのパラメーターのみが更新されます。これにより、モデルは短尺の機能を忘れることなく、ますます長尺の音声を処理できるようになります。

VibeVoiceモデルの仕様

モデル パラメーター 目的 最大長 言語 ライセンス
VibeVoice-1.5B 3B (合計) テキスト読み上げ 90分 英語、中国語 MIT
VibeVoice-Realtime-0.5B 約0.5B ストリーミングTTS 長尺 英語、中国語 MIT
VibeVoice-ASR 約9B 音声認識 60分 50以上の言語 MIT

VibeVoice-1.5B (TTS)

仕様
LLMベース Qwen2.5-1.5B
コンテキスト長 64Kトークン
最大話者数 4人同時
音声出力 24kHz WAV モノラル
テンソル型 BF16
形式 Safetensors
HuggingFaceダウンロード数 62,630/月
コミュニティフォーク数 12種類のファインチューニング済みバリアント

VibeVoice-ASR

仕様
アーキテクチャベース Qwen2.5
パラメーター 約9B
音声処理 1回のパスで最大60分
フレームレート 7.5 Hz
平均WER 7.77%(8つの英語データセット全体)
LibriSpeech Clean WER 2.20%
TED-LIUM WER 2.57%
言語 50以上
出力 構造化(話者 + 時間 + 内容)
対応音声 16kHz以上のWAV、FLAC、MP3

インストールとセットアップ

前提条件

VibeVoice TTSをインストール

# リポジトリをクローン
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# 依存関係をインストール
pip install -r requirements.txt

モデルは初回実行時にHuggingFaceから自動的にダウンロードされます。事前にダウンロードすることもできます。

from huggingface_hub import snapshot_download

# 1.5B TTSモデルをダウンロード
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

pip経由でインストール(コミュニティパッケージ)

pip install vibevoice

ASR用にインストール

VibeVoice-ASRは別のセットアップを使用します。

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

あるいは、マネージドクラウド推論のためにAzure AI Foundry経由でデプロイします。

VibeVoice-1.5Bで音声を生成する

単一話者での生成

スクリプトを含むテキストファイルを作成します。

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

推論を実行します。

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

出力はoutputs/ディレクトリに.wavファイルとして保存されます。

複数話者のポッドキャスト生成

VibeVoiceは、録音全体で一貫した音声識別を持つ最大4人の話者を処理できます。

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.
python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

モデルは、90分の長さでも、会話全体を通して各話者の明確な音声特性を維持します。

音声クローニング(ゼロショット)

参照オーディオサンプルから音声をクローンします。

音声要件:

既存の音声を正しい形式に変換します。

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

音声クローニングにはGradioデモインターフェースを使用します。

python demo/gradio_demo.py

これにより、http://127.0.0.1:7860 でウェブUIが起動し、参照音声をアップロードし、クローンする音声を選択して、音声を生成できます。

VibeVoice-Realtime-0.5Bによるストリーミング

低遅延の音声出力(初回チャンク約300ms)を必要とするアプリケーション向け:

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Realtimeモデルはより小さく高速ですが、フル1.5Bモデルよりも音質が低くなります。インタラクティブなアプリケーションにはRealtimeモデルを、事前生成するコンテンツには1.5Bモデルを使用してください。

PythonでVibeVoiceを使用する

パイプラインAPI

from transformers import pipeline
from huggingface_hub import snapshot_download

# モデルをダウンロード
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# パイプラインをロード
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# 複数話者スクリプトを準備
script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

# チャットテンプレートを適用
input_data = pipe.processor.apply_chat_template(script)

# 音声を生成
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

本番環境向けFastAPIラッパー

コミュニティは、VibeVoiceをOpenAI互換のTTS APIとして公開するFastAPIラッパーを構築しました。

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

これにより、OpenAIのTTS形式と互換性のあるAPIエンドポイントが提供されます。

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

このOpenAI互換のエンドポイントにより、OpenAIのTTS APIと同じリクエスト形式を使用して、ApidogでVibeVoice API統合をテストできます。エンドポイントをインポートし、リクエストボディを設定して、アプリケーションコードを書かずに音声生成をテストできます。

VibeVoice-ASRで音声認識を使用する

基本的な文字起こし

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

構造化出力形式

VibeVoice-ASRは、セグメントごとに3つのフィールドを持つ構造化された文字起こしを生成します。

出力例:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

MCPサーバーとしてのASR

VibeVoice-ASRは、MCP(Model Context Protocol)サーバーとして動作し、Claude Code、Cursor、その他のAIコーディングツールに直接プラグインできます。

# MCPサーバーをインストール
pip install vibevoice-mcp-server

# 実行
vibevoice-mcp serve

これにより、コーディングエージェントはワークフローの一部として会議、音声メモ、または録音を文字起こしできます。要件を指示すると、MCPサーバーがそれを文字起こしし、コーディングエージェントがテキストを処理します。

VibeVoice-ASRとWhisperの使い分け

ユースケース 最適な選択肢 理由
長時間の会議(30-60分) VibeVoice-ASR 60分を1回のパスで処理、話者識別
複数話者のインタビュー VibeVoice-ASR 組み込みのダイアライゼーション
タイムスタンプが必要なポッドキャスト VibeVoice-ASR 構造化された「話者/時間/内容」出力
多言語コンテンツ(50以上の言語) VibeVoice-ASR 幅広い言語サポート
騒がしい環境での短いクリップ Whisper 優れたノイズ耐性
エッジ/モバイル展開 Whisper より小さなモデルサイズ、幅広いデバイスサポート
英語以外の言語(専門的) Whisper より成熟した多言語ファインチューニング

Apidogで音声AI APIをテストする

VibeVoice FastAPIラッパー、Azure AI Foundryエンドポイントを使用する場合でも、独自の音声AI APIを構築する場合でも、Apidogはこれらの統合のテストとデバッグを支援します。

TTSエンドポイントをテストする

  1. ApidogでVibeVoice FastAPIサーバーを指す新しいPOSTリクエストを作成します。
  2. リクエストボディをOpenAI互換の形式に設定します。
{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice",
  "response_format": "wav"
}
  1. リクエストを送信し、レスポンスヘッダーにaudio/wavコンテンツタイプが含まれていることを確認します。
  2. レスポンスをWAVファイルとして保存し、音質を確認します。

ASRエンドポイントをテストする

音声テキスト変換APIの場合:

  1. multipart/form-dataでPOSTリクエストを設定します。
  2. オーディオファイルをフォームフィールドとして添付します。
  3. 構造化されたJSONレスポンスに話者ID、タイムスタンプ、文字起こしされたテキストが含まれていることを確認します。

オーディオAPIコントラクトを検証する

音声AI APIは、JSONメタデータとともにバイナリデータ(オーディオファイル)を処理します。Apidogのリクエストビルダーは両方を処理します。

本番環境にデプロイする前に、Apidogをダウンロードして音声AI統合をテストしてください。

アプリをダウンロード

安全性と責任ある利用

Microsoftは、最初の悪用事件の後、いくつかの安全策を追加しました。

許可されること

許可されないこと

知っておくべき制限事項

TTSの言語サポートは限られています。 VibeVoice-1.5Bは英語と中国語をサポートしています。他の言語では理解不能な出力が生成されます。VibeVoice-ASRは50以上の言語でより幅広いカバー範囲を持っています。

ASRのハードウェア要件は厳しいです。 ASRモデルには24 GB以上のVRAM(A100/H100クラスのGPU)が必要です。TTSモデルは7-8 GBのVRAMを持つ消費者向けGPUで動作します。

重複する音声の処理はありません。 TTSモデルは、話者が互いに話し合う状況をモデル化しません。すべての対話はターンベースです。

継承されたモデルバイアス。 両方のモデルは、Qwen2.5ベースからバイアスを継承しています。出力には、予期せぬ、偏った、または不正確な内容が含まれる可能性があります。

研究レベルのソフトウェア。 これは本番環境向けではありません。エッジケース、エラー処理、非英語出力において粗削りな部分があることを想定してください。

Azure AI FoundryへのVibeVoice-ASRのデプロイ

GPUインフラストラクチャの管理を望まないチームのために、MicrosoftはAzure AI Foundryを通じてVibeVoice-ASRを提供しています。これにより、ハードウェアをプロビジョニングすることなく、マネージドAPIエンドポイントを利用できます。

Azureデプロイは、スケーリング、モデル更新、インフラストラクチャのメンテナンスを処理します。オーディオファイルを受け入れ、ローカルモデルと同じ「話者/時間/内容」形式で構造化された文字起こしを返すHTTPSエンドポイントを利用できます。

これは、セルフホスト型GPU推論では提供できない一貫した稼働時間とSLA保証が必要な本番ワークロードに特に役立ちます。最新の価格とデプロイオプションについては、Azure AI Foundryのモデルカタログを確認してください。

AzureでホストされているVibeVoiceエンドポイントをアプリケーションに統合する前にテストするには、ApidogでエンドポイントURLと認証ヘッダーを設定し、サンプルオーディオファイルに対してテスト文字起こしを実行してください。

コミュニティとエコシステム

VibeVoiceには活発なコミュニティがあります。

注目すべきコミュニティプロジェクト:

よくある質問

VibeVoiceは無料で使えますか?

はい。3つのモデルすべて(TTS 1.5B、Realtime 0.5B、ASR)はMITライセンスで提供されています。商用および非商用目的で利用できます。Azure AI Foundryのホスティングには、マネージドクラウド推論のための別途料金体系があります。

VibeVoiceはApple Silicon Macで動作しますか?

コミュニティはMシリーズMac推論用のスクリプトを提供しています。VibeVoice-1.5BモデルのHuggingFaceディスカッションを確認してください。CUDA GPUよりもパフォーマンスは低いですが、機能します。

VibeVoiceとElevenLabsの比較はどうですか?

VibeVoiceはローカルで実行され、APIコストがかからず、データがマシンから離れることもありません。ElevenLabsは、より高品質で多くの音声を提供し、セットアップも簡単ですが、有料サブスクリプションとクラウド処理が必要です。プライバシーに配慮したアプリケーションやオフラインでの使用にはVibeVoiceが優れています。本番環境の品質と使いやすさではElevenLabsが進んでいます。

GitHubリポジトリが一時的に無効化されたのはなぜですか?

Microsoftは、人々が音声クローニングを模倣やディープフェイクに利用していることを発見しました。彼らはリポジトリを無効化し、安全機能(可聴免責事項、透かし)を追加して再有効化しました。コミュニティフォークは、停止中も開発を継続しました。

VibeVoiceをカスタム音声でファインチューニングできますか?

はい。コミュニティはHuggingFaceで12種類のファインチューニングされたバリアントを公開しています。トレーニングには、音声サンプル(24kHzモノラルの明瞭なWAVオーディオで30-60秒)とGPUリソースが必要です。

VibeVoiceはどのようなオーディオ形式で出力しますか?

24,000 HzモノラルのWAVです。生成後にffmpegを使用してMP3、OGG、FLAC、その他の形式に変換できます。

VibeVoice-ASRをWhisperの代替として使用できますか?

話者識別を伴う長尺の音声には、はい、使用できます。VibeVoice-ASRは、組み込みのダイアライゼーションにより、60分の録音を1回のパスで処理します。Whisperは話者識別のために外部ツールを必要とし、チャンクなしでは30分を超える録音で苦労します。短くてノイズの多いクリップやエッジでの展開には、Whisperがより良い選択肢です。

VibeVoiceはリアルタイム音声チャットをサポートしていますか?

VibeVoice-Realtime-0.5Bは、約300ミリ秒の初回チャンク遅延でストリーミングテキスト入力をサポートします。これはほぼリアルタイムのアプリケーションで使用可能ですが、全二重音声会話のために設計されたものではありません。それには、Azure OpenAIのGPT-Realtimeまたは同様のホスト型ソリューションを検討してください。

アプリをダウンロード

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる