Apa Itu Microsoft VibeVoice? Cara Menggunakan Model AI Suara Open Source

Ashley Innocent

Ashley Innocent

2 April 2026

Apa Itu Microsoft VibeVoice? Cara Menggunakan Model AI Suara Open Source

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

Intinya

VibeVoice adalah keluarga AI suara sumber terbuka dari Microsoft dengan tiga model: VibeVoice-1.5B untuk teks-ke-suara (hingga 90 menit, 4 pembicara), VibeVoice-Realtime-0.5B untuk TTS streaming, dan VibeVoice-ASR untuk pengenalan suara (audio 60 menit, 50+ bahasa, WER 7,77%). Semua model berlisensi MIT dan berjalan secara lokal. Panduan ini mencakup instalasi, penggunaan, dan integrasi API.

Pendahuluan

Microsoft merilis VibeVoice sebagai kerangka kerja AI suara sumber terbuka pada awal tahun 2026. Ini mencakup model untuk sintesis suara (teks-ke-suara) dan pengenalan suara (pengenalan suara otomatis), semuanya berjalan secara lokal di perangkat keras Anda tanpa ketergantungan cloud.

Kerangka kerja ini memiliki tiga model:

Model TTS menimbulkan kontroversi setelah dirilis. Microsoft untuk sementara menonaktifkan repositori GitHub utama ketika mereka menemukan penyalahgunaan kloning suara. Komunitas mem-fork kode tersebut, dan Microsoft kemudian mengaktifkan kembali repositori dengan pengamanan tambahan: penafian AI yang dapat didengar yang tertanam dalam audio yang dihasilkan dan watermark yang tidak kentara untuk verifikasi asal.

VibeVoice-ASR sekarang tersedia di Azure AI Foundry untuk penerapan cloud. Model TTS tetap berfokus pada penelitian dengan lisensi MIT.

Panduan ini membahas instalasi, pembuatan teks-ke-suara, pengenalan suara, integrasi API, dan cara menguji titik akhir AI suara dengan Apidog.

tombol

Cara kerja VibeVoice: gambaran arsitektur

Terobosan tokenizer

Kemajuan inti VibeVoice adalah tokenizer ucapan berkelanjutannya yang beroperasi pada laju bingkai ultra-rendah sebesar 7,5 Hz. Sebagai perbandingan, sebagian besar model ucapan memproses audio pada 50-100 Hz. Pengurangan laju bingkai 7-13x ini berarti model menangani urutan panjang (90 menit audio) tanpa kehabisan konteks.

Sistem ini menggunakan dua tokenizer:

Difusi token berikutnya

Model ini menggabungkan tulang punggung LLM (Qwen2.5-1.5B) dengan kepala difusi ringan (~123 juta parameter). LLM menangani konteks tekstual dan alur dialog. Kepala difusi menghasilkan detail akustik fidelitas tinggi menggunakan DDPM (Denoising Diffusion Probabilistic Models) dengan Classifier-Free Guidance.

Jumlah total parameter: 3B (termasuk tokenizer dan kepala difusi).

Pendekatan pelatihan

VibeVoice menggunakan pembelajaran kurikulum, secara progresif melatih pada urutan yang lebih panjang: 4K, 16K, 32K, lalu 64K token. Tokenizer yang telah dilatih sebelumnya tetap beku selama fase ini; hanya parameter LLM dan kepala difusi yang diperbarui. Ini memungkinkan model belajar menangani audio yang semakin panjang tanpa melupakan kemampuan bentuk pendek.

Spesifikasi model VibeVoice

Model Parameter Tujuan Panjang maks Bahasa Lisensi
VibeVoice-1.5B 3B (total) Teks-ke-suara 90 menit Inggris, Mandarin MIT
VibeVoice-Realtime-0.5B ~0.5B TTS Streaming Bentuk panjang Inggris, Mandarin MIT
VibeVoice-ASR ~9B Pengenalan suara 60 menit 50+ bahasa MIT

VibeVoice-1.5B (TTS)

Spesifikasi Nilai
Basis LLM Qwen2.5-1.5B
Panjang konteks 64K token
Pembicara maks 4 simultan
Output audio 24kHz WAV mono
Tipe tensor BF16
Format Safetensors
Unduhan HuggingFace 62.630/bulan
Fork komunitas 12 varian yang disetel halus

VibeVoice-ASR

Spesifikasi Nilai
Basis arsitektur Qwen2.5
Parameter ~9B
Pemrosesan audio Hingga 60 menit sekali jalan
Laju bingkai 7.5 Hz
WER rata-rata 7.77% (di 8 dataset bahasa Inggris)
LibriSpeech Clean WER 2.20%
TED-LIUM WER 2.57%
Bahasa 50+
Output Terstruktur (Siapa + Kapan + Apa)
Audio yang didukung WAV, FLAC, MP3 pada 16kHz+

Instalasi dan pengaturan

Prasyarat

Instal VibeVoice TTS

# Clone the repository
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Install dependencies
pip install -r requirements.txt

Model secara otomatis diunduh dari HuggingFace pada saat pertama kali dijalankan. Anda juga dapat mengunduhnya terlebih dahulu:

from huggingface_hub import snapshot_download

# Download the 1.5B TTS model
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

Instal melalui pip (paket komunitas)

pip install vibevoice

Instal untuk ASR

VibeVoice-ASR menggunakan pengaturan terpisah:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Atau sebarkan melalui Azure AI Foundry untuk inferensi cloud terkelola.

Membuat ucapan dengan VibeVoice-1.5B

Pembuatan satu pembicara

Buat file teks dengan skrip Anda:

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

Jalankan inferensi:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

Output disimpan sebagai file .wav di direktori outputs/.

Pembuatan podcast multi-pembicara

VibeVoice menangani hingga 4 pembicara dengan identitas suara yang konsisten sepanjang rekaman:

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.
python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

Model ini mempertahankan karakteristik suara yang berbeda untuk setiap pembicara di seluruh percakapan, bahkan pada durasi 90 menit.

Kloning suara (zero-shot)

Kloning suara dari sampel audio referensi:

Persyaratan audio:

Konversi audio yang ada ke format yang benar:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Gunakan antarmuka demo Gradio untuk kloning suara:

python demo/gradio_demo.py

Ini meluncurkan UI web di http://127.0.0.1:7860 tempat Anda mengunggah audio referensi, memilih suara yang dikloning, dan membuat ucapan.

Streaming dengan VibeVoice-Realtime-0.5B

Untuk aplikasi yang membutuhkan output audio latensi rendah (~300ms potongan pertama):

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Model Realtime lebih kecil dan lebih cepat tetapi menghasilkan audio dengan fidelitas lebih rendah daripada model 1.5B penuh. Gunakan untuk aplikasi interaktif; gunakan 1.5B untuk konten yang telah dibuat sebelumnya.

Menggunakan VibeVoice dengan Python

API Pipeline

from transformers import pipeline
from huggingface_hub import snapshot_download

# Download model
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Load pipeline
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Prepare multi-speaker script
script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

# Apply chat template
input_data = pipe.processor.apply_chat_template(script)

# Generate audio
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

Pembungkus FastAPI untuk produksi

Komunitas membangun pembungkus FastAPI yang mengekspos VibeVoice sebagai API TTS yang kompatibel dengan OpenAI:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

Ini memberi Anda titik akhir API yang kompatibel dengan format TTS OpenAI:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

Titik akhir yang kompatibel dengan OpenAI ini berarti Anda dapat menguji integrasi API VibeVoice Anda dengan Apidog menggunakan format permintaan yang sama dengan yang Anda gunakan untuk API TTS OpenAI. Impor titik akhir, konfigurasikan isi permintaan Anda, dan uji pembuatan suara tanpa menulis kode aplikasi.

Menggunakan VibeVoice-ASR untuk pengenalan suara

Transkripsi dasar

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Format keluaran terstruktur

VibeVoice-ASR menghasilkan transkripsi terstruktur dengan tiga bidang per segmen:

Contoh keluaran:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

ASR sebagai server MCP

VibeVoice-ASR dapat berjalan sebagai server MCP (Model Context Protocol), terhubung langsung ke Claude Code, Cursor, dan alat pengodean AI lainnya:

# Install the MCP server
pip install vibevoice-mcp-server

# Run it
vibevoice-mcp serve

Ini memungkinkan agen pengodean Anda mentranskripsi rapat, catatan suara, atau rekaman audio sebagai bagian dari alur kerjanya. Anda mendiktekan persyaratan, server MCP mentranskripsikannya, dan agen pengodean memproses teks.

Kapan menggunakan VibeVoice-ASR vs Whisper

Kasus penggunaan Pilihan terbaik Mengapa
Rapat panjang (30-60 menit) VibeVoice-ASR Pemrosesan 60 menit sekali jalan, ID pembicara
Wawancara dengan banyak pembicara VibeVoice-ASR Diarisasi bawaan
Podcast yang membutuhkan stempel waktu VibeVoice-ASR Keluaran terstruktur Siapa/Kapan/Apa
Konten multibahasa (50+ bahasa) VibeVoice-ASR Dukungan bahasa yang lebih luas
Klip pendek di lingkungan bising Whisper Ketahanan kebisingan yang lebih baik
Penerapan di perangkat tepi/seluler Whisper Ukuran model lebih kecil, dukungan perangkat lebih luas
Bahasa non-Inggris (khusus) Whisper Penyetelan halus multibahasa yang lebih matang

Menguji API AI suara dengan Apidog

Baik Anda menggunakan pembungkus FastAPI VibeVoice, titik akhir Azure AI Foundry, atau membangun API AI suara Anda sendiri, Apidog membantu Anda menguji dan men-debug integrasi ini.

Uji titik akhir TTS

  1. Buat permintaan POST baru di Apidog yang mengarah ke server FastAPI VibeVoice Anda
  2. Atur isi permintaan ke format yang kompatibel dengan OpenAI:
{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice"
}
  1. Kirim permintaan dan verifikasi header respons mencakup tipe konten audio/wav
  2. Simpan respons sebagai file WAV untuk memverifikasi kualitas audio

Uji titik akhir ASR

Untuk API suara-ke-teks:

  1. Siapkan permintaan POST dengan multipart/form-data
  2. Lampirkan file audio Anda sebagai bidang formulir
  3. Verifikasi respons JSON terstruktur mencakup ID pembicara, stempel waktu, dan teks yang ditranskripsi

Validasi kontrak API audio

API AI suara menangani data biner (file audio) bersama metadata JSON. Pembuat permintaan Apidog menangani keduanya:

Unduh Apidog untuk menguji integrasi AI suara Anda sebelum menerapkan ke produksi.

tombol

Keamanan dan penggunaan yang bertanggung jawab

Microsoft menambahkan beberapa pengamanan setelah insiden penyalahgunaan awal:

Apa yang diizinkan

Apa yang tidak diizinkan

Batasan yang perlu diketahui

Dukungan bahasa sempit untuk TTS. VibeVoice-1.5B mendukung bahasa Inggris dan Mandarin. Bahasa lain menghasilkan output yang tidak dapat dimengerti. VibeVoice-ASR memiliki cakupan yang lebih luas di 50+ bahasa.

Persyaratan perangkat keras tinggi untuk ASR. Model ASR membutuhkan VRAM 24 GB+ (GPU kelas A100/H100). Model TTS berjalan di GPU konsumen dengan VRAM 7-8 GB.

Tidak ada penanganan ucapan tumpang tindih. Model TTS tidak memodelkan pembicara yang berbicara secara bersamaan. Semua dialog berbasis giliran.

Bias model yang diwarisi. Kedua model mewarisi bias dari basis Qwen2.5 mereka. Output dapat berisi konten yang tidak terduga, bias, atau tidak akurat.

Perangkat lunak tingkat penelitian. Ini belum siap produksi. Harapkan ketidaksempurnaan dalam kasus-kasus ekstrem, penanganan kesalahan, dan output non-Inggris.

Menerapkan VibeVoice-ASR di Azure AI Foundry

Untuk tim yang tidak ingin mengelola infrastruktur GPU, Microsoft menyediakan VibeVoice-ASR melalui Azure AI Foundry. Ini memberi Anda titik akhir API terkelola tanpa penyediaan perangkat keras.

Penerapan Azure menangani penskalaan, pembaruan model, dan pemeliharaan infrastruktur. Anda mendapatkan titik akhir HTTPS yang menerima file audio dan mengembalikan transkripsi terstruktur dalam format Siapa/Kapan/Apa yang sama dengan model lokal.

Ini sangat berguna untuk beban kerja produksi di mana Anda membutuhkan uptime yang konsisten dan jaminan SLA yang tidak dapat diberikan oleh inferensi GPU yang di-hosting sendiri. Periksa katalog model Azure AI Foundry untuk harga dan opsi penerapan saat ini.

Untuk menguji titik akhir VibeVoice yang di-hosting Azure sebelum mengintegrasikannya ke dalam aplikasi Anda, atur URL titik akhir dan header autentikasi di Apidog dan jalankan transkripsi pengujian terhadap file audio sampel.

Komunitas dan ekosistem

VibeVoice memiliki komunitas yang aktif:

Proyek komunitas yang patut diperhatikan:

FAQ

Apakah VibeVoice gratis untuk digunakan?

Ya. Ketiga model (TTS 1.5B, Realtime 0.5B, ASR) dilisensikan MIT. Anda dapat menggunakannya untuk tujuan komersial dan non-komersial. Hosting Azure AI Foundry memiliki harga terpisah untuk inferensi cloud terkelola.

Bisakah VibeVoice berjalan di Mac Apple Silicon?

Komunitas telah berkontribusi skrip untuk inferensi Mac seri-M. Periksa diskusi HuggingFace untuk model VibeVoice-1.5B. Performa lebih lambat dari GPU CUDA tetapi fungsional.

Bagaimana perbandingan VibeVoice dengan ElevenLabs?

VibeVoice berjalan secara lokal tanpa biaya API dan tanpa data meninggalkan mesin Anda. ElevenLabs menawarkan kualitas yang lebih tinggi, lebih banyak suara, dan pengaturan yang lebih mudah, tetapi memerlukan langganan berbayar dan pemrosesan cloud. Untuk aplikasi yang sensitif privasi atau penggunaan offline, VibeVoice unggul. Untuk kualitas produksi dan kemudahan penggunaan, ElevenLabs lebih unggul.

Mengapa repositori GitHub dinonaktifkan sementara?

Microsoft menemukan orang-orang menggunakan kloning suara untuk peniruan identitas dan deepfake. Mereka menonaktifkan repositori, menambahkan fitur keamanan (penafian yang dapat didengar, watermarking), dan mengaktifkannya kembali. Fork komunitas menjaga pengembangan tetap berjalan selama waktu henti.

Bisakah saya menyetel halus VibeVoice pada suara khusus?

Ya. Komunitas telah menghasilkan 12 varian yang disetel halus di HuggingFace. Anda memerlukan sampel suara (audio WAV jernih 30-60 detik pada 24kHz mono) dan sumber daya GPU untuk pelatihan.

Format audio apa yang dihasilkan VibeVoice?

WAV pada 24.000 Hz mono. Anda dapat mengonversi ke MP3, OGG, FLAC, atau format lain dengan ffmpeg setelah pembuatan.

Bisakah saya menggunakan VibeVoice-ASR sebagai pengganti Whisper?

Untuk audio bentuk panjang dengan identifikasi pembicara, ya. VibeVoice-ASR menangani rekaman 60 menit dalam satu kali jalan dengan diarisasi bawaan. Whisper membutuhkan alat eksternal untuk identifikasi pembicara dan kesulitan dengan rekaman lebih dari 30 menit tanpa pemotongan. Untuk klip pendek, bising, atau penerapan di perangkat tepi, Whisper tetap menjadi pilihan yang lebih baik.

Apakah VibeVoice mendukung obrolan suara waktu nyata?

VibeVoice-Realtime-0.5B mendukung input teks streaming dengan latensi potongan pertama ~300ms. Ini dapat digunakan untuk aplikasi mendekati waktu nyata tetapi tidak dirancang untuk percakapan suara dupleks penuh. Untuk itu, lihat GPT-Realtime Azure OpenAI atau solusi hosting serupa.

tombol

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.