Apa Itu Microsoft VibeVoice? Cara Menggunakan Model AI Suara Open Source

Intinya

VibeVoice adalah keluarga AI suara sumber terbuka dari Microsoft dengan tiga model: VibeVoice-1.5B untuk teks-ke-suara (hingga 90 menit, 4 pembicara), VibeVoice-Realtime-0.5B untuk TTS streaming, dan VibeVoice-ASR untuk pengenalan suara (audio 60 menit, 50+ bahasa, WER 7,77%). Semua model berlisensi MIT dan berjalan secara lokal. Panduan ini mencakup instalasi, penggunaan, dan integrasi API.

Pendahuluan

Microsoft merilis VibeVoice sebagai kerangka kerja AI suara sumber terbuka pada awal tahun 2026. Ini mencakup model untuk sintesis suara (teks-ke-suara) dan pengenalan suara (pengenalan suara otomatis), semuanya berjalan secara lokal di perangkat keras Anda tanpa ketergantungan cloud.

Kerangka kerja ini memiliki tiga model:

VibeVoice-1.5B menghasilkan audio percakapan multi-pembicara yang ekspresif dari naskah teks. Ini dapat mensintesis hingga 90 menit ucapan dengan 4 pembicara berbeda dalam satu kali jalan.
VibeVoice-Realtime-0.5B adalah varian streaming ringan yang menghasilkan audio dengan latensi potongan pertama ~300ms.
VibeVoice-ASR mentranskripsikan hingga 60 menit audio berkelanjutan dengan identifikasi pembicara, stempel waktu, dan keluaran terstruktur di lebih dari 50 bahasa.

Model TTS menimbulkan kontroversi setelah dirilis. Microsoft untuk sementara menonaktifkan repositori GitHub utama ketika mereka menemukan penyalahgunaan kloning suara. Komunitas mem-fork kode tersebut, dan Microsoft kemudian mengaktifkan kembali repositori dengan pengamanan tambahan: penafian AI yang dapat didengar yang tertanam dalam audio yang dihasilkan dan watermark yang tidak kentara untuk verifikasi asal.

VibeVoice-ASR sekarang tersedia di Azure AI Foundry untuk penerapan cloud. Model TTS tetap berfokus pada penelitian dengan lisensi MIT.

Panduan ini membahas instalasi, pembuatan teks-ke-suara, pengenalan suara, integrasi API, dan cara menguji titik akhir AI suara dengan Apidog.

tombol

Cara kerja VibeVoice: gambaran arsitektur

Terobosan tokenizer

Kemajuan inti VibeVoice adalah tokenizer ucapan berkelanjutannya yang beroperasi pada laju bingkai ultra-rendah sebesar 7,5 Hz. Sebagai perbandingan, sebagian besar model ucapan memproses audio pada 50-100 Hz. Pengurangan laju bingkai 7-13x ini berarti model menangani urutan panjang (90 menit audio) tanpa kehabisan konteks.

Sistem ini menggunakan dua tokenizer:

Tokenizer Akustik: Varian sigma-VAE dengan ~340 juta parameter dalam encoder-decoder simetris cermin. Ini melakukan downsample 3.200x dari audio masukan 24kHz.
Tokenizer Semantik: Mencerminkan arsitektur tokenizer akustik tetapi dilatih dengan tugas proxy ASR untuk menangkap makna linguistik.

Difusi token berikutnya

Model ini menggabungkan tulang punggung LLM (Qwen2.5-1.5B) dengan kepala difusi ringan (~123 juta parameter). LLM menangani konteks tekstual dan alur dialog. Kepala difusi menghasilkan detail akustik fidelitas tinggi menggunakan DDPM (Denoising Diffusion Probabilistic Models) dengan Classifier-Free Guidance.

Jumlah total parameter: 3B (termasuk tokenizer dan kepala difusi).

Pendekatan pelatihan

VibeVoice menggunakan pembelajaran kurikulum, secara progresif melatih pada urutan yang lebih panjang: 4K, 16K, 32K, lalu 64K token. Tokenizer yang telah dilatih sebelumnya tetap beku selama fase ini; hanya parameter LLM dan kepala difusi yang diperbarui. Ini memungkinkan model belajar menangani audio yang semakin panjang tanpa melupakan kemampuan bentuk pendek.

Spesifikasi model VibeVoice

Model	Parameter	Tujuan	Panjang maks	Bahasa	Lisensi
VibeVoice-1.5B	3B (total)	Teks-ke-suara	90 menit	Inggris, Mandarin	MIT
VibeVoice-Realtime-0.5B	~0.5B	TTS Streaming	Bentuk panjang	Inggris, Mandarin	MIT
VibeVoice-ASR	~9B	Pengenalan suara	60 menit	50+ bahasa	MIT

VibeVoice-1.5B (TTS)

Spesifikasi	Nilai
Basis LLM	Qwen2.5-1.5B
Panjang konteks	64K token
Pembicara maks	4 simultan
Output audio	24kHz WAV mono
Tipe tensor	BF16
Format	Safetensors
Unduhan HuggingFace	62.630/bulan
Fork komunitas	12 varian yang disetel halus

VibeVoice-ASR

Spesifikasi	Nilai
Basis arsitektur	Qwen2.5
Parameter	~9B
Pemrosesan audio	Hingga 60 menit sekali jalan
Laju bingkai	7.5 Hz
WER rata-rata	7.77% (di 8 dataset bahasa Inggris)
LibriSpeech Clean WER	2.20%
TED-LIUM WER	2.57%
Bahasa	50+
Output	Terstruktur (Siapa + Kapan + Apa)
Audio yang didukung	WAV, FLAC, MP3 pada 16kHz+

Instalasi dan pengaturan

Prasyarat

Python 3.8+
GPU NVIDIA dengan dukungan CUDA
Minimal 7-8 GB VRAM untuk model TTS
Minimal 24 GB VRAM untuk model ASR (A100/H100 direkomendasikan)
RAM minimal 32 GB (64 GB direkomendasikan untuk ASR)
CUDA 11.8+ (CUDA 12.0+ direkomendasikan)

Instal VibeVoice TTS

# Clone the repository
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Install dependencies
pip install -r requirements.txt

Model secara otomatis diunduh dari HuggingFace pada saat pertama kali dijalankan. Anda juga dapat mengunduhnya terlebih dahulu:

from huggingface_hub import snapshot_download

# Download the 1.5B TTS model
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

Instal melalui pip (paket komunitas)

pip install vibevoice

Instal untuk ASR

VibeVoice-ASR menggunakan pengaturan terpisah:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Atau sebarkan melalui Azure AI Foundry untuk inferensi cloud terkelola.

Membuat ucapan dengan VibeVoice-1.5B

Pembuatan satu pembicara

Buat file teks dengan skrip Anda:

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

Jalankan inferensi:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

Output disimpan sebagai file .wav di direktori outputs/.

Pembuatan podcast multi-pembicara

VibeVoice menangani hingga 4 pembicara dengan identitas suara yang konsisten sepanjang rekaman:

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

Model ini mempertahankan karakteristik suara yang berbeda untuk setiap pembicara di seluruh percakapan, bahkan pada durasi 90 menit.

Kloning suara (zero-shot)

Kloning suara dari sampel audio referensi:

Persyaratan audio:

Format: WAV (mono)
Laju sampel: 24.000 Hz
Durasi: 30-60 detik ucapan yang jelas

Konversi audio yang ada ke format yang benar:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Gunakan antarmuka demo Gradio untuk kloning suara:

python demo/gradio_demo.py

Ini meluncurkan UI web di http://127.0.0.1:7860 tempat Anda mengunggah audio referensi, memilih suara yang dikloning, dan membuat ucapan.

Streaming dengan VibeVoice-Realtime-0.5B

Untuk aplikasi yang membutuhkan output audio latensi rendah (~300ms potongan pertama):

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Model Realtime lebih kecil dan lebih cepat tetapi menghasilkan audio dengan fidelitas lebih rendah daripada model 1.5B penuh. Gunakan untuk aplikasi interaktif; gunakan 1.5B untuk konten yang telah dibuat sebelumnya.

Menggunakan VibeVoice dengan Python

API Pipeline

from transformers import pipeline
from huggingface_hub import snapshot_download

# Download model
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Load pipeline
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Prepare multi-speaker script
script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

# Apply chat template
input_data = pipe.processor.apply_chat_template(script)

# Generate audio
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

Pembungkus FastAPI untuk produksi

Komunitas membangun pembungkus FastAPI yang mengekspos VibeVoice sebagai API TTS yang kompatibel dengan OpenAI:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

Ini memberi Anda titik akhir API yang kompatibel dengan format TTS OpenAI:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

Titik akhir yang kompatibel dengan OpenAI ini berarti Anda dapat menguji integrasi API VibeVoice Anda dengan Apidog menggunakan format permintaan yang sama dengan yang Anda gunakan untuk API TTS OpenAI. Impor titik akhir, konfigurasikan isi permintaan Anda, dan uji pembuatan suara tanpa menulis kode aplikasi.

Menggunakan VibeVoice-ASR untuk pengenalan suara

Transkripsi dasar

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Format keluaran terstruktur

VibeVoice-ASR menghasilkan transkripsi terstruktur dengan tiga bidang per segmen:

Siapa: Identitas pembicara (Pembicara 1, Pembicara 2, dll.)
Kapan: Stempel waktu mulai dan akhir
Apa: Konten teks yang ditranskripsi

Contoh keluaran:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

ASR sebagai server MCP

VibeVoice-ASR dapat berjalan sebagai server MCP (Model Context Protocol), terhubung langsung ke Claude Code, Cursor, dan alat pengodean AI lainnya:

# Install the MCP server
pip install vibevoice-mcp-server

# Run it
vibevoice-mcp serve

Ini memungkinkan agen pengodean Anda mentranskripsi rapat, catatan suara, atau rekaman audio sebagai bagian dari alur kerjanya. Anda mendiktekan persyaratan, server MCP mentranskripsikannya, dan agen pengodean memproses teks.

Kapan menggunakan VibeVoice-ASR vs Whisper

Kasus penggunaan	Pilihan terbaik	Mengapa
Rapat panjang (30-60 menit)	VibeVoice-ASR	Pemrosesan 60 menit sekali jalan, ID pembicara
Wawancara dengan banyak pembicara	VibeVoice-ASR	Diarisasi bawaan
Podcast yang membutuhkan stempel waktu	VibeVoice-ASR	Keluaran terstruktur Siapa/Kapan/Apa
Konten multibahasa (50+ bahasa)	VibeVoice-ASR	Dukungan bahasa yang lebih luas
Klip pendek di lingkungan bising	Whisper	Ketahanan kebisingan yang lebih baik
Penerapan di perangkat tepi/seluler	Whisper	Ukuran model lebih kecil, dukungan perangkat lebih luas
Bahasa non-Inggris (khusus)	Whisper	Penyetelan halus multibahasa yang lebih matang

Menguji API AI suara dengan Apidog

Baik Anda menggunakan pembungkus FastAPI VibeVoice, titik akhir Azure AI Foundry, atau membangun API AI suara Anda sendiri, Apidog membantu Anda menguji dan men-debug integrasi ini.

Uji titik akhir TTS

Buat permintaan POST baru di Apidog yang mengarah ke server FastAPI VibeVoice Anda
Atur isi permintaan ke format yang kompatibel dengan OpenAI:

{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice"
}

Kirim permintaan dan verifikasi header respons mencakup tipe konten audio/wav
Simpan respons sebagai file WAV untuk memverifikasi kualitas audio

Uji titik akhir ASR

Untuk API suara-ke-teks:

Siapkan permintaan POST dengan multipart/form-data
Lampirkan file audio Anda sebagai bidang formulir
Verifikasi respons JSON terstruktur mencakup ID pembicara, stempel waktu, dan teks yang ditranskripsi

Validasi kontrak API audio

API AI suara menangani data biner (file audio) bersama metadata JSON. Pembuat permintaan Apidog menangani keduanya:

Unggahan file biner untuk titik akhir ASR
Pemformatan isi JSON untuk titik akhir TTS
Validasi respons untuk keluaran transkripsi terstruktur
Variabel lingkungan untuk beralih antara titik akhir lokal dan cloud

Unduh Apidog untuk menguji integrasi AI suara Anda sebelum menerapkan ke produksi.

tombol

Keamanan dan penggunaan yang bertanggung jawab

Microsoft menambahkan beberapa pengamanan setelah insiden penyalahgunaan awal:

Penafian AI yang dapat didengar: Semua audio yang dihasilkan menyertakan pesan otomatis "Segmen ini dihasilkan oleh AI"
Watermarking yang tidak kentara: Penanda tersembunyi memungkinkan verifikasi pihak ketiga atas konten yang dihasilkan VibeVoice
Pencatatan inferensi: Log hash mendeteksi pola penyalahgunaan dengan statistik agregat triwulanan
Lisensi MIT: Mengizinkan penggunaan komersial, tetapi Microsoft merekomendasikan untuk tidak menerapkan ke produksi tanpa pengujian lebih lanjut

Apa yang diizinkan

Penggunaan untuk penelitian dan akademik
Prototyping dan pengujian internal
Pembuatan podcast dengan pengungkapan AI yang sesuai
Aplikasi aksesibilitas (teks-ke-suara untuk pengguna tunanetra)

Apa yang tidak diizinkan

Peniruan suara tanpa persetujuan tertulis yang jelas
Deepfake atau menyajikan audio AI sebagai rekaman manusia asli
Konversi suara waktu nyata untuk aplikasi deepfake langsung
Menghasilkan audio non-ucapan (musik, efek suara)

Batasan yang perlu diketahui

Dukungan bahasa sempit untuk TTS. VibeVoice-1.5B mendukung bahasa Inggris dan Mandarin. Bahasa lain menghasilkan output yang tidak dapat dimengerti. VibeVoice-ASR memiliki cakupan yang lebih luas di 50+ bahasa.

Persyaratan perangkat keras tinggi untuk ASR. Model ASR membutuhkan VRAM 24 GB+ (GPU kelas A100/H100). Model TTS berjalan di GPU konsumen dengan VRAM 7-8 GB.

Tidak ada penanganan ucapan tumpang tindih. Model TTS tidak memodelkan pembicara yang berbicara secara bersamaan. Semua dialog berbasis giliran.

Bias model yang diwarisi. Kedua model mewarisi bias dari basis Qwen2.5 mereka. Output dapat berisi konten yang tidak terduga, bias, atau tidak akurat.

Perangkat lunak tingkat penelitian. Ini belum siap produksi. Harapkan ketidaksempurnaan dalam kasus-kasus ekstrem, penanganan kesalahan, dan output non-Inggris.

Menerapkan VibeVoice-ASR di Azure AI Foundry

Untuk tim yang tidak ingin mengelola infrastruktur GPU, Microsoft menyediakan VibeVoice-ASR melalui Azure AI Foundry. Ini memberi Anda titik akhir API terkelola tanpa penyediaan perangkat keras.

Penerapan Azure menangani penskalaan, pembaruan model, dan pemeliharaan infrastruktur. Anda mendapatkan titik akhir HTTPS yang menerima file audio dan mengembalikan transkripsi terstruktur dalam format Siapa/Kapan/Apa yang sama dengan model lokal.

Ini sangat berguna untuk beban kerja produksi di mana Anda membutuhkan uptime yang konsisten dan jaminan SLA yang tidak dapat diberikan oleh inferensi GPU yang di-hosting sendiri. Periksa katalog model Azure AI Foundry untuk harga dan opsi penerapan saat ini.

Untuk menguji titik akhir VibeVoice yang di-hosting Azure sebelum mengintegrasikannya ke dalam aplikasi Anda, atur URL titik akhir dan header autentikasi di Apidog dan jalankan transkripsi pengujian terhadap file audio sampel.

Komunitas dan ekosistem

VibeVoice memiliki komunitas yang aktif:

62.630+ unduhan bulanan HuggingFace untuk model 1.5B
2.280+ suka di HuggingFace
79+ Ruang HuggingFace yang menjalankan model
12 varian yang disetel halus dari komunitas
4 versi terkuantisasi untuk penerapan VRAM yang lebih rendah
Fork komunitas di vibevoice-community/VibeVoice dengan pemeliharaan aktif

Proyek komunitas yang patut diperhatikan:

VibeVoice-FastAPI: Pembungkus API REST produksi dengan dukungan Docker
VibeVoice MCP Server: Integrasi dengan alat pengodean AI melalui Model Context Protocol
Dukungan Apple Silicon: Skrip komunitas untuk inferensi Mac seri-M
Model terkuantisasi: GGUF dan format lain untuk penggunaan VRAM yang berkurang

FAQ

Apakah VibeVoice gratis untuk digunakan?

Ya. Ketiga model (TTS 1.5B, Realtime 0.5B, ASR) dilisensikan MIT. Anda dapat menggunakannya untuk tujuan komersial dan non-komersial. Hosting Azure AI Foundry memiliki harga terpisah untuk inferensi cloud terkelola.

Bisakah VibeVoice berjalan di Mac Apple Silicon?

Komunitas telah berkontribusi skrip untuk inferensi Mac seri-M. Periksa diskusi HuggingFace untuk model VibeVoice-1.5B. Performa lebih lambat dari GPU CUDA tetapi fungsional.

Bagaimana perbandingan VibeVoice dengan ElevenLabs?

VibeVoice berjalan secara lokal tanpa biaya API dan tanpa data meninggalkan mesin Anda. ElevenLabs menawarkan kualitas yang lebih tinggi, lebih banyak suara, dan pengaturan yang lebih mudah, tetapi memerlukan langganan berbayar dan pemrosesan cloud. Untuk aplikasi yang sensitif privasi atau penggunaan offline, VibeVoice unggul. Untuk kualitas produksi dan kemudahan penggunaan, ElevenLabs lebih unggul.

Mengapa repositori GitHub dinonaktifkan sementara?

Microsoft menemukan orang-orang menggunakan kloning suara untuk peniruan identitas dan deepfake. Mereka menonaktifkan repositori, menambahkan fitur keamanan (penafian yang dapat didengar, watermarking), dan mengaktifkannya kembali. Fork komunitas menjaga pengembangan tetap berjalan selama waktu henti.

Bisakah saya menyetel halus VibeVoice pada suara khusus?

Ya. Komunitas telah menghasilkan 12 varian yang disetel halus di HuggingFace. Anda memerlukan sampel suara (audio WAV jernih 30-60 detik pada 24kHz mono) dan sumber daya GPU untuk pelatihan.

Format audio apa yang dihasilkan VibeVoice?

WAV pada 24.000 Hz mono. Anda dapat mengonversi ke MP3, OGG, FLAC, atau format lain dengan ffmpeg setelah pembuatan.

Bisakah saya menggunakan VibeVoice-ASR sebagai pengganti Whisper?

Untuk audio bentuk panjang dengan identifikasi pembicara, ya. VibeVoice-ASR menangani rekaman 60 menit dalam satu kali jalan dengan diarisasi bawaan. Whisper membutuhkan alat eksternal untuk identifikasi pembicara dan kesulitan dengan rekaman lebih dari 30 menit tanpa pemotongan. Untuk klip pendek, bising, atau penerapan di perangkat tepi, Whisper tetap menjadi pilihan yang lebih baik.

Apakah VibeVoice mendukung obrolan suara waktu nyata?

VibeVoice-Realtime-0.5B mendukung input teks streaming dengan latensi potongan pertama ~300ms. Ini dapat digunakan untuk aplikasi mendekati waktu nyata tetapi tidak dirancang untuk percakapan suara dupleks penuh. Untuk itu, lihat GPT-Realtime Azure OpenAI atau solusi hosting serupa.

tombol