Intinya
VibeVoice adalah keluarga AI suara sumber terbuka dari Microsoft dengan tiga model: VibeVoice-1.5B untuk teks-ke-suara (hingga 90 menit, 4 pembicara), VibeVoice-Realtime-0.5B untuk TTS streaming, dan VibeVoice-ASR untuk pengenalan suara (audio 60 menit, 50+ bahasa, WER 7,77%). Semua model berlisensi MIT dan berjalan secara lokal. Panduan ini mencakup instalasi, penggunaan, dan integrasi API.
Pendahuluan
Microsoft merilis VibeVoice sebagai kerangka kerja AI suara sumber terbuka pada awal tahun 2026. Ini mencakup model untuk sintesis suara (teks-ke-suara) dan pengenalan suara (pengenalan suara otomatis), semuanya berjalan secara lokal di perangkat keras Anda tanpa ketergantungan cloud.

Kerangka kerja ini memiliki tiga model:
- VibeVoice-1.5B menghasilkan audio percakapan multi-pembicara yang ekspresif dari naskah teks. Ini dapat mensintesis hingga 90 menit ucapan dengan 4 pembicara berbeda dalam satu kali jalan.
- VibeVoice-Realtime-0.5B adalah varian streaming ringan yang menghasilkan audio dengan latensi potongan pertama ~300ms.
- VibeVoice-ASR mentranskripsikan hingga 60 menit audio berkelanjutan dengan identifikasi pembicara, stempel waktu, dan keluaran terstruktur di lebih dari 50 bahasa.

Model TTS menimbulkan kontroversi setelah dirilis. Microsoft untuk sementara menonaktifkan repositori GitHub utama ketika mereka menemukan penyalahgunaan kloning suara. Komunitas mem-fork kode tersebut, dan Microsoft kemudian mengaktifkan kembali repositori dengan pengamanan tambahan: penafian AI yang dapat didengar yang tertanam dalam audio yang dihasilkan dan watermark yang tidak kentara untuk verifikasi asal.
VibeVoice-ASR sekarang tersedia di Azure AI Foundry untuk penerapan cloud. Model TTS tetap berfokus pada penelitian dengan lisensi MIT.
Panduan ini membahas instalasi, pembuatan teks-ke-suara, pengenalan suara, integrasi API, dan cara menguji titik akhir AI suara dengan Apidog.
tombol
Cara kerja VibeVoice: gambaran arsitektur
Terobosan tokenizer
Kemajuan inti VibeVoice adalah tokenizer ucapan berkelanjutannya yang beroperasi pada laju bingkai ultra-rendah sebesar 7,5 Hz. Sebagai perbandingan, sebagian besar model ucapan memproses audio pada 50-100 Hz. Pengurangan laju bingkai 7-13x ini berarti model menangani urutan panjang (90 menit audio) tanpa kehabisan konteks.


Sistem ini menggunakan dua tokenizer:
- Tokenizer Akustik: Varian sigma-VAE dengan ~340 juta parameter dalam encoder-decoder simetris cermin. Ini melakukan downsample 3.200x dari audio masukan 24kHz.
- Tokenizer Semantik: Mencerminkan arsitektur tokenizer akustik tetapi dilatih dengan tugas proxy ASR untuk menangkap makna linguistik.
Difusi token berikutnya
Model ini menggabungkan tulang punggung LLM (Qwen2.5-1.5B) dengan kepala difusi ringan (~123 juta parameter). LLM menangani konteks tekstual dan alur dialog. Kepala difusi menghasilkan detail akustik fidelitas tinggi menggunakan DDPM (Denoising Diffusion Probabilistic Models) dengan Classifier-Free Guidance.
Jumlah total parameter: 3B (termasuk tokenizer dan kepala difusi).
Pendekatan pelatihan
VibeVoice menggunakan pembelajaran kurikulum, secara progresif melatih pada urutan yang lebih panjang: 4K, 16K, 32K, lalu 64K token. Tokenizer yang telah dilatih sebelumnya tetap beku selama fase ini; hanya parameter LLM dan kepala difusi yang diperbarui. Ini memungkinkan model belajar menangani audio yang semakin panjang tanpa melupakan kemampuan bentuk pendek.
Spesifikasi model VibeVoice
| Model | Parameter | Tujuan | Panjang maks | Bahasa | Lisensi |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3B (total) | Teks-ke-suara | 90 menit | Inggris, Mandarin | MIT |
| VibeVoice-Realtime-0.5B | ~0.5B | TTS Streaming | Bentuk panjang | Inggris, Mandarin | MIT |
| VibeVoice-ASR | ~9B | Pengenalan suara | 60 menit | 50+ bahasa | MIT |
VibeVoice-1.5B (TTS)
| Spesifikasi | Nilai |
|---|---|
| Basis LLM | Qwen2.5-1.5B |
| Panjang konteks | 64K token |
| Pembicara maks | 4 simultan |
| Output audio | 24kHz WAV mono |
| Tipe tensor | BF16 |
| Format | Safetensors |
| Unduhan HuggingFace | 62.630/bulan |
| Fork komunitas | 12 varian yang disetel halus |
VibeVoice-ASR
| Spesifikasi | Nilai |
|---|---|
| Basis arsitektur | Qwen2.5 |
| Parameter | ~9B |
| Pemrosesan audio | Hingga 60 menit sekali jalan |
| Laju bingkai | 7.5 Hz |
| WER rata-rata | 7.77% (di 8 dataset bahasa Inggris) |
| LibriSpeech Clean WER | 2.20% |
| TED-LIUM WER | 2.57% |
| Bahasa | 50+ |
| Output | Terstruktur (Siapa + Kapan + Apa) |
| Audio yang didukung | WAV, FLAC, MP3 pada 16kHz+ |
Instalasi dan pengaturan
Prasyarat
- Python 3.8+
- GPU NVIDIA dengan dukungan CUDA
- Minimal 7-8 GB VRAM untuk model TTS
- Minimal 24 GB VRAM untuk model ASR (A100/H100 direkomendasikan)
- RAM minimal 32 GB (64 GB direkomendasikan untuk ASR)
- CUDA 11.8+ (CUDA 12.0+ direkomendasikan)
Instal VibeVoice TTS
# Clone the repository
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# Install dependencies
pip install -r requirements.txt
Model secara otomatis diunduh dari HuggingFace pada saat pertama kali dijalankan. Anda juga dapat mengunduhnya terlebih dahulu:
from huggingface_hub import snapshot_download
# Download the 1.5B TTS model
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
Instal melalui pip (paket komunitas)
pip install vibevoice
Instal untuk ASR
VibeVoice-ASR menggunakan pengaturan terpisah:
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Atau sebarkan melalui Azure AI Foundry untuk inferensi cloud terkelola.
Membuat ucapan dengan VibeVoice-1.5B
Pembuatan satu pembicara
Buat file teks dengan skrip Anda:
Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.
Jalankan inferensi:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path script.txt \
--speaker_names Alice \
--cfg_scale 1.5
Output disimpan sebagai file .wav di direktori outputs/.
Pembuatan podcast multi-pembicara
VibeVoice menangani hingga 4 pembicara dengan identitas suara yang konsisten sepanjang rekaman:
Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path podcast_script.txt \
--speaker_names Alice Bob Carol \
--cfg_scale 1.5
Model ini mempertahankan karakteristik suara yang berbeda untuk setiap pembicara di seluruh percakapan, bahkan pada durasi 90 menit.
Kloning suara (zero-shot)
Kloning suara dari sampel audio referensi:
Persyaratan audio:
- Format: WAV (mono)
- Laju sampel: 24.000 Hz
- Durasi: 30-60 detik ucapan yang jelas
Konversi audio yang ada ke format yang benar:
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
Gunakan antarmuka demo Gradio untuk kloning suara:
python demo/gradio_demo.py
Ini meluncurkan UI web di http://127.0.0.1:7860 tempat Anda mengunggah audio referensi, memilih suara yang dikloning, dan membuat ucapan.
Streaming dengan VibeVoice-Realtime-0.5B
Untuk aplikasi yang membutuhkan output audio latensi rendah (~300ms potongan pertama):
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
Model Realtime lebih kecil dan lebih cepat tetapi menghasilkan audio dengan fidelitas lebih rendah daripada model 1.5B penuh. Gunakan untuk aplikasi interaktif; gunakan 1.5B untuk konten yang telah dibuat sebelumnya.
Menggunakan VibeVoice dengan Python
API Pipeline
from transformers import pipeline
from huggingface_hub import snapshot_download
# Download model
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
# Load pipeline
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
# Prepare multi-speaker script
script = [
{"role": "Alice", "content": "How do you handle API versioning?"},
{"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]
# Apply chat template
input_data = pipe.processor.apply_chat_template(script)
# Generate audio
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
Pembungkus FastAPI untuk produksi
Komunitas membangun pembungkus FastAPI yang mengekspos VibeVoice sebagai API TTS yang kompatibel dengan OpenAI:
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
Ini memberi Anda titik akhir API yang kompatibel dengan format TTS OpenAI:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Your API documentation should be a conversation, not a monologue.",
"voice": "alice"
}' \
--output speech.wav
Titik akhir yang kompatibel dengan OpenAI ini berarti Anda dapat menguji integrasi API VibeVoice Anda dengan Apidog menggunakan format permintaan yang sama dengan yang Anda gunakan untuk API TTS OpenAI. Impor titik akhir, konfigurasikan isi permintaan Anda, dan uji pembuatan suara tanpa menulis kode aplikasi.
Menggunakan VibeVoice-ASR untuk pengenalan suara
Transkripsi dasar
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
Format keluaran terstruktur
VibeVoice-ASR menghasilkan transkripsi terstruktur dengan tiga bidang per segmen:
- Siapa: Identitas pembicara (Pembicara 1, Pembicara 2, dll.)
- Kapan: Stempel waktu mulai dan akhir
- Apa: Konten teks yang ditranskripsi
Contoh keluaran:
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Let's review the API endpoints for the new release."
},
{
"speaker": "Speaker 2",
"start": 4.5,
"end": 8.1,
"text": "I've added three new endpoints for the billing module."
}
]
}
ASR sebagai server MCP
VibeVoice-ASR dapat berjalan sebagai server MCP (Model Context Protocol), terhubung langsung ke Claude Code, Cursor, dan alat pengodean AI lainnya:
# Install the MCP server
pip install vibevoice-mcp-server
# Run it
vibevoice-mcp serve
Ini memungkinkan agen pengodean Anda mentranskripsi rapat, catatan suara, atau rekaman audio sebagai bagian dari alur kerjanya. Anda mendiktekan persyaratan, server MCP mentranskripsikannya, dan agen pengodean memproses teks.
Kapan menggunakan VibeVoice-ASR vs Whisper
| Kasus penggunaan | Pilihan terbaik | Mengapa |
|---|---|---|
| Rapat panjang (30-60 menit) | VibeVoice-ASR | Pemrosesan 60 menit sekali jalan, ID pembicara |
| Wawancara dengan banyak pembicara | VibeVoice-ASR | Diarisasi bawaan |
| Podcast yang membutuhkan stempel waktu | VibeVoice-ASR | Keluaran terstruktur Siapa/Kapan/Apa |
| Konten multibahasa (50+ bahasa) | VibeVoice-ASR | Dukungan bahasa yang lebih luas |
| Klip pendek di lingkungan bising | Whisper | Ketahanan kebisingan yang lebih baik |
| Penerapan di perangkat tepi/seluler | Whisper | Ukuran model lebih kecil, dukungan perangkat lebih luas |
| Bahasa non-Inggris (khusus) | Whisper | Penyetelan halus multibahasa yang lebih matang |
Menguji API AI suara dengan Apidog
Baik Anda menggunakan pembungkus FastAPI VibeVoice, titik akhir Azure AI Foundry, atau membangun API AI suara Anda sendiri, Apidog membantu Anda menguji dan men-debug integrasi ini.

Uji titik akhir TTS
- Buat permintaan POST baru di Apidog yang mengarah ke server FastAPI VibeVoice Anda
- Atur isi permintaan ke format yang kompatibel dengan OpenAI:
{
"model": "vibevoice-1.5b",
"input": "Test speech synthesis with proper intonation and pacing.",
"voice": "alice"
}
- Kirim permintaan dan verifikasi header respons mencakup tipe konten
audio/wav - Simpan respons sebagai file WAV untuk memverifikasi kualitas audio
Uji titik akhir ASR
Untuk API suara-ke-teks:
- Siapkan permintaan POST dengan
multipart/form-data - Lampirkan file audio Anda sebagai bidang formulir
- Verifikasi respons JSON terstruktur mencakup ID pembicara, stempel waktu, dan teks yang ditranskripsi
Validasi kontrak API audio
API AI suara menangani data biner (file audio) bersama metadata JSON. Pembuat permintaan Apidog menangani keduanya:
- Unggahan file biner untuk titik akhir ASR
- Pemformatan isi JSON untuk titik akhir TTS
- Validasi respons untuk keluaran transkripsi terstruktur
- Variabel lingkungan untuk beralih antara titik akhir lokal dan cloud
Unduh Apidog untuk menguji integrasi AI suara Anda sebelum menerapkan ke produksi.
tombol
Keamanan dan penggunaan yang bertanggung jawab
Microsoft menambahkan beberapa pengamanan setelah insiden penyalahgunaan awal:
- Penafian AI yang dapat didengar: Semua audio yang dihasilkan menyertakan pesan otomatis "Segmen ini dihasilkan oleh AI"
- Watermarking yang tidak kentara: Penanda tersembunyi memungkinkan verifikasi pihak ketiga atas konten yang dihasilkan VibeVoice
- Pencatatan inferensi: Log hash mendeteksi pola penyalahgunaan dengan statistik agregat triwulanan
- Lisensi MIT: Mengizinkan penggunaan komersial, tetapi Microsoft merekomendasikan untuk tidak menerapkan ke produksi tanpa pengujian lebih lanjut
Apa yang diizinkan
- Penggunaan untuk penelitian dan akademik
- Prototyping dan pengujian internal
- Pembuatan podcast dengan pengungkapan AI yang sesuai
- Aplikasi aksesibilitas (teks-ke-suara untuk pengguna tunanetra)
Apa yang tidak diizinkan
- Peniruan suara tanpa persetujuan tertulis yang jelas
- Deepfake atau menyajikan audio AI sebagai rekaman manusia asli
- Konversi suara waktu nyata untuk aplikasi deepfake langsung
- Menghasilkan audio non-ucapan (musik, efek suara)
Batasan yang perlu diketahui
Dukungan bahasa sempit untuk TTS. VibeVoice-1.5B mendukung bahasa Inggris dan Mandarin. Bahasa lain menghasilkan output yang tidak dapat dimengerti. VibeVoice-ASR memiliki cakupan yang lebih luas di 50+ bahasa.

Persyaratan perangkat keras tinggi untuk ASR. Model ASR membutuhkan VRAM 24 GB+ (GPU kelas A100/H100). Model TTS berjalan di GPU konsumen dengan VRAM 7-8 GB.
Tidak ada penanganan ucapan tumpang tindih. Model TTS tidak memodelkan pembicara yang berbicara secara bersamaan. Semua dialog berbasis giliran.
Bias model yang diwarisi. Kedua model mewarisi bias dari basis Qwen2.5 mereka. Output dapat berisi konten yang tidak terduga, bias, atau tidak akurat.
Perangkat lunak tingkat penelitian. Ini belum siap produksi. Harapkan ketidaksempurnaan dalam kasus-kasus ekstrem, penanganan kesalahan, dan output non-Inggris.
Menerapkan VibeVoice-ASR di Azure AI Foundry
Untuk tim yang tidak ingin mengelola infrastruktur GPU, Microsoft menyediakan VibeVoice-ASR melalui Azure AI Foundry. Ini memberi Anda titik akhir API terkelola tanpa penyediaan perangkat keras.
Penerapan Azure menangani penskalaan, pembaruan model, dan pemeliharaan infrastruktur. Anda mendapatkan titik akhir HTTPS yang menerima file audio dan mengembalikan transkripsi terstruktur dalam format Siapa/Kapan/Apa yang sama dengan model lokal.
Ini sangat berguna untuk beban kerja produksi di mana Anda membutuhkan uptime yang konsisten dan jaminan SLA yang tidak dapat diberikan oleh inferensi GPU yang di-hosting sendiri. Periksa katalog model Azure AI Foundry untuk harga dan opsi penerapan saat ini.
Untuk menguji titik akhir VibeVoice yang di-hosting Azure sebelum mengintegrasikannya ke dalam aplikasi Anda, atur URL titik akhir dan header autentikasi di Apidog dan jalankan transkripsi pengujian terhadap file audio sampel.
Komunitas dan ekosistem
VibeVoice memiliki komunitas yang aktif:
- 62.630+ unduhan bulanan HuggingFace untuk model 1.5B
- 2.280+ suka di HuggingFace
- 79+ Ruang HuggingFace yang menjalankan model
- 12 varian yang disetel halus dari komunitas
- 4 versi terkuantisasi untuk penerapan VRAM yang lebih rendah
- Fork komunitas di
vibevoice-community/VibeVoicedengan pemeliharaan aktif
Proyek komunitas yang patut diperhatikan:
- VibeVoice-FastAPI: Pembungkus API REST produksi dengan dukungan Docker
- VibeVoice MCP Server: Integrasi dengan alat pengodean AI melalui Model Context Protocol
- Dukungan Apple Silicon: Skrip komunitas untuk inferensi Mac seri-M
- Model terkuantisasi: GGUF dan format lain untuk penggunaan VRAM yang berkurang
FAQ
Apakah VibeVoice gratis untuk digunakan?
Ya. Ketiga model (TTS 1.5B, Realtime 0.5B, ASR) dilisensikan MIT. Anda dapat menggunakannya untuk tujuan komersial dan non-komersial. Hosting Azure AI Foundry memiliki harga terpisah untuk inferensi cloud terkelola.
Bisakah VibeVoice berjalan di Mac Apple Silicon?
Komunitas telah berkontribusi skrip untuk inferensi Mac seri-M. Periksa diskusi HuggingFace untuk model VibeVoice-1.5B. Performa lebih lambat dari GPU CUDA tetapi fungsional.
Bagaimana perbandingan VibeVoice dengan ElevenLabs?
VibeVoice berjalan secara lokal tanpa biaya API dan tanpa data meninggalkan mesin Anda. ElevenLabs menawarkan kualitas yang lebih tinggi, lebih banyak suara, dan pengaturan yang lebih mudah, tetapi memerlukan langganan berbayar dan pemrosesan cloud. Untuk aplikasi yang sensitif privasi atau penggunaan offline, VibeVoice unggul. Untuk kualitas produksi dan kemudahan penggunaan, ElevenLabs lebih unggul.
Mengapa repositori GitHub dinonaktifkan sementara?
Microsoft menemukan orang-orang menggunakan kloning suara untuk peniruan identitas dan deepfake. Mereka menonaktifkan repositori, menambahkan fitur keamanan (penafian yang dapat didengar, watermarking), dan mengaktifkannya kembali. Fork komunitas menjaga pengembangan tetap berjalan selama waktu henti.
Bisakah saya menyetel halus VibeVoice pada suara khusus?
Ya. Komunitas telah menghasilkan 12 varian yang disetel halus di HuggingFace. Anda memerlukan sampel suara (audio WAV jernih 30-60 detik pada 24kHz mono) dan sumber daya GPU untuk pelatihan.
Format audio apa yang dihasilkan VibeVoice?
WAV pada 24.000 Hz mono. Anda dapat mengonversi ke MP3, OGG, FLAC, atau format lain dengan ffmpeg setelah pembuatan.
Bisakah saya menggunakan VibeVoice-ASR sebagai pengganti Whisper?
Untuk audio bentuk panjang dengan identifikasi pembicara, ya. VibeVoice-ASR menangani rekaman 60 menit dalam satu kali jalan dengan diarisasi bawaan. Whisper membutuhkan alat eksternal untuk identifikasi pembicara dan kesulitan dengan rekaman lebih dari 30 menit tanpa pemotongan. Untuk klip pendek, bising, atau penerapan di perangkat tepi, Whisper tetap menjadi pilihan yang lebih baik.
Apakah VibeVoice mendukung obrolan suara waktu nyata?
VibeVoice-Realtime-0.5B mendukung input teks streaming dengan latensi potongan pertama ~300ms. Ini dapat digunakan untuk aplikasi mendekati waktu nyata tetapi tidak dirancang untuk percakapan suara dupleks penuh. Untuk itu, lihat GPT-Realtime Azure OpenAI atau solusi hosting serupa.
tombol
