Microsoft VibeVoice Là Gì? Cách Sử Dụng Mô Hình AI Giọng Nói Nguồn Mở

Ashley Innocent

Ashley Innocent

2 tháng 4 2026

Microsoft VibeVoice Là Gì? Cách Sử Dụng Mô Hình AI Giọng Nói Nguồn Mở

Tóm tắt

VibeVoice là họ AI giọng nói mã nguồn mở của Microsoft với ba mô hình: VibeVoice-1.5B cho chuyển văn bản thành giọng nói (lên đến 90 phút, 4 người nói), VibeVoice-Realtime-0.5B cho TTS thời gian thực và VibeVoice-ASR cho nhận dạng giọng nói (âm thanh 60 phút, hơn 50 ngôn ngữ, WER 7.77%). Tất cả các mô hình đều được cấp phép MIT và chạy cục bộ. Hướng dẫn này bao gồm cài đặt, sử dụng và tích hợp API.

Giới thiệu

Microsoft đã phát hành VibeVoice như một framework AI giọng nói mã nguồn mở vào đầu năm 2026. Nó bao gồm các mô hình cho cả tổng hợp giọng nói (chuyển văn bản thành giọng nói) và nhận dạng giọng nói (nhận dạng giọng nói tự động), tất cả đều chạy cục bộ trên phần cứng của bạn mà không phụ thuộc vào đám mây.

Tổng quan về VibeVoice

Framework này có ba mô hình:

Đầu ra VibeVoice

Các mô hình TTS đã gây tranh cãi sau khi phát hành. Microsoft tạm thời vô hiệu hóa kho lưu trữ GitHub chính khi họ phát hiện hành vi lạm dụng nhân bản giọng nói. Cộng đồng đã phân nhánh mã, và Microsoft sau đó đã kích hoạt lại kho lưu trữ với các biện pháp bảo vệ bổ sung: một tuyên bố miễn trừ trách nhiệm AI có thể nghe được được nhúng vào âm thanh được tạo ra và tính năng đánh dấu không thể nhận biết để xác minh nguồn gốc.

VibeVoice-ASR hiện có sẵn trên Azure AI Foundry để triển khai đám mây. Các mô hình TTS vẫn tập trung vào nghiên cứu với giấy phép MIT.

Hướng dẫn này sẽ hướng dẫn bạn qua cài đặt, tạo chuyển văn bản thành giọng nói, nhận dạng giọng nói, tích hợp API và cách kiểm tra các điểm cuối AI giọng nói bằng Apidog.

button

VibeVoice hoạt động như thế nào: tổng quan kiến trúc

Đột phá về trình mã hóa (tokenizer)

Tiến bộ cốt lõi của VibeVoice là các trình mã hóa giọng nói liên tục của nó hoạt động ở tốc độ khung hình cực thấp 7.5 Hz. Để so sánh, hầu hết các mô hình giọng nói xử lý âm thanh ở 50-100 Hz. Việc giảm tốc độ khung hình 7-13 lần này có nghĩa là mô hình xử lý các chuỗi dài (90 phút âm thanh) mà không bị mất ngữ cảnh.

Tokenizer VibeVoice
Kiến trúc mã hóa VibeVoice

Hệ thống sử dụng hai trình mã hóa:

Phân tán token tiếp theo

Mô hình kết hợp một xương sống LLM (Qwen2.5-1.5B) với một đầu phân tán nhẹ (~123M tham số). LLM xử lý ngữ cảnh văn bản và luồng hội thoại. Đầu phân tán tạo ra các chi tiết âm thanh có độ trung thực cao bằng cách sử dụng DDPM (Denoising Diffusion Probabilistic Models) với Hướng dẫn không phân loại (Classifier-Free Guidance).

Tổng số tham số: 3B (bao gồm trình mã hóa và đầu phân tán).

Phương pháp huấn luyện

VibeVoice sử dụng học tập theo chương trình (curriculum learning), dần dần huấn luyện trên các chuỗi dài hơn: 4K, 16K, 32K, sau đó 64K token. Các trình mã hóa được huấn luyện trước vẫn được cố định trong giai đoạn này; chỉ các tham số LLM và đầu phân tán được cập nhật. Điều này cho phép mô hình học cách xử lý âm thanh ngày càng dài mà không quên khả năng xử lý dạng ngắn.

Thông số kỹ thuật mô hình VibeVoice

Mô hình Tham số Mục đích Độ dài tối đa Ngôn ngữ Giấy phép
VibeVoice-1.5B 3B (tổng cộng) Chuyển văn bản thành giọng nói 90 phút Tiếng Anh, Tiếng Trung MIT
VibeVoice-Realtime-0.5B ~0.5B TTS truyền trực tuyến Dài hạn Tiếng Anh, Tiếng Trung MIT
VibeVoice-ASR ~9B Nhận dạng giọng nói 60 phút 50+ ngôn ngữ MIT

VibeVoice-1.5B (TTS)

Thông số kỹ thuật Giá trị
Cơ sở LLM Qwen2.5-1.5B
Độ dài ngữ cảnh 64K token
Số người nói tối đa 4 đồng thời
Đầu ra âm thanh 24kHz WAV mono
Kiểu tensor BF16
Định dạng Safetensors
Lượt tải xuống HuggingFace 62,630/tháng
Các nhánh cộng đồng 12 biến thể được tinh chỉnh

VibeVoice-ASR

Thông số kỹ thuật Giá trị
Kiến trúc cơ sở Qwen2.5
Tham số ~9B
Xử lý âm thanh Lên đến 60 phút một lần chạy
Tốc độ khung hình 7.5 Hz
WER trung bình 7.77% (trên 8 bộ dữ liệu tiếng Anh)
LibriSpeech Clean WER 2.20%
TED-LIUM WER 2.57%
Ngôn ngữ 50+
Đầu ra Có cấu trúc (Ai + Khi nào + Gì)
Âm thanh được hỗ trợ WAV, FLAC, MP3 ở 16kHz+

Cài đặt và thiết lập

Yêu cầu tiên quyết

Cài đặt VibeVoice TTS

# Clone kho lưu trữ
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Cài đặt các phụ thuộc
pip install -r requirements.txt

Các mô hình sẽ tự động tải xuống từ HuggingFace trong lần chạy đầu tiên. Bạn cũng có thể tải xuống trước:

from huggingface_hub import snapshot_download

# Tải xuống mô hình TTS 1.5B
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

Cài đặt qua pip (gói cộng đồng)

pip install vibevoice

Cài đặt cho ASR

VibeVoice-ASR sử dụng một thiết lập riêng:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Hoặc triển khai thông qua Azure AI Foundry để suy luận đám mây được quản lý.

Tạo giọng nói với VibeVoice-1.5B

Tạo giọng nói đơn người nói

Tạo một tệp văn bản với kịch bản của bạn:

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

Chạy suy luận:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

Đầu ra được lưu dưới dạng tệp .wav trong thư mục outputs/.

Tạo podcast đa người nói

VibeVoice xử lý tối đa 4 người nói với danh tính giọng nói nhất quán trong suốt toàn bộ bản ghi:

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.
python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

Mô hình duy trì các đặc điểm giọng nói riêng biệt cho từng người nói trong suốt cuộc hội thoại, ngay cả với độ dài 90 phút.

Nhân bản giọng nói (zero-shot)

Nhân bản giọng nói từ một mẫu âm thanh tham chiếu:

Yêu cầu âm thanh:

Chuyển đổi âm thanh hiện có sang định dạng phù hợp:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Sử dụng giao diện demo Gradio để nhân bản giọng nói:

python demo/gradio_demo.py

Thao tác này sẽ khởi chạy giao diện người dùng web tại http://127.0.0.1:7860 nơi bạn tải lên âm thanh tham chiếu của mình, chọn giọng nói được nhân bản và tạo giọng nói.

Truyền trực tuyến với VibeVoice-Realtime-0.5B

Đối với các ứng dụng cần đầu ra âm thanh có độ trễ thấp (~300ms đoạn đầu tiên):

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Mô hình Realtime nhỏ hơn và nhanh hơn nhưng tạo ra âm thanh có độ trung thực thấp hơn so với mô hình 1.5B đầy đủ. Sử dụng nó cho các ứng dụng tương tác; sử dụng 1.5B cho nội dung được tạo trước.

Sử dụng VibeVoice với Python

API Pipeline

from transformers import pipeline
from huggingface_hub import snapshot_download

# Tải xuống mô hình
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Tải pipeline
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Chuẩn bị kịch bản đa người nói
script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

# Áp dụng template trò chuyện
input_data = pipe.processor.apply_chat_template(script)

# Tạo âm thanh
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

Wrapper FastAPI cho sản xuất

Cộng đồng đã xây dựng một wrapper FastAPI hiển thị VibeVoice dưới dạng API TTS tương thích với OpenAI:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

Điều này cung cấp cho bạn một điểm cuối API tương thích với định dạng TTS của OpenAI:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

Điểm cuối tương thích với OpenAI này có nghĩa là bạn có thể kiểm tra tích hợp API VibeVoice của mình với Apidog bằng cách sử dụng cùng định dạng yêu cầu mà bạn sẽ sử dụng cho API TTS của OpenAI. Nhập điểm cuối, cấu hình thân yêu cầu của bạn và kiểm tra việc tạo giọng nói mà không cần viết mã ứng dụng.

Sử dụng VibeVoice-ASR để nhận dạng giọng nói

Phiên âm cơ bản

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Định dạng đầu ra có cấu trúc

VibeVoice-ASR tạo ra các phiên âm có cấu trúc với ba trường cho mỗi phân đoạn:

Ví dụ đầu ra:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

ASR dưới dạng máy chủ MCP

VibeVoice-ASR có thể chạy như một máy chủ MCP (Model Context Protocol), kết nối trực tiếp với Claude Code, Cursor và các công cụ mã hóa AI khác:

# Cài đặt máy chủ MCP
pip install vibevoice-mcp-server

# Chạy nó
vibevoice-mcp serve

Điều này cho phép tác nhân mã hóa của bạn phiên âm các cuộc họp, ghi chú giọng nói hoặc ghi âm dưới dạng một phần của quy trình làm việc của nó. Bạn đọc yêu cầu, máy chủ MCP phiên âm chúng, và tác nhân mã hóa xử lý văn bản.

Khi nào nên sử dụng VibeVoice-ASR so với Whisper

Trường hợp sử dụng Lựa chọn tốt nhất Lý do
Cuộc họp dài (30-60 phút) VibeVoice-ASR Xử lý một lần 60 phút, nhận diện người nói
Phỏng vấn với nhiều người nói VibeVoice-ASR Phân biệt người nói tích hợp
Podcast cần dấu thời gian VibeVoice-ASR Đầu ra có cấu trúc Ai/Khi nào/Gì
Nội dung đa ngôn ngữ (50+ ngôn ngữ) VibeVoice-ASR Hỗ trợ ngôn ngữ rộng hơn
Đoạn âm thanh ngắn trong môi trường ồn ào Whisper Khả năng chống ồn tốt hơn
Triển khai trên thiết bị biên/di động Whisper Kích thước mô hình nhỏ hơn, hỗ trợ nhiều thiết bị hơn
Ngôn ngữ không phải tiếng Anh (chuyên biệt) Whisper Tinh chỉnh đa ngôn ngữ trưởng thành hơn

Kiểm tra API AI giọng nói với Apidog

Dù bạn đang sử dụng wrapper FastAPI của VibeVoice, điểm cuối Azure AI Foundry, hay xây dựng API AI giọng nói của riêng mình, Apidog giúp bạn kiểm tra và gỡ lỗi các tích hợp này.

Giao diện Apidog

Kiểm tra điểm cuối TTS

  1. Tạo một yêu cầu POST mới trong Apidog trỏ đến máy chủ FastAPI VibeVoice của bạn
  2. Đặt nội dung yêu cầu theo định dạng tương thích với OpenAI:
{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice",
  "response_format": "wav"
}
  1. Gửi yêu cầu và xác minh các tiêu đề phản hồi bao gồm loại nội dung audio/wav
  2. Lưu phản hồi dưới dạng tệp WAV để xác minh chất lượng âm thanh

Kiểm tra điểm cuối ASR

Đối với API chuyển giọng nói thành văn bản:

  1. Thiết lập một yêu cầu POST với multipart/form-data
  2. Đính kèm tệp âm thanh của bạn dưới dạng trường biểu mẫu
  3. Xác minh phản hồi JSON có cấu trúc bao gồm ID người nói, dấu thời gian và văn bản đã phiên âm

Xác thực các hợp đồng API âm thanh

Các API AI giọng nói xử lý dữ liệu nhị phân (tệp âm thanh) cùng với siêu dữ liệu JSON. Trình tạo yêu cầu của Apidog xử lý cả hai:

Tải xuống Apidog để kiểm tra các tích hợp AI giọng nói của bạn trước khi triển khai vào sản xuất.

button

An toàn và sử dụng có trách nhiệm

Microsoft đã bổ sung một số biện pháp bảo vệ sau các sự cố lạm dụng ban đầu:

Những gì được phép

Những gì không được phép

Những hạn chế cần biết

Hỗ trợ ngôn ngữ hẹp cho TTS. VibeVoice-1.5B hỗ trợ tiếng Anh và tiếng Trung. Các ngôn ngữ khác tạo ra đầu ra không thể hiểu được. VibeVoice-ASR có phạm vi phủ sóng rộng hơn với hơn 50 ngôn ngữ.

Sự thiên vị của mô hình VibeVoice

Yêu cầu phần cứng cao cho ASR. Mô hình ASR cần 24 GB+ VRAM (GPU loại A100/H100). Các mô hình TTS chạy trên GPU tiêu dùng với 7-8 GB VRAM.

Không xử lý giọng nói chồng chéo. Mô hình TTS không mô hình hóa việc người nói nói chồng lên nhau. Tất cả hội thoại đều theo lượt.

Các sai lệch mô hình kế thừa. Cả hai mô hình đều thừa hưởng các sai lệch từ cơ sở Qwen2.5 của chúng. Đầu ra có thể chứa nội dung không mong muốn, sai lệch hoặc không chính xác.

Phần mềm cấp nghiên cứu. Đây không phải là sản phẩm sẵn sàng sản xuất. Hãy dự kiến các vấn đề trong các trường hợp biên, xử lý lỗi và đầu ra không phải tiếng Anh.

Triển khai VibeVoice-ASR trên Azure AI Foundry

Đối với các nhóm không muốn quản lý cơ sở hạ tầng GPU, Microsoft đã cung cấp VibeVoice-ASR thông qua Azure AI Foundry. Điều này cung cấp cho bạn một điểm cuối API được quản lý mà không cần cấp phép phần cứng.

Việc triển khai Azure xử lý việc mở rộng quy mô, cập nhật mô hình và bảo trì cơ sở hạ tầng. Bạn nhận được một điểm cuối HTTPS chấp nhận tệp âm thanh và trả về các phiên âm có cấu trúc theo cùng định dạng Ai/Khi nào/Gì như mô hình cục bộ.

Điều này đặc biệt hữu ích cho các khối lượng công việc sản xuất nơi bạn cần thời gian hoạt động ổn định và đảm bảo SLA mà suy luận GPU tự lưu trữ không thể cung cấp. Kiểm tra danh mục mô hình của Azure AI Foundry để biết giá hiện tại và các tùy chọn triển khai.

Để kiểm tra điểm cuối VibeVoice được lưu trữ trên Azure của bạn trước khi tích hợp nó vào ứng dụng của mình, hãy thiết lập URL điểm cuối và tiêu đề xác thực trong Apidog và chạy các bản phiên âm thử nghiệm đối với các tệp âm thanh mẫu.

Cộng đồng và hệ sinh thái

VibeVoice có một cộng đồng hoạt động tích cực:

Các dự án cộng đồng đáng chú ý:

Câu hỏi thường gặp

VibeVoice có miễn phí sử dụng không?

Có. Cả ba mô hình (TTS 1.5B, Realtime 0.5B, ASR) đều được cấp phép MIT. Bạn có thể sử dụng chúng cho mục đích thương mại và phi thương mại. Lưu trữ trên Azure AI Foundry có giá riêng cho suy luận đám mây được quản lý.

VibeVoice có thể chạy trên máy Mac Apple Silicon không?

Cộng đồng đã đóng góp các tập lệnh để suy luận trên máy Mac dòng M. Kiểm tra các cuộc thảo luận trên HuggingFace cho mô hình VibeVoice-1.5B. Hiệu suất chậm hơn so với GPU CUDA nhưng vẫn hoạt động.

VibeVoice so với ElevenLabs như thế nào?

VibeVoice chạy cục bộ mà không tốn phí API và không có dữ liệu rời khỏi máy của bạn. ElevenLabs cung cấp chất lượng cao hơn, nhiều giọng nói hơn và thiết lập dễ dàng hơn, nhưng yêu cầu đăng ký trả phí và xử lý trên đám mây. Đối với các ứng dụng nhạy cảm về quyền riêng tư hoặc sử dụng ngoại tuyến, VibeVoice là lựa chọn tốt. Đối với chất lượng sản phẩm và dễ sử dụng, ElevenLabs dẫn đầu.

Tại sao kho lưu trữ GitHub bị tạm thời vô hiệu hóa?

Microsoft phát hiện mọi người sử dụng nhân bản giọng nói để mạo danh và deepfake. Họ đã vô hiệu hóa kho lưu trữ, thêm các tính năng an toàn (tuyên bố miễn trừ trách nhiệm có thể nghe được, đánh dấu chìm) và kích hoạt lại. Nhánh cộng đồng đã tiếp tục phát triển trong thời gian ngừng hoạt động.

Tôi có thể tinh chỉnh VibeVoice trên các giọng nói tùy chỉnh không?

Có. Cộng đồng đã tạo ra 12 biến thể được tinh chỉnh trên HuggingFace. Bạn cần các mẫu giọng nói (30-60 giây âm thanh WAV rõ ràng ở 24kHz mono) và tài nguyên GPU để huấn luyện.

VibeVoice xuất ra định dạng âm thanh nào?

WAV ở 24.000 Hz mono. Bạn có thể chuyển đổi sang MP3, OGG, FLAC hoặc các định dạng khác bằng ffmpeg sau khi tạo.

Tôi có thể sử dụng VibeVoice-ASR để thay thế Whisper không?

Đối với âm thanh dài với nhận diện người nói, có. VibeVoice-ASR xử lý các bản ghi 60 phút trong một lần chạy với tính năng phân biệt người nói tích hợp. Whisper cần các công cụ bên ngoài để nhận diện người nói và gặp khó khăn với các bản ghi trên 30 phút nếu không cắt đoạn. Đối với các đoạn âm thanh ngắn, ồn ào hoặc triển khai trên thiết bị biên, Whisper vẫn là lựa chọn tốt hơn.

VibeVoice có hỗ trợ trò chuyện thoại thời gian thực không?

VibeVoice-Realtime-0.5B hỗ trợ đầu vào văn bản truyền trực tuyến với độ trễ ~300ms cho đoạn đầu tiên. Nó có thể sử dụng được cho các ứng dụng gần thời gian thực nhưng không được thiết kế cho cuộc hội thoại thoại song công hoàn chỉnh. Để làm được điều đó, hãy tìm hiểu Azure OpenAI’s GPT-Realtime hoặc các giải pháp được lưu trữ tương tự.

button

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API