Tóm tắt
VibeVoice là họ AI giọng nói mã nguồn mở của Microsoft với ba mô hình: VibeVoice-1.5B cho chuyển văn bản thành giọng nói (lên đến 90 phút, 4 người nói), VibeVoice-Realtime-0.5B cho TTS thời gian thực và VibeVoice-ASR cho nhận dạng giọng nói (âm thanh 60 phút, hơn 50 ngôn ngữ, WER 7.77%). Tất cả các mô hình đều được cấp phép MIT và chạy cục bộ. Hướng dẫn này bao gồm cài đặt, sử dụng và tích hợp API.
Giới thiệu
Microsoft đã phát hành VibeVoice như một framework AI giọng nói mã nguồn mở vào đầu năm 2026. Nó bao gồm các mô hình cho cả tổng hợp giọng nói (chuyển văn bản thành giọng nói) và nhận dạng giọng nói (nhận dạng giọng nói tự động), tất cả đều chạy cục bộ trên phần cứng của bạn mà không phụ thuộc vào đám mây.

Framework này có ba mô hình:
- VibeVoice-1.5B tạo ra âm thanh hội thoại biểu cảm, đa giọng nói từ các kịch bản văn bản. Nó có thể tổng hợp tới 90 phút giọng nói với 4 người nói riêng biệt trong một lần xử lý.
- VibeVoice-Realtime-0.5B là một biến thể truyền trực tuyến nhẹ tạo ra âm thanh với độ trễ ~300ms cho đoạn đầu tiên.
- VibeVoice-ASR phiên âm lên đến 60 phút âm thanh liên tục với nhận diện người nói, dấu thời gian và đầu ra có cấu trúc trên hơn 50 ngôn ngữ.

Các mô hình TTS đã gây tranh cãi sau khi phát hành. Microsoft tạm thời vô hiệu hóa kho lưu trữ GitHub chính khi họ phát hiện hành vi lạm dụng nhân bản giọng nói. Cộng đồng đã phân nhánh mã, và Microsoft sau đó đã kích hoạt lại kho lưu trữ với các biện pháp bảo vệ bổ sung: một tuyên bố miễn trừ trách nhiệm AI có thể nghe được được nhúng vào âm thanh được tạo ra và tính năng đánh dấu không thể nhận biết để xác minh nguồn gốc.
VibeVoice-ASR hiện có sẵn trên Azure AI Foundry để triển khai đám mây. Các mô hình TTS vẫn tập trung vào nghiên cứu với giấy phép MIT.
Hướng dẫn này sẽ hướng dẫn bạn qua cài đặt, tạo chuyển văn bản thành giọng nói, nhận dạng giọng nói, tích hợp API và cách kiểm tra các điểm cuối AI giọng nói bằng Apidog.
VibeVoice hoạt động như thế nào: tổng quan kiến trúc
Đột phá về trình mã hóa (tokenizer)
Tiến bộ cốt lõi của VibeVoice là các trình mã hóa giọng nói liên tục của nó hoạt động ở tốc độ khung hình cực thấp 7.5 Hz. Để so sánh, hầu hết các mô hình giọng nói xử lý âm thanh ở 50-100 Hz. Việc giảm tốc độ khung hình 7-13 lần này có nghĩa là mô hình xử lý các chuỗi dài (90 phút âm thanh) mà không bị mất ngữ cảnh.


Hệ thống sử dụng hai trình mã hóa:
- Acoustic Tokenizer: Một biến thể sigma-VAE với ~340M tham số trong bộ mã hóa-giải mã đối xứng gương. Nó giảm lấy mẫu 3.200x từ âm thanh đầu vào 24kHz.
- Semantic Tokenizer: Phản ánh kiến trúc của trình mã hóa âm thanh nhưng được huấn luyện với nhiệm vụ proxy ASR để nắm bắt ý nghĩa ngôn ngữ.
Phân tán token tiếp theo
Mô hình kết hợp một xương sống LLM (Qwen2.5-1.5B) với một đầu phân tán nhẹ (~123M tham số). LLM xử lý ngữ cảnh văn bản và luồng hội thoại. Đầu phân tán tạo ra các chi tiết âm thanh có độ trung thực cao bằng cách sử dụng DDPM (Denoising Diffusion Probabilistic Models) với Hướng dẫn không phân loại (Classifier-Free Guidance).
Tổng số tham số: 3B (bao gồm trình mã hóa và đầu phân tán).
Phương pháp huấn luyện
VibeVoice sử dụng học tập theo chương trình (curriculum learning), dần dần huấn luyện trên các chuỗi dài hơn: 4K, 16K, 32K, sau đó 64K token. Các trình mã hóa được huấn luyện trước vẫn được cố định trong giai đoạn này; chỉ các tham số LLM và đầu phân tán được cập nhật. Điều này cho phép mô hình học cách xử lý âm thanh ngày càng dài mà không quên khả năng xử lý dạng ngắn.
Thông số kỹ thuật mô hình VibeVoice
| Mô hình | Tham số | Mục đích | Độ dài tối đa | Ngôn ngữ | Giấy phép |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3B (tổng cộng) | Chuyển văn bản thành giọng nói | 90 phút | Tiếng Anh, Tiếng Trung | MIT |
| VibeVoice-Realtime-0.5B | ~0.5B | TTS truyền trực tuyến | Dài hạn | Tiếng Anh, Tiếng Trung | MIT |
| VibeVoice-ASR | ~9B | Nhận dạng giọng nói | 60 phút | 50+ ngôn ngữ | MIT |
VibeVoice-1.5B (TTS)
| Thông số kỹ thuật | Giá trị |
|---|---|
| Cơ sở LLM | Qwen2.5-1.5B |
| Độ dài ngữ cảnh | 64K token |
| Số người nói tối đa | 4 đồng thời |
| Đầu ra âm thanh | 24kHz WAV mono |
| Kiểu tensor | BF16 |
| Định dạng | Safetensors |
| Lượt tải xuống HuggingFace | 62,630/tháng |
| Các nhánh cộng đồng | 12 biến thể được tinh chỉnh |
VibeVoice-ASR
| Thông số kỹ thuật | Giá trị |
|---|---|
| Kiến trúc cơ sở | Qwen2.5 |
| Tham số | ~9B |
| Xử lý âm thanh | Lên đến 60 phút một lần chạy |
| Tốc độ khung hình | 7.5 Hz |
| WER trung bình | 7.77% (trên 8 bộ dữ liệu tiếng Anh) |
| LibriSpeech Clean WER | 2.20% |
| TED-LIUM WER | 2.57% |
| Ngôn ngữ | 50+ |
| Đầu ra | Có cấu trúc (Ai + Khi nào + Gì) |
| Âm thanh được hỗ trợ | WAV, FLAC, MP3 ở 16kHz+ |
Cài đặt và thiết lập
Yêu cầu tiên quyết
- Python 3.8+
- NVIDIA GPU có hỗ trợ CUDA
- Tối thiểu 7-8 GB VRAM cho các mô hình TTS
- Tối thiểu 24 GB VRAM cho mô hình ASR (khuyên dùng A100/H100)
- RAM tối thiểu 32 GB (khuyên dùng 64 GB cho ASR)
- CUDA 11.8+ (khuyên dùng CUDA 12.0+)
Cài đặt VibeVoice TTS
# Clone kho lưu trữ
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# Cài đặt các phụ thuộc
pip install -r requirements.txt
Các mô hình sẽ tự động tải xuống từ HuggingFace trong lần chạy đầu tiên. Bạn cũng có thể tải xuống trước:
from huggingface_hub import snapshot_download
# Tải xuống mô hình TTS 1.5B
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
Cài đặt qua pip (gói cộng đồng)
pip install vibevoice
Cài đặt cho ASR
VibeVoice-ASR sử dụng một thiết lập riêng:
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Hoặc triển khai thông qua Azure AI Foundry để suy luận đám mây được quản lý.
Tạo giọng nói với VibeVoice-1.5B
Tạo giọng nói đơn người nói
Tạo một tệp văn bản với kịch bản của bạn:
Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.
Chạy suy luận:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path script.txt \
--speaker_names Alice \
--cfg_scale 1.5
Đầu ra được lưu dưới dạng tệp .wav trong thư mục outputs/.
Tạo podcast đa người nói
VibeVoice xử lý tối đa 4 người nói với danh tính giọng nói nhất quán trong suốt toàn bộ bản ghi:
Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path podcast_script.txt \
--speaker_names Alice Bob Carol \
--cfg_scale 1.5
Mô hình duy trì các đặc điểm giọng nói riêng biệt cho từng người nói trong suốt cuộc hội thoại, ngay cả với độ dài 90 phút.
Nhân bản giọng nói (zero-shot)
Nhân bản giọng nói từ một mẫu âm thanh tham chiếu:
Yêu cầu âm thanh:
- Định dạng: WAV (mono)
- Tốc độ lấy mẫu: 24.000 Hz
- Thời lượng: 30-60 giây giọng nói rõ ràng
Chuyển đổi âm thanh hiện có sang định dạng phù hợp:
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
Sử dụng giao diện demo Gradio để nhân bản giọng nói:
python demo/gradio_demo.py
Thao tác này sẽ khởi chạy giao diện người dùng web tại http://127.0.0.1:7860 nơi bạn tải lên âm thanh tham chiếu của mình, chọn giọng nói được nhân bản và tạo giọng nói.
Truyền trực tuyến với VibeVoice-Realtime-0.5B
Đối với các ứng dụng cần đầu ra âm thanh có độ trễ thấp (~300ms đoạn đầu tiên):
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
Mô hình Realtime nhỏ hơn và nhanh hơn nhưng tạo ra âm thanh có độ trung thực thấp hơn so với mô hình 1.5B đầy đủ. Sử dụng nó cho các ứng dụng tương tác; sử dụng 1.5B cho nội dung được tạo trước.
Sử dụng VibeVoice với Python
API Pipeline
from transformers import pipeline
from huggingface_hub import snapshot_download
# Tải xuống mô hình
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
# Tải pipeline
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
# Chuẩn bị kịch bản đa người nói
script = [
{"role": "Alice", "content": "How do you handle API versioning?"},
{"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]
# Áp dụng template trò chuyện
input_data = pipe.processor.apply_chat_template(script)
# Tạo âm thanh
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
Wrapper FastAPI cho sản xuất
Cộng đồng đã xây dựng một wrapper FastAPI hiển thị VibeVoice dưới dạng API TTS tương thích với OpenAI:
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
Điều này cung cấp cho bạn một điểm cuối API tương thích với định dạng TTS của OpenAI:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Your API documentation should be a conversation, not a monologue.",
"voice": "alice"
}' \
--output speech.wav
Điểm cuối tương thích với OpenAI này có nghĩa là bạn có thể kiểm tra tích hợp API VibeVoice của mình với Apidog bằng cách sử dụng cùng định dạng yêu cầu mà bạn sẽ sử dụng cho API TTS của OpenAI. Nhập điểm cuối, cấu hình thân yêu cầu của bạn và kiểm tra việc tạo giọng nói mà không cần viết mã ứng dụng.
Sử dụng VibeVoice-ASR để nhận dạng giọng nói
Phiên âm cơ bản
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
Định dạng đầu ra có cấu trúc
VibeVoice-ASR tạo ra các phiên âm có cấu trúc với ba trường cho mỗi phân đoạn:
- Ai: Danh tính người nói (Người nói 1, Người nói 2, v.v.)
- Khi nào: Dấu thời gian bắt đầu và kết thúc
- Gì: Nội dung văn bản được phiên âm
Ví dụ đầu ra:
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Let's review the API endpoints for the new release."
},
{
"speaker": "Speaker 2",
"start": 4.5,
"end": 8.1,
"text": "I've added three new endpoints for the billing module."
}
]
}
ASR dưới dạng máy chủ MCP
VibeVoice-ASR có thể chạy như một máy chủ MCP (Model Context Protocol), kết nối trực tiếp với Claude Code, Cursor và các công cụ mã hóa AI khác:
# Cài đặt máy chủ MCP
pip install vibevoice-mcp-server
# Chạy nó
vibevoice-mcp serve
Điều này cho phép tác nhân mã hóa của bạn phiên âm các cuộc họp, ghi chú giọng nói hoặc ghi âm dưới dạng một phần của quy trình làm việc của nó. Bạn đọc yêu cầu, máy chủ MCP phiên âm chúng, và tác nhân mã hóa xử lý văn bản.
Khi nào nên sử dụng VibeVoice-ASR so với Whisper
| Trường hợp sử dụng | Lựa chọn tốt nhất | Lý do |
|---|---|---|
| Cuộc họp dài (30-60 phút) | VibeVoice-ASR | Xử lý một lần 60 phút, nhận diện người nói |
| Phỏng vấn với nhiều người nói | VibeVoice-ASR | Phân biệt người nói tích hợp |
| Podcast cần dấu thời gian | VibeVoice-ASR | Đầu ra có cấu trúc Ai/Khi nào/Gì |
| Nội dung đa ngôn ngữ (50+ ngôn ngữ) | VibeVoice-ASR | Hỗ trợ ngôn ngữ rộng hơn |
| Đoạn âm thanh ngắn trong môi trường ồn ào | Whisper | Khả năng chống ồn tốt hơn |
| Triển khai trên thiết bị biên/di động | Whisper | Kích thước mô hình nhỏ hơn, hỗ trợ nhiều thiết bị hơn |
| Ngôn ngữ không phải tiếng Anh (chuyên biệt) | Whisper | Tinh chỉnh đa ngôn ngữ trưởng thành hơn |
Kiểm tra API AI giọng nói với Apidog
Dù bạn đang sử dụng wrapper FastAPI của VibeVoice, điểm cuối Azure AI Foundry, hay xây dựng API AI giọng nói của riêng mình, Apidog giúp bạn kiểm tra và gỡ lỗi các tích hợp này.

Kiểm tra điểm cuối TTS
- Tạo một yêu cầu POST mới trong Apidog trỏ đến máy chủ FastAPI VibeVoice của bạn
- Đặt nội dung yêu cầu theo định dạng tương thích với OpenAI:
{
"model": "vibevoice-1.5b",
"input": "Test speech synthesis with proper intonation and pacing.",
"voice": "alice",
"response_format": "wav"
}
- Gửi yêu cầu và xác minh các tiêu đề phản hồi bao gồm loại nội dung
audio/wav - Lưu phản hồi dưới dạng tệp WAV để xác minh chất lượng âm thanh
Kiểm tra điểm cuối ASR
Đối với API chuyển giọng nói thành văn bản:
- Thiết lập một yêu cầu POST với
multipart/form-data - Đính kèm tệp âm thanh của bạn dưới dạng trường biểu mẫu
- Xác minh phản hồi JSON có cấu trúc bao gồm ID người nói, dấu thời gian và văn bản đã phiên âm
Xác thực các hợp đồng API âm thanh
Các API AI giọng nói xử lý dữ liệu nhị phân (tệp âm thanh) cùng với siêu dữ liệu JSON. Trình tạo yêu cầu của Apidog xử lý cả hai:
- Tải lên tệp nhị phân cho các điểm cuối ASR
- Định dạng thân JSON cho các điểm cuối TTS
- Xác thực phản hồi cho đầu ra phiên âm có cấu trúc
- Các biến môi trường để chuyển đổi giữa các điểm cuối cục bộ và đám mây
Tải xuống Apidog để kiểm tra các tích hợp AI giọng nói của bạn trước khi triển khai vào sản xuất.
An toàn và sử dụng có trách nhiệm
Microsoft đã bổ sung một số biện pháp bảo vệ sau các sự cố lạm dụng ban đầu:
- Tuyên bố miễn trừ trách nhiệm AI có thể nghe được: Tất cả âm thanh được tạo ra đều bao gồm một thông báo tự động “Đoạn này được tạo bởi AI”
- Đánh dấu không thể nhận biết: Các dấu hiệu ẩn cho phép bên thứ ba xác minh nội dung được tạo bởi VibeVoice
- Ghi nhật ký suy luận: Nhật ký được băm phát hiện các mẫu lạm dụng với số liệu thống kê tổng hợp hàng quý
- Giấy phép MIT: Cho phép sử dụng thương mại, nhưng Microsoft khuyến nghị không triển khai sản xuất nếu không kiểm tra thêm
Những gì được phép
- Sử dụng trong nghiên cứu và học thuật
- Tạo mẫu và thử nghiệm nội bộ
- Tạo podcast với tiết lộ AI thích hợp
- Các ứng dụng hỗ trợ tiếp cận (chuyển văn bản thành giọng nói cho người dùng khiếm thị)
Những gì không được phép
- Mạo danh giọng nói mà không có sự đồng ý được ghi lại rõ ràng
- Deepfake hoặc trình bày âm thanh AI như các bản ghi âm người thật
- Chuyển đổi giọng nói thời gian thực cho các ứng dụng deepfake trực tiếp
- Tạo âm thanh không phải giọng nói (nhạc, hiệu ứng âm thanh)
Những hạn chế cần biết
Hỗ trợ ngôn ngữ hẹp cho TTS. VibeVoice-1.5B hỗ trợ tiếng Anh và tiếng Trung. Các ngôn ngữ khác tạo ra đầu ra không thể hiểu được. VibeVoice-ASR có phạm vi phủ sóng rộng hơn với hơn 50 ngôn ngữ.

Yêu cầu phần cứng cao cho ASR. Mô hình ASR cần 24 GB+ VRAM (GPU loại A100/H100). Các mô hình TTS chạy trên GPU tiêu dùng với 7-8 GB VRAM.
Không xử lý giọng nói chồng chéo. Mô hình TTS không mô hình hóa việc người nói nói chồng lên nhau. Tất cả hội thoại đều theo lượt.
Các sai lệch mô hình kế thừa. Cả hai mô hình đều thừa hưởng các sai lệch từ cơ sở Qwen2.5 của chúng. Đầu ra có thể chứa nội dung không mong muốn, sai lệch hoặc không chính xác.
Phần mềm cấp nghiên cứu. Đây không phải là sản phẩm sẵn sàng sản xuất. Hãy dự kiến các vấn đề trong các trường hợp biên, xử lý lỗi và đầu ra không phải tiếng Anh.
Triển khai VibeVoice-ASR trên Azure AI Foundry
Đối với các nhóm không muốn quản lý cơ sở hạ tầng GPU, Microsoft đã cung cấp VibeVoice-ASR thông qua Azure AI Foundry. Điều này cung cấp cho bạn một điểm cuối API được quản lý mà không cần cấp phép phần cứng.
Việc triển khai Azure xử lý việc mở rộng quy mô, cập nhật mô hình và bảo trì cơ sở hạ tầng. Bạn nhận được một điểm cuối HTTPS chấp nhận tệp âm thanh và trả về các phiên âm có cấu trúc theo cùng định dạng Ai/Khi nào/Gì như mô hình cục bộ.
Điều này đặc biệt hữu ích cho các khối lượng công việc sản xuất nơi bạn cần thời gian hoạt động ổn định và đảm bảo SLA mà suy luận GPU tự lưu trữ không thể cung cấp. Kiểm tra danh mục mô hình của Azure AI Foundry để biết giá hiện tại và các tùy chọn triển khai.
Để kiểm tra điểm cuối VibeVoice được lưu trữ trên Azure của bạn trước khi tích hợp nó vào ứng dụng của mình, hãy thiết lập URL điểm cuối và tiêu đề xác thực trong Apidog và chạy các bản phiên âm thử nghiệm đối với các tệp âm thanh mẫu.
Cộng đồng và hệ sinh thái
VibeVoice có một cộng đồng hoạt động tích cực:
- Hơn 62.630 lượt tải xuống hàng tháng trên HuggingFace cho mô hình 1.5B
- Hơn 2.280 lượt thích trên HuggingFace
- Hơn 79 HuggingFace Spaces đang chạy mô hình
- 12 biến thể được tinh chỉnh từ cộng đồng
- 4 phiên bản lượng tử hóa để triển khai với VRAM thấp hơn
- Nhánh cộng đồng tại
vibevoice-community/VibeVoicevới bảo trì tích cực
Các dự án cộng đồng đáng chú ý:
- VibeVoice-FastAPI: Wrapper API REST sản xuất có hỗ trợ Docker
- VibeVoice MCP Server: Tích hợp với các công cụ mã hóa AI thông qua Model Context Protocol
- Hỗ trợ Apple Silicon: Các tập lệnh cộng đồng cho suy luận trên máy Mac dòng M
- Các mô hình lượng tử hóa: GGUF và các định dạng khác để giảm mức sử dụng VRAM
Câu hỏi thường gặp
VibeVoice có miễn phí sử dụng không?
Có. Cả ba mô hình (TTS 1.5B, Realtime 0.5B, ASR) đều được cấp phép MIT. Bạn có thể sử dụng chúng cho mục đích thương mại và phi thương mại. Lưu trữ trên Azure AI Foundry có giá riêng cho suy luận đám mây được quản lý.
VibeVoice có thể chạy trên máy Mac Apple Silicon không?
Cộng đồng đã đóng góp các tập lệnh để suy luận trên máy Mac dòng M. Kiểm tra các cuộc thảo luận trên HuggingFace cho mô hình VibeVoice-1.5B. Hiệu suất chậm hơn so với GPU CUDA nhưng vẫn hoạt động.
VibeVoice so với ElevenLabs như thế nào?
VibeVoice chạy cục bộ mà không tốn phí API và không có dữ liệu rời khỏi máy của bạn. ElevenLabs cung cấp chất lượng cao hơn, nhiều giọng nói hơn và thiết lập dễ dàng hơn, nhưng yêu cầu đăng ký trả phí và xử lý trên đám mây. Đối với các ứng dụng nhạy cảm về quyền riêng tư hoặc sử dụng ngoại tuyến, VibeVoice là lựa chọn tốt. Đối với chất lượng sản phẩm và dễ sử dụng, ElevenLabs dẫn đầu.
Tại sao kho lưu trữ GitHub bị tạm thời vô hiệu hóa?
Microsoft phát hiện mọi người sử dụng nhân bản giọng nói để mạo danh và deepfake. Họ đã vô hiệu hóa kho lưu trữ, thêm các tính năng an toàn (tuyên bố miễn trừ trách nhiệm có thể nghe được, đánh dấu chìm) và kích hoạt lại. Nhánh cộng đồng đã tiếp tục phát triển trong thời gian ngừng hoạt động.
Tôi có thể tinh chỉnh VibeVoice trên các giọng nói tùy chỉnh không?
Có. Cộng đồng đã tạo ra 12 biến thể được tinh chỉnh trên HuggingFace. Bạn cần các mẫu giọng nói (30-60 giây âm thanh WAV rõ ràng ở 24kHz mono) và tài nguyên GPU để huấn luyện.
VibeVoice xuất ra định dạng âm thanh nào?
WAV ở 24.000 Hz mono. Bạn có thể chuyển đổi sang MP3, OGG, FLAC hoặc các định dạng khác bằng ffmpeg sau khi tạo.
Tôi có thể sử dụng VibeVoice-ASR để thay thế Whisper không?
Đối với âm thanh dài với nhận diện người nói, có. VibeVoice-ASR xử lý các bản ghi 60 phút trong một lần chạy với tính năng phân biệt người nói tích hợp. Whisper cần các công cụ bên ngoài để nhận diện người nói và gặp khó khăn với các bản ghi trên 30 phút nếu không cắt đoạn. Đối với các đoạn âm thanh ngắn, ồn ào hoặc triển khai trên thiết bị biên, Whisper vẫn là lựa chọn tốt hơn.
VibeVoice có hỗ trợ trò chuyện thoại thời gian thực không?
VibeVoice-Realtime-0.5B hỗ trợ đầu vào văn bản truyền trực tuyến với độ trễ ~300ms cho đoạn đầu tiên. Nó có thể sử dụng được cho các ứng dụng gần thời gian thực nhưng không được thiết kế cho cuộc hội thoại thoại song công hoàn chỉnh. Để làm được điều đó, hãy tìm hiểu Azure OpenAI’s GPT-Realtime hoặc các giải pháp được lưu trữ tương tự.
