Microsoft VibeVoice Là Gì? Cách Sử Dụng Mô Hình AI Giọng Nói Nguồn Mở

Tóm tắt

VibeVoice là họ AI giọng nói mã nguồn mở của Microsoft với ba mô hình: VibeVoice-1.5B cho chuyển văn bản thành giọng nói (lên đến 90 phút, 4 người nói), VibeVoice-Realtime-0.5B cho TTS thời gian thực và VibeVoice-ASR cho nhận dạng giọng nói (âm thanh 60 phút, hơn 50 ngôn ngữ, WER 7.77%). Tất cả các mô hình đều được cấp phép MIT và chạy cục bộ. Hướng dẫn này bao gồm cài đặt, sử dụng và tích hợp API.

Giới thiệu

Microsoft đã phát hành VibeVoice như một framework AI giọng nói mã nguồn mở vào đầu năm 2026. Nó bao gồm các mô hình cho cả tổng hợp giọng nói (chuyển văn bản thành giọng nói) và nhận dạng giọng nói (nhận dạng giọng nói tự động), tất cả đều chạy cục bộ trên phần cứng của bạn mà không phụ thuộc vào đám mây.

Framework này có ba mô hình:

VibeVoice-1.5B tạo ra âm thanh hội thoại biểu cảm, đa giọng nói từ các kịch bản văn bản. Nó có thể tổng hợp tới 90 phút giọng nói với 4 người nói riêng biệt trong một lần xử lý.
VibeVoice-Realtime-0.5B là một biến thể truyền trực tuyến nhẹ tạo ra âm thanh với độ trễ ~300ms cho đoạn đầu tiên.
VibeVoice-ASR phiên âm lên đến 60 phút âm thanh liên tục với nhận diện người nói, dấu thời gian và đầu ra có cấu trúc trên hơn 50 ngôn ngữ.

Các mô hình TTS đã gây tranh cãi sau khi phát hành. Microsoft tạm thời vô hiệu hóa kho lưu trữ GitHub chính khi họ phát hiện hành vi lạm dụng nhân bản giọng nói. Cộng đồng đã phân nhánh mã, và Microsoft sau đó đã kích hoạt lại kho lưu trữ với các biện pháp bảo vệ bổ sung: một tuyên bố miễn trừ trách nhiệm AI có thể nghe được được nhúng vào âm thanh được tạo ra và tính năng đánh dấu không thể nhận biết để xác minh nguồn gốc.

VibeVoice-ASR hiện có sẵn trên Azure AI Foundry để triển khai đám mây. Các mô hình TTS vẫn tập trung vào nghiên cứu với giấy phép MIT.

Hướng dẫn này sẽ hướng dẫn bạn qua cài đặt, tạo chuyển văn bản thành giọng nói, nhận dạng giọng nói, tích hợp API và cách kiểm tra các điểm cuối AI giọng nói bằng Apidog.

button

VibeVoice hoạt động như thế nào: tổng quan kiến trúc

Đột phá về trình mã hóa (tokenizer)

Tiến bộ cốt lõi của VibeVoice là các trình mã hóa giọng nói liên tục của nó hoạt động ở tốc độ khung hình cực thấp 7.5 Hz. Để so sánh, hầu hết các mô hình giọng nói xử lý âm thanh ở 50-100 Hz. Việc giảm tốc độ khung hình 7-13 lần này có nghĩa là mô hình xử lý các chuỗi dài (90 phút âm thanh) mà không bị mất ngữ cảnh.

Hệ thống sử dụng hai trình mã hóa:

Acoustic Tokenizer: Một biến thể sigma-VAE với ~340M tham số trong bộ mã hóa-giải mã đối xứng gương. Nó giảm lấy mẫu 3.200x từ âm thanh đầu vào 24kHz.
Semantic Tokenizer: Phản ánh kiến trúc của trình mã hóa âm thanh nhưng được huấn luyện với nhiệm vụ proxy ASR để nắm bắt ý nghĩa ngôn ngữ.

Phân tán token tiếp theo

Mô hình kết hợp một xương sống LLM (Qwen2.5-1.5B) với một đầu phân tán nhẹ (~123M tham số). LLM xử lý ngữ cảnh văn bản và luồng hội thoại. Đầu phân tán tạo ra các chi tiết âm thanh có độ trung thực cao bằng cách sử dụng DDPM (Denoising Diffusion Probabilistic Models) với Hướng dẫn không phân loại (Classifier-Free Guidance).

Tổng số tham số: 3B (bao gồm trình mã hóa và đầu phân tán).

Phương pháp huấn luyện

VibeVoice sử dụng học tập theo chương trình (curriculum learning), dần dần huấn luyện trên các chuỗi dài hơn: 4K, 16K, 32K, sau đó 64K token. Các trình mã hóa được huấn luyện trước vẫn được cố định trong giai đoạn này; chỉ các tham số LLM và đầu phân tán được cập nhật. Điều này cho phép mô hình học cách xử lý âm thanh ngày càng dài mà không quên khả năng xử lý dạng ngắn.

Thông số kỹ thuật mô hình VibeVoice

Mô hình	Tham số	Mục đích	Độ dài tối đa	Ngôn ngữ	Giấy phép
VibeVoice-1.5B	3B (tổng cộng)	Chuyển văn bản thành giọng nói	90 phút	Tiếng Anh, Tiếng Trung	MIT
VibeVoice-Realtime-0.5B	~0.5B	TTS truyền trực tuyến	Dài hạn	Tiếng Anh, Tiếng Trung	MIT
VibeVoice-ASR	~9B	Nhận dạng giọng nói	60 phút	50+ ngôn ngữ	MIT

VibeVoice-1.5B (TTS)

Thông số kỹ thuật	Giá trị
Cơ sở LLM	Qwen2.5-1.5B
Độ dài ngữ cảnh	64K token
Số người nói tối đa	4 đồng thời
Đầu ra âm thanh	24kHz WAV mono
Kiểu tensor	BF16
Định dạng	Safetensors
Lượt tải xuống HuggingFace	62,630/tháng
Các nhánh cộng đồng	12 biến thể được tinh chỉnh

VibeVoice-ASR

Thông số kỹ thuật	Giá trị
Kiến trúc cơ sở	Qwen2.5
Tham số	~9B
Xử lý âm thanh	Lên đến 60 phút một lần chạy
Tốc độ khung hình	7.5 Hz
WER trung bình	7.77% (trên 8 bộ dữ liệu tiếng Anh)
LibriSpeech Clean WER	2.20%
TED-LIUM WER	2.57%
Ngôn ngữ	50+
Đầu ra	Có cấu trúc (Ai + Khi nào + Gì)
Âm thanh được hỗ trợ	WAV, FLAC, MP3 ở 16kHz+

Cài đặt và thiết lập

Yêu cầu tiên quyết

Python 3.8+
NVIDIA GPU có hỗ trợ CUDA
Tối thiểu 7-8 GB VRAM cho các mô hình TTS
Tối thiểu 24 GB VRAM cho mô hình ASR (khuyên dùng A100/H100)
RAM tối thiểu 32 GB (khuyên dùng 64 GB cho ASR)
CUDA 11.8+ (khuyên dùng CUDA 12.0+)

Cài đặt VibeVoice TTS

# Clone kho lưu trữ
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Cài đặt các phụ thuộc
pip install -r requirements.txt

Các mô hình sẽ tự động tải xuống từ HuggingFace trong lần chạy đầu tiên. Bạn cũng có thể tải xuống trước:

from huggingface_hub import snapshot_download

# Tải xuống mô hình TTS 1.5B
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

Cài đặt qua pip (gói cộng đồng)

pip install vibevoice

Cài đặt cho ASR

VibeVoice-ASR sử dụng một thiết lập riêng:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Hoặc triển khai thông qua Azure AI Foundry để suy luận đám mây được quản lý.

Tạo giọng nói với VibeVoice-1.5B

Tạo giọng nói đơn người nói

Tạo một tệp văn bản với kịch bản của bạn:

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

Chạy suy luận:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

Đầu ra được lưu dưới dạng tệp .wav trong thư mục outputs/.

Tạo podcast đa người nói

VibeVoice xử lý tối đa 4 người nói với danh tính giọng nói nhất quán trong suốt toàn bộ bản ghi:

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

Mô hình duy trì các đặc điểm giọng nói riêng biệt cho từng người nói trong suốt cuộc hội thoại, ngay cả với độ dài 90 phút.

Nhân bản giọng nói (zero-shot)

Nhân bản giọng nói từ một mẫu âm thanh tham chiếu:

Yêu cầu âm thanh:

Định dạng: WAV (mono)
Tốc độ lấy mẫu: 24.000 Hz
Thời lượng: 30-60 giây giọng nói rõ ràng

Chuyển đổi âm thanh hiện có sang định dạng phù hợp:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Sử dụng giao diện demo Gradio để nhân bản giọng nói:

python demo/gradio_demo.py

Thao tác này sẽ khởi chạy giao diện người dùng web tại http://127.0.0.1:7860 nơi bạn tải lên âm thanh tham chiếu của mình, chọn giọng nói được nhân bản và tạo giọng nói.

Truyền trực tuyến với VibeVoice-Realtime-0.5B

Đối với các ứng dụng cần đầu ra âm thanh có độ trễ thấp (~300ms đoạn đầu tiên):

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Mô hình Realtime nhỏ hơn và nhanh hơn nhưng tạo ra âm thanh có độ trung thực thấp hơn so với mô hình 1.5B đầy đủ. Sử dụng nó cho các ứng dụng tương tác; sử dụng 1.5B cho nội dung được tạo trước.

Sử dụng VibeVoice với Python

API Pipeline

from transformers import pipeline
from huggingface_hub import snapshot_download

# Tải xuống mô hình
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Tải pipeline
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Chuẩn bị kịch bản đa người nói
script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

# Áp dụng template trò chuyện
input_data = pipe.processor.apply_chat_template(script)

# Tạo âm thanh
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

Wrapper FastAPI cho sản xuất

Cộng đồng đã xây dựng một wrapper FastAPI hiển thị VibeVoice dưới dạng API TTS tương thích với OpenAI:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

Điều này cung cấp cho bạn một điểm cuối API tương thích với định dạng TTS của OpenAI:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

Điểm cuối tương thích với OpenAI này có nghĩa là bạn có thể kiểm tra tích hợp API VibeVoice của mình với Apidog bằng cách sử dụng cùng định dạng yêu cầu mà bạn sẽ sử dụng cho API TTS của OpenAI. Nhập điểm cuối, cấu hình thân yêu cầu của bạn và kiểm tra việc tạo giọng nói mà không cần viết mã ứng dụng.

Sử dụng VibeVoice-ASR để nhận dạng giọng nói

Phiên âm cơ bản

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Định dạng đầu ra có cấu trúc

VibeVoice-ASR tạo ra các phiên âm có cấu trúc với ba trường cho mỗi phân đoạn:

Ai: Danh tính người nói (Người nói 1, Người nói 2, v.v.)
Khi nào: Dấu thời gian bắt đầu và kết thúc
Gì: Nội dung văn bản được phiên âm

Ví dụ đầu ra:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

ASR dưới dạng máy chủ MCP

VibeVoice-ASR có thể chạy như một máy chủ MCP (Model Context Protocol), kết nối trực tiếp với Claude Code, Cursor và các công cụ mã hóa AI khác:

# Cài đặt máy chủ MCP
pip install vibevoice-mcp-server

# Chạy nó
vibevoice-mcp serve

Điều này cho phép tác nhân mã hóa của bạn phiên âm các cuộc họp, ghi chú giọng nói hoặc ghi âm dưới dạng một phần của quy trình làm việc của nó. Bạn đọc yêu cầu, máy chủ MCP phiên âm chúng, và tác nhân mã hóa xử lý văn bản.

Khi nào nên sử dụng VibeVoice-ASR so với Whisper

Trường hợp sử dụng	Lựa chọn tốt nhất	Lý do
Cuộc họp dài (30-60 phút)	VibeVoice-ASR	Xử lý một lần 60 phút, nhận diện người nói
Phỏng vấn với nhiều người nói	VibeVoice-ASR	Phân biệt người nói tích hợp
Podcast cần dấu thời gian	VibeVoice-ASR	Đầu ra có cấu trúc Ai/Khi nào/Gì
Nội dung đa ngôn ngữ (50+ ngôn ngữ)	VibeVoice-ASR	Hỗ trợ ngôn ngữ rộng hơn
Đoạn âm thanh ngắn trong môi trường ồn ào	Whisper	Khả năng chống ồn tốt hơn
Triển khai trên thiết bị biên/di động	Whisper	Kích thước mô hình nhỏ hơn, hỗ trợ nhiều thiết bị hơn
Ngôn ngữ không phải tiếng Anh (chuyên biệt)	Whisper	Tinh chỉnh đa ngôn ngữ trưởng thành hơn

Kiểm tra API AI giọng nói với Apidog

Dù bạn đang sử dụng wrapper FastAPI của VibeVoice, điểm cuối Azure AI Foundry, hay xây dựng API AI giọng nói của riêng mình, Apidog giúp bạn kiểm tra và gỡ lỗi các tích hợp này.

Kiểm tra điểm cuối TTS

Tạo một yêu cầu POST mới trong Apidog trỏ đến máy chủ FastAPI VibeVoice của bạn
Đặt nội dung yêu cầu theo định dạng tương thích với OpenAI:

{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice",
  "response_format": "wav"
}

Gửi yêu cầu và xác minh các tiêu đề phản hồi bao gồm loại nội dung audio/wav
Lưu phản hồi dưới dạng tệp WAV để xác minh chất lượng âm thanh

Kiểm tra điểm cuối ASR

Đối với API chuyển giọng nói thành văn bản:

Thiết lập một yêu cầu POST với multipart/form-data
Đính kèm tệp âm thanh của bạn dưới dạng trường biểu mẫu
Xác minh phản hồi JSON có cấu trúc bao gồm ID người nói, dấu thời gian và văn bản đã phiên âm

Xác thực các hợp đồng API âm thanh

Các API AI giọng nói xử lý dữ liệu nhị phân (tệp âm thanh) cùng với siêu dữ liệu JSON. Trình tạo yêu cầu của Apidog xử lý cả hai:

Tải lên tệp nhị phân cho các điểm cuối ASR
Định dạng thân JSON cho các điểm cuối TTS
Xác thực phản hồi cho đầu ra phiên âm có cấu trúc
Các biến môi trường để chuyển đổi giữa các điểm cuối cục bộ và đám mây

Tải xuống Apidog để kiểm tra các tích hợp AI giọng nói của bạn trước khi triển khai vào sản xuất.

button

An toàn và sử dụng có trách nhiệm

Microsoft đã bổ sung một số biện pháp bảo vệ sau các sự cố lạm dụng ban đầu:

Tuyên bố miễn trừ trách nhiệm AI có thể nghe được: Tất cả âm thanh được tạo ra đều bao gồm một thông báo tự động “Đoạn này được tạo bởi AI”
Đánh dấu không thể nhận biết: Các dấu hiệu ẩn cho phép bên thứ ba xác minh nội dung được tạo bởi VibeVoice
Ghi nhật ký suy luận: Nhật ký được băm phát hiện các mẫu lạm dụng với số liệu thống kê tổng hợp hàng quý
Giấy phép MIT: Cho phép sử dụng thương mại, nhưng Microsoft khuyến nghị không triển khai sản xuất nếu không kiểm tra thêm

Những gì được phép

Sử dụng trong nghiên cứu và học thuật
Tạo mẫu và thử nghiệm nội bộ
Tạo podcast với tiết lộ AI thích hợp
Các ứng dụng hỗ trợ tiếp cận (chuyển văn bản thành giọng nói cho người dùng khiếm thị)

Những gì không được phép

Mạo danh giọng nói mà không có sự đồng ý được ghi lại rõ ràng
Deepfake hoặc trình bày âm thanh AI như các bản ghi âm người thật
Chuyển đổi giọng nói thời gian thực cho các ứng dụng deepfake trực tiếp
Tạo âm thanh không phải giọng nói (nhạc, hiệu ứng âm thanh)

Những hạn chế cần biết

Hỗ trợ ngôn ngữ hẹp cho TTS. VibeVoice-1.5B hỗ trợ tiếng Anh và tiếng Trung. Các ngôn ngữ khác tạo ra đầu ra không thể hiểu được. VibeVoice-ASR có phạm vi phủ sóng rộng hơn với hơn 50 ngôn ngữ.

Yêu cầu phần cứng cao cho ASR. Mô hình ASR cần 24 GB+ VRAM (GPU loại A100/H100). Các mô hình TTS chạy trên GPU tiêu dùng với 7-8 GB VRAM.

Không xử lý giọng nói chồng chéo. Mô hình TTS không mô hình hóa việc người nói nói chồng lên nhau. Tất cả hội thoại đều theo lượt.

Các sai lệch mô hình kế thừa. Cả hai mô hình đều thừa hưởng các sai lệch từ cơ sở Qwen2.5 của chúng. Đầu ra có thể chứa nội dung không mong muốn, sai lệch hoặc không chính xác.

Phần mềm cấp nghiên cứu. Đây không phải là sản phẩm sẵn sàng sản xuất. Hãy dự kiến các vấn đề trong các trường hợp biên, xử lý lỗi và đầu ra không phải tiếng Anh.

Triển khai VibeVoice-ASR trên Azure AI Foundry

Đối với các nhóm không muốn quản lý cơ sở hạ tầng GPU, Microsoft đã cung cấp VibeVoice-ASR thông qua Azure AI Foundry. Điều này cung cấp cho bạn một điểm cuối API được quản lý mà không cần cấp phép phần cứng.

Việc triển khai Azure xử lý việc mở rộng quy mô, cập nhật mô hình và bảo trì cơ sở hạ tầng. Bạn nhận được một điểm cuối HTTPS chấp nhận tệp âm thanh và trả về các phiên âm có cấu trúc theo cùng định dạng Ai/Khi nào/Gì như mô hình cục bộ.

Điều này đặc biệt hữu ích cho các khối lượng công việc sản xuất nơi bạn cần thời gian hoạt động ổn định và đảm bảo SLA mà suy luận GPU tự lưu trữ không thể cung cấp. Kiểm tra danh mục mô hình của Azure AI Foundry để biết giá hiện tại và các tùy chọn triển khai.

Để kiểm tra điểm cuối VibeVoice được lưu trữ trên Azure của bạn trước khi tích hợp nó vào ứng dụng của mình, hãy thiết lập URL điểm cuối và tiêu đề xác thực trong Apidog và chạy các bản phiên âm thử nghiệm đối với các tệp âm thanh mẫu.

Cộng đồng và hệ sinh thái

VibeVoice có một cộng đồng hoạt động tích cực:

Hơn 62.630 lượt tải xuống hàng tháng trên HuggingFace cho mô hình 1.5B
Hơn 2.280 lượt thích trên HuggingFace
Hơn 79 HuggingFace Spaces đang chạy mô hình
12 biến thể được tinh chỉnh từ cộng đồng
4 phiên bản lượng tử hóa để triển khai với VRAM thấp hơn
Nhánh cộng đồng tại vibevoice-community/VibeVoice với bảo trì tích cực

Các dự án cộng đồng đáng chú ý:

VibeVoice-FastAPI: Wrapper API REST sản xuất có hỗ trợ Docker
VibeVoice MCP Server: Tích hợp với các công cụ mã hóa AI thông qua Model Context Protocol
Hỗ trợ Apple Silicon: Các tập lệnh cộng đồng cho suy luận trên máy Mac dòng M
Các mô hình lượng tử hóa: GGUF và các định dạng khác để giảm mức sử dụng VRAM

Câu hỏi thường gặp

VibeVoice có miễn phí sử dụng không?

Có. Cả ba mô hình (TTS 1.5B, Realtime 0.5B, ASR) đều được cấp phép MIT. Bạn có thể sử dụng chúng cho mục đích thương mại và phi thương mại. Lưu trữ trên Azure AI Foundry có giá riêng cho suy luận đám mây được quản lý.

VibeVoice có thể chạy trên máy Mac Apple Silicon không?

Cộng đồng đã đóng góp các tập lệnh để suy luận trên máy Mac dòng M. Kiểm tra các cuộc thảo luận trên HuggingFace cho mô hình VibeVoice-1.5B. Hiệu suất chậm hơn so với GPU CUDA nhưng vẫn hoạt động.

VibeVoice so với ElevenLabs như thế nào?

VibeVoice chạy cục bộ mà không tốn phí API và không có dữ liệu rời khỏi máy của bạn. ElevenLabs cung cấp chất lượng cao hơn, nhiều giọng nói hơn và thiết lập dễ dàng hơn, nhưng yêu cầu đăng ký trả phí và xử lý trên đám mây. Đối với các ứng dụng nhạy cảm về quyền riêng tư hoặc sử dụng ngoại tuyến, VibeVoice là lựa chọn tốt. Đối với chất lượng sản phẩm và dễ sử dụng, ElevenLabs dẫn đầu.

Tại sao kho lưu trữ GitHub bị tạm thời vô hiệu hóa?

Microsoft phát hiện mọi người sử dụng nhân bản giọng nói để mạo danh và deepfake. Họ đã vô hiệu hóa kho lưu trữ, thêm các tính năng an toàn (tuyên bố miễn trừ trách nhiệm có thể nghe được, đánh dấu chìm) và kích hoạt lại. Nhánh cộng đồng đã tiếp tục phát triển trong thời gian ngừng hoạt động.

Tôi có thể tinh chỉnh VibeVoice trên các giọng nói tùy chỉnh không?

Có. Cộng đồng đã tạo ra 12 biến thể được tinh chỉnh trên HuggingFace. Bạn cần các mẫu giọng nói (30-60 giây âm thanh WAV rõ ràng ở 24kHz mono) và tài nguyên GPU để huấn luyện.

VibeVoice xuất ra định dạng âm thanh nào?

WAV ở 24.000 Hz mono. Bạn có thể chuyển đổi sang MP3, OGG, FLAC hoặc các định dạng khác bằng ffmpeg sau khi tạo.

Tôi có thể sử dụng VibeVoice-ASR để thay thế Whisper không?

Đối với âm thanh dài với nhận diện người nói, có. VibeVoice-ASR xử lý các bản ghi 60 phút trong một lần chạy với tính năng phân biệt người nói tích hợp. Whisper cần các công cụ bên ngoài để nhận diện người nói và gặp khó khăn với các bản ghi trên 30 phút nếu không cắt đoạn. Đối với các đoạn âm thanh ngắn, ồn ào hoặc triển khai trên thiết bị biên, Whisper vẫn là lựa chọn tốt hơn.

VibeVoice có hỗ trợ trò chuyện thoại thời gian thực không?

VibeVoice-Realtime-0.5B hỗ trợ đầu vào văn bản truyền trực tuyến với độ trễ ~300ms cho đoạn đầu tiên. Nó có thể sử dụng được cho các ứng dụng gần thời gian thực nhưng không được thiết kế cho cuộc hội thoại thoại song công hoàn chỉnh. Để làm được điều đó, hãy tìm hiểu Azure OpenAI’s GPT-Realtime hoặc các giải pháp được lưu trữ tương tự.

button