สรุปย่อ
VibeVoice คือตระกูล AI เสียงแบบโอเพนซอร์สของ Microsoft ที่มีสามโมเดล: VibeVoice-1.5B สำหรับการแปลงข้อความเป็นคำพูด (สูงสุด 90 นาที, 4 ลำโพง), VibeVoice-Realtime-0.5B สำหรับ TTS แบบสตรีมมิ่ง, และ VibeVoice-ASR สำหรับการรู้จำคำพูด (เสียง 60 นาที, 50+ ภาษา, WER 7.77%) โมเดลทั้งหมดอยู่ภายใต้ใบอนุญาต MIT และทำงานแบบโลคอล คู่มือนี้ครอบคลุมการติดตั้ง การใช้งาน และการรวม API
บทนำ
Microsoft ได้เปิดตัว VibeVoice ในฐานะเฟรมเวิร์ก AI เสียงแบบโอเพนซอร์สในช่วงต้นปี 2026 โดยรวมถึงโมเดลสำหรับการสังเคราะห์เสียงพูด (ข้อความเป็นคำพูด) และการรู้จำเสียงพูด (การรู้จำเสียงพูดอัตโนมัติ) ซึ่งทั้งหมดทำงานแบบโลคอลบนฮาร์ดแวร์ของคุณโดยไม่มีการพึ่งพาคลาวด์

เฟรมเวิร์กนี้มีสามโมเดล:
- VibeVoice-1.5B สร้างเสียงสนทนาที่มีอารมณ์ความรู้สึกและมีหลายผู้พูดจากสคริปต์ข้อความ สามารถสังเคราะห์เสียงได้สูงสุด 90 นาที โดยมีผู้พูด 4 คนที่แตกต่างกันในการประมวลผลครั้งเดียว
- VibeVoice-Realtime-0.5B เป็นตัวแปรสตรีมมิ่งน้ำหนักเบาที่สร้างเสียงด้วยความหน่วงของส่วนแรก (first-chunk latency) ประมาณ 300 มิลลิวินาที
- VibeVoice-ASR ถอดความเสียงต่อเนื่องได้สูงสุด 60 นาที พร้อมระบุผู้พูด, การประทับเวลา, และผลลัพธ์ที่มีโครงสร้างในกว่า 50 ภาษา

โมเดล TTS ก่อให้เกิดข้อถกเถียงหลังจากการเปิดตัว Microsoft ได้ปิดใช้งานที่เก็บ GitHub หลักชั่วคราวเมื่อพวกเขาพบการนำไปใช้ในทางที่ผิดในการโคลนเสียง ชุมชนได้แตกโค้ด (fork) ออกไป และ Microsoft ได้เปิดใช้งานที่เก็บอีกครั้งในภายหลังพร้อมเพิ่มมาตรการป้องกัน: คำเตือน AI ที่ได้ยินได้ซึ่งฝังอยู่ในเสียงที่สร้างขึ้น และลายน้ำที่มองไม่เห็นสำหรับการตรวจสอบแหล่งที่มา
VibeVoice-ASR มีให้บริการแล้วบน Azure AI Foundry สำหรับการติดตั้งใช้งานบนคลาวด์ ส่วนโมเดล TTS ยังคงเน้นการวิจัยโดยใช้ใบอนุญาต MIT
คู่มือนี้จะอธิบายการติดตั้ง, การสร้างข้อความเป็นคำพูด, การรู้จำคำพูด, การรวม API, และวิธีการทดสอบปลายทาง AI เสียงด้วย Apidog
VibeVoice ทำงานอย่างไร: ภาพรวมสถาปัตยกรรม
ความก้าวหน้าของ Tokenizer
ความก้าวหน้าหลักของ VibeVoice คือตัว Tokenizer เสียงต่อเนื่องที่ทำงานด้วยอัตราเฟรมที่ต่ำมากเพียง 7.5 Hz เพื่อเปรียบเทียบ โมเดลเสียงส่วนใหญ่ประมวลผลเสียงที่ 50-100 Hz การลดอัตราเฟรมลง 7-13 เท่านี้หมายความว่าโมเดลสามารถจัดการกับลำดับที่ยาวนาน (เสียง 90 นาที) โดยไม่หมดบริบท


ระบบใช้ตัว Tokenizer สองตัว:
- Acoustic Tokenizer: ตัวแปร sigma-VAE ที่มีพารามิเตอร์ประมาณ 340M ในตัวเข้ารหัส-ถอดรหัสแบบสมมาตรแบบกระจกเงา มันลดอัตราการสุ่มตัวอย่าง 3,200 เท่าจากเสียงอินพุต 24kHz
- Semantic Tokenizer: มีสถาปัตยกรรมที่สะท้อน Acoustic Tokenizer แต่ได้รับการฝึกฝนด้วยงานพร็อกซี ASR เพื่อจับความหมายทางภาษา
การแพร่กระจายของโทเค็นถัดไป
โมเดลนี้รวมแกน LLM (Qwen2.5-1.5B) เข้ากับส่วนหัวแบบ Diffusion ที่มีน้ำหนักเบา (พารามิเตอร์ประมาณ 123M) LLM จัดการบริบทข้อความและโฟลว์การสนทนา ส่วนหัว Diffusion สร้างรายละเอียดเสียงที่มีความเที่ยงตรงสูงโดยใช้ DDPM (Denoising Diffusion Probabilistic Models) พร้อมด้วย Classifier-Free Guidance
จำนวนพารามิเตอร์ทั้งหมด: 3B (รวมถึง Tokenizer และส่วนหัว Diffusion)
แนวทางการฝึกอบรม
VibeVoice ใช้วิธีการเรียนรู้แบบหลักสูตร โดยค่อยๆ ฝึกโมเดลบนลำดับที่ยาวขึ้นเรื่อยๆ: 4K, 16K, 32K, จากนั้น 64K โทเค็น Tokenizer ที่ได้รับการฝึกฝนล่วงหน้าจะคงที่ในช่วงนี้; เฉพาะพารามิเตอร์ LLM และส่วนหัว Diffusion เท่านั้นที่ได้รับการอัปเดต วิธีนี้ช่วยให้โมเดลเรียนรู้ที่จะจัดการกับเสียงที่ยาวขึ้นเรื่อยๆ โดยไม่ลืมความสามารถในรูปแบบสั้น
ข้อมูลจำเพาะของโมเดล VibeVoice
| โมเดล | พารามิเตอร์ | วัตถุประสงค์ | ความยาวสูงสุด | ภาษา | ใบอนุญาต |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3B (รวม) | ข้อความเป็นคำพูด | 90 นาที | อังกฤษ, จีน | MIT |
| VibeVoice-Realtime-0.5B | ~0.5B | TTS แบบสตรีมมิ่ง | ระยะยาว | อังกฤษ, จีน | MIT |
| VibeVoice-ASR | ~9B | การรู้จำคำพูด | 60 นาที | 50+ ภาษา | MIT |
VibeVoice-1.5B (TTS)
| ข้อมูลจำเพาะ | ค่า |
|---|---|
| LLM พื้นฐาน | Qwen2.5-1.5B |
| ความยาวบริบท | 64K โทเค็น |
| จำนวนผู้พูดสูงสุด | 4 คนพร้อมกัน |
| เอาต์พุตเสียง | 24kHz WAV โมโน |
| ประเภท Tensor | BF16 |
| รูปแบบ | Safetensors |
| การดาวน์โหลดจาก HuggingFace | 62,630/เดือน |
| การแตกแขนงของชุมชน | 12 รูปแบบที่ปรับแต่งแล้ว |
VibeVoice-ASR
| ข้อมูลจำเพาะ | ค่า |
|---|---|
| สถาปัตยกรรมพื้นฐาน | Qwen2.5 |
| พารามิเตอร์ | ~9B |
| การประมวลผลเสียง | สูงสุด 60 นาทีในการประมวลผลครั้งเดียว |
| อัตราเฟรม | 7.5 Hz |
| WER เฉลี่ย | 7.77% (จาก 8 ชุดข้อมูลภาษาอังกฤษ) |
| LibriSpeech Clean WER | 2.20% |
| TED-LIUM WER | 2.57% |
| ภาษา | 50+ |
| เอาต์พุต | มีโครงสร้าง (ใคร + เมื่อไหร่ + อะไร) |
| เสียงที่รองรับ | WAV, FLAC, MP3 ที่ 16kHz+ |
การติดตั้งและตั้งค่า
ข้อกำหนดเบื้องต้น
- Python 3.8+
- NVIDIA GPU ที่รองรับ CUDA
- VRAM ขั้นต่ำ 7-8 GB สำหรับโมเดล TTS
- VRAM ขั้นต่ำ 24 GB สำหรับโมเดล ASR (แนะนำ A100/H100)
- RAM ขั้นต่ำ 32 GB (แนะนำ 64 GB สำหรับ ASR)
- CUDA 11.8+ (แนะนำ CUDA 12.0+)
ติดตั้ง VibeVoice TTS
# โคลน Repository
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# ติดตั้ง Dependencies
pip install -r requirements.txt
โมเดลจะดาวน์โหลดโดยอัตโนมัติจาก HuggingFace ในการรันครั้งแรก คุณยังสามารถดาวน์โหลดล่วงหน้าได้:
from huggingface_hub import snapshot_download
# ดาวน์โหลดโมเดล 1.5B TTS
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
ติดตั้งผ่าน pip (แพ็คเกจชุมชน)
pip install vibevoice
ติดตั้งสำหรับ ASR
VibeVoice-ASR ใช้การตั้งค่าแยกต่างหาก:
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
หรือติดตั้งผ่าน Azure AI Foundry สำหรับการอนุมานบนคลาวด์แบบจัดการ
การสร้างเสียงพูดด้วย VibeVoice-1.5B
การสร้างเสียงพูดจากผู้พูดคนเดียว
สร้างไฟล์ข้อความพร้อมสคริปต์ของคุณ:
Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.
รันการอนุมาน:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path script.txt \
--speaker_names Alice \
--cfg_scale 1.5
เอาต์พุตจะถูกบันทึกเป็นไฟล์ .wav ในไดเรกทอรี outputs/
การสร้างพอดแคสต์หลายผู้พูด
VibeVoice รองรับผู้พูดสูงสุด 4 คน โดยมีเอกลักษณ์เสียงที่สอดคล้องกันตลอดการบันทึกทั้งหมด:
Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path podcast_script.txt \
--speaker_names Alice Bob Carol \
--cfg_scale 1.5
โมเดลจะรักษาน้ำเสียงที่แตกต่างกันสำหรับผู้พูดแต่ละคนตลอดการสนทนาทั้งหมด แม้จะมีความยาวถึง 90 นาที
การโคลนเสียง (Zero-shot)
โคลนเสียงจากตัวอย่างเสียงอ้างอิง:
ข้อกำหนดด้านเสียง:
- รูปแบบ: WAV (โมโน)
- อัตราการสุ่มตัวอย่าง: 24,000 Hz
- ระยะเวลา: 30-60 วินาทีของเสียงพูดที่ชัดเจน
แปลงเสียงที่มีอยู่ให้อยู่ในรูปแบบที่ถูกต้อง:
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
ใช้ส่วนต่อประสาน Gradio demo สำหรับการโคลนเสียง:
python demo/gradio_demo.py
สิ่งนี้จะเปิด UI บนเว็บที่ http://127.0.0.1:7860 ซึ่งคุณสามารถอัปโหลดเสียงอ้างอิง เลือกเสียงที่โคลน และสร้างเสียงพูดได้
การสตรีมด้วย VibeVoice-Realtime-0.5B
สำหรับแอปพลิเคชันที่ต้องการเอาต์พุตเสียงที่มีความหน่วงต่ำ (ประมาณ 300ms สำหรับส่วนแรก):
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
โมเดล Realtime มีขนาดเล็กกว่าและเร็วกว่า แต่สร้างเสียงที่มีความเที่ยงตรงต่ำกว่าโมเดล 1.5B เต็มรูปแบบ ใช้สำหรับแอปพลิเคชันแบบโต้ตอบ; ใช้ 1.5B สำหรับเนื้อหาที่สร้างไว้ล่วงหน้า
การใช้ VibeVoice กับ Python
Pipeline API
from transformers import pipeline
from huggingface_hub import snapshot_download
# ดาวน์โหลดโมเดล
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
# โหลด pipeline
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
# เตรียมสคริปต์หลายผู้พูด
script = [
{"role": "Alice", "content": "How do you handle API versioning?"},
{"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]
# ใช้เทมเพลตแชท
input_data = pipe.processor.apply_chat_template(script)
# สร้างเสียง
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
FastAPI wrapper สำหรับการใช้งานจริง
ชุมชนได้สร้าง FastAPI wrapper ที่เปิดเผย VibeVoice เป็น OpenAI-compatible TTS API:
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
สิ่งนี้จะให้ปลายทาง API ที่เข้ากันได้กับรูปแบบ TTS ของ OpenAI:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Your API documentation should be a conversation, not a monologue.",
"voice": "alice"
}' \
--output speech.wav
ปลายทางที่เข้ากันได้กับ OpenAI นี้หมายความว่าคุณสามารถทดสอบการรวม API ของ VibeVoice ด้วย Apidog โดยใช้รูปแบบคำขอเดียวกับที่คุณจะใช้สำหรับ OpenAI TTS API นำเข้าปลายทาง กำหนดค่าเนื้อหาคำขอ และทดสอบการสร้างเสียงโดยไม่ต้องเขียนโค้ดแอปพลิเคชัน
การใช้ VibeVoice-ASR สำหรับการรู้จำคำพูด
การถอดความเบื้องต้น
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
รูปแบบเอาต์พุตที่มีโครงสร้าง
VibeVoice-ASR สร้างการถอดความที่มีโครงสร้างพร้อมสามฟิลด์ต่อส่วน:
- ใคร: การระบุผู้พูด (ผู้พูด 1, ผู้พูด 2, เป็นต้น)
- เมื่อไหร่: การประทับเวลาเริ่มต้นและสิ้นสุด
- อะไร: เนื้อหาข้อความที่ถอดความ
ตัวอย่างเอาต์พุต:
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Let's review the API endpoints for the new release."
},
{
"speaker": "Speaker 2",
"start": 4.5,
"end": 8.1,
"text": "I've added three new endpoints for the billing module."
}
]
}
ASR เป็นเซิร์ฟเวอร์ MCP
VibeVoice-ASR สามารถทำงานเป็นเซิร์ฟเวอร์ MCP (Model Context Protocol) โดยเชื่อมต่อโดยตรงกับ Claude Code, Cursor และเครื่องมือการเขียนโค้ด AI อื่นๆ:
# ติดตั้งเซิร์ฟเวอร์ MCP
pip install vibevoice-mcp-server
# รัน
vibevoice-mcp serve
สิ่งนี้ช่วยให้ตัวแทนการเขียนโค้ดของคุณถอดความการประชุม บันทึกเสียง หรือการบันทึกเสียงเป็นส่วนหนึ่งของเวิร์กโฟลว์ คุณกำหนดข้อกำหนด เซิร์ฟเวอร์ MCP ถอดความ และตัวแทนการเขียนโค้ดประมวลผลข้อความ
เมื่อใดควรใช้ VibeVoice-ASR เทียบกับ Whisper
| กรณีการใช้งาน | ตัวเลือกที่ดีที่สุด | เหตุผล |
|---|---|---|
| การประชุมยาวนาน (30-60 นาที) | VibeVoice-ASR | ประมวลผล 60 นาทีในครั้งเดียว, ระบุผู้พูด |
| สัมภาษณ์ที่มีผู้พูดหลายคน | VibeVoice-ASR | มีระบบแยกแยะผู้พูดในตัว |
| พอดแคสต์ที่ต้องการการประทับเวลา | VibeVoice-ASR | เอาต์พุตที่มีโครงสร้าง ใคร/เมื่อไหร่/อะไร |
| เนื้อหาหลายภาษา (50+ ภาษา) | VibeVoice-ASR | รองรับภาษาได้กว้างกว่า |
| คลิปสั้นๆ ในสภาพแวดล้อมที่มีเสียงดัง | Whisper | ทนทานต่อเสียงรบกวนได้ดีกว่า |
| การติดตั้งใช้งานบน Edge/มือถือ | Whisper | ขนาดโมเดลเล็กกว่า, รองรับอุปกรณ์ได้กว้างกว่า |
| ภาษาที่ไม่ใช่ภาษาอังกฤษ (เฉพาะทาง) | Whisper | การปรับแต่งหลายภาษาที่สมบูรณ์กว่า |
การทดสอบ Voice AI API ด้วย Apidog
ไม่ว่าคุณจะใช้ VibeVoice FastAPI wrapper, ปลายทาง Azure AI Foundry หรือสร้าง Voice AI API ของคุณเอง Apidog ช่วยคุณทดสอบและดีบักการรวมเหล่านี้ได้

ทดสอบปลายทาง TTS
- สร้างคำขอ POST ใหม่ใน Apidog ชี้ไปยังเซิร์ฟเวอร์ VibeVoice FastAPI ของคุณ
- ตั้งค่าเนื้อหาคำขอให้อยู่ในรูปแบบที่เข้ากันได้กับ OpenAI:
{
"model": "vibevoice-1.5b",
"input": "Test speech synthesis with proper intonation and pacing.",
"voice": "alice",
"response_format": "wav"
}
- ส่งคำขอและตรวจสอบว่าเฮดเดอร์การตอบกลับมีประเภทเนื้อหา
audio/wav - บันทึกการตอบกลับเป็นไฟล์ WAV เพื่อตรวจสอบคุณภาพเสียง
ทดสอบปลายทาง ASR
สำหรับ API การแปลงคำพูดเป็นข้อความ:
- ตั้งค่าคำขอ POST พร้อม
multipart/form-data - แนบไฟล์เสียงของคุณเป็นฟิลด์ฟอร์ม
- ตรวจสอบว่าการตอบกลับ JSON ที่มีโครงสร้างนั้นรวมถึง ID ผู้พูด, การประทับเวลา, และข้อความที่ถอดความแล้ว
ตรวจสอบสัญญา Audio API
Voice AI API จัดการข้อมูลไบนารี (ไฟล์เสียง) ควบคู่ไปกับข้อมูลเมตา JSON ตัวสร้างคำขอของ Apidog รองรับทั้งสอง:
- การอัปโหลดไฟล์ไบนารีสำหรับปลายทาง ASR
- การจัดรูปแบบเนื้อหา JSON สำหรับปลายทาง TTS
- การตรวจสอบการตอบกลับสำหรับเอาต์พุตการถอดความที่มีโครงสร้าง
- ตัวแปรสภาพแวดล้อมเพื่อสลับระหว่างปลายทางโลคอลและคลาวด์
ดาวน์โหลด Apidog เพื่อทดสอบการรวม Voice AI ของคุณก่อนที่จะนำไปใช้ในการผลิตจริง
ความปลอดภัยและการใช้งานอย่างรับผิดชอบ
Microsoft ได้เพิ่มมาตรการป้องกันหลายอย่างหลังจากเหตุการณ์การใช้งานในทางที่ผิดครั้งแรก:
- คำเตือน AI ที่ได้ยินได้: เสียงที่สร้างขึ้นทั้งหมดจะรวมข้อความอัตโนมัติ “ส่วนนี้สร้างโดย AI”
- ลายน้ำที่มองไม่เห็น: เครื่องหมายที่ซ่อนอยู่ช่วยให้การตรวจสอบเนื้อหาที่สร้างโดย VibeVoice โดยบุคคลที่สามเป็นไปได้
- การบันทึกการอนุมาน: บันทึกแบบแฮชช่วยตรวจจับรูปแบบการละเมิดด้วยสถิติรวมรายไตรมาส
- ใบอนุญาต MIT: อนุญาตให้ใช้งานเชิงพาณิชย์ได้ แต่ Microsoft แนะนำให้หลีกเลี่ยงการใช้งานในการผลิตโดยไม่มีการทดสอบเพิ่มเติม
สิ่งที่ได้รับอนุญาต
- การใช้งานเพื่อการวิจัยและทางวิชาการ
- การสร้างต้นแบบและการทดสอบภายในองค์กร
- การสร้างพอดแคสต์โดยมีการเปิดเผยข้อมูล AI ที่เหมาะสม
- แอปพลิเคชันเพื่อการเข้าถึง (Text-to-speech สำหรับผู้ใช้ที่มีความบกพร่องทางการมองเห็น)
สิ่งที่ไม่ได้รับอนุญาต
- การแอบอ้างเสียงโดยไม่ได้รับความยินยอมจากการบันทึกอย่างชัดเจน
- Deepfakes หรือการนำเสนอเสียง AI ว่าเป็นการบันทึกเสียงของมนุษย์จริง
- การแปลงเสียงแบบเรียลไทม์สำหรับแอปพลิเคชัน deepfake แบบสด
- การสร้างเสียงที่ไม่ใช่คำพูด (เพลง, เอฟเฟกต์เสียง)
ข้อจำกัดที่ควรรู้
การรองรับภาษาสำหรับ TTS ยังแคบ VibeVoice-1.5B รองรับภาษาอังกฤษและภาษาจีน ภาษาอื่น ๆ จะให้ผลลัพธ์ที่ไม่สามารถเข้าใจได้ VibeVoice-ASR มีการครอบคลุมที่กว้างขึ้นที่ 50+ ภาษา

ข้อกำหนดฮาร์ดแวร์สูงชันสำหรับ ASR โมเดล ASR ต้องการ VRAM 24 GB+ (GPU ระดับ A100/H100) โมเดล TTS สามารถทำงานบน GPU สำหรับผู้บริโภคที่มี VRAM 7-8 GB
ไม่รองรับการจัดการเสียงพูดที่ทับซ้อนกัน โมเดล TTS ไม่ได้จำลองการพูดทับกันของผู้พูด บทสนทนาทั้งหมดเป็นการพูดผลัดกัน
ความลำเอียงที่สืบทอดมาจากโมเดล โมเดลทั้งสองสืบทอดความลำเอียงจากพื้นฐาน Qwen2.5 เอาต์พุตอาจมีเนื้อหาที่ไม่คาดคิด, ลำเอียง, หรือไม่ถูกต้อง
ซอฟต์แวร์ระดับการวิจัย นี่ไม่ใช่ซอฟต์แวร์ที่พร้อมใช้งานในการผลิตจริง คาดหวังข้อผิดพลาดเล็กน้อยในกรณีพิเศษ, การจัดการข้อผิดพลาด, และเอาต์พุตที่ไม่ใช่ภาษาอังกฤษ
การติดตั้งใช้งาน VibeVoice-ASR บน Azure AI Foundry
สำหรับทีมที่ไม่ต้องการจัดการโครงสร้างพื้นฐาน GPU ทาง Microsoft ได้ทำให้ VibeVoice-ASR พร้อมใช้งานผ่าน Azure AI Foundry สิ่งนี้ช่วยให้คุณมีปลายทาง API ที่มีการจัดการโดยไม่ต้องจัดหาฮาร์ดแวร์
การติดตั้งใช้งาน Azure จะจัดการการปรับขนาด การอัปเดตโมเดล และการบำรุงรักษาโครงสร้างพื้นฐาน คุณจะได้รับปลายทาง HTTPS ที่รับไฟล์เสียงและส่งคืนการถอดความที่มีโครงสร้างในรูปแบบ Who/When/What เดียวกันกับโมเดลโลคอล
สิ่งนี้มีประโยชน์อย่างยิ่งสำหรับเวิร์กโหลดการผลิตที่ต้องการความเสถียรในการทำงานและรับประกัน SLA ที่การอนุมานบน GPU ที่โฮสต์เองไม่สามารถให้ได้ ตรวจสอบแคตตาล็อกโมเดลของ Azure AI Foundry สำหรับราคาปัจจุบันและตัวเลือกการติดตั้งใช้งาน
สำหรับการทดสอบปลายทาง VibeVoice ที่โฮสต์บน Azure ก่อนที่จะรวมเข้ากับแอปพลิเคชันของคุณ ให้ตั้งค่า URL ปลายทางและส่วนหัวการรับรองความถูกต้องใน Apidog และรันการถอดความทดสอบกับไฟล์เสียงตัวอย่าง
ชุมชนและระบบนิเวศ
VibeVoice มีชุมชนที่กระตือรือร้น:
- มีการดาวน์โหลด HuggingFace กว่า 62,630+ ครั้งต่อเดือน สำหรับโมเดล 1.5B
- มีผู้กดไลก์กว่า 2,280+ ครั้ง บน HuggingFace
- มี HuggingFace Spaces กว่า 79+ แห่ง ที่รันโมเดลนี้
- มีโมเดลที่ปรับแต่งแล้ว 12 รูปแบบ จากชุมชน
- มีเวอร์ชันควอนไทซ์ 4 รูปแบบ สำหรับการติดตั้งใช้งานที่ใช้ VRAM น้อยลง
- ชุมชน fork ที่
vibevoice-community/VibeVoiceพร้อมการบำรุงรักษาอย่างต่อเนื่อง
โครงการชุมชนที่น่าสนใจ:
- VibeVoice-FastAPI: Wrapper API แบบ REST สำหรับการผลิตพร้อมรองรับ Docker
- VibeVoice MCP Server: การรวมกับเครื่องมือการเขียนโค้ด AI ผ่าน Model Context Protocol
- Apple Silicon support: สคริปต์ชุมชนสำหรับการอนุมานบน Mac ซีรีส์ M
- Quantized models: รูปแบบ GGUF และอื่นๆ สำหรับการลดการใช้ VRAM
คำถามที่พบบ่อย
VibeVoice ใช้งานฟรีหรือไม่?
ใช่ โมเดลทั้งสาม (TTS 1.5B, Realtime 0.5B, ASR) อยู่ภายใต้ใบอนุญาต MIT คุณสามารถใช้เพื่อวัตถุประสงค์เชิงพาณิชย์และไม่ใช่เชิงพาณิชย์ได้ การโฮสต์บน Azure AI Foundry มีราคาแยกต่างหากสำหรับการอนุมานบนคลาวด์แบบจัดการ
VibeVoice สามารถทำงานบน Apple Silicon Mac ได้หรือไม่?
ชุมชนได้มีส่วนร่วมสคริปต์สำหรับการอนุมานบน Mac ซีรีส์ M ตรวจสอบการสนทนาบน HuggingFace สำหรับโมเดล VibeVoice-1.5B ประสิทธิภาพจะช้ากว่า CUDA GPU แต่ใช้งานได้
VibeVoice เปรียบเทียบกับ ElevenLabs อย่างไร?
VibeVoice ทำงานแบบโลคอลโดยไม่มีค่าใช้จ่าย API และไม่มีข้อมูลออกจากเครื่องของคุณ ElevenLabs ให้คุณภาพที่สูงกว่า เสียงที่หลากหลายกว่า และตั้งค่าได้ง่ายกว่า แต่ต้องสมัครสมาชิกแบบชำระเงินและการประมวลผลบนคลาวด์ สำหรับแอปพลิเคชันที่คำนึงถึงความเป็นส่วนตัวหรือการใช้งานแบบออฟไลน์ VibeVoice ชนะ สำหรับคุณภาพการผลิตและความง่ายในการใช้งาน ElevenLabs อยู่ข้างหน้า
เหตุใด GitHub repository จึงถูกปิดใช้งานชั่วคราว?
Microsoft ค้นพบว่ามีผู้คนใช้การโคลนเสียงเพื่อแอบอ้างบุคคลและสร้าง deepfakes พวกเขาจึงปิดใช้งาน repository เพิ่มคุณสมบัติด้านความปลอดภัย (คำเตือนที่ได้ยินได้, การทำลายน้ำ) และเปิดใช้งานอีกครั้ง ชุมชน fork ได้ดำเนินการพัฒนาต่อไปในช่วงที่ปิดการใช้งาน
ฉันสามารถปรับแต่ง VibeVoice ด้วยเสียงที่กำหนดเองได้หรือไม่?
ใช่ ชุมชนได้สร้างโมเดลที่ปรับแต่งแล้ว 12 รูปแบบบน HuggingFace คุณต้องมีตัวอย่างเสียง (เสียง WAV ที่ชัดเจน 30-60 วินาทีที่ 24kHz โมโน) และทรัพยากร GPU สำหรับการฝึกอบรม
VibeVoice เอาต์พุตไฟล์เสียงในรูปแบบใด?
WAV ที่ 24,000 Hz โมโน คุณสามารถแปลงเป็น MP3, OGG, FLAC หรือรูปแบบอื่น ๆ ด้วย ffmpeg หลังจากสร้างเสร็จ
ฉันสามารถใช้ VibeVoice-ASR แทน Whisper ได้หรือไม่?
สำหรับเสียงยาวพร้อมการระบุผู้พูด ใช่ VibeVoice-ASR สามารถจัดการการบันทึก 60 นาทีในครั้งเดียวด้วยระบบแยกแยะผู้พูดในตัว Whisper ต้องการเครื่องมือภายนอกสำหรับการระบุผู้พูดและมีปัญหาในการบันทึกที่ยาวกว่า 30 นาทีโดยไม่มีการแบ่งส่วน สำหรับคลิปสั้นๆ ที่มีเสียงรบกวน หรือการติดตั้งใช้งานบนอุปกรณ์พกพา Whisper ยังคงเป็นตัวเลือกที่ดีกว่า
VibeVoice รองรับการสนทนาด้วยเสียงแบบเรียลไทม์หรือไม่?
VibeVoice-Realtime-0.5B รองรับการสตรีมอินพุตข้อความด้วยความหน่วงของส่วนแรก (first-chunk latency) ประมาณ 300 มิลลิวินาที สามารถใช้งานได้สำหรับแอปพลิเคชันแบบใกล้เคียงเรียลไทม์ แต่ไม่ได้ออกแบบมาสำหรับการสนทนาด้วยเสียงแบบ full-duplex สำหรับกรณีนั้น ควรพิจารณา Azure OpenAI's GPT-Realtime หรือโซลูชันที่โฮสต์คล้ายกัน
