Microsoft VibeVoice คืออะไร? วิธีใช้โมเดล AI เสียงโอเพนซอร์ส

สรุปย่อ

VibeVoice คือตระกูล AI เสียงแบบโอเพนซอร์สของ Microsoft ที่มีสามโมเดล: VibeVoice-1.5B สำหรับการแปลงข้อความเป็นคำพูด (สูงสุด 90 นาที, 4 ลำโพง), VibeVoice-Realtime-0.5B สำหรับ TTS แบบสตรีมมิ่ง, และ VibeVoice-ASR สำหรับการรู้จำคำพูด (เสียง 60 นาที, 50+ ภาษา, WER 7.77%) โมเดลทั้งหมดอยู่ภายใต้ใบอนุญาต MIT และทำงานแบบโลคอล คู่มือนี้ครอบคลุมการติดตั้ง การใช้งาน และการรวม API

บทนำ

Microsoft ได้เปิดตัว VibeVoice ในฐานะเฟรมเวิร์ก AI เสียงแบบโอเพนซอร์สในช่วงต้นปี 2026 โดยรวมถึงโมเดลสำหรับการสังเคราะห์เสียงพูด (ข้อความเป็นคำพูด) และการรู้จำเสียงพูด (การรู้จำเสียงพูดอัตโนมัติ) ซึ่งทั้งหมดทำงานแบบโลคอลบนฮาร์ดแวร์ของคุณโดยไม่มีการพึ่งพาคลาวด์

เฟรมเวิร์กนี้มีสามโมเดล:

VibeVoice-1.5B สร้างเสียงสนทนาที่มีอารมณ์ความรู้สึกและมีหลายผู้พูดจากสคริปต์ข้อความ สามารถสังเคราะห์เสียงได้สูงสุด 90 นาที โดยมีผู้พูด 4 คนที่แตกต่างกันในการประมวลผลครั้งเดียว
VibeVoice-Realtime-0.5B เป็นตัวแปรสตรีมมิ่งน้ำหนักเบาที่สร้างเสียงด้วยความหน่วงของส่วนแรก (first-chunk latency) ประมาณ 300 มิลลิวินาที
VibeVoice-ASR ถอดความเสียงต่อเนื่องได้สูงสุด 60 นาที พร้อมระบุผู้พูด, การประทับเวลา, และผลลัพธ์ที่มีโครงสร้างในกว่า 50 ภาษา

โมเดล TTS ก่อให้เกิดข้อถกเถียงหลังจากการเปิดตัว Microsoft ได้ปิดใช้งานที่เก็บ GitHub หลักชั่วคราวเมื่อพวกเขาพบการนำไปใช้ในทางที่ผิดในการโคลนเสียง ชุมชนได้แตกโค้ด (fork) ออกไป และ Microsoft ได้เปิดใช้งานที่เก็บอีกครั้งในภายหลังพร้อมเพิ่มมาตรการป้องกัน: คำเตือน AI ที่ได้ยินได้ซึ่งฝังอยู่ในเสียงที่สร้างขึ้น และลายน้ำที่มองไม่เห็นสำหรับการตรวจสอบแหล่งที่มา

VibeVoice-ASR มีให้บริการแล้วบน Azure AI Foundry สำหรับการติดตั้งใช้งานบนคลาวด์ ส่วนโมเดล TTS ยังคงเน้นการวิจัยโดยใช้ใบอนุญาต MIT

คู่มือนี้จะอธิบายการติดตั้ง, การสร้างข้อความเป็นคำพูด, การรู้จำคำพูด, การรวม API, และวิธีการทดสอบปลายทาง AI เสียงด้วย Apidog

ปุ่ม

VibeVoice ทำงานอย่างไร: ภาพรวมสถาปัตยกรรม

ความก้าวหน้าของ Tokenizer

ความก้าวหน้าหลักของ VibeVoice คือตัว Tokenizer เสียงต่อเนื่องที่ทำงานด้วยอัตราเฟรมที่ต่ำมากเพียง 7.5 Hz เพื่อเปรียบเทียบ โมเดลเสียงส่วนใหญ่ประมวลผลเสียงที่ 50-100 Hz การลดอัตราเฟรมลง 7-13 เท่านี้หมายความว่าโมเดลสามารถจัดการกับลำดับที่ยาวนาน (เสียง 90 นาที) โดยไม่หมดบริบท

สถาปัตยกรรม VibeVoice Acoustic Tokenizer

ระบบใช้ตัว Tokenizer สองตัว:

Acoustic Tokenizer: ตัวแปร sigma-VAE ที่มีพารามิเตอร์ประมาณ 340M ในตัวเข้ารหัส-ถอดรหัสแบบสมมาตรแบบกระจกเงา มันลดอัตราการสุ่มตัวอย่าง 3,200 เท่าจากเสียงอินพุต 24kHz
Semantic Tokenizer: มีสถาปัตยกรรมที่สะท้อน Acoustic Tokenizer แต่ได้รับการฝึกฝนด้วยงานพร็อกซี ASR เพื่อจับความหมายทางภาษา

การแพร่กระจายของโทเค็นถัดไป

โมเดลนี้รวมแกน LLM (Qwen2.5-1.5B) เข้ากับส่วนหัวแบบ Diffusion ที่มีน้ำหนักเบา (พารามิเตอร์ประมาณ 123M) LLM จัดการบริบทข้อความและโฟลว์การสนทนา ส่วนหัว Diffusion สร้างรายละเอียดเสียงที่มีความเที่ยงตรงสูงโดยใช้ DDPM (Denoising Diffusion Probabilistic Models) พร้อมด้วย Classifier-Free Guidance

จำนวนพารามิเตอร์ทั้งหมด: 3B (รวมถึง Tokenizer และส่วนหัว Diffusion)

แนวทางการฝึกอบรม

VibeVoice ใช้วิธีการเรียนรู้แบบหลักสูตร โดยค่อยๆ ฝึกโมเดลบนลำดับที่ยาวขึ้นเรื่อยๆ: 4K, 16K, 32K, จากนั้น 64K โทเค็น Tokenizer ที่ได้รับการฝึกฝนล่วงหน้าจะคงที่ในช่วงนี้; เฉพาะพารามิเตอร์ LLM และส่วนหัว Diffusion เท่านั้นที่ได้รับการอัปเดต วิธีนี้ช่วยให้โมเดลเรียนรู้ที่จะจัดการกับเสียงที่ยาวขึ้นเรื่อยๆ โดยไม่ลืมความสามารถในรูปแบบสั้น

ข้อมูลจำเพาะของโมเดล VibeVoice

โมเดล	พารามิเตอร์	วัตถุประสงค์	ความยาวสูงสุด	ภาษา	ใบอนุญาต
VibeVoice-1.5B	3B (รวม)	ข้อความเป็นคำพูด	90 นาที	อังกฤษ, จีน	MIT
VibeVoice-Realtime-0.5B	~0.5B	TTS แบบสตรีมมิ่ง	ระยะยาว	อังกฤษ, จีน	MIT
VibeVoice-ASR	~9B	การรู้จำคำพูด	60 นาที	50+ ภาษา	MIT

VibeVoice-1.5B (TTS)

ข้อมูลจำเพาะ	ค่า
LLM พื้นฐาน	Qwen2.5-1.5B
ความยาวบริบท	64K โทเค็น
จำนวนผู้พูดสูงสุด	4 คนพร้อมกัน
เอาต์พุตเสียง	24kHz WAV โมโน
ประเภท Tensor	BF16
รูปแบบ	Safetensors
การดาวน์โหลดจาก HuggingFace	62,630/เดือน
การแตกแขนงของชุมชน	12 รูปแบบที่ปรับแต่งแล้ว

VibeVoice-ASR

ข้อมูลจำเพาะ	ค่า
สถาปัตยกรรมพื้นฐาน	Qwen2.5
พารามิเตอร์	~9B
การประมวลผลเสียง	สูงสุด 60 นาทีในการประมวลผลครั้งเดียว
อัตราเฟรม	7.5 Hz
WER เฉลี่ย	7.77% (จาก 8 ชุดข้อมูลภาษาอังกฤษ)
LibriSpeech Clean WER	2.20%
TED-LIUM WER	2.57%
ภาษา	50+
เอาต์พุต	มีโครงสร้าง (ใคร + เมื่อไหร่ + อะไร)
เสียงที่รองรับ	WAV, FLAC, MP3 ที่ 16kHz+

การติดตั้งและตั้งค่า

ข้อกำหนดเบื้องต้น

Python 3.8+
NVIDIA GPU ที่รองรับ CUDA
VRAM ขั้นต่ำ 7-8 GB สำหรับโมเดล TTS
VRAM ขั้นต่ำ 24 GB สำหรับโมเดล ASR (แนะนำ A100/H100)
RAM ขั้นต่ำ 32 GB (แนะนำ 64 GB สำหรับ ASR)
CUDA 11.8+ (แนะนำ CUDA 12.0+)

ติดตั้ง VibeVoice TTS

# โคลน Repository
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# ติดตั้ง Dependencies
pip install -r requirements.txt

โมเดลจะดาวน์โหลดโดยอัตโนมัติจาก HuggingFace ในการรันครั้งแรก คุณยังสามารถดาวน์โหลดล่วงหน้าได้:

from huggingface_hub import snapshot_download

# ดาวน์โหลดโมเดล 1.5B TTS
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

ติดตั้งผ่าน pip (แพ็คเกจชุมชน)

pip install vibevoice

ติดตั้งสำหรับ ASR

VibeVoice-ASR ใช้การตั้งค่าแยกต่างหาก:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

หรือติดตั้งผ่าน Azure AI Foundry สำหรับการอนุมานบนคลาวด์แบบจัดการ

การสร้างเสียงพูดด้วย VibeVoice-1.5B

การสร้างเสียงพูดจากผู้พูดคนเดียว

สร้างไฟล์ข้อความพร้อมสคริปต์ของคุณ:

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

รันการอนุมาน:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

เอาต์พุตจะถูกบันทึกเป็นไฟล์ .wav ในไดเรกทอรี outputs/

การสร้างพอดแคสต์หลายผู้พูด

VibeVoice รองรับผู้พูดสูงสุด 4 คน โดยมีเอกลักษณ์เสียงที่สอดคล้องกันตลอดการบันทึกทั้งหมด:

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

โมเดลจะรักษาน้ำเสียงที่แตกต่างกันสำหรับผู้พูดแต่ละคนตลอดการสนทนาทั้งหมด แม้จะมีความยาวถึง 90 นาที

การโคลนเสียง (Zero-shot)

โคลนเสียงจากตัวอย่างเสียงอ้างอิง:

ข้อกำหนดด้านเสียง:

รูปแบบ: WAV (โมโน)
อัตราการสุ่มตัวอย่าง: 24,000 Hz
ระยะเวลา: 30-60 วินาทีของเสียงพูดที่ชัดเจน

แปลงเสียงที่มีอยู่ให้อยู่ในรูปแบบที่ถูกต้อง:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

ใช้ส่วนต่อประสาน Gradio demo สำหรับการโคลนเสียง:

python demo/gradio_demo.py

สิ่งนี้จะเปิด UI บนเว็บที่ http://127.0.0.1:7860 ซึ่งคุณสามารถอัปโหลดเสียงอ้างอิง เลือกเสียงที่โคลน และสร้างเสียงพูดได้

การสตรีมด้วย VibeVoice-Realtime-0.5B

สำหรับแอปพลิเคชันที่ต้องการเอาต์พุตเสียงที่มีความหน่วงต่ำ (ประมาณ 300ms สำหรับส่วนแรก):

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

โมเดล Realtime มีขนาดเล็กกว่าและเร็วกว่า แต่สร้างเสียงที่มีความเที่ยงตรงต่ำกว่าโมเดล 1.5B เต็มรูปแบบ ใช้สำหรับแอปพลิเคชันแบบโต้ตอบ; ใช้ 1.5B สำหรับเนื้อหาที่สร้างไว้ล่วงหน้า

การใช้ VibeVoice กับ Python

Pipeline API

from transformers import pipeline
from huggingface_hub import snapshot_download

# ดาวน์โหลดโมเดล
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# โหลด pipeline
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# เตรียมสคริปต์หลายผู้พูด
script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

# ใช้เทมเพลตแชท
input_data = pipe.processor.apply_chat_template(script)

# สร้างเสียง
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

FastAPI wrapper สำหรับการใช้งานจริง

ชุมชนได้สร้าง FastAPI wrapper ที่เปิดเผย VibeVoice เป็น OpenAI-compatible TTS API:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

สิ่งนี้จะให้ปลายทาง API ที่เข้ากันได้กับรูปแบบ TTS ของ OpenAI:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

ปลายทางที่เข้ากันได้กับ OpenAI นี้หมายความว่าคุณสามารถทดสอบการรวม API ของ VibeVoice ด้วย Apidog โดยใช้รูปแบบคำขอเดียวกับที่คุณจะใช้สำหรับ OpenAI TTS API นำเข้าปลายทาง กำหนดค่าเนื้อหาคำขอ และทดสอบการสร้างเสียงโดยไม่ต้องเขียนโค้ดแอปพลิเคชัน

การใช้ VibeVoice-ASR สำหรับการรู้จำคำพูด

การถอดความเบื้องต้น

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

รูปแบบเอาต์พุตที่มีโครงสร้าง

VibeVoice-ASR สร้างการถอดความที่มีโครงสร้างพร้อมสามฟิลด์ต่อส่วน:

ใคร: การระบุผู้พูด (ผู้พูด 1, ผู้พูด 2, เป็นต้น)
เมื่อไหร่: การประทับเวลาเริ่มต้นและสิ้นสุด
อะไร: เนื้อหาข้อความที่ถอดความ

ตัวอย่างเอาต์พุต:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

ASR เป็นเซิร์ฟเวอร์ MCP

VibeVoice-ASR สามารถทำงานเป็นเซิร์ฟเวอร์ MCP (Model Context Protocol) โดยเชื่อมต่อโดยตรงกับ Claude Code, Cursor และเครื่องมือการเขียนโค้ด AI อื่นๆ:

# ติดตั้งเซิร์ฟเวอร์ MCP
pip install vibevoice-mcp-server

# รัน
vibevoice-mcp serve

สิ่งนี้ช่วยให้ตัวแทนการเขียนโค้ดของคุณถอดความการประชุม บันทึกเสียง หรือการบันทึกเสียงเป็นส่วนหนึ่งของเวิร์กโฟลว์ คุณกำหนดข้อกำหนด เซิร์ฟเวอร์ MCP ถอดความ และตัวแทนการเขียนโค้ดประมวลผลข้อความ

เมื่อใดควรใช้ VibeVoice-ASR เทียบกับ Whisper

กรณีการใช้งาน	ตัวเลือกที่ดีที่สุด	เหตุผล
การประชุมยาวนาน (30-60 นาที)	VibeVoice-ASR	ประมวลผล 60 นาทีในครั้งเดียว, ระบุผู้พูด
สัมภาษณ์ที่มีผู้พูดหลายคน	VibeVoice-ASR	มีระบบแยกแยะผู้พูดในตัว
พอดแคสต์ที่ต้องการการประทับเวลา	VibeVoice-ASR	เอาต์พุตที่มีโครงสร้าง ใคร/เมื่อไหร่/อะไร
เนื้อหาหลายภาษา (50+ ภาษา)	VibeVoice-ASR	รองรับภาษาได้กว้างกว่า
คลิปสั้นๆ ในสภาพแวดล้อมที่มีเสียงดัง	Whisper	ทนทานต่อเสียงรบกวนได้ดีกว่า
การติดตั้งใช้งานบน Edge/มือถือ	Whisper	ขนาดโมเดลเล็กกว่า, รองรับอุปกรณ์ได้กว้างกว่า
ภาษาที่ไม่ใช่ภาษาอังกฤษ (เฉพาะทาง)	Whisper	การปรับแต่งหลายภาษาที่สมบูรณ์กว่า

การทดสอบ Voice AI API ด้วย Apidog

ไม่ว่าคุณจะใช้ VibeVoice FastAPI wrapper, ปลายทาง Azure AI Foundry หรือสร้าง Voice AI API ของคุณเอง Apidog ช่วยคุณทดสอบและดีบักการรวมเหล่านี้ได้

ทดสอบปลายทาง TTS

สร้างคำขอ POST ใหม่ใน Apidog ชี้ไปยังเซิร์ฟเวอร์ VibeVoice FastAPI ของคุณ
ตั้งค่าเนื้อหาคำขอให้อยู่ในรูปแบบที่เข้ากันได้กับ OpenAI:

{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice",
  "response_format": "wav"
}

ส่งคำขอและตรวจสอบว่าเฮดเดอร์การตอบกลับมีประเภทเนื้อหา audio/wav
บันทึกการตอบกลับเป็นไฟล์ WAV เพื่อตรวจสอบคุณภาพเสียง

ทดสอบปลายทาง ASR

สำหรับ API การแปลงคำพูดเป็นข้อความ:

ตั้งค่าคำขอ POST พร้อม multipart/form-data
แนบไฟล์เสียงของคุณเป็นฟิลด์ฟอร์ม
ตรวจสอบว่าการตอบกลับ JSON ที่มีโครงสร้างนั้นรวมถึง ID ผู้พูด, การประทับเวลา, และข้อความที่ถอดความแล้ว

ตรวจสอบสัญญา Audio API

Voice AI API จัดการข้อมูลไบนารี (ไฟล์เสียง) ควบคู่ไปกับข้อมูลเมตา JSON ตัวสร้างคำขอของ Apidog รองรับทั้งสอง:

การอัปโหลดไฟล์ไบนารีสำหรับปลายทาง ASR
การจัดรูปแบบเนื้อหา JSON สำหรับปลายทาง TTS
การตรวจสอบการตอบกลับสำหรับเอาต์พุตการถอดความที่มีโครงสร้าง
ตัวแปรสภาพแวดล้อมเพื่อสลับระหว่างปลายทางโลคอลและคลาวด์

ดาวน์โหลด Apidog เพื่อทดสอบการรวม Voice AI ของคุณก่อนที่จะนำไปใช้ในการผลิตจริง

ปุ่ม

ความปลอดภัยและการใช้งานอย่างรับผิดชอบ

Microsoft ได้เพิ่มมาตรการป้องกันหลายอย่างหลังจากเหตุการณ์การใช้งานในทางที่ผิดครั้งแรก:

คำเตือน AI ที่ได้ยินได้: เสียงที่สร้างขึ้นทั้งหมดจะรวมข้อความอัตโนมัติ “ส่วนนี้สร้างโดย AI”
ลายน้ำที่มองไม่เห็น: เครื่องหมายที่ซ่อนอยู่ช่วยให้การตรวจสอบเนื้อหาที่สร้างโดย VibeVoice โดยบุคคลที่สามเป็นไปได้
การบันทึกการอนุมาน: บันทึกแบบแฮชช่วยตรวจจับรูปแบบการละเมิดด้วยสถิติรวมรายไตรมาส
ใบอนุญาต MIT: อนุญาตให้ใช้งานเชิงพาณิชย์ได้ แต่ Microsoft แนะนำให้หลีกเลี่ยงการใช้งานในการผลิตโดยไม่มีการทดสอบเพิ่มเติม

สิ่งที่ได้รับอนุญาต

การใช้งานเพื่อการวิจัยและทางวิชาการ
การสร้างต้นแบบและการทดสอบภายในองค์กร
การสร้างพอดแคสต์โดยมีการเปิดเผยข้อมูล AI ที่เหมาะสม
แอปพลิเคชันเพื่อการเข้าถึง (Text-to-speech สำหรับผู้ใช้ที่มีความบกพร่องทางการมองเห็น)

สิ่งที่ไม่ได้รับอนุญาต

การแอบอ้างเสียงโดยไม่ได้รับความยินยอมจากการบันทึกอย่างชัดเจน
Deepfakes หรือการนำเสนอเสียง AI ว่าเป็นการบันทึกเสียงของมนุษย์จริง
การแปลงเสียงแบบเรียลไทม์สำหรับแอปพลิเคชัน deepfake แบบสด
การสร้างเสียงที่ไม่ใช่คำพูด (เพลง, เอฟเฟกต์เสียง)

ข้อจำกัดที่ควรรู้

การรองรับภาษาสำหรับ TTS ยังแคบ VibeVoice-1.5B รองรับภาษาอังกฤษและภาษาจีน ภาษาอื่น ๆ จะให้ผลลัพธ์ที่ไม่สามารถเข้าใจได้ VibeVoice-ASR มีการครอบคลุมที่กว้างขึ้นที่ 50+ ภาษา

ข้อกำหนดฮาร์ดแวร์สูงชันสำหรับ ASR โมเดล ASR ต้องการ VRAM 24 GB+ (GPU ระดับ A100/H100) โมเดล TTS สามารถทำงานบน GPU สำหรับผู้บริโภคที่มี VRAM 7-8 GB

ไม่รองรับการจัดการเสียงพูดที่ทับซ้อนกัน โมเดล TTS ไม่ได้จำลองการพูดทับกันของผู้พูด บทสนทนาทั้งหมดเป็นการพูดผลัดกัน

ความลำเอียงที่สืบทอดมาจากโมเดล โมเดลทั้งสองสืบทอดความลำเอียงจากพื้นฐาน Qwen2.5 เอาต์พุตอาจมีเนื้อหาที่ไม่คาดคิด, ลำเอียง, หรือไม่ถูกต้อง

ซอฟต์แวร์ระดับการวิจัย นี่ไม่ใช่ซอฟต์แวร์ที่พร้อมใช้งานในการผลิตจริง คาดหวังข้อผิดพลาดเล็กน้อยในกรณีพิเศษ, การจัดการข้อผิดพลาด, และเอาต์พุตที่ไม่ใช่ภาษาอังกฤษ

การติดตั้งใช้งาน VibeVoice-ASR บน Azure AI Foundry

สำหรับทีมที่ไม่ต้องการจัดการโครงสร้างพื้นฐาน GPU ทาง Microsoft ได้ทำให้ VibeVoice-ASR พร้อมใช้งานผ่าน Azure AI Foundry สิ่งนี้ช่วยให้คุณมีปลายทาง API ที่มีการจัดการโดยไม่ต้องจัดหาฮาร์ดแวร์

การติดตั้งใช้งาน Azure จะจัดการการปรับขนาด การอัปเดตโมเดล และการบำรุงรักษาโครงสร้างพื้นฐาน คุณจะได้รับปลายทาง HTTPS ที่รับไฟล์เสียงและส่งคืนการถอดความที่มีโครงสร้างในรูปแบบ Who/When/What เดียวกันกับโมเดลโลคอล

สิ่งนี้มีประโยชน์อย่างยิ่งสำหรับเวิร์กโหลดการผลิตที่ต้องการความเสถียรในการทำงานและรับประกัน SLA ที่การอนุมานบน GPU ที่โฮสต์เองไม่สามารถให้ได้ ตรวจสอบแคตตาล็อกโมเดลของ Azure AI Foundry สำหรับราคาปัจจุบันและตัวเลือกการติดตั้งใช้งาน

สำหรับการทดสอบปลายทาง VibeVoice ที่โฮสต์บน Azure ก่อนที่จะรวมเข้ากับแอปพลิเคชันของคุณ ให้ตั้งค่า URL ปลายทางและส่วนหัวการรับรองความถูกต้องใน Apidog และรันการถอดความทดสอบกับไฟล์เสียงตัวอย่าง

ชุมชนและระบบนิเวศ

VibeVoice มีชุมชนที่กระตือรือร้น:

มีการดาวน์โหลด HuggingFace กว่า 62,630+ ครั้งต่อเดือน สำหรับโมเดล 1.5B
มีผู้กดไลก์กว่า 2,280+ ครั้ง บน HuggingFace
มี HuggingFace Spaces กว่า 79+ แห่ง ที่รันโมเดลนี้
มีโมเดลที่ปรับแต่งแล้ว 12 รูปแบบ จากชุมชน
มีเวอร์ชันควอนไทซ์ 4 รูปแบบ สำหรับการติดตั้งใช้งานที่ใช้ VRAM น้อยลง
ชุมชน fork ที่ vibevoice-community/VibeVoice พร้อมการบำรุงรักษาอย่างต่อเนื่อง

โครงการชุมชนที่น่าสนใจ:

VibeVoice-FastAPI: Wrapper API แบบ REST สำหรับการผลิตพร้อมรองรับ Docker
VibeVoice MCP Server: การรวมกับเครื่องมือการเขียนโค้ด AI ผ่าน Model Context Protocol
Apple Silicon support: สคริปต์ชุมชนสำหรับการอนุมานบน Mac ซีรีส์ M
Quantized models: รูปแบบ GGUF และอื่นๆ สำหรับการลดการใช้ VRAM

คำถามที่พบบ่อย

VibeVoice ใช้งานฟรีหรือไม่?

ใช่ โมเดลทั้งสาม (TTS 1.5B, Realtime 0.5B, ASR) อยู่ภายใต้ใบอนุญาต MIT คุณสามารถใช้เพื่อวัตถุประสงค์เชิงพาณิชย์และไม่ใช่เชิงพาณิชย์ได้ การโฮสต์บน Azure AI Foundry มีราคาแยกต่างหากสำหรับการอนุมานบนคลาวด์แบบจัดการ

VibeVoice สามารถทำงานบน Apple Silicon Mac ได้หรือไม่?

ชุมชนได้มีส่วนร่วมสคริปต์สำหรับการอนุมานบน Mac ซีรีส์ M ตรวจสอบการสนทนาบน HuggingFace สำหรับโมเดล VibeVoice-1.5B ประสิทธิภาพจะช้ากว่า CUDA GPU แต่ใช้งานได้

VibeVoice เปรียบเทียบกับ ElevenLabs อย่างไร?

VibeVoice ทำงานแบบโลคอลโดยไม่มีค่าใช้จ่าย API และไม่มีข้อมูลออกจากเครื่องของคุณ ElevenLabs ให้คุณภาพที่สูงกว่า เสียงที่หลากหลายกว่า และตั้งค่าได้ง่ายกว่า แต่ต้องสมัครสมาชิกแบบชำระเงินและการประมวลผลบนคลาวด์ สำหรับแอปพลิเคชันที่คำนึงถึงความเป็นส่วนตัวหรือการใช้งานแบบออฟไลน์ VibeVoice ชนะ สำหรับคุณภาพการผลิตและความง่ายในการใช้งาน ElevenLabs อยู่ข้างหน้า

เหตุใด GitHub repository จึงถูกปิดใช้งานชั่วคราว?

Microsoft ค้นพบว่ามีผู้คนใช้การโคลนเสียงเพื่อแอบอ้างบุคคลและสร้าง deepfakes พวกเขาจึงปิดใช้งาน repository เพิ่มคุณสมบัติด้านความปลอดภัย (คำเตือนที่ได้ยินได้, การทำลายน้ำ) และเปิดใช้งานอีกครั้ง ชุมชน fork ได้ดำเนินการพัฒนาต่อไปในช่วงที่ปิดการใช้งาน

ฉันสามารถปรับแต่ง VibeVoice ด้วยเสียงที่กำหนดเองได้หรือไม่?

ใช่ ชุมชนได้สร้างโมเดลที่ปรับแต่งแล้ว 12 รูปแบบบน HuggingFace คุณต้องมีตัวอย่างเสียง (เสียง WAV ที่ชัดเจน 30-60 วินาทีที่ 24kHz โมโน) และทรัพยากร GPU สำหรับการฝึกอบรม

VibeVoice เอาต์พุตไฟล์เสียงในรูปแบบใด?

WAV ที่ 24,000 Hz โมโน คุณสามารถแปลงเป็น MP3, OGG, FLAC หรือรูปแบบอื่น ๆ ด้วย ffmpeg หลังจากสร้างเสร็จ

ฉันสามารถใช้ VibeVoice-ASR แทน Whisper ได้หรือไม่?

สำหรับเสียงยาวพร้อมการระบุผู้พูด ใช่ VibeVoice-ASR สามารถจัดการการบันทึก 60 นาทีในครั้งเดียวด้วยระบบแยกแยะผู้พูดในตัว Whisper ต้องการเครื่องมือภายนอกสำหรับการระบุผู้พูดและมีปัญหาในการบันทึกที่ยาวกว่า 30 นาทีโดยไม่มีการแบ่งส่วน สำหรับคลิปสั้นๆ ที่มีเสียงรบกวน หรือการติดตั้งใช้งานบนอุปกรณ์พกพา Whisper ยังคงเป็นตัวเลือกที่ดีกว่า

VibeVoice รองรับการสนทนาด้วยเสียงแบบเรียลไทม์หรือไม่?

VibeVoice-Realtime-0.5B รองรับการสตรีมอินพุตข้อความด้วยความหน่วงของส่วนแรก (first-chunk latency) ประมาณ 300 มิลลิวินาที สามารถใช้งานได้สำหรับแอปพลิเคชันแบบใกล้เคียงเรียลไทม์ แต่ไม่ได้ออกแบบมาสำหรับการสนทนาด้วยเสียงแบบ full-duplex สำหรับกรณีนั้น ควรพิจารณา Azure OpenAI's GPT-Realtime หรือโซลูชันที่โฮสต์คล้ายกัน

ปุ่ม