ملخص
VibeVoice هي عائلة الذكاء الاصطناعي الصوتي مفتوحة المصدر من Microsoft بثلاثة نماذج: VibeVoice-1.5B لتحويل النص إلى كلام (حتى 90 دقيقة، 4 متحدثين)، وVibeVoice-Realtime-0.5B لتحويل النص إلى كلام بالبث المباشر، وVibeVoice-ASR للتعرف على الكلام (صوت لمدة 60 دقيقة، أكثر من 50 لغة، 7.77% WER). جميع النماذج مرخصة بترخيص MIT وتعمل محليًا. يغطي هذا الدليل التثبيت والاستخدام وتكامل واجهة برمجة التطبيقات (API).
مقدمة
أصدرت Microsoft VibeVoice كإطار عمل للذكاء الاصطناعي الصوتي مفتوح المصدر في أوائل عام 2026. يتضمن نماذج لكل من توليف الكلام (تحويل النص إلى كلام) والتعرف على الكلام (التعرف التلقائي على الكلام)، وكلها تعمل محليًا على جهازك دون الاعتماد على السحابة.

يحتوي إطار العمل على ثلاثة نماذج:
- VibeVoice-1.5B يولد صوتًا محادثيًا معبرًا ومتعدد المتحدثين من نصوص مكتوبة. يمكنه توليف ما يصل إلى 90 دقيقة من الكلام مع 4 متحدثين متميزين في تمريرة واحدة.
- VibeVoice-Realtime-0.5B هو متغير بث خفيف الوزن ينتج صوتًا بزمن استجابة للدفعة الأولى يبلغ حوالي 300 مللي ثانية.
- VibeVoice-ASR ينسخ ما يصل إلى 60 دقيقة من الصوت المتواصل مع تحديد المتحدثين والطوابع الزمنية ومخرجات منظمة عبر أكثر من 50 لغة.

أثارت نماذج TTS جدلاً بعد إصدارها. عطلت Microsoft مستودع GitHub الرئيسي مؤقتًا عندما اكتشفت إساءة استخدام استنساخ الصوت. قام المجتمع بنسخ الكود، ثم أعادت Microsoft تمكين المستودع مع إضافة ضمانات: إخلاء مسؤولية صوتي للذكاء الاصطناعي مضمن في الصوت المُولد وعلامة مائية غير محسوسة للتحقق من المصدر.
VibeVoice-ASR متاح الآن على Azure AI Foundry للنشر السحابي. تظل نماذج TTS مركزة على البحث بترخيص MIT.
يرشدك هذا الدليل خلال التثبيت، وتوليد الكلام من النص، والتعرف على الكلام، وتكامل واجهة برمجة التطبيقات (API)، وكيفية اختبار نقاط نهاية الذكاء الاصطناعي الصوتي باستخدام Apidog.
كيف يعمل VibeVoice: نظرة عامة على البنية
الإنجاز في مُجزئ الكلمات (Tokenizer)
التقدم الأساسي في VibeVoice هو مُجزئات الكلمات (tokenizers) المستمرة للكلام التي تعمل بمعدل إطارات منخفض للغاية يبلغ 7.5 هرتز. للمقارنة، تعالج معظم نماذج الكلام الصوت عند 50-100 هرتز. هذا التخفيض بمقدار 7-13 مرة في معدل الإطارات يعني أن النموذج يتعامل مع التسلسلات الطويلة (90 دقيقة من الصوت) دون نفاد السياق.


يستخدم النظام مُجزّئَيْن (tokenizers):
- مُجزئ الكلمات الصوتي (Acoustic Tokenizer): متغير من sigma-VAE مع حوالي 340 مليون معلمة في مشفر-مفكك تشفير متماثل مرآوي. يقوم بتقليل أخذ العينات 3200 مرة من إدخال الصوت بتردد 24 كيلو هرتز.
- مُجزئ الكلمات الدلالي (Semantic Tokenizer): يعكس بنية مُجزئ الكلمات الصوتي ولكنه مدرب بمهمة وكيل ASR لالتقاط المعنى اللغوي.
انتشار الرمز التالي (Next-token diffusion)
يجمع النموذج بين عمود فقري لنموذج لغوي كبير (LLM) (Qwen2.5-1.5B) ورأس انتشار خفيف الوزن (حوالي 123 مليون معلمة). يتعامل النموذج اللغوي الكبير مع السياق النصي وتدفق الحوار. يولد رأس الانتشار تفاصيل صوتية عالية الدقة باستخدام نماذج الانتشار الاحتمالية لإزالة الضوضاء (DDPM) مع توجيه خالٍ من المصنف.
العدد الإجمالي للمعلمات: 3 مليارات (بما في ذلك مُجزئات الكلمات ورأس الانتشار).
نهج التدريب
يستخدم VibeVoice التعلم المنهجي، حيث يتدرب تدريجياً على تسلسلات أطول: 4K، 16K، 32K، ثم 64K رمزًا. تظل مُجزئات الكلمات المدربة مسبقًا ثابتة خلال هذه المرحلة؛ يتم تحديث معلمات LLM ورأس الانتشار فقط. يسمح هذا للنموذج بالتعلم للتعامل مع الصوت الطويل بشكل متزايد دون نسيان القدرات القصيرة.
مواصفات نماذج VibeVoice
| النموذج | المعلمات | الغرض | الحد الأقصى للمدة | اللغات | الترخيص |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3 مليارات (إجمالي) | تحويل النص إلى كلام | 90 دقيقة | الإنجليزية، الصينية | MIT |
| VibeVoice-Realtime-0.5B | ~0.5 مليار | تحويل النص إلى كلام بالبث المباشر | طويلة الأمد | الإنجليزية، الصينية | MIT |
| VibeVoice-ASR | ~9 مليارات | التعرف على الكلام | 60 دقيقة | أكثر من 50 لغة | MIT |
VibeVoice-1.5B (تحويل النص إلى كلام)
| المواصفة | القيمة |
|---|---|
| قاعدة النموذج اللغوي الكبير | Qwen2.5-1.5B |
| طول السياق | 64 ألف رمز |
| الحد الأقصى للمتحدثين | 4 متحدثين متزامنين |
| إخراج الصوت | صوت WAV أحادي 24 كيلو هرتز |
| نوع الموتر | BF16 |
| التنسيق | Safetensors |
| عمليات التنزيل من HuggingFace | 62,630/شهريًا |
| تفرعات المجتمع | 12 نسخة معدلة بدقة |
VibeVoice-ASR
| المواصفة | القيمة |
|---|---|
| قاعدة البنية | Qwen2.5 |
| المعلمات | ~9 مليارات |
| معالجة الصوت | حتى 60 دقيقة في تمريرة واحدة |
| معدل الإطارات | 7.5 هرتز |
| متوسط معدل الخطأ في الكلمات (WER) | 7.77% (عبر 8 مجموعات بيانات إنجليزية) |
| معدل الخطأ في الكلمات (WER) لـ LibriSpeech Clean | 2.20% |
| معدل الخطأ في الكلمات (WER) لـ TED-LIUM | 2.57% |
| اللغات | أكثر من 50 |
| الناتج | منظم (من + متى + ماذا) |
| الصوت المدعوم | WAV, FLAC, MP3 بتردد 16 كيلو هرتز+ |
التثبيت والإعداد
المتطلبات الأساسية
- Python 3.8+
- وحدة معالجة رسومات NVIDIA مع دعم CUDA
- ذاكرة فيديو (VRAM) لا تقل عن 7-8 جيجابايت لنماذج تحويل النص إلى كلام (TTS)
- ذاكرة فيديو (VRAM) لا تقل عن 24 جيجابايت لنموذج ASR (يوصى بـ A100/H100)
- ذاكرة وصول عشوائي (RAM) 32 جيجابايت كحد أدنى (يوصى بـ 64 جيجابايت لـ ASR)
- CUDA 11.8+ (يوصى بـ CUDA 12.0+)
تثبيت VibeVoice TTS
# Clone the repository
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# Install dependencies
pip install -r requirements.txt
يتم تنزيل النماذج تلقائيًا من HuggingFace عند التشغيل الأول. يمكنك أيضًا تنزيلها مسبقًا:
from huggingface_hub import snapshot_download
# Download the 1.5B TTS model
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
التثبيت عبر pip (حزمة المجتمع)
pip install vibevoice
التثبيت لـ ASR
يستخدم VibeVoice-ASR إعدادًا منفصلاً:
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
أو انشر عبر Azure AI Foundry للاستدلال السحابي المُدار.
توليد الكلام باستخدام VibeVoice-1.5B
توليد بمتحدث واحد
أنشئ ملفًا نصيًا بالبرنامج النصي الخاص بك:
Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.
قم بتشغيل الاستدلال:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path script.txt \
--speaker_names Alice \
--cfg_scale 1.5
يتم حفظ الإخراج كملف .wav في دليل outputs/.
توليد بودكاست متعدد المتحدثين
يتعامل VibeVoice مع ما يصل إلى 4 متحدثين بهويات صوتية متسقة طوال التسجيل بأكمله:
Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path podcast_script.txt \
--speaker_names Alice Bob Carol \
--cfg_scale 1.5
يحافظ النموذج على خصائص صوتية مميزة لكل متحدث عبر المحادثة الكاملة، حتى عند طول 90 دقيقة.
استنساخ الصوت (بدون أمثلة مسبقة)
استنسخ صوتًا من عينة صوتية مرجعية:
متطلبات الصوت:
- التنسيق: WAV (أحادي)
- معدل أخذ العينات: 24,000 هرتز
- المدة: 30-60 ثانية من الكلام الواضح
حوّل الصوت الموجود إلى التنسيق الصحيح:
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
استخدم واجهة عرض Gradio لاستنساخ الصوت:
python demo/gradio_demo.py
هذا يطلق واجهة مستخدم ويب على http://127.0.0.1:7860 حيث يمكنك تحميل الصوت المرجعي الخاص بك، واختيار الصوت المستنسخ، وتوليد الكلام.
البث باستخدام VibeVoice-Realtime-0.5B
للتطبيقات التي تتطلب إخراجًا صوتيًا بزمن استجابة منخفض (حوالي 300 مللي ثانية للدفعة الأولى):
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
نموذج الوقت الحقيقي أصغر وأسرع ولكنه ينتج صوتًا بدقة أقل من نموذج 1.5B الكامل. استخدمه للتطبيقات التفاعلية؛ استخدم نموذج 1.5B للمحتوى المُولد مسبقًا.
استخدام VibeVoice مع بايثون
واجهة برمجة تطبيقات الأنابيب (Pipeline API)
from transformers import pipeline
from huggingface_hub import snapshot_download
# Download model
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
# Load pipeline
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
# Prepare multi-speaker script
script = [
{"role": "Alice", "content": "How do you handle API versioning?"},
{"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]
# Apply chat template
input_data = pipe.processor.apply_chat_template(script)
# Generate audio
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
غلاف FastAPI للإنتاج
قام المجتمع ببناء غلاف FastAPI يعرض VibeVoice كواجهة برمجة تطبيقات لتحويل النص إلى كلام (TTS) متوافقة مع OpenAI:
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
هذا يمنحك نقطة نهاية واجهة برمجة تطبيقات متوافقة مع تنسيق TTS الخاص بـ OpenAI:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Your API documentation should be a conversation, not a monologue.",
"voice": "alice"
}' \
--output speech.wav
تعني نقطة النهاية المتوافقة مع OpenAI أنه يمكنك اختبار تكامل واجهة برمجة تطبيقات VibeVoice الخاصة بك مع Apidog باستخدام نفس تنسيق الطلب الذي ستستخدمه لواجهة برمجة تطبيقات TTS الخاصة بـ OpenAI. قم باستيراد نقطة النهاية، وقم بتكوين نص طلبك، واختبر توليد الصوت دون كتابة تعليمات برمجية للتطبيق.
استخدام VibeVoice-ASR للتعرف على الكلام
النسخ الأساسي
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
تنسيق الإخراج المنظم
ينتج VibeVoice-ASR نسخًا منظمة بثلاثة حقول لكل جزء:
- من: هوية المتحدث (المتحدث 1، المتحدث 2، إلخ.)
- متى: طوابع زمنية للبدء والانتهاء
- ماذا: محتوى النص المنسوخ
مثال على الإخراج:
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Let's review the API endpoints for the new release."
},
{
"speaker": "Speaker 2",
"start": 4.5,
"end": 8.1,
"text": "I've added three new endpoints for the billing module."
}
]
}
ASR كخادم MCP
يمكن لـ VibeVoice-ASR العمل كخادم MCP (بروتوكول سياق النموذج)، متصلاً مباشرةً بـ Claude Code و Cursor وأدوات برمجة الذكاء الاصطناعي الأخرى:
# Install the MCP server
pip install vibevoice-mcp-server
# Run it
vibevoice-mcp serve
يتيح هذا لوكيل البرمجة الخاص بك نسخ الاجتماعات أو الملاحظات الصوتية أو التسجيلات الصوتية كجزء من سير عمله. أنت تملي المتطلبات، ويقوم خادم MCP بنسخها، ثم يقوم وكيل البرمجة بمعالجة النص.
متى تستخدم VibeVoice-ASR مقابل Whisper
| حالة الاستخدام | أفضل خيار | السبب |
|---|---|---|
| الاجتماعات الطويلة (30-60 دقيقة) | VibeVoice-ASR | معالجة 60 دقيقة في تمريرة واحدة، تحديد المتحدث |
| المقابلات مع عدة متحدثين | VibeVoice-ASR | تحديد المتحدثين المدمج |
| البودكاست التي تحتاج طوابع زمنية | VibeVoice-ASR | إخراج منظم (من/متى/ماذا) |
| محتوى متعدد اللغات (أكثر من 50 لغة) | VibeVoice-ASR | دعم لغوي أوسع |
| مقاطع قصيرة في بيئات صاخبة | Whisper | مقاومة أفضل للضوضاء |
| النشر على الأجهزة الطرفية/المحمولة | Whisper | حجم نموذج أصغر، دعم أوسع للأجهزة |
| اللغات غير الإنجليزية (متخصصة) | Whisper | ضبط دقيق للغات المتعددة أكثر نضجًا |
اختبار واجهات برمجة تطبيقات الذكاء الاصطناعي الصوتي باستخدام Apidog
سواء كنت تستخدم غلاف FastAPI لـ VibeVoice، أو نقطة نهاية Azure AI Foundry، أو تبني واجهة برمجة تطبيقات الذكاء الاصطناعي الصوتي الخاصة بك، يساعدك Apidog على اختبار وتصحيح أخطاء هذه التكاملات.

اختبار نقطة نهاية تحويل النص إلى كلام (TTS)
- أنشئ طلب POST جديدًا في Apidog يشير إلى خادم VibeVoice FastAPI الخاص بك
- اضبط نص الطلب على التنسيق المتوافق مع OpenAI:
{
"model": "vibevoice-1.5b",
"input": "Test speech synthesis with proper intonation and pacing.",
"voice": "alice",
"response_format": "wav"
}
- أرسل الطلب وتحقق من أن رؤوس الاستجابة تتضمن نوع المحتوى
audio/wav - احفظ الاستجابة كملف WAV للتحقق من جودة الصوت
اختبار نقطة نهاية ASR
لواجهات برمجة تطبيقات تحويل الكلام إلى نص:
- قم بإعداد طلب POST باستخدام
multipart/form-data - أرفق ملف الصوت الخاص بك كحقل نموذج
- تحقق من أن استجابة JSON المنظمة تتضمن معرفات المتحدثين، والطوابع الزمنية، والنص المنسوخ
التحقق من عقود واجهة برمجة تطبيقات الصوت
تتعامل واجهات برمجة تطبيقات الذكاء الاصطناعي الصوتي مع البيانات الثنائية (ملفات الصوت) جنبًا إلى جنب مع بيانات JSON الوصفية. يتعامل مُنشئ طلبات Apidog مع كليهما:
- تحميلات الملفات الثنائية لنقاط نهاية ASR
- تنسيق نص JSON لنقاط نهاية TTS
- التحقق من الاستجابة لإخراج النسخ المنظم
- متغيرات البيئة للتبديل بين نقاط النهاية المحلية والسحابية
قم بتنزيل Apidog لاختبار تكاملات الذكاء الاصطناعي الصوتي الخاصة بك قبل النشر للإنتاج.
السلامة والاستخدام المسؤول
أضافت Microsoft العديد من الضمانات بعد حوادث إساءة الاستخدام الأولية:
- إخلاء مسؤولية صوتي للذكاء الاصطناعي: يتضمن جميع الصوت المُولد رسالة تلقائية "تم إنشاء هذا المقطع بواسطة الذكاء الاصطناعي"
- علامة مائية غير محسوسة: تسمح العلامات المخفية بالتحقق من المحتوى المُولد بواسطة VibeVoice من قبل أطراف ثالثة
- تسجيل الاستدلال: تكتشف السجلات المُجزأة أنماط إساءة الاستخدام بإحصائيات مجمعة ربع سنوية
- ترخيص MIT: يسمح بالاستخدام التجاري، لكن Microsoft توصي بعدم النشر للإنتاج دون مزيد من الاختبار
المسموح به
- الاستخدام البحثي والأكاديمي
- النماذج الأولية والاختبار الداخلي
- توليد البودكاست مع إفصاح مناسب عن الذكاء الاصطناعي
- تطبيقات الوصول (تحويل النص إلى كلام للمستخدمين ضعاف البصر)
غير المسموح به
- انتحال الصوت دون موافقة مسجلة صريحة
- التزييف العميق أو تقديم صوت الذكاء الاصطناعي كتسجيلات بشرية حقيقية
- تحويل الصوت في الوقت الفعلي لتطبيقات التزييف العميق المباشرة
- توليد صوت غير كلامي (موسيقى، مؤثرات صوتية)
القيود التي يجب معرفتها
دعم اللغة ضيق لـ TTS. يدعم VibeVoice-1.5B اللغتين الإنجليزية والصينية. تنتج اللغات الأخرى مخرجات غير مفهومة. يتمتع VibeVoice-ASR بتغطية أوسع لأكثر من 50 لغة.

متطلبات الأجهزة عالية لـ ASR. يحتاج نموذج ASR إلى ذاكرة فيديو (VRAM) تبلغ 24 جيجابايت+ (وحدات معالجة رسومات من فئة A100/H100). تعمل نماذج TTS على وحدات معالجة رسومات المستهلك بذاكرة فيديو تتراوح من 7 إلى 8 جيجابايت.
لا يوجد تعامل مع الكلام المتداخل. لا يقوم نموذج TTS بنمذجة المتحدثين الذين يتحدثون فوق بعضهم البعض. جميع الحوارات تعتمد على الأدوار.
تحيزات النموذج الموروثة. يرث كلا النموذجين تحيزات من قاعدتهما Qwen2.5. يمكن أن تحتوي المخرجات على محتوى غير متوقع أو متحيز أو غير دقيق.
برنامج بحثي. هذا ليس جاهزًا للإنتاج. توقع وجود ثغرات في الحالات الهامشية، ومعالجة الأخطاء، والإخراج غير الإنجليزي.
نشر VibeVoice-ASR على Azure AI Foundry
للفرق التي لا ترغب في إدارة البنية التحتية لوحدات معالجة الرسوميات (GPU)، أتاحت Microsoft VibeVoice-ASR عبر Azure AI Foundry. يوفر لك هذا نقطة نهاية واجهة برمجة تطبيقات مُدارة دون توفير أجهزة.
يتعامل نشر Azure مع التوسع وتحديثات النموذج وصيانة البنية التحتية. تحصل على نقطة نهاية HTTPS تقبل ملفات الصوت وتُرجع نسخًا منظمة بنفس تنسيق من/متى/ماذا للنموذج المحلي.
هذا مفيد بشكل خاص لأعباء العمل الإنتاجية حيث تحتاج إلى وقت تشغيل متسق وضمانات مستوى الخدمة (SLA) التي لا يمكن أن يوفرها الاستدلال على وحدة معالجة الرسوميات المستضافة ذاتيًا. تحقق من كتالوج نماذج Azure AI Foundry للحصول على الأسعار الحالية وخيارات النشر.
لاختبار نقطة نهاية VibeVoice المستضافة على Azure قبل دمجها في تطبيقك، قم بإعداد عنوان URL لنقطة النهاية ورؤوس المصادقة في Apidog وقم بتشغيل نسخ اختبارية مقابل ملفات صوتية نموذجية.
المجتمع والنظام البيئي
يتمتع VibeVoice بمجتمع نشط:
- أكثر من 62,630 عملية تنزيل شهرية من HuggingFace لنموذج 1.5B
- أكثر من 2,280 إعجابًا على HuggingFace
- أكثر من 79 مساحة HuggingFace تشغل النموذج
- 12 نسخة معدلة بدقة من المجتمع
- 4 إصدارات مكممة للنشر بذاكرة فيديو (VRAM) أقل
- تفرع مجتمعي على
vibevoice-community/VibeVoiceمع صيانة نشطة
مشاريع مجتمعية بارزة:
- VibeVoice-FastAPI: غلاف واجهة برمجة تطبيقات REST للإنتاج مع دعم Docker
- VibeVoice MCP Server: تكامل مع أدوات برمجة الذكاء الاصطناعي عبر بروتوكول سياق النموذج (Model Context Protocol)
- دعم Apple Silicon: نصوص مجتمعية للاستدلال على أجهزة Mac من سلسلة M
- نماذج مكممة: GGUF وتنسيقات أخرى لتقليل استخدام ذاكرة الفيديو (VRAM)
الأسئلة الشائعة
هل VibeVoice مجاني للاستخدام؟
نعم. جميع النماذج الثلاثة (TTS 1.5B, Realtime 0.5B, ASR) مرخصة بترخيص MIT. يمكنك استخدامها لأغراض تجارية وغير تجارية. يستضيف Azure AI Foundry تسعيرًا منفصلاً للاستدلال السحابي المُدار.
هل يمكن تشغيل VibeVoice على أجهزة Mac بمعالج Apple Silicon؟
ساهم المجتمع بنصوص برمجية للاستدلال على أجهزة Mac من سلسلة M. تحقق من مناقشات HuggingFace لنموذج VibeVoice-1.5B. الأداء أبطأ من وحدات معالجة الرسوميات CUDA ولكنه يعمل.
كيف يقارن VibeVoice بـ ElevenLabs؟
يعمل VibeVoice محليًا بدون تكاليف واجهة برمجة التطبيقات (API) ولا يغادر أي بيانات جهازك. تقدم ElevenLabs جودة أعلى، ومزيدًا من الأصوات، وإعدادًا أسهل، ولكنها تتطلب اشتراكًا مدفوعًا ومعالجة سحابية. للتطبيقات الحساسة للخصوصية أو الاستخدام دون اتصال بالإنترنت، يتفوق VibeVoice. أما بالنسبة لجودة الإنتاج وسهولة الاستخدام، فإن ElevenLabs تتفوق.
لماذا تم تعطيل مستودع GitHub مؤقتًا؟
اكتشفت Microsoft أشخاصًا يستخدمون استنساخ الصوت لانتحال الشخصية والتزييف العميق (deepfakes). قاموا بتعطيل المستودع، وأضافوا ميزات أمان (إخلاءات مسؤولية صوتية، علامات مائية)، ثم أعادوا تمكينه. استمر التفرع المجتمعي في التطوير خلال فترة التعطيل.
هل يمكنني ضبط VibeVoice بدقة على أصوات مخصصة؟
نعم. أنتج المجتمع 12 نسخة معدلة بدقة على HuggingFace. تحتاج إلى عينات صوتية (30-60 ثانية من صوت WAV واضح بتردد 24 كيلو هرتز أحادي) وموارد وحدة معالجة الرسوميات (GPU) للتدريب.
ما هي تنسيقات الصوت التي ينتجها VibeVoice؟
WAV بتردد 24,000 هرتز أحادي. يمكنك التحويل إلى MP3، OGG، FLAC، أو تنسيقات أخرى باستخدام ffmpeg بعد التوليد.
هل يمكنني استخدام VibeVoice-ASR كبديل لـ Whisper؟
بالنسبة للصوت طويل الأمد مع تحديد المتحدث، نعم. يتعامل VibeVoice-ASR مع تسجيلات مدتها 60 دقيقة في تمريرة واحدة مع تحديد المتحدثين المدمج. يحتاج Whisper إلى أدوات خارجية لتحديد المتحدثين ويكافح مع التسجيلات التي تزيد مدتها عن 30 دقيقة دون تقسيمها. للمقاطع القصيرة والصاخبة أو النشر على الحافة، يظل Whisper الخيار الأفضل.
هل يدعم VibeVoice الدردشة الصوتية في الوقت الفعلي؟
يدعم VibeVoice-Realtime-0.5B إدخال النص المتدفق مع زمن استجابة للدفعة الأولى يبلغ حوالي 300 مللي ثانية. يمكن استخدامه للتطبيقات شبه الفورية ولكنه غير مصمم لمحادثات صوتية مزدوجة الاتجاه بالكامل. لذلك، ابحث عن GPT-Realtime من Azure OpenAI أو حلول استضافة مشابهة.
