ما هو Microsoft VibeVoice؟ وكيفية استخدام نماذج الذكاء الاصطناعي الصوتية مفتوحة المصدر

Ashley Innocent

Ashley Innocent

2 أبريل 2026

ما هو Microsoft VibeVoice؟ وكيفية استخدام نماذج الذكاء الاصطناعي الصوتية مفتوحة المصدر

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

ملخص

VibeVoice هي عائلة الذكاء الاصطناعي الصوتي مفتوحة المصدر من Microsoft بثلاثة نماذج: VibeVoice-1.5B لتحويل النص إلى كلام (حتى 90 دقيقة، 4 متحدثين)، وVibeVoice-Realtime-0.5B لتحويل النص إلى كلام بالبث المباشر، وVibeVoice-ASR للتعرف على الكلام (صوت لمدة 60 دقيقة، أكثر من 50 لغة، 7.77% WER). جميع النماذج مرخصة بترخيص MIT وتعمل محليًا. يغطي هذا الدليل التثبيت والاستخدام وتكامل واجهة برمجة التطبيقات (API).

مقدمة

أصدرت Microsoft VibeVoice كإطار عمل للذكاء الاصطناعي الصوتي مفتوح المصدر في أوائل عام 2026. يتضمن نماذج لكل من توليف الكلام (تحويل النص إلى كلام) والتعرف على الكلام (التعرف التلقائي على الكلام)، وكلها تعمل محليًا على جهازك دون الاعتماد على السحابة.

يحتوي إطار العمل على ثلاثة نماذج:

أثارت نماذج TTS جدلاً بعد إصدارها. عطلت Microsoft مستودع GitHub الرئيسي مؤقتًا عندما اكتشفت إساءة استخدام استنساخ الصوت. قام المجتمع بنسخ الكود، ثم أعادت Microsoft تمكين المستودع مع إضافة ضمانات: إخلاء مسؤولية صوتي للذكاء الاصطناعي مضمن في الصوت المُولد وعلامة مائية غير محسوسة للتحقق من المصدر.

VibeVoice-ASR متاح الآن على Azure AI Foundry للنشر السحابي. تظل نماذج TTS مركزة على البحث بترخيص MIT.

يرشدك هذا الدليل خلال التثبيت، وتوليد الكلام من النص، والتعرف على الكلام، وتكامل واجهة برمجة التطبيقات (API)، وكيفية اختبار نقاط نهاية الذكاء الاصطناعي الصوتي باستخدام Apidog.

زر

كيف يعمل VibeVoice: نظرة عامة على البنية

الإنجاز في مُجزئ الكلمات (Tokenizer)

التقدم الأساسي في VibeVoice هو مُجزئات الكلمات (tokenizers) المستمرة للكلام التي تعمل بمعدل إطارات منخفض للغاية يبلغ 7.5 هرتز. للمقارنة، تعالج معظم نماذج الكلام الصوت عند 50-100 هرتز. هذا التخفيض بمقدار 7-13 مرة في معدل الإطارات يعني أن النموذج يتعامل مع التسلسلات الطويلة (90 دقيقة من الصوت) دون نفاد السياق.

يستخدم النظام مُجزّئَيْن (tokenizers):

انتشار الرمز التالي (Next-token diffusion)

يجمع النموذج بين عمود فقري لنموذج لغوي كبير (LLM) (Qwen2.5-1.5B) ورأس انتشار خفيف الوزن (حوالي 123 مليون معلمة). يتعامل النموذج اللغوي الكبير مع السياق النصي وتدفق الحوار. يولد رأس الانتشار تفاصيل صوتية عالية الدقة باستخدام نماذج الانتشار الاحتمالية لإزالة الضوضاء (DDPM) مع توجيه خالٍ من المصنف.

العدد الإجمالي للمعلمات: 3 مليارات (بما في ذلك مُجزئات الكلمات ورأس الانتشار).

نهج التدريب

يستخدم VibeVoice التعلم المنهجي، حيث يتدرب تدريجياً على تسلسلات أطول: 4K، 16K، 32K، ثم 64K رمزًا. تظل مُجزئات الكلمات المدربة مسبقًا ثابتة خلال هذه المرحلة؛ يتم تحديث معلمات LLM ورأس الانتشار فقط. يسمح هذا للنموذج بالتعلم للتعامل مع الصوت الطويل بشكل متزايد دون نسيان القدرات القصيرة.

مواصفات نماذج VibeVoice

النموذج المعلمات الغرض الحد الأقصى للمدة اللغات الترخيص
VibeVoice-1.5B 3 مليارات (إجمالي) تحويل النص إلى كلام 90 دقيقة الإنجليزية، الصينية MIT
VibeVoice-Realtime-0.5B ~0.5 مليار تحويل النص إلى كلام بالبث المباشر طويلة الأمد الإنجليزية، الصينية MIT
VibeVoice-ASR ~9 مليارات التعرف على الكلام 60 دقيقة أكثر من 50 لغة MIT

VibeVoice-1.5B (تحويل النص إلى كلام)

المواصفة القيمة
قاعدة النموذج اللغوي الكبير Qwen2.5-1.5B
طول السياق 64 ألف رمز
الحد الأقصى للمتحدثين 4 متحدثين متزامنين
إخراج الصوت صوت WAV أحادي 24 كيلو هرتز
نوع الموتر BF16
التنسيق Safetensors
عمليات التنزيل من HuggingFace 62,630/شهريًا
تفرعات المجتمع 12 نسخة معدلة بدقة

VibeVoice-ASR

المواصفة القيمة
قاعدة البنية Qwen2.5
المعلمات ~9 مليارات
معالجة الصوت حتى 60 دقيقة في تمريرة واحدة
معدل الإطارات 7.5 هرتز
متوسط معدل الخطأ في الكلمات (WER) 7.77% (عبر 8 مجموعات بيانات إنجليزية)
معدل الخطأ في الكلمات (WER) لـ LibriSpeech Clean 2.20%
معدل الخطأ في الكلمات (WER) لـ TED-LIUM 2.57%
اللغات أكثر من 50
الناتج منظم (من + متى + ماذا)
الصوت المدعوم WAV, FLAC, MP3 بتردد 16 كيلو هرتز+

التثبيت والإعداد

المتطلبات الأساسية

تثبيت VibeVoice TTS

# Clone the repository
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Install dependencies
pip install -r requirements.txt

يتم تنزيل النماذج تلقائيًا من HuggingFace عند التشغيل الأول. يمكنك أيضًا تنزيلها مسبقًا:

from huggingface_hub import snapshot_download

# Download the 1.5B TTS model
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

التثبيت عبر pip (حزمة المجتمع)

pip install vibevoice

التثبيت لـ ASR

يستخدم VibeVoice-ASR إعدادًا منفصلاً:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

أو انشر عبر Azure AI Foundry للاستدلال السحابي المُدار.

توليد الكلام باستخدام VibeVoice-1.5B

توليد بمتحدث واحد

أنشئ ملفًا نصيًا بالبرنامج النصي الخاص بك:

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

قم بتشغيل الاستدلال:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

يتم حفظ الإخراج كملف .wav في دليل outputs/.

توليد بودكاست متعدد المتحدثين

يتعامل VibeVoice مع ما يصل إلى 4 متحدثين بهويات صوتية متسقة طوال التسجيل بأكمله:

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.
python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

يحافظ النموذج على خصائص صوتية مميزة لكل متحدث عبر المحادثة الكاملة، حتى عند طول 90 دقيقة.

استنساخ الصوت (بدون أمثلة مسبقة)

استنسخ صوتًا من عينة صوتية مرجعية:

متطلبات الصوت:

حوّل الصوت الموجود إلى التنسيق الصحيح:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

استخدم واجهة عرض Gradio لاستنساخ الصوت:

python demo/gradio_demo.py

هذا يطلق واجهة مستخدم ويب على http://127.0.0.1:7860 حيث يمكنك تحميل الصوت المرجعي الخاص بك، واختيار الصوت المستنسخ، وتوليد الكلام.

البث باستخدام VibeVoice-Realtime-0.5B

للتطبيقات التي تتطلب إخراجًا صوتيًا بزمن استجابة منخفض (حوالي 300 مللي ثانية للدفعة الأولى):

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

نموذج الوقت الحقيقي أصغر وأسرع ولكنه ينتج صوتًا بدقة أقل من نموذج 1.5B الكامل. استخدمه للتطبيقات التفاعلية؛ استخدم نموذج 1.5B للمحتوى المُولد مسبقًا.

استخدام VibeVoice مع بايثون

واجهة برمجة تطبيقات الأنابيب (Pipeline API)

from transformers import pipeline
from huggingface_hub import snapshot_download

# Download model
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Load pipeline
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Prepare multi-speaker script
script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

# Apply chat template
input_data = pipe.processor.apply_chat_template(script)

# Generate audio
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

غلاف FastAPI للإنتاج

قام المجتمع ببناء غلاف FastAPI يعرض VibeVoice كواجهة برمجة تطبيقات لتحويل النص إلى كلام (TTS) متوافقة مع OpenAI:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

هذا يمنحك نقطة نهاية واجهة برمجة تطبيقات متوافقة مع تنسيق TTS الخاص بـ OpenAI:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

تعني نقطة النهاية المتوافقة مع OpenAI أنه يمكنك اختبار تكامل واجهة برمجة تطبيقات VibeVoice الخاصة بك مع Apidog باستخدام نفس تنسيق الطلب الذي ستستخدمه لواجهة برمجة تطبيقات TTS الخاصة بـ OpenAI. قم باستيراد نقطة النهاية، وقم بتكوين نص طلبك، واختبر توليد الصوت دون كتابة تعليمات برمجية للتطبيق.

استخدام VibeVoice-ASR للتعرف على الكلام

النسخ الأساسي

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

تنسيق الإخراج المنظم

ينتج VibeVoice-ASR نسخًا منظمة بثلاثة حقول لكل جزء:

مثال على الإخراج:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

ASR كخادم MCP

يمكن لـ VibeVoice-ASR العمل كخادم MCP (بروتوكول سياق النموذج)، متصلاً مباشرةً بـ Claude Code و Cursor وأدوات برمجة الذكاء الاصطناعي الأخرى:

# Install the MCP server
pip install vibevoice-mcp-server

# Run it
vibevoice-mcp serve

يتيح هذا لوكيل البرمجة الخاص بك نسخ الاجتماعات أو الملاحظات الصوتية أو التسجيلات الصوتية كجزء من سير عمله. أنت تملي المتطلبات، ويقوم خادم MCP بنسخها، ثم يقوم وكيل البرمجة بمعالجة النص.

متى تستخدم VibeVoice-ASR مقابل Whisper

حالة الاستخدام أفضل خيار السبب
الاجتماعات الطويلة (30-60 دقيقة) VibeVoice-ASR معالجة 60 دقيقة في تمريرة واحدة، تحديد المتحدث
المقابلات مع عدة متحدثين VibeVoice-ASR تحديد المتحدثين المدمج
البودكاست التي تحتاج طوابع زمنية VibeVoice-ASR إخراج منظم (من/متى/ماذا)
محتوى متعدد اللغات (أكثر من 50 لغة) VibeVoice-ASR دعم لغوي أوسع
مقاطع قصيرة في بيئات صاخبة Whisper مقاومة أفضل للضوضاء
النشر على الأجهزة الطرفية/المحمولة Whisper حجم نموذج أصغر، دعم أوسع للأجهزة
اللغات غير الإنجليزية (متخصصة) Whisper ضبط دقيق للغات المتعددة أكثر نضجًا

اختبار واجهات برمجة تطبيقات الذكاء الاصطناعي الصوتي باستخدام Apidog

سواء كنت تستخدم غلاف FastAPI لـ VibeVoice، أو نقطة نهاية Azure AI Foundry، أو تبني واجهة برمجة تطبيقات الذكاء الاصطناعي الصوتي الخاصة بك، يساعدك Apidog على اختبار وتصحيح أخطاء هذه التكاملات.

اختبار نقطة نهاية تحويل النص إلى كلام (TTS)

  1. أنشئ طلب POST جديدًا في Apidog يشير إلى خادم VibeVoice FastAPI الخاص بك
  2. اضبط نص الطلب على التنسيق المتوافق مع OpenAI:
{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice",
  "response_format": "wav"
}
  1. أرسل الطلب وتحقق من أن رؤوس الاستجابة تتضمن نوع المحتوى audio/wav
  2. احفظ الاستجابة كملف WAV للتحقق من جودة الصوت

اختبار نقطة نهاية ASR

لواجهات برمجة تطبيقات تحويل الكلام إلى نص:

  1. قم بإعداد طلب POST باستخدام multipart/form-data
  2. أرفق ملف الصوت الخاص بك كحقل نموذج
  3. تحقق من أن استجابة JSON المنظمة تتضمن معرفات المتحدثين، والطوابع الزمنية، والنص المنسوخ

التحقق من عقود واجهة برمجة تطبيقات الصوت

تتعامل واجهات برمجة تطبيقات الذكاء الاصطناعي الصوتي مع البيانات الثنائية (ملفات الصوت) جنبًا إلى جنب مع بيانات JSON الوصفية. يتعامل مُنشئ طلبات Apidog مع كليهما:

قم بتنزيل Apidog لاختبار تكاملات الذكاء الاصطناعي الصوتي الخاصة بك قبل النشر للإنتاج.

زر

السلامة والاستخدام المسؤول

أضافت Microsoft العديد من الضمانات بعد حوادث إساءة الاستخدام الأولية:

المسموح به

غير المسموح به

القيود التي يجب معرفتها

دعم اللغة ضيق لـ TTS. يدعم VibeVoice-1.5B اللغتين الإنجليزية والصينية. تنتج اللغات الأخرى مخرجات غير مفهومة. يتمتع VibeVoice-ASR بتغطية أوسع لأكثر من 50 لغة.

متطلبات الأجهزة عالية لـ ASR. يحتاج نموذج ASR إلى ذاكرة فيديو (VRAM) تبلغ 24 جيجابايت+ (وحدات معالجة رسومات من فئة A100/H100). تعمل نماذج TTS على وحدات معالجة رسومات المستهلك بذاكرة فيديو تتراوح من 7 إلى 8 جيجابايت.

لا يوجد تعامل مع الكلام المتداخل. لا يقوم نموذج TTS بنمذجة المتحدثين الذين يتحدثون فوق بعضهم البعض. جميع الحوارات تعتمد على الأدوار.

تحيزات النموذج الموروثة. يرث كلا النموذجين تحيزات من قاعدتهما Qwen2.5. يمكن أن تحتوي المخرجات على محتوى غير متوقع أو متحيز أو غير دقيق.

برنامج بحثي. هذا ليس جاهزًا للإنتاج. توقع وجود ثغرات في الحالات الهامشية، ومعالجة الأخطاء، والإخراج غير الإنجليزي.

نشر VibeVoice-ASR على Azure AI Foundry

للفرق التي لا ترغب في إدارة البنية التحتية لوحدات معالجة الرسوميات (GPU)، أتاحت Microsoft VibeVoice-ASR عبر Azure AI Foundry. يوفر لك هذا نقطة نهاية واجهة برمجة تطبيقات مُدارة دون توفير أجهزة.

يتعامل نشر Azure مع التوسع وتحديثات النموذج وصيانة البنية التحتية. تحصل على نقطة نهاية HTTPS تقبل ملفات الصوت وتُرجع نسخًا منظمة بنفس تنسيق من/متى/ماذا للنموذج المحلي.

هذا مفيد بشكل خاص لأعباء العمل الإنتاجية حيث تحتاج إلى وقت تشغيل متسق وضمانات مستوى الخدمة (SLA) التي لا يمكن أن يوفرها الاستدلال على وحدة معالجة الرسوميات المستضافة ذاتيًا. تحقق من كتالوج نماذج Azure AI Foundry للحصول على الأسعار الحالية وخيارات النشر.

لاختبار نقطة نهاية VibeVoice المستضافة على Azure قبل دمجها في تطبيقك، قم بإعداد عنوان URL لنقطة النهاية ورؤوس المصادقة في Apidog وقم بتشغيل نسخ اختبارية مقابل ملفات صوتية نموذجية.

المجتمع والنظام البيئي

يتمتع VibeVoice بمجتمع نشط:

مشاريع مجتمعية بارزة:

الأسئلة الشائعة

هل VibeVoice مجاني للاستخدام؟

نعم. جميع النماذج الثلاثة (TTS 1.5B, Realtime 0.5B, ASR) مرخصة بترخيص MIT. يمكنك استخدامها لأغراض تجارية وغير تجارية. يستضيف Azure AI Foundry تسعيرًا منفصلاً للاستدلال السحابي المُدار.

هل يمكن تشغيل VibeVoice على أجهزة Mac بمعالج Apple Silicon؟

ساهم المجتمع بنصوص برمجية للاستدلال على أجهزة Mac من سلسلة M. تحقق من مناقشات HuggingFace لنموذج VibeVoice-1.5B. الأداء أبطأ من وحدات معالجة الرسوميات CUDA ولكنه يعمل.

كيف يقارن VibeVoice بـ ElevenLabs؟

يعمل VibeVoice محليًا بدون تكاليف واجهة برمجة التطبيقات (API) ولا يغادر أي بيانات جهازك. تقدم ElevenLabs جودة أعلى، ومزيدًا من الأصوات، وإعدادًا أسهل، ولكنها تتطلب اشتراكًا مدفوعًا ومعالجة سحابية. للتطبيقات الحساسة للخصوصية أو الاستخدام دون اتصال بالإنترنت، يتفوق VibeVoice. أما بالنسبة لجودة الإنتاج وسهولة الاستخدام، فإن ElevenLabs تتفوق.

لماذا تم تعطيل مستودع GitHub مؤقتًا؟

اكتشفت Microsoft أشخاصًا يستخدمون استنساخ الصوت لانتحال الشخصية والتزييف العميق (deepfakes). قاموا بتعطيل المستودع، وأضافوا ميزات أمان (إخلاءات مسؤولية صوتية، علامات مائية)، ثم أعادوا تمكينه. استمر التفرع المجتمعي في التطوير خلال فترة التعطيل.

هل يمكنني ضبط VibeVoice بدقة على أصوات مخصصة؟

نعم. أنتج المجتمع 12 نسخة معدلة بدقة على HuggingFace. تحتاج إلى عينات صوتية (30-60 ثانية من صوت WAV واضح بتردد 24 كيلو هرتز أحادي) وموارد وحدة معالجة الرسوميات (GPU) للتدريب.

ما هي تنسيقات الصوت التي ينتجها VibeVoice؟

WAV بتردد 24,000 هرتز أحادي. يمكنك التحويل إلى MP3، OGG، FLAC، أو تنسيقات أخرى باستخدام ffmpeg بعد التوليد.

هل يمكنني استخدام VibeVoice-ASR كبديل لـ Whisper؟

بالنسبة للصوت طويل الأمد مع تحديد المتحدث، نعم. يتعامل VibeVoice-ASR مع تسجيلات مدتها 60 دقيقة في تمريرة واحدة مع تحديد المتحدثين المدمج. يحتاج Whisper إلى أدوات خارجية لتحديد المتحدثين ويكافح مع التسجيلات التي تزيد مدتها عن 30 دقيقة دون تقسيمها. للمقاطع القصيرة والصاخبة أو النشر على الحافة، يظل Whisper الخيار الأفضل.

هل يدعم VibeVoice الدردشة الصوتية في الوقت الفعلي؟

يدعم VibeVoice-Realtime-0.5B إدخال النص المتدفق مع زمن استجابة للدفعة الأولى يبلغ حوالي 300 مللي ثانية. يمكن استخدامه للتطبيقات شبه الفورية ولكنه غير مصمم لمحادثات صوتية مزدوجة الاتجاه بالكامل. لذلك، ابحث عن GPT-Realtime من Azure OpenAI أو حلول استضافة مشابهة.

زر

ممارسة تصميم API في Apidog

اكتشف طريقة أسهل لبناء واستخدام واجهات برمجة التطبيقات