فوكسترال: بديل Whisper مفتوح المصدر من Mistral AI

على مدى السنوات القليلة الماضية، تربّع Whisper من OpenAI على عرش بطل التعرف على الكلام مفتوح المصدر بلا منازع. لقد قدّم مستوى من الدقة أضفى طابعًا ديمقراطيًا على التعرف التلقائي على الكلام (ASR) للمطورين والباحثين والهواة في جميع أنحاء العالم. لقد كانت قفزة هائلة إلى الأمام، لكن المجتمع كان ينتظر بفارغ الصبر الخطوة التالية — نموذجًا يتجاوز مجرد التفريغ إلى عالم الفهم الحقيقي. لقد انتهى هذا الانتظار الآن. دخلت Mistral AI الحلبة مع Voxtral، وهي مجموعة جديدة من النماذج مفتوحة المصدر التي ليست مجرد بديل لـ Whisper؛ بل هي المعيار الجديد.

يُعد Voxtral إجابة مباشرة على قيود الجيل السابق من ASR. فبينما برع Whisper في تحويل الكلام إلى نص، ترك العمل الشاق الخاص بالتفسير الدلالي لنماذج أخرى. تطلب بناء تطبيقات صوتية ذكية حقًا عملية معقدة وغير فعالة غالبًا لربط مخرجات Whisper بنموذج لغة كبير (LLM) منفصل. يحطم Voxtral من Mistral AI هذا النموذج من خلال دمج التفريغ المتطور والفهم العميق للغة في قوة واحدة متماسكة ومفتوحة المصدر.

💡

هل تريد أداة رائعة لاختبار API تولد وثائق API جميلة؟

هل تريد منصة متكاملة وشاملة لفريق المطورين لديك للعمل معًا بأقصى إنتاجية؟

Apidog يلبي جميع متطلباتك، ويحل محل Postman بسعر أكثر بكثير!

زر

التفوق على البطل: قائد جديد في التفريغ

الاختبار الأول والأكثر أهمية لأي بديل لـ Whisper هو دقة التفريغ. وعلى هذا الصعيد، يحقق Voxtral انتصارًا حاسمًا. تُظهر معايير Mistral AI أن Voxtral يتفوق بشكل شامل على Whisper large-v3، الرائد السابق مفتوح المصدر. ولا يتوقف الأمر عند هذا الحد؛ بل يتجاوز أيضًا النماذج الاحتكارية مثل GPT-4o mini Transcribe و Gemini 2.5 Flash عبر مجموعة واسعة من المهام.

على وجه التحديد، يحقق Voxtral نتائج متطورة في تفريغ النصوص القصيرة باللغة الإنجليزية وعلى معيار Mozilla Common Voice متعدد اللغات. وعند تقييمه عبر لغات متعددة في معيار FLEURS، يتفوق Voxtral Small على Whisper في كل مهمة على حدة، مما يُظهر قدراته المتفوقة متعددة اللغات، خاصة في اللغات الأوروبية. هذا ليس تحسينًا تدريجيًا؛ بل هو خطوة أساسية للأمام في الأداء الخام، متاح للجميع بموجب ترخيص Apache 2.0 المتساهل.

من التفريغ إلى الفهم الحقيقي

تكمن الثورة الحقيقية لـ Voxtral في قدرته على فهم المحتوى الذي يفرغه بشكل أصيل. هذا هو المكان الذي يترك فيه نماذج ASR التقليدية مثل Whisper بعيدًا. Voxtral ليس مجرد محرك لتحويل الكلام إلى نص؛ بل هو محرك لتحويل الكلام إلى معنى.

يصبح هذا ممكنًا من خلال مجموعة من القدرات المدمجة:

دمج الأسئلة والأجوبة والتلخيص: مع Voxtral، لا توجد حاجة لتمرير النص المفرغ إلى نموذج آخر لطرح الأسئلة أو الحصول على ملخص. يمكنك التفاعل مباشرة مع المحتوى الصوتي. يتم تمكين ذلك من خلال نافذة السياق الضخمة البالغة 32 ألف رمز، والتي تسمح له بمعالجة وتحليل ما يصل إلى 30 دقيقة من الصوت للتفريغ أو 40 دقيقة لمهام الفهم. هذا مثالي لتلخيص الاجتماعات الطويلة، أو تحليل المحاضرات، أو استخلاص الرؤى الرئيسية من البودكاست دون عملية معقدة متعددة الخطوات.

استدعاء الوظائف مباشرة من الصوت: هذه قدرة تضع Voxtral في فئة خاصة به. يمكنه تفسير الأوامر المنطوقة وتشغيل وظائف الواجهة الخلفية أو استدعاءات API مباشرة. تخيل مستخدمًا يقول: "أضف 'شراء الحليب' إلى قائمة التسوق الخاصة بي"، ويقوم النموذج بالتفاعل مباشرة مع تطبيق إدارة المهام. هذا يحول الصوت من إدخال سلبي إلى واجهة أوامر نشطة وقابلة للتنفيذ، وهو شيء لم يتم تصميم Whisper لفعله أبدًا.

ذكاء متعدد اللغات أصيل: بينما يدعم Whisper لغات متعددة، فإن أداء Voxtral يمثل خطوة واضحة إلى الأمام. مع الكشف التلقائي عن اللغة والنتائج المتطورة في لغات تتراوح من الهندية إلى الهولندية، فإنه يوفر نظامًا واحدًا وقويًا لبناء تطبيقات عالمية.

قدرات نصية قوية: نظرًا لأن Voxtral مبني على أساس Mistral Small 3.1، فإنه يحتفظ بجميع قدرات الاستدلال والتوليد النصية القوية لنموذج اللغة الكبير (LLM) الأم. هذا يجعله نموذجًا متعدد الاستخدامات، اثنان في واحد لكل من مهام الصوت والنص.

سد الفجوة: حرية المصدر المفتوح، أداء متميز

لطالما تم تعريف سوق ASR بمقايضة. فمن ناحية، كان لديك نماذج مفتوحة المصدر مثل Whisper، والتي قدمت الحرية والتحكم ولكنها تخلفت عن أفضل واجهات برمجة التطبيقات الاحتكارية في الأداء والميزات. ومن ناحية أخرى، كان لديك واجهات برمجة تطبيقات مغلقة المصدر قدمت أداءً أعلى ولكن بتكلفة كبيرة وبدون تحكم في النموذج الأساسي.

Voxtral يسد هذه الفجوة بالكامل. إنه يقدم أداءً ليس فقط متفوقًا على النموذج الرائد مفتوح المصدر، بل أيضًا منافسًا أو أفضل من أفضل واجهات برمجة التطبيقات الاحتكارية. ويفعل ذلك مع بقائه مفتوح المصدر بالكامل.

بالنسبة لأولئك الذين يفضلون خدمة مُدارة، فإن تسعير API الخاص بـ Mistral لـ Voxtral يمثل تحديًا مباشرًا للسوق، حيث يكلف أقل من نصف سعر واجهات برمجة التطبيقات المماثلة من المنافسين مثل OpenAI و ElevenLabs. هذا المزيج من الأداء المتفوق مفتوح المصدر والتسعير الثوري يجعل ذكاء الكلام عالي الجودة متاحًا للجميع.

ابدأ بالمعيار الجديد

جعلت Mistral AI من السهل بشكل لا يصدق البدء في البناء باستخدام Voxtral. النماذج متاحة بحجمين: نسخة 24 مليار للاستخدام على نطاق الإنتاج ونسخة 3 مليار خفيفة مثالية لتطبيقات الحافة والتطبيقات المحلية حيث غالبًا ما كانت تُستخدم نماذج Whisper الأصغر.

قم بتنزيل النماذج: كل من Voxtral (24 مليار) و Voxtral Mini (3 مليار) متاحان على Hugging Face ليقوم أي شخص بتنزيلهما واستخدامهما.

استخدم API: ادمج Voxtral في أي تطبيق باستدعاء API بسيط.

جرب العرض التوضيحي: اختبر قدرات Voxtral مباشرة في Le Chat، واجهة الدردشة على الويب والجوال من Mistral.

أرسى Whisper الأساس لجيل جديد من الذكاء الاصطناعي مفتوح المصدر. لقد كانت خطوة حاسمة ومحتفى بها. لكن المجال يتحرك بسرعة، ومع إصدار Voxtral، تم وضع معيار جديد. يقدم Voxtral تفريغًا فائقًا، وفهمًا دلاليًا عميقًا، ومجموعة ميزات مصممة لبناء تطبيقات تفاعلية حقًا، وهو أكثر من مجرد بديل — إنه الخلف. مستقبل الذكاء الاصطناعي الصوتي مفتوح المصدر هنا، واسمه Voxtral.

💡

زر