ملخص سريع
أطلقت علي بابا Qwen3.5-Omni في 30 مارس 2026. يقوم بمعالجة النصوص والصور والصوت والفيديو في نموذج واحد ويُخرج نصوصًا وكلامًا في الوقت الفعلي. يتفوق على Gemini 3.1 Pro في معايير فهم الصوت والاستنتاج العامة، ويدعم 113 لغة للتعرف على الكلام، ويتضمن استنساخ الصوت. تتوفر ثلاثة إصدارات: Plus و Flash و Light.
نموذج واحد لكل شيء
تتضمن معظم سير عمل الذكاء الاصطناعي اليوم ربط نماذج منفصلة معًا: واحد لتحويل الكلام إلى نص، وآخر للرؤية، وآخر لتوليد النصوص، وآخر لتحويل النص إلى كلام. يضيف كل تسليم زمن انتقال وتكلفة ونقاط فشل.
يجمع Qwen3.5-Omni هذه الطبقات. يأخذ النصوص والصور والصوت والفيديو كمدخلات ويعيد نصًا أو كلامًا كمخرجات، كل ذلك ضمن استدعاء استدلال نموذج واحد. تحتفظ نافذة السياق بـ 256,000 رمز، والتي تغطي أكثر من 10 ساعات من الصوت أو حوالي 400 ثانية من الفيديو بدقة 720p مع الصوت.
قامت علي بابا بتدريبه على أكثر من 100 مليون ساعة من البيانات السمعية البصرية الأصلية. والنتيجة هي نموذج لا يتعامل مع الأنماط المتعددة فحسب؛ بل يستدل عبرها في نفس الوقت.
إذا كنت تقوم بإنشاء تطبيقات تتضمن أي مزيج من الصوت والفيديو والصور والنصوص، فإن هذا يغير ما هو ممكن على مستوى واجهة برمجة التطبيقات (API).
ما الذي تغير عن Qwen3-Omni
الجيل السابق، Qwen3-Omni Flash، أُطلق في ديسمبر 2025 بزمن استجابة 234 مللي ثانية. Qwen3.5-Omni هو الإصدار الكامل التالي. إليك ما تغير:

تغطية لغوية موسعة بشكل كبير
غطى التعرف على الكلام في Qwen3-Omni 19 لغة. يغطي Qwen3.5-Omni 113 لغة ولهجة. انتقل توليد الكلام من 10 لغات إلى 36. ليس هذا تحسنًا بسيطًا؛ بل هو الفرق بين نموذج يعمل للأسواق الغربية وآخر يعمل عالميًا.
استنساخ الصوت مدمج الآن
يمكنك تحميل عينة صوتية وجعل النموذج يستجيب بهذا الصوت. في الجيل السابق، لم يكن هذا متاحًا. في Qwen3.5-Omni Plus و Flash، يمكن الوصول إلى استنساخ الصوت عبر واجهة برمجة التطبيقات (API). يطابق النموذج هوية المتحدث جيدًا بما يكفي ليظهر كشخصية صوتية متناسقة عبر المحادثات الطويلة.
تقنية ARIA تقضي على تشويش الصوت
كانت الأرقام والكلمات غير العادية (أسماء المنتجات، المصطلحات التقنية، الأسماء الصحيحة) تتعرض للتشويش تاريخيًا في أنظمة تحويل النص إلى كلام العصبية (TTS). تعالج تقنية ARIA، طبقة مزامنة النص والكلام الديناميكية من Qwen، هذه المشكلة على وجه التحديد. تقرأ مسبقًا في مخزن النص المؤقت وتضبط توليد الفونيمات قبل إخراج الصوت، لذلك تخرج “IPv6” و “249.99 دولارًا” و “Qwen3.5-Omni” كلها بشكل صحيح.
التقاطع الدلالي يعمل بالطريقة التي يتوقعها البشر
عندما تقول "آه-ها" أثناء استجابة صوتية، فإنك تريد أن يستمر النموذج في الكلام. عندما تقول "انتظر، توقف"، فإنك تريد أن يتوقف. تعاملت أنظمة الذكاء الاصطناعي الصوتية السابقة مع أي إدخال صوتي كأمر إيقاف. يميز Qwen3.5-Omni بين قنوات التغذية الراجعة (الإقرارات) والتقاطعات الفعلية، مما يجعل المحادثات الصوتية تبدو أكثر طبيعية.
بحث الويب في الوقت الفعلي مدمج
يمكن للنموذج الاستعلام عن الويب أثناء الاستدلال ودمج النتائج المباشرة في استجابته. لا تحتاج إلى جلب السياق مسبقًا وحقنه في المطالبة؛ يتعامل النموذج مع الاسترجاع بنفسه عند الحاجة.
الترميز المرئي والسمعي التفاعلي
تعمل تسجيلات الشاشة الآن كمدخلات للترميز. سجل شاشتك، ومرر الفيديو إلى النموذج، واطلب منه تكرار أو تحسين ما يراه. يقوم بتوليد كود وظيفي من السياق المرئي. هذا هو المكافئ متعدد الأنماط لتوليد الكود المدرك للسياق من Cursor، باستثناء أن المدخل هو فيديو.
نتائج المعايير
عبر 36 معيارًا صوتيًا وسمعيًا بصريًا:
- يحقق Qwen3.5-Omni أداءً رائدًا (state-of-the-art) في 32 من أصل 36 معيارًا
- يسجل أداءً رائدًا جديدًا (new state-of-the-art) في 22 من تلك الـ 36
- يتفوق على Gemini 3.1 Pro في الفهم الصوتي العام، والاستنتاج، والترجمة
- يطابق Gemini 3.1 Pro في الفهم السمعي البصري
بالنسبة لجودة توليد الكلام على وجه التحديد، يتفوق على ElevenLabs و GPT-Audio و Minimax في استقرار الصوت متعدد اللغات عبر 20 لغة. هذه مقارنة ذات معنى: ElevenLabs هي شركة ذكاء اصطناعي صوتي مخصصة مع سنوات من التركيز على هذه المشكلة.
إصدارات النموذج
تقدم علي بابا ثلاثة إصدارات:
| الإصدار | الأفضل لـ |
|---|---|
| Qwen3.5-Omni Plus | أقصى جودة؛ استدلال سمعي بصري، استنساخ الصوت، مهام السياق الطويل |
| Qwen3.5-Omni Flash | سرعة وجودة متوازنة؛ محادثة صوتية في الوقت الفعلي، واجهات برمجة تطبيقات إنتاجية |
| Qwen3.5-Omni Light | مهام بزمن انتقال منخفض؛ سيناريوهات الجوال والحوسبة الطرفية |
تتعامل الإصدارات الثلاثة مع مجموعة كاملة من أنماط الإدخال (نص، صور، صوت، فيديو). تكمن الاختلافات في جودة المخرجات، وزمن الانتقال، والتكلفة. Plus هو الرائد في المعايير؛ Flash هو ما يجب أن تبدأ به معظم تطبيقات الإنتاج.
نافذة سياق الـ 256 ألف رمز
256 ألف رمز هو الحد الأقصى للمدخلات. فماذا يعني ذلك عمليًا؟
- الصوت: أكثر من 10 ساعات من الكلام المتواصل
- الفيديو: حوالي 400 ثانية من الفيديو بدقة 720p مع صوت مدمج
- النص: حوالي 190,000 كلمة، أو مستند بحجم رواية
بالنسبة لمعظم حالات الاستخدام متعددة الأنماط، 256 ألف رمز كافية بحيث لن تحتاج إلى تقسيم المدخلات. تسجيل اجتماع لمدة 30 دقيقة، أو فيديو عرض توضيحي كامل للمنتج، أو مكالمة دعم عملاء طويلة، كلها تتناسب مع طلب واحد.
قارن هذا بسياق GPT-4o البالغ 128 ألفًا أو سياق Gemini 2.5 Pro البالغ مليون رمز. Qwen3.5-Omni أصغر من الحد الأقصى لـ Gemini، لكن أداءه السمعي البصري في المعايير يعوض هذا الاختلاف في معظم المهام الواقعية.
التعرف على الكلام بـ 113 لغة
إن القفزة من 19 إلى 113 لغة في التعرف على الكلام ليست مجرد رقم تسويقي. بل تهم ثلاث فئات من التطبيقات:
- دعم العملاء للمنتجات العالمية. إذا كان المستخدمون يتحدثون التايلاندية أو البنغالية أو السواحلية أو الفنلندية، فلديك الآن نموذج واحد يمكنه التعامل مع مدخلاتهم الصوتية دون توجيه عبر مسار ASR منفصل.
- معالجة المحتوى متعدد اللغات. يمكن نسخ البودكاست ومقاطع الفيديو والمقابلات باللغات غير الإنجليزية، وترجمتها، وتلخيصها في استدعاء واحد.
- التبديل بين اللغات في منتصف المحادثة. غالبًا ما يقوم المتحدثون ثنائيو اللغة بتبديل اللغات في منتصف الجملة. يتعامل Qwen3.5-Omni مع هذا بشكل أصلي. المحادثة التي تتنقل بين الإنجليزية والإسبانية لا تربك النموذج ولا تقلل من دقة التعرف.
البنية: مفكر-متحدث مع MoE
يستخدم النموذج بنية Thinker-Talker. تعالج مكونة "المفكر" المدخلات متعددة الأنماط وتولد رموز الاستدلال. تقوم مكونة "المتحدث" بتحويل تلك الرموز إلى كلام طبيعي في الوقت الفعلي باستخدام نهج متعدد القواميس يقلل من زمن الانتقال.

تحت الغطاء، يستخدم إصدار Plus بنية مزيج الخبراء (MoE)، مما يعني أن مجموعة فرعية فقط من معلمات النموذج تنشط لكل رمز. هذا يحافظ على سرعة الاستدلال وكفاءة الذاكرة مقارنة بنموذج كثيف ذي جودة مكافئة.
للتوزيع المحلي، يعد vLLM خادم الاستدلال الموصى به نظرًا لطريقة تعامله مع توجيه MoE. تعمل HuggingFace Transformers ولكنها أبطأ في معماريات MoE.
مكانة Apidog
إذا كنت تقيم ما إذا كنت ستبني على واجهة برمجة تطبيقات Qwen3.5-Omni، فسترسل طلبات متعددة الأنماط: محتوى JSON بأصوات مشفرة بـ base64، وعناوين URL للصور، ومراجع الفيديو، والنصوص كلها مختلطة معًا.

يصبح تصحيح هذه الطلبات بدون عميل API مناسب مؤلمًا بسرعة. يتعامل Apidog مع هذا بشكل جيد. يمكنك إنشاء وحفظ قوالب طلبات Qwen3.5-Omni الخاصة بك، وتعيين متغيرات البيئة لمفاتيح API الخاصة بك، وكتابة اختبارات تلقائية تتحقق من بنية الاستجابة ومحتواها.
للفرق التي تقيم إصدارات النموذج الثلاثة، يسهل Apidog تشغيل نفس الطلب مقابل Plus و Flash و Light ومقارنة زمن الانتقال وجودة المخرجات جنبًا إلى جنب.
قم بتنزيل Apidog مجانًا لبدء اختبار طلبات API متعددة الأنماط.
button
لمن هذا المنتج؟
من المنطقي تقييم Qwen3.5-Omni إذا كنت تقوم بإنشاء:
- المساعدين الصوتيين. كلام في الوقت الفعلي دخولًا وخروجًا، مع ذاكرة المحادثة واسترجاع الويب. تحل ميزات التقاطع الدلالي وARIA اثنين من أصعب المشكلات في تجربة المستخدم الصوتية.
- أدوات تحليل الفيديو. تلخيص الفيديو التلقائي، نسخ الاجتماعات، إنشاء البرامج التعليمية من تسجيلات الشاشة. تعني نافذة السياق 256 ألفًا أنه يمكنك تمرير تسجيلات طويلة دون تقسيمها.
- منتجات العملاء متعددة اللغات. ASR بـ 113 لغة و TTS بـ 36 لغة في نموذج واحد. لا يوجد بائع منفصل لكل مستوى لغة.
- أدوات الوصول. توليد نصوص بديلة للصور، أوصاف صوتية لمحتوى الفيديو، توليد تعليقات توضيحية في الوقت الفعلي مع دعم لغوي للغات الأقل موارد.
- أدوات إنتاجية المطورين. يحول الترميز المرئي والسمعي التفاعلي تسجيلات الشاشة إلى كود وظيفي. هذه طريقة إدخال جديدة لمساعدي الكود.
الوصول
Qwen3.5-Omni متاح عبر:
- واجهة برمجة تطبيقات Alibaba Cloud DashScope (وصول API للإنتاج)
- qwen.ai (واجهة ويب للاختبار)
- HuggingFace Hub (أوزان النموذج للتوزيع المحلي)
- ModelScope (موصى به للمستخدمين في البر الرئيسي للصين)
تتبع واجهة برمجة التطبيقات نموذج المصادقة القياسي لـ Alibaba Cloud. ستحتاج إلى مفتاح API لـ DashScope. راجع وثائق DashScope للحصول على تفاصيل نقطة النهاية والأسعار لكل نمط.
ما يجب الانتباه إليه
يتفوق Qwen3.5-Omni في معايير الصوت. ما إذا كانت مكاسب هذه المعايير تترجم إلى جودة واقعية في حالة الاستخدام الخاصة بك يستحق الاختبار المباشر. تقيس المعايير الأداء الإجمالي عبر مجموعات اختبار منسقة؛ فهي لا تتنبأ بكيفية تعامل النموذج مع مفردات نطاقك، أو لهجات المستخدمين، أو تنسيقات الفيديو الخاصة بك.
ميزة استنساخ الصوت متاحة فقط عبر واجهة برمجة التطبيقات (API) في الوقت الحالي. واجهة الويب qwen.ai لا تعرضها بعد.
يتطلب النشر المحلي ذاكرة GPU كبيرة. يحتاج إصدار Plus (30B MoE) إلى 40 جيجابايت على الأقل من ذاكرة VRAM للاستدلال المريح. إصدارات Flash و Light أكثر سهولة في الوصول.
الأسئلة الشائعة
ما الفرق بين Qwen3.5-Omni و Qwen2.5-Omni؟
دعم Qwen2.5-Omni أحجام نماذج كثيفة 7B و 3B مع 19 لغة للكلام. يستخدم Qwen3.5-Omni بنية MoE، ويوسع التعرف على الكلام ليشمل 113 لغة، ويضيف استنساخ الصوت، ويقدم ARIA لجودة صوت أفضل. كما نما أداء المعايير ونافذة السياق بشكل كبير.
هل يمكنني تشغيل Qwen3.5-Omni محليًا؟
نعم، عبر HuggingFace Transformers أو vLLM. يحتاج إصدار Plus إلى 40 جيجابايت+ VRAM. تعمل إصدارات Flash و Light على وحدات معالجة رسومات أصغر. vLLM هو الخيار الأفضل للنشر المحلي الإنتاجي بسبب تحسين MoE.
هل توجد طبقة مجانية؟
واجهة الويب qwen.ai مجانية للاستخدام. الوصول إلى واجهة برمجة التطبيقات (API) عبر DashScope مدفوع. تتوفر الأسعار لكل نمط (رموز الصوت، إطارات الفيديو، رموز النص) في وثائق أسعار DashScope.
هل يدعم البث في الوقت الفعلي؟
نعم. تُخرج بنية Thinker-Talker الصوت بطريقة بث مجزأة، بحيث تصل أول بايتات الصوت قبل توليد الاستجابة الكاملة. هذا هو ما يجعل المحادثة الصوتية المباشرة تبدو طبيعية.
ما الفرق بين Plus و Flash و Light؟
Plus هو الأعلى جودة، والأفضل للمهام التي تكون فيها الدقة أهم من السرعة. Flash هو الخيار المتوازن لمعظم واجهات برمجة التطبيقات الإنتاجية. Light هو الأسرع، ومصمم للتطبيقات الحساسة لزمن الانتقال مثل استدلال الجوال أو الحوسبة الطرفية.
هل يمكنني استخدام صوتي الخاص مع واجهة برمجة التطبيقات؟
نعم، عبر استنساخ الصوت على واجهة برمجة التطبيقات (API). تقوم بتحميل عينة صوتية للصوت المستهدف، ويستخدمها النموذج لإخراج الكلام. هذا غير متاح عبر واجهة الويب بعد.
كيف يقارن بـ ElevenLabs لتوليد الصوت؟
في معايير علي بابا عبر 20 لغة، يتفوق Qwen3.5-Omni Plus على ElevenLabs في استقرار الصوت متعدد اللغات. تتمتع ElevenLabs بسجل حافل وخيارات تخصيص صوتية أكثر في منتجاتها. إذا كنت بحاجة إلى قدرات صوتية فقط، فلا يزال ElevenLabs يستحق المقارنة. إذا كنت بحاجة إلى نموذج متعدد الأنماط متكامل، فإن Qwen3.5-Omni هو الخيار الأنظف.
هل من الآمن إرسال بيانات صوت أو فيديو حساسة عبر واجهة برمجة التطبيقات؟
راجع اتفاقية معالجة البيانات الخاصة بـ Alibaba Cloud قبل إرسال المحتوى الحساس. كما هو الحال مع أي واجهة برمجة تطبيقات سحابية، افترض أنه قد يتم تسجيل البيانات ما لم تضمن الاتفاقية صراحة خلاف ذلك.
