Qwen3.5-Omni est arrivé : L'IA omnimodale d'Alibaba surpasse Gemini en audio

Ashley Innocent

Ashley Innocent

31 March 2026

Qwen3.5-Omni est arrivé : L'IA omnimodale d'Alibaba surpasse Gemini en audio

Apidog pour les entreprises

Déploiement sur site

SSO & RBAC

Conforme SOC 2

Explorer Apidog Enterprise

En bref

Alibaba a lancé Qwen3.5-Omni le 30 mars 2026. Il traite le texte, les images, l'audio et la vidéo au sein d'un seul modèle et produit à la fois du texte et de la parole en temps réel. Il surpasse Gemini 3.1 Pro sur les benchmarks de compréhension et de raisonnement audio généraux, prend en charge 113 langues pour la reconnaissance vocale et inclut le clonage de voix. Trois variantes sont disponibles : Plus, Flash et Light.

Un modèle pour tout

La plupart des flux de travail IA actuels impliquent d'assembler des modèles distincts : un pour la conversion de la parole en texte, un autre pour la vision, un autre pour la génération de texte et un autre pour la conversion de texte en parole. Chaque transfert ajoute de la latence, des coûts et des points de défaillance.

Qwen3.5-Omni fusionne cette pile. Il accepte le texte, les images, l'audio et la vidéo en entrée et renvoie du texte ou de la parole en sortie, le tout au sein d'un seul appel d'inférence de modèle. La fenêtre de contexte contient 256 000 tokens, ce qui couvre plus de 10 heures d'audio ou environ 400 secondes de vidéo 720p avec audio.

Alibaba l'a entraîné sur plus de 100 millions d'heures de données audiovisuelles natives. Le résultat est un modèle qui ne gère pas seulement plusieurs modalités ; il raisonne à travers elles simultanément.

Si vous développez des applications impliquant n'importe quelle combinaison de voix, vidéo, images et texte, cela change ce qui est possible au niveau de l'API.

Ce qui a changé depuis Qwen3-Omni

La génération précédente, Qwen3-Omni Flash, a été lancée en décembre 2025 avec une latence de réponse de 234 ms. Qwen3.5-Omni est la prochaine version complète. Voici ce qui a changé :

La couverture linguistique s'est considérablement étendue

La reconnaissance vocale de Qwen3-Omni couvrait 19 langues. Qwen3.5-Omni couvre 113 langues et dialectes. La génération de parole est passée de 10 à 36 langues. Ce n'est pas une petite amélioration ; c'est la différence entre un modèle qui fonctionne pour les marchés occidentaux et un qui fonctionne à l'échelle mondiale.

Le clonage de voix est désormais intégré

Vous pouvez télécharger un échantillon vocal et faire en sorte que le modèle réponde avec cette voix. Dans la génération précédente, ce n'était pas disponible. Dans Qwen3.5-Omni Plus et Flash, le clonage de voix est accessible via l'API. Le modèle correspond suffisamment bien à l'identité du locuteur pour maintenir une persona vocale cohérente sur de longues conversations.

La technologie ARIA élimine la distorsion audio

Les chiffres et les mots inhabituels (noms de produits, termes techniques, noms propres) ont historiquement été déformés dans les systèmes TTS neuronaux. ARIA, la couche de synchronisation texte-parole dynamique de Qwen, s'attaque spécifiquement à cela. Il lit à l'avance dans le tampon de texte et ajuste la génération de phonèmes avant de produire l'audio, de sorte que "IPv6", "249,99 $" et "Qwen3.5-Omni" sont tous prononcés correctement.

L'interruption sémantique fonctionne comme les humains l'attendent

Lorsque vous dites "uh-huh" pendant une réponse vocale, vous voulez que le modèle continue de parler. Lorsque vous dites "attendez, arrêtez", vous voulez qu'il s'arrête. Les systèmes d'IA vocale précédents traitaient toute entrée audio comme une commande d'interruption. Qwen3.5-Omni distingue les signaux de retour (acquiescements) des interruptions réelles, rendant les conversations vocales plus naturelles.

La recherche web en temps réel est intégrée

Le modèle peut interroger le web pendant l'inférence et incorporer les résultats en direct dans sa réponse. Vous n'avez pas besoin de pré-extraire le contexte et de l'injecter dans l'invite ; le modèle gère la récupération lui-même si nécessaire.

Codage d'ambiance audiovisuel

Les enregistrements d'écran fonctionnent désormais comme une entrée de codage. Enregistrez votre écran, passez la vidéo au modèle et demandez-lui de reproduire ou d'améliorer ce qu'il voit. Il génère du code fonctionnel à partir du contexte visuel. C'est l'équivalent multimodal de la génération de code sensible au contexte de Cursor, sauf que l'entrée est une vidéo.

Résultats des benchmarks

Sur 36 benchmarks audio et audiovisuels :

Pour la qualité de génération de parole spécifiquement, il bat ElevenLabs, GPT-Audio et Minimax en stabilité vocale multilingue sur 20 langues. C'est une comparaison significative : ElevenLabs est une entreprise d'IA vocale dédiée qui se concentre sur ce problème depuis des années.


Variantes du modèle

Alibaba propose trois versions :

Variante Idéale pour
Qwen3.5-Omni Plus Qualité maximale ; raisonnement audiovisuel, clonage de voix, tâches à contexte long
Qwen3.5-Omni Flash Équilibre entre vitesse et qualité ; chat vocal en temps réel, API de production
Qwen3.5-Omni Light Tâches à faible latence ; scénarios mobiles et périphériques (edge)

Les trois gèrent la pile complète des modalités d'entrée (texte, images, audio, vidéo). Les différences résident dans la qualité de sortie, la latence et le coût. Plus est le leader des benchmarks ; Flash est ce par quoi la plupart des applications de production devraient commencer.

La fenêtre de contexte de 256K tokens

256K tokens est le plafond d'entrée. À quoi cela se traduit-il en pratique ?

Pour la plupart des cas d'utilisation multimodaux, 256K est suffisant pour que vous n'ayez pas besoin de découper les entrées. Un enregistrement de réunion de 30 minutes, une vidéo de démonstration de produit complète ou un long appel de support client tiennent tous dans une seule requête.

Comparez cela à la fenêtre de contexte de 128K de GPT-4o ou de 1M de Gemini 2.5 Pro. Qwen3.5-Omni est plus petit que le plafond de Gemini, mais ses performances audiovisuelles sur les benchmarks compensent cette différence dans la plupart des tâches réelles.


Reconnaissance vocale en 113 langues

Le passage de 19 à 113 langues en reconnaissance vocale n'est pas seulement un chiffre marketing. Cela compte pour trois catégories d'applications :

Support client pour les produits mondiaux. Si vos utilisateurs parlent thaï, bengali, swahili ou finnois, vous disposez désormais d'un modèle unique capable de gérer leur entrée vocale sans passer par une chaîne ASR distincte.

Traitement de contenu multilingue. Les podcasts, vidéos et interviews en langues non anglaises peuvent être transcrits, traduits et résumés en un seul appel.

Changement de langue en cours de conversation. Les locuteurs bilingues changent souvent de langue au milieu d'une phrase. Qwen3.5-Omni gère cela nativement. Une conversation qui passe de l'anglais à l'espagnol ne perturbe pas le modèle et ne dégrade pas la précision de la reconnaissance.

Architecture : Penseur-Parleur avec MoE

Le modèle utilise une architecture Penseur-Parleur (Thinker-Talker). Le composant Penseur traite l'entrée multimodale et génère des tokens de raisonnement. Le composant Parleur convertit ces tokens en parole naturelle en temps réel à l'aide d'une approche multi-dictionnaire (multi-codebook) qui minimise la latence.

Sous le capot, la variante Plus utilise la Mixture of Experts (MoE), ce qui signifie que seul un sous-ensemble des paramètres du modèle s'active par token. Cela maintient l'inférence rapide et la mémoire efficace par rapport à un modèle dense de qualité équivalente.

Pour le déploiement local, vLLM est le serveur d'inférence recommandé en raison de la façon dont il gère le routage MoE. HuggingFace Transformers fonctionne mais est plus lent sur les architectures MoE.

Où Apidog s'intègre-t-il

Si vous évaluez la construction sur l'API de Qwen3.5-Omni, vous enverrez des requêtes multimodales : des corps JSON avec de l'audio encodé en base64, des URL d'images, des références vidéo et du texte, tous mélangés.

Déboguer ces requêtes sans un client API approprié devient rapidement pénible. Apidog gère cela très bien. Vous pouvez construire et enregistrer vos modèles de requête Qwen3.5-Omni, définir des variables d'environnement pour vos clés API et écrire des tests automatisés qui vérifient la structure et le contenu des réponses.

Pour les équipes qui évaluent les trois variantes de modèle, Apidog facilite l'exécution de la même requête contre Plus, Flash et Light et la comparaison côte à côte de la latence et de la qualité de sortie.

Téléchargez Apidog gratuitement pour commencer à tester les requêtes API multimodales.

bouton

À qui cela s'adresse-t-il

Qwen3.5-Omni a du sens à évaluer si vous construisez :

Des assistants vocaux. Parole en temps réel en entrée, parole en sortie, avec mémoire conversationnelle et récupération web. Les fonctionnalités d'interruption sémantique et d'ARIA résolvent deux des problèmes les plus difficiles de l'UX vocale.

Des outils d'analyse vidéo. Résumé vidéo automatisé, transcription de réunions, génération de tutoriels à partir d'enregistrements d'écran. La fenêtre de contexte de 256K signifie que vous pouvez passer de longs enregistrements sans découpage.

Des produits client multilingues. ASR en 113 langues et TTS en 36 langues dans un seul modèle. Pas de fournisseur séparé pour chaque niveau linguistique.

Des outils d'accessibilité. Génération de texte alternatif pour les images, descriptions audio pour le contenu vidéo, génération de sous-titres en temps réel avec support linguistique pour les langues sous-dotées.

Des outils de productivité pour les développeurs. Le codage d'ambiance audiovisuel (Audio-Visual Vibe Coding) transforme les enregistrements d'écran en code fonctionnel. C'est une nouvelle modalité d'entrée pour les assistants de code.

Accès

Qwen3.5-Omni est disponible via :

L'API suit le modèle d'authentification standard d'Alibaba Cloud. Vous aurez besoin d'une clé API DashScope. Consultez la documentation DashScope pour les détails des points de terminaison et la tarification par modalité.

À surveiller

Qwen3.5-Omni est solide sur les benchmarks audio. Il convient de tester directement si ces gains de benchmark se traduisent par une qualité réelle dans votre cas d'utilisation spécifique. Les benchmarks mesurent les performances agrégées sur des ensembles de tests sélectionnés ; ils ne prédisent pas comment le modèle gère le vocabulaire de votre domaine, les accents de vos utilisateurs ou vos formats vidéo.

La fonction de clonage de voix est uniquement via API pour l'instant. L'interface web qwen.ai ne l'expose pas encore.

Le déploiement local nécessite une mémoire GPU significative. La variante Plus (30B MoE) nécessite au moins 40 Go de VRAM pour une inférence confortable. Les variantes Flash et Light sont plus accessibles.

FAQ

En quoi Qwen3.5-Omni est-il différent de Qwen2.5-Omni ?

Qwen2.5-Omni prenait en charge des modèles denses de 7B et 3B avec 19 langues pour la parole. Qwen3.5-Omni utilise une architecture MoE, étend la reconnaissance vocale à 113 langues, ajoute le clonage de voix et introduit ARIA pour une meilleure qualité audio. Les performances de benchmark et la fenêtre de contexte ont également considérablement augmenté.

Puis-je exécuter Qwen3.5-Omni localement ?

Oui, via HuggingFace Transformers ou vLLM. La variante Plus nécessite plus de 40 Go de VRAM. Les variantes Flash et Light fonctionnent sur des GPU plus petits. vLLM est le meilleur choix pour un déploiement local en production grâce à l'optimisation MoE.

Existe-t-il un niveau gratuit ?

L'interface web qwen.ai est gratuite. L'accès à l'API via DashScope est payant. Les prix par modalité (tokens audio, images vidéo, tokens texte) sont disponibles dans la documentation tarifaire de DashScope.

Prend-il en charge le streaming en temps réel ?

Oui. L'architecture Penseur-Parleur produit l'audio de manière fragmentée et en streaming, de sorte que les premiers octets audio arrivent avant que la réponse complète ne soit générée. C'est ce qui rend la conversation vocale en direct naturelle.

Quelle est la différence entre Plus, Flash et Light ?

Plus offre la meilleure qualité, idéal pour les tâches où la précision est plus importante que la vitesse. Flash est l'option équilibrée pour la plupart des API de production. Light est le plus rapide, destiné aux applications sensibles à la latence comme les inférences mobiles ou périphériques (edge).

Puis-je utiliser ma propre voix avec l'API ?

Oui, via le clonage de voix sur l'API. Vous téléchargez un échantillon audio de la voix cible, et le modèle l'utilise pour la sortie vocale. Ce n'est pas encore disponible via l'interface web.

Comment se compare-t-il à ElevenLabs pour la génération de voix ?

Sur les benchmarks d'Alibaba, sur 20 langues, Qwen3.5-Omni Plus surpasse ElevenLabs en stabilité vocale multilingue. ElevenLabs a une plus longue expérience et plus d'options de personnalisation vocale dans son produit. Si vous n'avez besoin que de capacités vocales, ElevenLabs vaut toujours la comparaison. Si vous avez besoin d'un modèle multimodal intégré, Qwen3.5-Omni est le choix le plus propre.

Est-il sûr d'envoyer des données audio ou vidéo sensibles via l'API ?

Examinez l'accord de traitement des données d'Alibaba Cloud avant d'envoyer du contenu sensible. Comme pour toute API cloud, supposez que les données peuvent être enregistrées à moins que l'accord ne garantisse explicitement le contraire.

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API