TL;DR
Alibaba veröffentlichte Qwen3.5-Omni am 30. März 2026. Es verarbeitet Text, Bilder, Audio und Video in einem einzigen Modell und gibt sowohl Text als auch Echtzeit-Sprache aus. Es übertrifft Gemini 3.1 Pro bei Benchmarks zum allgemeinen Audio-Verständnis und zur Argumentation, unterstützt 113 Sprachen für die Spracherkennung und beinhaltet Stimmklonung. Drei Varianten sind verfügbar: Plus, Flash und Light.
Ein Modell für alles
Die meisten heutigen KI-Workflows beinhalten das Zusammensetzen separater Modelle: eines für Spracherkennung, ein weiteres für Bildverarbeitung, ein weiteres für Textgenerierung und ein weiteres für Text-zu-Sprache. Jede Übergabe erhöht Latenz, Kosten und Fehlerquellen.
Qwen3.5-Omni führt diesen Stapel zusammen. Es nimmt Text, Bilder, Audio und Video als Eingabe entgegen und gibt Text oder Sprache als Ausgabe zurück, alles innerhalb eines einzigen Modell-Inferenzaufrufs. Das Kontextfenster fasst 256.000 Tokens, was über 10 Stunden Audio oder etwa 400 Sekunden 720p-Video mit Audio abdeckt.
Alibaba trainierte es mit über 100 Millionen Stunden nativer audiovisueller Daten. Das Ergebnis ist ein Modell, das nicht nur mehrere Modalitäten verarbeitet, sondern gleichzeitig über sie hinweg argumentiert.
Wenn Sie Apps entwickeln, die eine beliebige Kombination aus Sprache, Video, Bildern und Text umfassen, ändert dies, was auf API-Ebene möglich ist.
Was sich gegenüber Qwen3-Omni geändert hat
Die vorherige Generation, Qwen3-Omni Flash, wurde im Dezember 2025 mit einer Antwortlatenz von 234 ms eingeführt. Qwen3.5-Omni ist die nächste vollständige Veröffentlichung. Hier ist, was sich geändert hat:

Sprachabdeckung erheblich erweitert
Die Spracherkennung in Qwen3-Omni umfasste 19 Sprachen. Qwen3.5-Omni deckt 113 Sprachen und Dialekte ab. Die Spracherzeugung stieg von 10 auf 36 Sprachen. Das ist keine kleine Steigerung; es ist der Unterschied zwischen einem Modell, das für westliche Märkte funktioniert, und einem, das global einsetzbar ist.
Stimmklonung ist jetzt integriert
Sie können eine Sprachprobe hochladen und das Modell in dieser Stimme antworten lassen. In der vorherigen Generation war dies nicht verfügbar. In Qwen3.5-Omni Plus und Flash ist die Stimmklonung über die API zugänglich. Das Modell gleicht die Sprecheridentität gut genug ab, um als konsistente Stimm-Persona über lange Gespräche hinweg zu bestehen.
ARIA-Technologie eliminiert Audioverzerrungen
Zahlen und ungewöhnliche Wörter (Produktnamen, Fachbegriffe, Eigennamen) wurden in neuronalen TTS-Systemen historisch verzerrt wiedergegeben. ARIA, Qwens dynamische Text-Sprach-Synchronisationsschicht, behebt dies spezifisch. Es liest im Textpuffer voraus und passt die Phonem-Generierung an, bevor Audio ausgegeben wird, sodass „IPv6“, „$249.99“ und „Qwen3.5-Omni“ alle korrekt ausgesprochen werden.
Semantische Unterbrechung funktioniert, wie Menschen es erwarten
Wenn Sie während einer Sprachantwort „aha“ sagen, möchten Sie, dass das Modell weiterredet. Wenn Sie „warte, stopp“ sagen, möchten Sie, dass es anhält. Frühere Sprach-KI-Systeme behandelten jede Audioeingabe als Unterbrechungsbefehl. Qwen3.5-Omni unterscheidet zwischen Rückkanälen (Bestätigungen) und tatsächlichen Unterbrechungen, wodurch Sprachkonversationen natürlicher wirken.
Echtzeit-Websuche ist integriert
Das Modell kann während der Inferenz das Web abfragen und Live-Ergebnisse in seine Antwort integrieren. Sie müssen den Kontext nicht vorab abrufen und in den Prompt einfügen; das Modell übernimmt den Abruf bei Bedarf selbst.
Audiovisuelles Vibe-Coding
Bildschirmaufnahmen funktionieren jetzt als Coding-Eingabe. Nehmen Sie Ihren Bildschirm auf, übergeben Sie das Video an das Modell und bitten Sie es, das Gesehene zu replizieren oder zu verbessern. Es generiert funktionierenden Code aus dem visuellen Kontext. Dies ist das multimodale Äquivalent zu Cursors kontextsensitiver Code-Generierung, außer dass die Eingabe ein Video ist.
Benchmark-Ergebnisse
Über 36 Audio- und audiovisuelle Benchmarks hinweg:
- Qwen3.5-Omni erreicht den Stand der Technik bei 32 von 36 Benchmarks
- Es setzt einen neuen Stand der Technik bei 22 dieser 36
- Es übertrifft Gemini 3.1 Pro beim allgemeinen Audio-Verständnis, der Argumentation und der Übersetzung
- Es erreicht das Niveau von Gemini 3.1 Pro beim audiovisuellen Verständnis
Insbesondere bei der Sprachgenerierungsqualität schlägt es ElevenLabs, GPT-Audio und Minimax bei der mehrsprachigen Stimmstabilität über 20 Sprachen hinweg. Das ist ein aussagekräftiger Vergleich: ElevenLabs ist ein spezialisiertes Sprach-KI-Unternehmen, das sich seit Jahren auf dieses Problem konzentriert.
Modellvarianten
Alibaba liefert drei Versionen aus:
| Variante | Am besten geeignet für |
|---|---|
| Qwen3.5-Omni Plus | Maximale Qualität; audiovisuelle Argumentation, Stimmklonung, Aufgaben mit langem Kontext |
| Qwen3.5-Omni Flash | Ausgewogene Geschwindigkeit und Qualität; Echtzeit-Sprachchat, Produktions-APIs |
| Qwen3.5-Omni Light | Aufgaben mit geringer Latenz; mobile und Edge-Szenarien |
Alle drei verarbeiten den vollständigen Input-Modalitäten-Stack (Text, Bilder, Audio, Video). Die Unterschiede liegen in der Ausgabequalität, Latenz und den Kosten. Plus ist der Benchmark-Führer; Flash ist das, womit die meisten Produktionsanwendungen beginnen sollten.
Das 256K Token Kontextfenster
256K Tokens sind die Eingabeobergrenze. Was bedeutet das in der Praxis?
- Audio: Über 10 Stunden kontinuierliche Sprache
- Video: Etwa 400 Sekunden 720p-Video mit eingebettetem Audio
- Text: Rund 190.000 Wörter oder ein dokumentenlanges Werk (eines Romans)
Für die meisten multimodalen Anwendungsfälle sind 256K ausreichend, sodass Sie Eingaben nicht aufteilen müssen. Eine 30-minütige Besprechungsaufzeichnung, ein vollständiges Produktdemo-Video oder ein langer Kundensupport-Anruf passen alle in eine einzige Anfrage.
Vergleichen Sie dies mit dem 128K Kontext von GPT-4o oder dem 1M Kontext von Gemini 2.5 Pro. Qwen3.5-Omni ist kleiner als Geminis Obergrenze, aber seine audiovisuelle Leistung bei Benchmarks kompensiert diesen Unterschied in den meisten realen Aufgaben.
113-Sprachen-Spracherkennung
Der Sprung von 19 auf 113 Sprachen in der Spracherkennung ist nicht nur eine Marketingzahl. Er ist wichtig für drei Anwendungskategorien:
Kundensupport für globale Produkte. Wenn Ihre Benutzer Thai, Bengali, Swahili oder Finnisch sprechen, haben Sie jetzt ein einziges Modell, das ihre Spracheingabe verarbeiten kann, ohne sie durch eine separate ASR-Pipeline leiten zu müssen.
Mehrsprachige Inhaltsverarbeitung. Podcasts, Videos und Interviews in nicht-englischen Sprachen können in einem einzigen Aufruf transkribiert, übersetzt und zusammengefasst werden.
Sprachwechsel mitten im Gespräch. Zweisprachige Sprecher wechseln oft mitten im Satz die Sprache. Qwen3.5-Omni handhabt dies nativ. Ein Gespräch, das zwischen Englisch und Spanisch wechselt, verwirrt das Modell nicht und beeinträchtigt die Erkennungsgenauigkeit nicht.
Architektur: Thinker-Talker mit MoE
Das Modell verwendet eine Thinker-Talker-Architektur. Die Thinker-Komponente verarbeitet multimodale Eingaben und generiert Argumentationstokens. Die Talker-Komponente wandelt diese Tokens in Echtzeit in natürliche Sprache um, mithilfe eines Multi-Codebook-Ansatzes, der die Latenz minimiert.

Unter der Haube verwendet die Plus-Variante Mixture of Experts (MoE), was bedeutet, dass pro Token nur eine Untergruppe der Modellparameter aktiviert wird. Dies hält die Inferenz schnell und speichereffizient im Vergleich zu einem dichten Modell gleicher Qualität.
Für die lokale Bereitstellung ist vLLM der empfohlene Inferenzserver, da er das MoE-Routing gut handhabt. HuggingFace Transformers funktioniert, ist aber bei MoE-Architekturen langsamer.
Wo Apidog ins Spiel kommt
Wenn Sie evaluieren, ob Sie auf der API von Qwen3.5-Omni aufbauen sollen, werden Sie multimodale Anfragen senden: JSON-Bodies mit base64-kodiertem Audio, Bild-URLs, Video-Referenzen und Text, alles miteinander vermischt.

Das Debuggen dieser Anfragen ohne einen geeigneten API-Client wird schnell mühsam. Apidog handhabt dies gut. Sie können Ihre Qwen3.5-Omni-Anfragevorlagen erstellen und speichern, Umgebungsvariablen für Ihre API-Schlüssel festlegen und automatisierte Tests schreiben, die die Antwortstruktur und den Inhalt überprüfen.
Für Teams, die die drei Modellvarianten evaluieren, erleichtert Apidog das Ausführen derselben Anfrage gegen Plus, Flash und Light und den Vergleich von Latenz und Ausgabequalität nebeneinander.
Laden Sie Apidog kostenlos herunter, um multimodale API-Anfragen zu testen.
Für wen dies ist
Die Evaluierung von Qwen3.5-Omni ist sinnvoll, wenn Sie Folgendes entwickeln:
Sprachassistenten. Echtzeit-Spracheingabe, Sprachausgabe, mit Konversationsgedächtnis und Web-Abruf. Die semantische Unterbrechung und die ARIA-Funktionen lösen zwei der schwierigsten Probleme in der Sprach-UX.
Videoanalysetools. Automatisierte Videozusammenfassungen, Besprechungstranskriptionen, Tutorial-Generierung aus Bildschirmaufnahmen. Das 256K Kontextfenster bedeutet, dass Sie lange Aufnahmen ohne Aufteilung eingeben können.
Mehrsprachige Kundenprodukte. 113-Sprachen-ASR und 36-Sprachen-TTS in einem Modell. Kein separater Anbieter für jede Sprachstufe.
Barrierefreiheitstools. Alternativtext-Generierung für Bilder, Audiobeschreibungen für Videoinhalte, Echtzeit-Untertitelgenerierung mit Sprachunterstützung für unterversorgte Sprachen.
Entwicklerproduktivitätstools. Audiovisuelles Vibe-Coding verwandelt Bildschirmaufnahmen in funktionierenden Code. Das ist eine neue Eingabemodalität für Code-Assistenten.
Zugang
Qwen3.5-Omni ist verfügbar über:
- Alibaba Cloud DashScope API (Zugang zur Produktions-API)
- qwen.ai (Web-Interface zum Testen)
- HuggingFace Hub (Modellgewichte für die lokale Bereitstellung)
- ModelScope (empfohlen für Benutzer auf dem chinesischen Festland)
Die API folgt dem Standard-Authentifizierungsmodell von Alibaba Cloud. Sie benötigen einen DashScope API-Schlüssel. Weitere Details zu Endpunkten und Preisen pro Modalität finden Sie in der DashScope-Dokumentation.
Worauf zu achten ist
Qwen3.5-Omni ist stark bei Audio-Benchmarks. Ob diese Benchmark-Gewinne sich in tatsächliche Qualität in Ihrem spezifischen Anwendungsfall übersetzen, sollte direkt getestet werden. Benchmarks messen die Gesamtleistung über kuratierte Testdatensätze hinweg; sie sagen nicht voraus, wie das Modell mit dem Vokabular Ihrer Domäne, den Akzenten Ihrer Benutzer oder Ihren Videoformaten umgeht.
Die Stimmklonungsfunktion ist vorerst nur über die API verfügbar. Die qwen.ai Web-Oberfläche stellt sie noch nicht bereit.
Die lokale Bereitstellung erfordert erheblichen GPU-Speicher. Die Plus-Variante (30B MoE) benötigt mindestens 40GB VRAM für eine komfortable Inferenz. Flash- und Light-Varianten sind zugänglicher.
FAQ
Wie unterscheidet sich Qwen3.5-Omni von Qwen2.5-Omni?
Qwen2.5-Omni unterstützte dichte Modellgrößen von 7B und 3B mit 19 Sprachen für die Spracherkennung. Qwen3.5-Omni verwendet eine MoE-Architektur, erweitert die Spracherkennung auf 113 Sprachen, fügt Stimmklonung hinzu und führt ARIA für eine bessere Audioqualität ein. Auch die Benchmark-Leistung und das Kontextfenster sind erheblich gewachsen.
Kann ich Qwen3.5-Omni lokal ausführen?
Ja, über HuggingFace Transformers oder vLLM. Die Plus-Variante benötigt mehr als 40GB VRAM. Flash- und Light-Varianten laufen auf kleineren GPUs. vLLM ist die bessere Wahl für die lokale Produktionsbereitstellung aufgrund der MoE-Optimierung.
Gibt es eine kostenlose Stufe (Free Tier)?
Das qwen.ai Web-Interface ist kostenlos nutzbar. Der API-Zugang über DashScope ist kostenpflichtig. Preise pro Modalität (Audio-Tokens, Video-Frames, Text-Tokens) sind in der DashScope-Preisdokumentation verfügbar.
Unterstützt es Echtzeit-Streaming?
Ja. Die Thinker-Talker-Architektur gibt Audio gestreamt und in Chunks aus, sodass die ersten Audio-Bytes eintreffen, bevor die vollständige Antwort generiert wurde. Das macht Live-Sprachkonversationen natürlich.
Was ist der Unterschied zwischen Plus, Flash und Light?
Plus bietet die höchste Qualität und ist am besten für Aufgaben geeignet, bei denen Genauigkeit wichtiger ist als Geschwindigkeit. Flash ist die ausgewogene Option für die meisten Produktions-APIs. Light ist am schnellsten und für latenzempfindliche Anwendungen wie mobile oder Edge-Inferenz vorgesehen.
Kann ich meine eigene Stimme mit der API verwenden?
Ja, über Stimmklonung auf der API. Sie laden eine Audioaufnahme der Zielstimme hoch, und das Modell verwendet diese für die Sprachausgabe. Dies ist noch nicht über die Web-Oberfläche verfügbar.
Wie schneidet es im Vergleich zu ElevenLabs bei der Sprachgenerierung ab?
Bei Alibabas Benchmarks über 20 Sprachen hinweg übertrifft Qwen3.5-Omni Plus ElevenLabs bei der mehrsprachigen Stimmstabilität. ElevenLabs hat eine längere Erfolgsbilanz und mehr Optionen zur Stimm-Anpassung in seinem Produkt. Wenn Sie nur Sprachfunktionen benötigen, ist ElevenLabs immer noch einen Vergleich wert. Wenn Sie ein integriertes multimodales Modell benötigen, ist Qwen3.5-Omni die klarere Wahl.
Ist es sicher, sensible Audio- oder Videodaten über die API zu senden?
Überprüfen Sie die Datenverarbeitungsvereinbarung von Alibaba Cloud, bevor Sie sensible Inhalte senden. Wie bei jeder Cloud-API ist davon auszugehen, dass Daten protokolliert werden können, sofern die Vereinbarung nicht ausdrücklich etwas anderes garantiert.
