Qwen3.5-Omni登場:アリババの全能AI、音声認識でGeminiを凌駕

Ashley Innocent

Ashley Innocent

31 3月 2026

Qwen3.5-Omni登場:アリババの全能AI、音声認識でGeminiを凌駕

Apidog エンタープライズ

オンプレミスデプロイ

SSO & RBAC

SOC 2 準拠

Apidog Enterpriseを見る

要約

アリババは2026年3月30日、Qwen3.5-Omniをリリースしました。このモデルは、テキスト、画像、音声、動画を単一のモデルで処理し、テキストとリアルタイム音声の両方を出力します。一般的な音声理解および推論ベンチマークでGemini 3.1 Proを上回り、音声認識で113言語に対応し、音声クローニング機能も含まれています。Plus、Flash、Lightの3つのバリアントが利用可能です。

すべてを一つでこなすモデル

今日、ほとんどのAIワークフローは、音声認識用、視覚処理用、テキスト生成用、テキスト読み上げ用など、個別のモデルを繋ぎ合わせることで構成されています。各引き渡しは、レイテンシー、コスト、および故障の原因を増加させます。

Qwen3.5-Omniはそのような構成を一掃します。テキスト、画像、音声、動画を入力として受け取り、単一のモデル推論呼び出し内でテキストまたは音声を出力として返します。コンテキストウィンドウは256,000トークンを保持し、これは10時間以上の音声、または音声付きの約400秒間の720p動画に相当します。

アリババは、1億時間以上のネイティブな視聴覚データでこれを訓練しました。その結果、複数のモダリティを処理するだけでなく、それらを同時に推論するモデルが誕生しました。

音声、動画、画像、テキストのいずれかの組み合わせを含むアプリケーションを構築している場合、これはAPIレベルで可能なことを変えるでしょう。

Qwen3-Omniからの変更点

前世代のQwen3-Omni Flashは、2025年12月に234msの応答レイテンシーでリリースされました。Qwen3.5-Omniは次のフルリリースです。変更点は以下の通りです。

言語対応が大幅に拡大

Qwen3-Omniの音声認識は19言語をカバーしていました。Qwen3.5-Omniは113の言語と方言をカバーしています。音声生成は10言語から36言語に増えました。これは些細な増加ではなく、欧米市場向けモデルとグローバル対応モデルの間の違いです。

音声クローニングが内蔵

音声サンプルをアップロードすると、モデルがその声で応答するようになります。前世代ではこの機能はありませんでした。Qwen3.5-Omni PlusおよびFlashでは、APIを介して音声クローニングが利用可能です。モデルは話し手の声を十分に一致させ、長時間の会話でも一貫した声のペルソナを保つことができます。

ARIA技術が音声の歪みを解消

数字や珍しい単語(製品名、専門用語、固有名詞)は、これまでニューラルTTSシステムで音声が歪む傾向がありました。Qwenの動的なテキスト・音声同期レイヤーであるARIAは、これに特に対処します。テキストバッファを先読みし、音声出力前に音素生成を調整することで、「IPv6」、「$249.99」、「Qwen3.5-Omni」がすべて正しく出力されます。

意味的な中断が人間が期待するように機能

音声応答中に「うんうん」と言うとき、モデルには話し続けてほしいと思うでしょう。「待って、止めて」と言うときは、モデルに停止してほしいと思うでしょう。以前の音声AIシステムでは、あらゆる音声入力を中断コマンドとして扱っていました。Qwen3.5-Omniは、バックチャネル(相槌)と実際の中断を区別し、音声会話をより自然に感じさせます。

リアルタイムWeb検索が統合

このモデルは、推論中にウェブをクエリし、ライブの結果を応答に組み込むことができます。コンテキストを事前に取得してプロンプトに挿入する必要はなく、モデルが必要に応じて自身で情報検索を処理します。

視聴覚Vibeコーディング

スクリーン録画がコーディング入力として機能するようになりました。画面を録画し、その動画をモデルに渡して、モデルが見たものを再現または改善するように依頼できます。視覚的コンテキストから動作するコードを生成します。これは、入力が動画である点を除けば、Cursorのコンテキスト認識型コード生成のマルチモーダル版です。

ベンチマーク結果

36の音声および視聴覚ベンチマーク全体で:

特に音声生成品質では、20言語にわたる多言語音声の安定性において、ElevenLabs、GPT-Audio、Minimaxを凌駕しています。これは意味のある比較です。ElevenLabsはこの問題に長年注力してきた専門の音声AI企業だからです。


モデルバリアント

アリババは3つのバージョンを提供しています:

バリアント 最適な用途
Qwen3.5-Omni Plus 最高品質;視聴覚推論、音声クローニング、長文コンテキストタスク
Qwen3.5-Omni Flash スピードと品質のバランス;リアルタイム音声チャット、プロダクションAPI
Qwen3.5-Omni Light 低レイテンシーのタスク;モバイルおよびエッジシナリオ

3つすべてが、入力モダリティスタック(テキスト、画像、音声、動画)全体を処理します。違いは出力品質、レイテンシー、コストにあります。Plusはベンチマークのリーダーであり、Flashはほとんどのプロダクションアプリケーションが最初に検討すべきものです。

256Kトークンのコンテキストウィンドウ

256Kトークンが入力の上限です。これは実際にどういう意味を持つのでしょうか?

ほとんどのマルチモーダルユースケースでは、256Kで入力のチャンク分割は不要です。30分の会議録画、製品デモ動画全体、または長時間の顧客サポート電話はすべて単一のリクエストに収まります。

これをGPT-4oの128KコンテキストやGemini 2.5 Proの1Mコンテキストと比較してください。Qwen3.5-OmniはGeminiの上限よりも小さいですが、ベンチマークでの視聴覚性能が、ほとんどの実際のタスクにおいてその差を補っています。


113言語の音声認識

音声認識における19言語から113言語への飛躍は、単なるマーケティング数値ではありません。これは3つのカテゴリのアプリケーションにとって重要です。

グローバル製品のカスタマーサポート。ユーザーがタイ語、ベンガル語、スワヒリ語、フィンランド語を話す場合でも、別のASRパイプラインを介さずに音声入力を処理できる単一のモデルが利用可能になりました。

多言語コンテンツ処理。英語以外の言語のポッドキャスト、動画、インタビューは、1回の呼び出しで書き起こし、翻訳、要約が可能です。

会話中の言語切り替え。バイリンガル話者はしばしば文中で言語を切り替えます。Qwen3.5-Omniはこれをネイティブに処理します。英語とスペイン語の間を行き来する会話でも、モデルが混乱したり、認識精度が低下したりすることはありません。

アーキテクチャ:MoE採用のThinker-Talker

このモデルはThinker-Talkerアーキテクチャを採用しています。Thinkerコンポーネントはマルチモーダル入力を処理し、推論トークンを生成します。Talkerコンポーネントは、レイテンシーを最小限に抑えるマルチコードブックアプローチを使用して、これらのトークンをリアルタイムで自然な音声に変換します。

内部的には、PlusバリアントはMixture of Experts(MoE)を使用しており、これはトークンごとにモデルパラメータの一部のみが活性化されることを意味します。これにより、同等品質の密集モデルと比較して、推論が高速かつメモリ効率的になります。

ローカル展開の場合、vLLMはMoEルーティングの処理方法から推奨される推論サーバーです。HuggingFace Transformersも機能しますが、MoEアーキテクチャでは遅くなります。

Apidogの活用法

Qwen3.5-OmniのAPIで構築するかどうかを検討している場合、マルチモーダルリクエストを送信することになります。これは、base64エンコードされた音声、画像URL、動画参照、テキストがすべて混在したJSONボディです。

適切なAPIクライアントなしでこれらのリクエストをデバッグするのはすぐに大変になります。Apidogはこれをうまく処理します。Qwen3.5-Omniのリクエストテンプレートを作成して保存し、APIキーの環境変数を設定し、応答の構造と内容を検証する自動テストを作成できます。

3つのモデルバリアントを評価するチームにとって、Apidogを使えばPlus、Flash、Lightに対して同じリクエストを簡単に実行し、レイテンシーと出力品質を並べて比較できます。

Apidogを無料でダウンロードして、マルチモーダルAPIリクエストのテストを開始してください。

button

こんな方におすすめ

Qwen3.5-Omniは、次のようなものを構築している場合に検討する価値があります。

音声アシスタント。会話履歴とウェブ検索機能を備えた、リアルタイムの音声入出力。意味的な中断とARIA機能は、音声UXにおける最も困難な2つの問題を解決します。

動画分析ツール。自動動画要約、会議の文字起こし、スクリーン録画からのチュートリアル生成。256Kのコンテキストウィンドウにより、長い録画もチャンク分割なしで渡すことができます。

多言語顧客製品。1つのモデルで113言語のASRと36言語のTTS。各言語層ごとに別のベンダーは不要です。

アクセシビリティツール。画像の代替テキスト生成、動画コンテンツの音声解説、リソースの少ない言語に対応したリアルタイムキャプション生成。

開発者生産性ツール。視聴覚Vibeコーディングは、スクリーン録画を動作するコードに変換します。これはコードアシスタントにとって新しい入力モダリティです。

アクセス方法

Qwen3.5-Omniは以下から利用できます:

このAPIはAlibaba Cloudの標準認証モデルに従います。DashScope APIキーが必要です。エンドポイントの詳細とモダリティごとの料金については、DashScopeのドキュメントを参照してください。

注意すべき点

Qwen3.5-Omniは音声ベンチマークで優れています。これらのベンチマークでの成果が、特定のユースケースで現実世界での品質に繋がるかどうかは、直接テストする価値があります。ベンチマークは厳選されたテストセット全体での集約的なパフォーマンスを測定するものであり、モデルがあなたのドメインの語彙、ユーザーのアクセント、または動画形式をどのように処理するかを予測するものではありません。

音声クローニング機能は現時点ではAPI専用です。qwen.aiのウェブインターフェースではまだ公開されていません。

ローカル展開にはかなりのGPUメモリが必要です。Plusバリアント(30B MoE)は快適な推論のために最低40GBのVRAMを必要とします。FlashおよびLightバリアントはよりアクセスしやすいです。

よくある質問

Qwen3.5-OmniはQwen2.5-Omniとどう違うのですか?

Qwen2.5-Omniは、音声用に19言語に対応した7Bおよび3Bの密集型モデルサイズをサポートしていました。Qwen3.5-OmniはMoEアーキテクチャを採用し、音声認識を113言語に拡張し、音声クローニングを追加し、より良い音声品質のためにARIAを導入しています。ベンチマーク性能とコンテキストウィンドウも大幅に拡大しました。

Qwen3.5-Omniをローカルで実行できますか?

はい、HuggingFace TransformersまたはvLLMを介して可能です。Plusバリアントには40GB以上のVRAMが必要です。FlashおよびLightバリアントは、より小さなGPUで動作します。MoE最適化のため、プロダクションのローカル展開にはvLLMがより良い選択肢です。

無料枠はありますか?

qwen.aiのウェブインターフェースは無料で利用できます。DashScopeを介したAPIアクセスは有料です。モダリティごと(音声トークン、動画フレーム、テキストトークン)の料金は、DashScopeの料金ドキュメントで確認できます。

リアルタイムストリーミングをサポートしていますか?

はい、サポートしています。Thinker-Talkerアーキテクチャは、オーディオをストリーミングチャンク方式で出力するため、完全な応答が生成される前に最初のオーディオバイトが届きます。これにより、ライブ音声会話が自然に感じられます。

Plus、Flash、Lightの違いは何ですか?

Plusは最高品質で、速度よりも精度が重要なタスクに最適です。FlashはほとんどのプロダクションAPI向けのバランスの取れたオプションです。Lightは最速で、モバイルやエッジ推論のようなレイテンシーに敏感なアプリケーション向けです。

APIで自分の声を使用できますか?

はい、APIの音声クローニングを介して可能です。対象となる音声のオーディオサンプルをアップロードすると、モデルがそれを使って音声を出力します。これはまだウェブインターフェースでは利用できません。

音声生成に関してElevenLabsと比べてどうですか?

アリババが20言語にわたって実施したベンチマークにおいて、Qwen3.5-Omni Plusは多言語音声の安定性でElevenLabsを上回っています。ElevenLabsはより長い実績があり、製品にはより多くの音声カスタマイズオプションがあります。音声のみの機能が必要な場合は、ElevenLabsも比較検討する価値があります。統合されたマルチモーダルモデルが必要な場合は、Qwen3.5-Omniの方が明確な選択肢となります。

機密性の高い音声や動画データをAPI経由で送信しても安全ですか?

機密性の高いコンテンツを送信する前に、Alibaba Cloudのデータ処理契約を確認してください。他のクラウドAPIと同様に、契約で明示的に保証されていない限り、データがログに記録される可能性があると想定してください。

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる