Qwen3.5-Omni Hadir: AI Multimodal Alibaba Kalahkan Gemini dalam Audio

Ashley Innocent

Ashley Innocent

31 March 2026

Qwen3.5-Omni Hadir: AI Multimodal Alibaba Kalahkan Gemini dalam Audio

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

TL;DR

Alibaba merilis Qwen3.5-Omni pada 30 Maret 2026. Model ini memproses teks, gambar, audio, dan video dalam satu model dan menghasilkan teks serta ucapan real-time. Qwen3.5-Omni mengungguli Gemini 3.1 Pro pada tolok ukur pemahaman dan penalaran audio umum, mendukung 113 bahasa untuk pengenalan ucapan, dan menyertakan kloning suara. Tiga varian tersedia: Plus, Flash, dan Light.

Satu model untuk segalanya

Sebagian besar alur kerja AI saat ini melibatkan penggabungan model-model terpisah: satu untuk ucapan-ke-teks, satu untuk visi, satu untuk pembuatan teks, dan satu lagi untuk teks-ke-ucapan. Setiap serah terima menambah latensi, biaya, dan titik kegagalan.

Qwen3.5-Omni meruntuhkan tumpukan tersebut. Model ini menerima teks, gambar, audio, dan video sebagai masukan dan mengembalikan teks atau ucapan sebagai keluaran, semuanya dalam satu panggilan inferensi model. Jendela konteks menampung 256.000 token, yang mencakup lebih dari 10 jam audio atau sekitar 400 detik video 720p dengan audio.

Alibaba melatihnya menggunakan lebih dari 100 juta jam data audio-visual asli. Hasilnya adalah model yang tidak hanya menangani berbagai modalitas; model ini juga melakukan penalaran lintas modalitas secara bersamaan.

Jika Anda membangun aplikasi yang melibatkan kombinasi suara, video, gambar, dan teks, ini mengubah apa yang mungkin dilakukan pada tingkat API.

Apa yang berubah dari Qwen3-Omni

Generasi sebelumnya, Qwen3-Omni Flash, diluncurkan pada Desember 2025 dengan latensi respons 234ms. Qwen3.5-Omni adalah rilis lengkap berikutnya. Berikut adalah perubahannya:

Cakupan bahasa diperluas secara signifikan

Pengenalan ucapan di Qwen3-Omni mencakup 19 bahasa. Qwen3.5-Omni mencakup 113 bahasa dan dialek. Pembuatan ucapan meningkat dari 10 bahasa menjadi 36. Ini bukan peningkatan kecil; ini adalah perbedaan antara model yang berfungsi untuk pasar Barat dan model yang berfungsi secara global.

Kloning suara kini terintegrasi

Anda dapat mengunggah sampel suara dan meminta model merespons dengan suara tersebut. Pada generasi sebelumnya, fitur ini tidak tersedia. Di Qwen3.5-Omni Plus dan Flash, kloning suara dapat diakses melalui API. Model ini mencocokkan identitas pembicara dengan cukup baik untuk berfungsi sebagai persona suara yang konsisten dalam percakapan panjang.

Teknologi ARIA menghilangkan distorsi audio

Angka dan kata-kata yang tidak biasa (nama produk, istilah teknis, nama diri) secara historis sering terdistorsi dalam sistem TTS saraf. ARIA, lapisan sinkronisasi teks-ucapan dinamis Qwen, secara khusus mengatasi masalah ini. Ia membaca ke depan di buffer teks dan menyesuaikan pembuatan fonem sebelum mengeluarkan audio, sehingga "IPv6", "$249.99", dan "Qwen3.5-Omni" semuanya diucapkan dengan benar.

Interupsi semantik bekerja seperti yang diharapkan manusia

Ketika Anda mengucapkan "uh-huh" saat respons suara, Anda ingin model terus berbicara. Ketika Anda mengatakan "tunggu, berhenti", Anda ingin model berhenti. Sistem AI suara sebelumnya memperlakukan setiap masukan audio sebagai perintah interupsi. Qwen3.5-Omni membedakan antara backchannel (pengakuan) dan interupsi sebenarnya, membuat percakapan suara terasa lebih alami.

Pencarian web real-time terintegrasi

Model ini dapat membuat kueri web selama inferensi dan menggabungkan hasil langsung ke dalam responsnya. Anda tidak perlu mengambil konteks terlebih dahulu dan menyuntikkannya ke dalam prompt; model menangani pengambilan itu sendiri saat dibutuhkan.

Pengodean Vibe Audio-Visual

Rekaman layar kini berfungsi sebagai masukan pengkodean. Rekam layar Anda, berikan video tersebut ke model, dan minta model untuk mereplikasi atau meningkatkan apa yang dilihatnya. Model ini menghasilkan kode yang berfungsi dari konteks visual. Ini adalah padanan multimodal dari generasi kode yang sadar konteks milik Cursor, kecuali masukannya adalah video.

Hasil tolok ukur

Di antara 36 tolok ukur audio dan audio-visual:

Khusus untuk kualitas pembuatan ucapan, ini mengalahkan ElevenLabs, GPT-Audio, dan Minimax dalam stabilitas suara multibahasa di 20 bahasa. Ini adalah perbandingan yang berarti: ElevenLabs adalah perusahaan AI suara khusus dengan fokus bertahun-tahun pada masalah ini.


Varian model

Alibaba menyediakan tiga versi:

Varian Terbaik untuk
Qwen3.5-Omni Plus Kualitas maksimum; penalaran audio-visual, kloning suara, tugas konteks panjang
Qwen3.5-Omni Flash Keseimbangan kecepatan dan kualitas; obrolan suara real-time, API produksi
Qwen3.5-Omni Light Tugas latensi rendah; skenario seluler dan edge

Ketiganya menangani tumpukan modalitas input penuh (teks, gambar, audio, video). Perbedaannya terletak pada kualitas output, latensi, dan biaya. Plus adalah pemimpin tolok ukur; Flash adalah pilihan yang sebaiknya digunakan oleh sebagian besar aplikasi produksi sebagai permulaan.

Jendela konteks 256K token

256K token adalah batas masukan. Apa artinya ini dalam praktiknya?

Untuk sebagian besar kasus penggunaan multimodal, 256K sudah cukup sehingga Anda tidak perlu memecah masukan. Rekaman rapat 30 menit, video demo produk lengkap, atau panggilan dukungan pelanggan yang panjang semuanya dapat dimasukkan dalam satu permintaan.

Bandingkan ini dengan konteks 128K GPT-4o atau konteks 1M Gemini 2.5 Pro. Qwen3.5-Omni lebih kecil dari batas Gemini, tetapi kinerja audio-visualnya pada tolok ukur mengkompensasi perbedaan tersebut dalam sebagian besar tugas dunia nyata.


Pengenalan ucapan 113 bahasa

Peningkatan dari 19 menjadi 113 bahasa dalam pengenalan ucapan bukan hanya angka pemasaran. Ini penting untuk tiga kategori aplikasi:

Dukungan pelanggan untuk produk global. Jika pengguna Anda berbicara Bahasa Thailand, Bengali, Swahili, atau Finlandia, Anda kini memiliki satu model yang dapat menangani masukan suara mereka tanpa melalui pipeline ASR terpisah.

Pemrosesan konten multibahasa. Podcast, video, dan wawancara dalam bahasa non-Inggris dapat ditranskripsikan, diterjemahkan, dan diringkas dalam satu panggilan.

Pergantian bahasa di tengah percakapan. Penutur bilingual sering beralih bahasa di tengah kalimat. Qwen3.5-Omni menanganinya secara native. Percakapan yang berpindah antara Bahasa Inggris dan Spanyol tidak membingungkan model atau menurunkan akurasi pengenalan.

Arsitektur: Thinker-Talker dengan MoE

Model ini menggunakan arsitektur Thinker-Talker. Komponen Thinker memproses masukan multimodal dan menghasilkan token penalaran. Komponen Talker mengubah token tersebut menjadi ucapan alami secara real time menggunakan pendekatan multi-codebook yang meminimalkan latensi.

Di balik layar, varian Plus menggunakan Mixture of Experts (MoE), yang berarti hanya sebagian parameter model yang aktif per token. Ini menjaga inferensi tetap cepat dan efisien memori dibandingkan dengan model padat dengan kualitas yang setara.

Untuk deployment lokal, vLLM adalah server inferensi yang direkomendasikan karena cara ia menangani perutean MoE. HuggingFace Transformers berfungsi tetapi lebih lambat pada arsitektur MoE.

Di mana Apidog berperan

Jika Anda sedang mengevaluasi apakah akan membangun di atas API Qwen3.5-Omni, Anda akan mengirim permintaan multimodal: body JSON dengan audio yang dienkode base64, URL gambar, referensi video, dan teks yang semuanya bercampur.

Melakukan debug permintaan tersebut tanpa klien API yang tepat akan sangat menyulitkan. Apidog menanganinya dengan baik. Anda dapat membangun dan menyimpan template permintaan Qwen3.5-Omni Anda, mengatur variabel lingkungan untuk kunci API Anda, dan menulis pengujian otomatis yang memverifikasi struktur dan konten respons.

Untuk tim yang mengevaluasi ketiga varian model, Apidog memudahkan untuk menjalankan permintaan yang sama terhadap Plus, Flash, dan Light serta membandingkan latensi dan kualitas output secara berdampingan.

Unduh Apidog gratis untuk mulai menguji permintaan API multimodal.

tombol

Untuk siapa ini

Qwen3.5-Omni masuk akal untuk dievaluasi jika Anda sedang membangun:

Asisten suara. Ucapan masuk, ucapan keluar secara real-time, dengan memori percakapan dan pengambilan web. Fitur interupsi semantik dan ARIA menyelesaikan dua masalah tersulit dalam UX suara.

Alat analisis video. Ringkasan video otomatis, transkripsi rapat, pembuatan tutorial dari rekaman layar. Jendela konteks 256K berarti Anda dapat memasukkan rekaman panjang tanpa pemotongan.

Produk pelanggan multibahasa. ASR 113-bahasa dan TTS 36-bahasa dalam satu model. Tidak ada vendor terpisah untuk setiap tingkatan bahasa.

Alat aksesibilitas. Pembuatan teks-alternatif untuk gambar, deskripsi audio untuk konten video, pembuatan teks-tertutup real-time dengan dukungan bahasa untuk bahasa yang kurang terlayani.

Alat produktivitas pengembang. Pengodean Vibe Audio-Visual mengubah rekaman layar menjadi kode yang berfungsi. Itu adalah modalitas input baru untuk asisten kode.

Akses

Qwen3.5-Omni tersedia melalui:

API mengikuti model otentikasi standar Alibaba Cloud. Anda memerlukan kunci API DashScope. Lihat dokumentasi DashScope untuk detail endpoint dan harga per modalitas.

Yang perlu diperhatikan

Qwen3.5-Omni sangat kuat pada tolok ukur audio. Apakah peningkatan tolok ukur tersebut diterjemahkan ke kualitas dunia nyata dalam kasus penggunaan spesifik Anda layak diuji secara langsung. Tolok ukur mengukur kinerja agregat di seluruh set tes yang dikurasi; tolok ukur tidak memprediksi bagaimana model menangani kosakata domain Anda, aksen pengguna Anda, atau format video Anda.

Fitur kloning suara saat ini hanya tersedia melalui API. Antarmuka web qwen.ai belum menampilkannya.

Deployment lokal membutuhkan memori GPU yang signifikan. Varian Plus (30B MoE) membutuhkan setidaknya 40GB VRAM untuk inferensi yang nyaman. Varian Flash dan Light lebih mudah diakses.

FAQ

Apa perbedaan Qwen3.5-Omni dengan Qwen2.5-Omni?

Qwen2.5-Omni mendukung ukuran model padat 7B dan 3B dengan 19 bahasa untuk ucapan. Qwen3.5-Omni menggunakan arsitektur MoE, memperluas pengenalan ucapan menjadi 113 bahasa, menambahkan kloning suara, dan memperkenalkan ARIA untuk kualitas audio yang lebih baik. Kinerja tolok ukur dan jendela konteks juga tumbuh secara signifikan.

Bisakah saya menjalankan Qwen3.5-Omni secara lokal?

Ya, melalui HuggingFace Transformers atau vLLM. Varian Plus membutuhkan VRAM 40GB+. Varian Flash dan Light berjalan pada GPU yang lebih kecil. vLLM adalah pilihan yang lebih baik untuk deployment lokal produksi karena optimasi MoE.

Apakah ada tingkatan gratis?

Antarmuka web qwen.ai gratis untuk digunakan. Akses API melalui DashScope berbayar. Harga per modalitas (token audio, frame video, token teks) tersedia dalam dokumentasi harga DashScope.

Apakah ini mendukung streaming real-time?

Ya. Arsitektur Thinker-Talker mengeluarkan audio secara streaming terpotong-potong, sehingga byte audio pertama tiba sebelum respons penuh dihasilkan. Inilah yang membuat percakapan suara langsung terasa alami.

Apa perbedaan antara Plus, Flash, dan Light?

Plus adalah kualitas tertinggi, terbaik untuk tugas-tugas di mana akurasi lebih penting daripada kecepatan. Flash adalah opsi yang seimbang untuk sebagian besar API produksi. Light adalah yang tercepat, ditujukan untuk aplikasi yang sensitif terhadap latensi seperti inferensi seluler atau edge.

Bisakah saya menggunakan suara saya sendiri dengan API?

Ya, melalui kloning suara pada API. Anda mengunggah sampel audio suara target, dan model menggunakannya untuk keluaran ucapan. Fitur ini belum tersedia melalui antarmuka web.

Bagaimana perbandingannya dengan ElevenLabs untuk pembuatan suara?

Pada tolok ukur Alibaba di 20 bahasa, Qwen3.5-Omni Plus mengungguli ElevenLabs dalam stabilitas suara multibahasa. ElevenLabs memiliki rekam jejak yang lebih panjang dan lebih banyak opsi penyesuaian suara dalam produknya. Jika Anda hanya membutuhkan kemampuan suara, ElevenLabs masih layak dibandingkan. Jika Anda membutuhkan model multimodal terintegrasi, Qwen3.5-Omni adalah pilihan yang lebih tepat.

Apakah aman mengirim data audio atau video sensitif melalui API?

Tinjau perjanjian pemrosesan data Alibaba Cloud sebelum mengirim konten sensitif. Seperti halnya API cloud lainnya, asumsikan data dapat dicatat kecuali perjanjian secara eksplisit menjamin sebaliknya.

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.

Qwen3.5-Omni Hadir: AI Multimodal Alibaba Kalahkan Gemini dalam Audio