ÖZET
Alibaba, 30 Mart 2026'da Qwen3.5-Omni'yi piyasaya sürdü. Tek bir modelde metin, görüntü, ses ve video işleyebiliyor ve hem metin hem de gerçek zamanlı konuşma çıktısı sağlıyor. Genel ses anlama ve akıl yürütme kıyaslamalarında Gemini 3.1 Pro'dan daha iyi performans gösteriyor, konuşma tanıma için 113 dili destekliyor ve ses klonlama özelliğini içeriyor. Üç varyantı mevcut: Plus, Flash ve Light.
Her şey için tek model
Günümüzdeki çoğu yapay zeka iş akışı, ayrı modelleri bir araya getirmeyi gerektirir: biri konuşmadan metne, diğeri görüntüye, bir diğeri metin üretimine ve bir diğeri de metinden konuşmaya. Her aktarım gecikmeye, maliyete ve hata noktalarına neden olur.
Qwen3.5-Omni bu yığını çökertiyor. Metin, görüntü, ses ve videoyu girdi olarak alıyor ve tek bir model çıkarım çağrısıyla metin veya konuşma çıktısı veriyor. Bağlam penceresi 256.000 jeton (token) tutarındadır; bu da 10 saatin üzerinde sesi veya yaklaşık 400 saniye 720p sesli videoyu kapsar.
Alibaba, bu modeli 100 milyon saatin üzerinde yerel görsel-işitsel veri üzerinde eğitti. Sonuç, yalnızca birden fazla modaliteyi ele almakla kalmayıp, aynı anda bunlar arasında akıl yürüten bir model oldu.
Ses, video, görüntü ve metnin herhangi bir kombinasyonunu içeren uygulamalar geliştiriyorsanız, bu durum API düzeyinde nelerin mümkün olduğunu değiştiriyor.
Qwen3-Omni'den ne değişti?
Önceki nesil olan Qwen3-Omni Flash, Aralık 2025'te 234ms yanıt gecikmesiyle piyasaya sürülmüştü. Qwen3.5-Omni ise bir sonraki tam sürüm. İşte değişenler:

Dil kapsamı önemli ölçüde genişletildi
Qwen3-Omni'deki konuşma tanıma 19 dili kapsıyordu. Qwen3.5-Omni ise 113 dil ve lehçeyi kapsıyor. Konuşma üretimi 10 dilden 36 dile çıktı. Bu küçük bir artış değil; Batı pazarları için çalışan bir model ile küresel olarak çalışan bir model arasındaki farktır.
Ses klonlama artık yerleşik
Bir ses örneği yükleyebilir ve modelin o sesle yanıt vermesini sağlayabilirsiniz. Önceki nesilde bu özellik mevcut değildi. Qwen3.5-Omni Plus ve Flash'ta ses klonlama, API aracılığıyla erişilebilir durumdadır. Model, konuşmacının kimliğini uzun konuşmalarda tutarlı bir ses kişiliği olarak geçecek kadar iyi eşleştirir.
ARIA teknolojisi ses bozulmasını ortadan kaldırıyor
Sayılar ve alışılmadık kelimeler (ürün adları, teknik terimler, özel isimler) geçmişte sinirsel metin-konuşma sistemlerinde bozulmaya neden oluyordu. Qwen'in dinamik metin-konuşma senkronizasyon katmanı olan ARIA, özellikle bu sorunu ele alıyor. Metin arabelleğinde önceden okuma yapar ve ses çıkışı vermeden önce fonem üretimini ayarlar, böylece "IPv6," "$249.99" ve "Qwen3.5-Omni" gibi ifadeler doğru bir şekilde okunur.
Semantik kesinti, insanların beklediği gibi çalışıyor
Sesli bir yanıt sırasında "hı hı" dediğinizde, modelin konuşmaya devam etmesini istersiniz. "Bekle, dur" dediğinizde ise durmasını istersiniz. Daha önceki sesli yapay zeka sistemleri, herhangi bir ses girişini kesinti komutu olarak algılıyordu. Qwen3.5-Omni, geri bildirimler (onaylar) ile gerçek kesintileri ayırt ederek sesli konuşmaları daha doğal hale getiriyor.
Gerçek zamanlı web araması entegre edildi
Model, çıkarım sırasında web'i sorgulayabilir ve canlı sonuçları yanıtına dahil edebilir. Bağlamı önceden getirip isteme enjekte etmenize gerek kalmaz; model gerektiğinde bilgiyi kendi kendine alır.
Görsel-İşitsel Vibe Kodlama
Ekran kayıtları artık bir kodlama girdisi olarak işlev görüyor. Ekranınızı kaydedin, videoyu modele iletin ve modelden gördüklerini çoğaltmasını veya iyileştirmesini isteyin. Görsel bağlamdan çalışan kod üretir. Bu, Cursor'ın bağlama duyarlı kod üretimine çok modlu bir karşılıktır, tek fark girdi olarak video kullanılmasıdır.
Kıyaslama sonuçları
36 ses ve görsel-işitsel kıyaslamada:
- Qwen3.5-Omni, 36 kıyaslamanın 32'sinde en güncel performansı (state-of-the-art) sergiliyor
- Bu 36 kıyaslamanın 22'sinde yeni en güncel performansı belirliyor
- Genel ses anlama, akıl yürütme ve çeviri konularında Gemini 3.1 Pro'dan daha iyi performans gösteriyor
- Görsel-işitsel anlama konusunda Gemini 3.1 Pro ile eşleşiyor
Özellikle konuşma üretim kalitesi açısından, 20 dilde çok dilli ses kararlılığı konusunda ElevenLabs, GPT-Audio ve Minimax'ı geride bırakıyor. Bu anlamlı bir karşılaştırma: ElevenLabs, yıllardır bu soruna odaklanmış özel bir sesli yapay zeka şirketidir.
Model varyantları
Alibaba üç sürüm sunuyor:
| Varyant | En iyi olduğu alan |
|---|---|
| Qwen3.5-Omni Plus | Maksimum kalite; görsel-işitsel akıl yürütme, ses klonlama, uzun bağlam görevleri |
| Qwen3.5-Omni Flash | Dengeli hız ve kalite; gerçek zamanlı sesli sohbet, üretim API'leri |
| Qwen3.5-Omni Light | Düşük gecikmeli görevler; mobil ve uç senaryoları |
Üçü de tam girdi modalitesi yığınını (metin, görüntüler, ses, video) işleyebilir. Farklılıklar çıktı kalitesi, gecikme ve maliyettedir. Plus kıyaslama lideridir; Flash ise çoğu üretim uygulamasının başlangıç noktası olmalıdır.
256 bin jetonluk bağlam penceresi
256 bin jeton, girdi üst sınırıdır. Bu pratikte ne anlama geliyor?
- Ses: 10 saatin üzerinde kesintisiz konuşma
- Video: Yaklaşık 400 saniye gömülü sesli 720p video
- Metin: Yaklaşık 190.000 kelime veya roman uzunluğunda bir belge
Çoğu çok modlu kullanım durumu için 256 bin yeterlidir, böylece girdileri parçalamak zorunda kalmazsınız. 30 dakikalık bir toplantı kaydı, tam bir ürün demosu videosu veya uzun bir müşteri destek araması tek bir isteğe sığar.
Bunu GPT-4o'nun 128 bin bağlamıyla veya Gemini 2.5 Pro'nun 1 milyon bağlamıyla karşılaştırın. Qwen3.5-Omni, Gemini'nin üst sınırından daha küçük olsa da, kıyaslamalardaki görsel-işitsel performansı, çoğu gerçek dünya görevinde bu farkı telafi ediyor.
113 dilde konuşma tanıma
Konuşma tanımada 19 dilden 113 dile sıçrayış sadece bir pazarlama rakamı değil. Üç uygulama kategorisi için önemlidir:
- Küresel ürünler için müşteri desteği. Kullanıcılarınız Tayca, Bengalce, Svahili veya Fince konuşuyorsa, artık ayrı bir ASR (Otomatik Konuşma Tanıma) hattından geçmeden sesli girdilerini işleyebilecek tek bir modele sahipsiniz.
- Çok dilli içerik işleme. İngilizce dışındaki dillerdeki podcast'ler, videolar ve röportajlar tek bir çağrıda yazıya dökülebilir, çevrilebilir ve özetlenebilir.
- Konuşma ortasında dil değiştirme. İki dilli konuşmacılar genellikle cümle ortasında dillerini değiştirirler. Qwen3.5-Omni bunu doğal olarak halleder. İngilizce ve İspanyolca arasında geçiş yapan bir konuşma, modeli şaşırtmaz veya tanıma doğruluğunu düşürmez.
Mimari: MoE ile Thinker-Talker
Model, bir Thinker-Talker mimarisi kullanır. Thinker bileşeni çok modlu girdiyi işler ve akıl yürütme jetonları üretir. Talker bileşeni, bu jetonları gecikmeyi en aza indiren çoklu kod defteri yaklaşımı kullanarak gerçek zamanlı olarak doğal konuşmaya dönüştürür.

Kaputun altında, Plus varyantı Uzman Karışımı (MoE) kullanır, bu da jeton başına yalnızca model parametrelerinin bir alt kümesinin etkinleştiği anlamına gelir. Bu, eşdeğer kalitede yoğun bir modele göre çıkarımı hızlı ve bellek açısından verimli tutar.
Yerel dağıtım için vLLM, MoE yönlendirmesini ele alış şekli nedeniyle önerilen çıkarım sunucusudur. HuggingFace Transformers çalışır ancak MoE mimarilerinde daha yavaştır.
Apidog nerede devreye giriyor?
Qwen3.5-Omni'nin API'si üzerine inşa edip etmeyeceğinizi değerlendiriyorsanız, çok modlu istekler göndereceksiniz: base64 kodlu ses, görüntü URL'leri, video referansları ve metnin bir arada olduğu JSON gövdeleri.

Bu istekleri uygun bir API istemcisi olmadan hata ayıklamak hızla sıkıntılı hale gelir. Apidog bunu iyi bir şekilde ele alır. Qwen3.5-Omni istek şablonlarınızı oluşturabilir ve kaydedebilir, API anahtarlarınız için ortam değişkenleri ayarlayabilir ve yanıt yapısını ve içeriğini doğrulayan otomatik testler yazabilirsiniz.
Üç model varyantını değerlendiren ekipler için Apidog, aynı isteği Plus, Flash ve Light'a karşı çalıştırmayı ve gecikme ile çıktı kalitesini yan yana karşılaştırmayı kolaylaştırır.
Çok modlu API isteklerini test etmeye başlamak için Apidog'u ücretsiz indirin.
düğme
Bu kimler için?
Aşağıdakileri inşa ediyorsanız Qwen3.5-Omni'yi değerlendirmek mantıklıdır:
- Sesli asistanlar. Konuşma belleği ve web'den bilgi alma özellikleriyle gerçek zamanlı ses girişi, ses çıkışı. Semantik kesinti ve ARIA özellikleri, sesli kullanıcı deneyimindeki en zor iki sorunu çözüyor.
- Video analiz araçları. Otomatik video özetleme, toplantı deşifresi, ekran kayıtlarından eğitim oluşturma. 256 bin jetonluk bağlam penceresi, uzun kayıtları parçalamadan geçirebileceğiniz anlamına geliyor.
- Çok dilli müşteri ürünleri. Tek bir modelde 113 dilli ASR (Otomatik Konuşma Tanıma) ve 36 dilli TTS (Metinden Konuşmaya). Her dil katmanı için ayrı bir tedarikçiye gerek yok.
- Erişilebilirlik araçları. Görüntüler için alternatif metin üretimi, video içeriği için sesli açıklamalar, kaynakları kısıtlı diller için dil desteğiyle gerçek zamanlı altyazı üretimi.
- Geliştirici verimlilik araçları. Görsel-İşitsel Vibe Kodlama, ekran kayıtlarını çalışan koda dönüştürüyor. Bu, kod yardımcıları için yeni bir giriş modalitesidir.
Erişim
Qwen3.5-Omni şu yollarla erişilebilir:
- Alibaba Cloud DashScope API (üretim API erişimi)
- qwen.ai (test için web arayüzü)
- HuggingFace Hub (yerel dağıtım için model ağırlıkları)
- ModelScope (Çin anakarası kullanıcıları için önerilir)
API, Alibaba Cloud'un standart kimlik doğrulama modelini takip eder. Bir DashScope API anahtarına ihtiyacınız olacaktır. Uç nokta ayrıntıları ve modalite başına fiyatlandırma için DashScope belgelerine bakın.
Nelere dikkat edilmeli?
Qwen3.5-Omni, ses kıyaslamalarında güçlüdür. Bu kıyaslama kazanımlarının belirli kullanım durumunuzda gerçek dünya kalitesine dönüşüp dönüşmediğini doğrudan test etmeye değerdir. Kıyaslamalar, seçilmiş test setleri genelinde toplam performansı ölçer; modelin alanınızın kelime dağarcığını, kullanıcılarınızın aksanlarını veya video formatlarınızı nasıl ele alacağını tahmin etmezler.
Ses klonlama özelliği şimdilik yalnızca API'ye özeldir. qwen.ai web arayüzü henüz bu özelliği sunmuyor.
Yerel dağıtım önemli GPU belleği gerektirir. Plus varyantı (30B MoE) rahat bir çıkarım için en az 40GB VRAM'e ihtiyaç duyar. Flash ve Light varyantları daha erişilebilirdir.
Sıkça Sorulan Sorular
Qwen3.5-Omni, Qwen2.5-Omni'den nasıl farklıdır?
Qwen2.5-Omni, 7B ve 3B yoğun model boyutlarını 19 dilde konuşma desteğiyle sunuyordu. Qwen3.5-Omni ise bir MoE mimarisi kullanır, konuşma tanımayı 113 dile genişletir, ses klonlama ekler ve daha iyi ses kalitesi için ARIA'yı tanıtır. Kıyaslama performansı ve bağlam penceresi de önemli ölçüde arttı.
Qwen3.5-Omni'yi yerel olarak çalıştırabilir miyim?
Evet, HuggingFace Transformers veya vLLM aracılığıyla. Plus varyantı 40GB+ VRAM gerektirir. Flash ve Light varyantları daha küçük GPU'larda çalışır. MoE optimizasyonu nedeniyle vLLM, üretim amaçlı yerel dağıtım için daha iyi bir seçimdir.
Ücretsiz bir katman var mı?
qwen.ai web arayüzü ücretsizdir. DashScope aracılığıyla API erişimi ücretlidir. Modalite başına fiyatlandırma (ses jetonları, video kareleri, metin jetonları) DashScope fiyatlandırma belgelerinde mevcuttur.
Gerçek zamanlı akışı destekliyor mu?
Evet. Thinker-Talker mimarisi sesi akışlı ve parçalı bir şekilde çıkarır, böylece ilk ses baytları tam yanıt oluşturulmadan önce ulaşır. Canlı sesli konuşmanın doğal hissettirmesini sağlayan şey budur.
Plus, Flash ve Light arasındaki fark nedir?
Plus en yüksek kalitededir, hızdan çok doğruluğun önemli olduğu görevler için en iyisidir. Flash, çoğu üretim API'si için dengeli bir seçenektir. Light en hızlısıdır, mobil veya uç çıkarım gibi gecikmeye duyarlı uygulamalar için tasarlanmıştır.
API ile kendi sesimi kullanabilir miyim?
Evet, API'deki ses klonlama özelliği aracılığıyla. Hedef sesin bir ses örneğini yüklersiniz ve model bunu konuşma çıktısı için kullanır. Bu özellik henüz web arayüzü aracılığıyla mevcut değildir.
Ses üretimi konusunda ElevenLabs ile nasıl karşılaştırılır?
Alibaba'nın 20 dildeki kıyaslamalarında, Qwen3.5-Omni Plus, çok dilli ses kararlılığı konusunda ElevenLabs'tan daha iyi performans gösteriyor. ElevenLabs'ın daha uzun bir geçmişi ve ürününde daha fazla ses özelleştirme seçeneği bulunmaktadır. Sadece ses yeteneklerine ihtiyacınız varsa, ElevenLabs hala karşılaştırmaya değerdir. Entegre çok modlu bir modele ihtiyacınız varsa, Qwen3.5-Omni daha uygun bir seçimdir.
API aracılığıyla hassas ses veya video verilerini göndermek güvenli mi?
Hassas içerik göndermeden önce Alibaba Cloud'un veri işleme anlaşmasını inceleyin. Herhangi bir bulut API'sinde olduğu gibi, anlaşma açıkça aksi bir garanti vermedikçe verilerin günlüğe kaydedilebileceğini varsayın.
