Qwen3.5-Omni Chegou: IA Multimodal da Alibaba Supera Gemini em Áudio

Ashley Innocent

Ashley Innocent

31 março 2026

Qwen3.5-Omni Chegou: IA Multimodal da Alibaba Supera Gemini em Áudio

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

TL;DR

A Alibaba lançou o Qwen3.5-Omni em 30 de março de 2026. Ele processa texto, imagens, áudio e vídeo em um único modelo e gera tanto texto quanto fala em tempo real. Ele supera o Gemini 3.1 Pro em *benchmarks* gerais de compreensão e raciocínio de áudio, suporta 113 idiomas para reconhecimento de fala e inclui clonagem de voz. Três variantes estão disponíveis: Plus, Flash e Light.

Um modelo para tudo

A maioria dos fluxos de trabalho de IA hoje envolve a união de modelos separados: um para fala-para-texto, outro para visão, outro para geração de texto e outro para texto-para-fala. Cada transferência adiciona latência, custo e pontos de falha.

O Qwen3.5-Omni colapsa essa pilha. Ele recebe texto, imagens, áudio e vídeo como entrada e retorna texto ou fala como saída, tudo dentro de uma única chamada de inferência do modelo. A janela de contexto comporta 256.000 tokens, o que abrange mais de 10 horas de áudio ou aproximadamente 400 segundos de vídeo 720p com áudio.

A Alibaba o treinou com mais de 100 milhões de horas de dados audiovisuais nativos. O resultado é um modelo que não apenas lida com múltiplas modalidades; ele raciocina sobre elas simultaneamente.

Se você está construindo aplicativos que envolvem qualquer combinação de voz, vídeo, imagens e texto, isso muda o que é possível no nível da API.

O que mudou do Qwen3-Omni

A geração anterior, Qwen3-Omni Flash, foi lançada em dezembro de 2025 com uma latência de resposta de 234ms. O Qwen3.5-Omni é o próximo lançamento completo. Veja o que mudou:

Cobertura de idiomas expandida significativamente

O reconhecimento de fala no Qwen3-Omni cobria 19 idiomas. O Qwen3.5-Omni cobre 113 idiomas e dialetos. A geração de fala passou de 10 para 36 idiomas. Isso não é um pequeno aumento; é a diferença entre um modelo que funciona para mercados ocidentais e um que funciona globalmente.

Clonagem de voz agora integrada

Você pode carregar uma amostra de voz e fazer o modelo responder com essa voz. Na geração anterior, isso não estava disponível. No Qwen3.5-Omni Plus e Flash, a clonagem de voz é acessível via API. O modelo corresponde à identidade do falante bem o suficiente para se passar por uma persona de voz consistente em longas conversas.

A tecnologia ARIA elimina a distorção de áudio

Números e palavras incomuns (nomes de produtos, termos técnicos, nomes próprios) historicamente eram distorcidos em sistemas TTS neurais. ARIA, a camada dinâmica de sincronização texto-fala da Qwen, aborda especificamente isso. Ela lê adiante no *buffer* de texto e ajusta a geração de fonemas antes de emitir o áudio, de modo que "IPv6", "$249.99" e "Qwen3.5-Omni" são todos pronunciados corretamente.

Interrupção semântica funciona como os humanos esperam

Quando você diz "uh-huh" durante uma resposta de voz, você quer que o modelo continue falando. Quando você diz "espere, pare", você quer que ele pare. Sistemas de IA de voz anteriores tratavam qualquer entrada de áudio como um comando de interrupção. O Qwen3.5-Omni distingue entre *backchannels* (reconhecimentos) e interrupções reais, tornando as conversas de voz mais naturais.

Pesquisa web em tempo real integrada

O modelo pode consultar a web durante a inferência e incorporar resultados ao vivo em sua resposta. Você não precisa pré-buscar o contexto e injetá-lo no *prompt*; o modelo lida com a recuperação por conta própria quando necessário.

Codificação por Contexto Audiovisual

Gravações de tela agora funcionam como entrada para codificação. Grave sua tela, passe o vídeo para o modelo e peça para ele replicar ou melhorar o que vê. Ele gera código funcional a partir do contexto visual. Este é o equivalente multimodal da geração de código sensível ao contexto do Cursor, exceto que a entrada é vídeo.

Resultados de Benchmark

Em 36 *benchmarks* de áudio e audiovisual:

Especificamente para a qualidade da geração de fala, ele supera ElevenLabs, GPT-Audio e Minimax em estabilidade de voz multilíngue em 20 idiomas. Essa é uma comparação significativa: ElevenLabs é uma empresa dedicada à IA de voz com anos de foco neste problema.


Variantes do modelo

A Alibaba oferece três versões:

Variante Melhor para
Qwen3.5-Omni Plus Qualidade máxima; raciocínio audiovisual, clonagem de voz, tarefas de longo contexto
Qwen3.5-Omni Flash Velocidade e qualidade equilibradas; chat de voz em tempo real, APIs de produção
Qwen3.5-Omni Light Tarefas de baixa latência; cenários móveis e de *edge*

Todos os três lidam com a pilha completa de modalidades de entrada (texto, imagens, áudio, vídeo). As diferenças estão na qualidade de saída, latência e custo. O Plus é o líder em *benchmarks*; o Flash é o que a maioria dos aplicativos de produção deve começar a usar.

A janela de contexto de 256 mil tokens

256 mil tokens é o limite de entrada. O que isso significa na prática?

Para a maioria dos casos de uso multimodais, 256 mil é suficiente para que você não precise segmentar as entradas. Uma gravação de reunião de 30 minutos, um vídeo completo de demonstração de produto ou uma longa chamada de suporte ao cliente cabem em uma única solicitação.

Compare isso com o contexto de 128 mil do GPT-4o ou o contexto de 1 milhão do Gemini 2.5 Pro. O Qwen3.5-Omni é menor que o limite do Gemini, mas seu desempenho audiovisual em *benchmarks* compensa essa diferença na maioria das tarefas do mundo real.


Reconhecimento de fala em 113 idiomas

O salto de 19 para 113 idiomas no reconhecimento de fala não é apenas um número de marketing. Ele é importante para três categorias de aplicativos:

Suporte ao cliente para produtos globais. Se seus usuários falam tailandês, bengali, suaíli ou finlandês, agora você tem um único modelo que pode lidar com suas entradas de voz sem precisar de um *pipeline* ASR separado.

Processamento de conteúdo multilíngue. Podcasts, vídeos e entrevistas em idiomas não ingleses podem ser transcritos, traduzidos e resumidos em uma única chamada.

Troca de idioma no meio da conversa. Falantes bilíngues frequentemente trocam de idioma no meio da frase. O Qwen3.5-Omni lida com isso nativamente. Uma conversa que alterna entre inglês e espanhol não confunde o modelo nem degrada a precisão do reconhecimento.

Arquitetura: Thinker-Talker com MoE

O modelo usa uma arquitetura Thinker-Talker. O componente Thinker processa a entrada multimodal e gera tokens de raciocínio. O componente Talker converte esses tokens em fala natural em tempo real usando uma abordagem de *multi-codebook* que minimiza a latência.

Por baixo do capô, a variante Plus usa Mixture of Experts (MoE), o que significa que apenas um subconjunto dos parâmetros do modelo é ativado por token. Isso mantém a inferência rápida e eficiente em termos de memória em relação a um modelo denso de qualidade equivalente.

Para implantação local, vLLM é o servidor de inferência recomendado devido à forma como ele lida com o roteamento MoE. HuggingFace Transformers funciona, mas é mais lento em arquiteturas MoE.

Onde o Apidog se encaixa

Se você está avaliando se deve construir sobre a API do Qwen3.5-Omni, você estará enviando requisições multimodais: corpos JSON com áudio codificado em base64, URLs de imagem, referências de vídeo e texto, tudo misturado.

Depurar essas requisições sem um cliente de API adequado torna-se rapidamente doloroso. O Apidog lida bem com isso. Você pode construir e salvar seus modelos de requisição Qwen3.5-Omni, definir variáveis de ambiente para suas chaves de API e escrever testes automatizados que verificam a estrutura e o conteúdo da resposta.

Para equipes que avaliam as três variantes do modelo, o Apidog facilita a execução da mesma requisição contra Plus, Flash e Light e a comparação de latência e qualidade de saída lado a lado.

Baixe o Apidog gratuitamente para começar a testar requisições de API multimodais.

botão

Para quem isso é

Faz sentido avaliar o Qwen3.5-Omni se você está construindo:

Assistentes de voz. Fala em tempo real, saída de fala, com memória de conversação e recuperação web. As funcionalidades de interrupção semântica e ARIA resolvem dois dos problemas mais difíceis na UX de voz.

Ferramentas de análise de vídeo. Resumo de vídeo automatizado, transcrição de reuniões, geração de tutoriais a partir de gravações de tela. A janela de contexto de 256 mil significa que você pode passar gravações longas sem segmentação.

Produtos para clientes multilíngues. ASR em 113 idiomas e TTS em 36 idiomas em um único modelo. Sem fornecedor separado para cada nível de idioma.

Ferramentas de acessibilidade. Geração de texto alternativo para imagens, descrições de áudio para conteúdo de vídeo, geração de legendas em tempo real com suporte a idiomas para línguas com poucos recursos.

Ferramentas de produtividade para desenvolvedores. A Codificação por Contexto Audiovisual transforma gravações de tela em código funcional. Essa é uma nova modalidade de entrada para assistentes de código.

Acesso

O Qwen3.5-Omni está disponível através de:

A API segue o modelo de autenticação padrão da Alibaba Cloud. Você precisará de uma chave de API do DashScope. Consulte a documentação do DashScope para detalhes de *endpoints* e preços por modalidade.

O que observar

O Qwen3.5-Omni é forte em *benchmarks* de áudio. Se esses ganhos de *benchmark* se traduzem em qualidade real para seu caso de uso específico vale a pena testar diretamente. *Benchmarks* medem o desempenho agregado em conjuntos de testes selecionados; eles não preveem como o modelo lida com o vocabulário do seu domínio, os sotaques dos seus usuários ou seus formatos de vídeo.

A funcionalidade de clonagem de voz é apenas para API por enquanto. A interface web qwen.ai ainda não a expõe.

A implantação local requer memória GPU significativa. A variante Plus (30B MoE) precisa de pelo menos 40GB de VRAM para uma inferência confortável. As variantes Flash e Light são mais acessíveis.

Perguntas Frequentes

Como o Qwen3.5-Omni é diferente do Qwen2.5-Omni?

O Qwen2.5-Omni suportava modelos densos de 7B e 3B com 19 idiomas para fala. O Qwen3.5-Omni usa uma arquitetura MoE, expande o reconhecimento de fala para 113 idiomas, adiciona clonagem de voz e introduz ARIA para melhor qualidade de áudio. O desempenho em *benchmarks* e a janela de contexto também cresceram significativamente.

Posso executar o Qwen3.5-Omni localmente?

Sim, via HuggingFace Transformers ou vLLM. A variante Plus precisa de mais de 40GB de VRAM. As variantes Flash e Light rodam em GPUs menores. vLLM é a melhor escolha para implantação local em produção devido à otimização de MoE.

Existe um nível gratuito?

A interface web qwen.ai é gratuita para usar. O acesso à API através do DashScope é pago. Os preços por modalidade (tokens de áudio, quadros de vídeo, tokens de texto) estão disponíveis na documentação de preços do DashScope.

Ele suporta *streaming* em tempo real?

Sim. A arquitetura Thinker-Talker gera áudio de forma fragmentada e por *streaming*, de modo que os primeiros bytes de áudio chegam antes que a resposta completa seja gerada. É isso que faz as conversas de voz ao vivo parecerem naturais.

Qual a diferença entre Plus, Flash e Light?

Plus é a mais alta qualidade, melhor para tarefas onde a precisão importa mais que a velocidade. Flash é a opção equilibrada para a maioria das APIs de produção. Light é a mais rápida, destinada a aplicações sensíveis à latência, como inferência móvel ou de *edge*.

Posso usar minha própria voz com a API?

Sim, via clonagem de voz na API. Você carrega uma amostra de áudio da voz de destino, e o modelo a usa para a saída de fala. Isso ainda não está disponível através da interface web.

Como ele se compara ao ElevenLabs para geração de voz?

Nos *benchmarks* da Alibaba em 20 idiomas, o Qwen3.5-Omni Plus supera o ElevenLabs em estabilidade de voz multilíngue. O ElevenLabs tem um histórico mais longo e mais opções de personalização de voz em seu produto. Se você precisa apenas de recursos de voz, o ElevenLabs ainda vale a comparação. Se você precisa de um modelo multimodal integrado, o Qwen3.5-Omni é a escolha mais limpa.

É seguro enviar dados de áudio ou vídeo sensíveis através da API?

Revise o acordo de processamento de dados da Alibaba Cloud antes de enviar conteúdo sensível. Assim como em qualquer API de nuvem, assuma que os dados podem ser registrados, a menos que o acordo garanta explicitamente o contrário.

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs