TL;DR
Alibaba lanzó Qwen3.5-Omni el 30 de marzo de 2026. Procesa texto, imágenes, audio y video en un solo modelo y genera tanto texto como voz en tiempo real. Supera a Gemini 3.1 Pro en los puntos de referencia generales de comprensión y razonamiento de audio, admite 113 idiomas para el reconocimiento de voz e incluye clonación de voz. Hay tres variantes disponibles: Plus, Flash y Light.
Un modelo para todo
La mayoría de los flujos de trabajo de IA actuales implican unir modelos separados: uno para la conversión de voz a texto, otro para la visión, otro para la generación de texto y otro para la conversión de texto a voz. Cada transferencia añade latencia, costo y puntos de falla.
Qwen3.5-Omni colapsa esa pila. Acepta texto, imágenes, audio y video como entrada y devuelve texto o voz como salida, todo dentro de una única llamada de inferencia del modelo. La ventana de contexto contiene 256.000 tokens, lo que cubre más de 10 horas de audio o aproximadamente 400 segundos de video de 720p con audio.
Alibaba lo entrenó con más de 100 millones de horas de datos audiovisuales nativos. El resultado es un modelo que no solo maneja múltiples modalidades; razona a través de ellas al mismo tiempo.
Si está creando aplicaciones que involucran cualquier combinación de voz, video, imágenes y texto, esto cambia lo que es posible a nivel de API.
Qué cambió de Qwen3-Omni
La generación anterior, Qwen3-Omni Flash, se lanzó en diciembre de 2025 con una latencia de respuesta de 234 ms. Qwen3.5-Omni es la próxima versión completa. Esto es lo que cambió:

La cobertura lingüística se amplió significativamente
El reconocimiento de voz en Qwen3-Omni cubría 19 idiomas. Qwen3.5-Omni cubre 113 idiomas y dialectos. La generación de voz pasó de 10 a 36 idiomas. Eso no es un pequeño aumento; es la diferencia entre un modelo que funciona para los mercados occidentales y uno que funciona a nivel mundial.
La clonación de voz ahora está integrada
Puedes subir una muestra de voz y hacer que el modelo responda con esa voz. En la generación anterior, esto no estaba disponible. En Qwen3.5-Omni Plus y Flash, la clonación de voz es accesible a través de la API. El modelo iguala la identidad del orador lo suficientemente bien como para pasar como una persona de voz consistente a lo largo de conversaciones largas.
La tecnología ARIA elimina la distorsión del audio
Los números y las palabras inusuales (nombres de productos, términos técnicos, nombres propios) se han distorsionado históricamente en los sistemas neuronales de TTS. ARIA, la capa de sincronización dinámica de texto a voz de Qwen, aborda específicamente esto. Lee el búfer de texto y ajusta la generación de fonemas antes de emitir audio, de modo que "IPv6", "$249.99" y "Qwen3.5-Omni" salgan correctamente.
La interrupción semántica funciona como los humanos esperan
Cuando dices "ajá" durante una respuesta de voz, quieres que el modelo siga hablando. Cuando dices "espera, para", quieres que se detenga. Los sistemas de IA de voz anteriores trataban cualquier entrada de audio como un comando de interrupción. Qwen3.5-Omni distingue entre los canales secundarios (reconocimientos) y las interrupciones reales, haciendo que las conversaciones de voz se sientan más naturales.
La búsqueda web en tiempo real está integrada
El modelo puede consultar la web durante la inferencia e incorporar resultados en vivo en su respuesta. No es necesario precargar el contexto e inyectarlo en el prompt; el modelo se encarga de la recuperación por sí mismo cuando es necesario.
Codificación de ambiente audiovisual
Las grabaciones de pantalla ahora funcionan como entrada de codificación. Graba tu pantalla, pasa el video al modelo y pídele que replique o mejore lo que ve. Genera código funcional a partir del contexto visual. Esto es el equivalente multimodal de la generación de código consciente del contexto de Cursor, excepto que la entrada es video.
Resultados de los puntos de referencia
En 36 puntos de referencia de audio y audiovisuales:
- Qwen3.5-Omni logra el estado del arte en 32 de 36
- Establece un nuevo estado del arte en 22 de esos 36
- Supera a Gemini 3.1 Pro en comprensión, razonamiento y traducción de audio generales
- Iguala a Gemini 3.1 Pro en comprensión audiovisual
Específicamente en calidad de generación de voz, supera a ElevenLabs, GPT-Audio y Minimax en estabilidad de voz multilingüe en 20 idiomas. Esa es una comparación significativa: ElevenLabs es una empresa dedicada a la IA de voz con años de enfoque en este problema.
Variantes del modelo
Alibaba ofrece tres versiones:
| Variante | Mejor para |
|---|---|
| Qwen3.5-Omni Plus | Calidad máxima; razonamiento audiovisual, clonación de voz, tareas de contexto largo |
| Qwen3.5-Omni Flash | Velocidad y calidad equilibradas; chat de voz en tiempo real, APIs de producción |
| Qwen3.5-Omni Light | Tareas de baja latencia; escenarios móviles y de borde |
Los tres manejan la pila completa de modalidades de entrada (texto, imágenes, audio, video). Las diferencias están en la calidad de salida, la latencia y el costo. Plus es el líder en puntos de referencia; Flash es lo que la mayoría de las aplicaciones de producción deberían usar para empezar.
La ventana de contexto de 256K tokens
256K tokens es el límite de entrada. ¿En qué se traduce eso en la práctica?
- Audio: Más de 10 horas de habla continua
- Video: Aproximadamente 400 segundos de video de 720p con audio incrustado
- Texto: Alrededor de 190.000 palabras, o un documento del tamaño de una novela
Para la mayoría de los casos de uso multimodales, 256K es suficiente para que no necesites dividir las entradas. Una grabación de reunión de 30 minutos, un video completo de demostración de producto o una llamada de soporte al cliente larga caben en una sola solicitud.
Compara esto con el contexto de 128K de GPT-4o o el contexto de 1M de Gemini 2.5 Pro. Qwen3.5-Omni es más pequeño que el límite de Gemini, pero su rendimiento audiovisual en los puntos de referencia compensa esa diferencia en la mayoría de las tareas del mundo real.
Reconocimiento de voz en 113 idiomas
El salto de 19 a 113 idiomas en el reconocimiento de voz no es solo un número de marketing. Es importante para tres categorías de aplicaciones:
Atención al cliente para productos globales. Si tus usuarios hablan tailandés, bengalí, suajili o finés, ahora tienes un único modelo que puede manejar su entrada de voz sin tener que pasar por una tubería ASR separada.
Procesamiento de contenido multilingüe. Podcasts, videos y entrevistas en idiomas que no son inglés se pueden transcribir, traducir y resumir en una sola llamada.
Cambio de idioma en medio de la conversación. Los hablantes bilingües a menudo cambian de idioma a mitad de la frase. Qwen3.5-Omni maneja esto de forma nativa. Una conversación que se mueve entre inglés y español no confunde al modelo ni degrada la precisión del reconocimiento.
Arquitectura: Thinker-Talker con MoE
El modelo utiliza una arquitectura Thinker-Talker. El componente Thinker procesa la entrada multimodal y genera tokens de razonamiento. El componente Talker convierte esos tokens en habla natural en tiempo real utilizando un enfoque de libro de códigos múltiples que minimiza la latencia.

Bajo el capó, la variante Plus utiliza Mixture of Experts (MoE), lo que significa que solo un subconjunto de parámetros del modelo se activa por token. Esto mantiene la inferencia rápida y eficiente en memoria en relación con un modelo denso de calidad equivalente.
Para la implementación local, vLLM es el servidor de inferencia recomendado debido a cómo maneja el enrutamiento de MoE. HuggingFace Transformers funciona pero es más lento en arquitecturas MoE.
Dónde encaja Apidog
Si estás evaluando si construir sobre la API de Qwen3.5-Omni, estarás enviando solicitudes multimodales: cuerpos JSON con audio codificado en base64, URL de imágenes, referencias de video y texto todo mezclado.

Depurar esas solicitudes sin un cliente API adecuado se vuelve doloroso rápidamente. Apidog maneja esto bien. Puedes construir y guardar tus plantillas de solicitud de Qwen3.5-Omni, establecer variables de entorno para tus claves API y escribir pruebas automatizadas que verifiquen la estructura y el contenido de la respuesta.
Para los equipos que evalúan las tres variantes del modelo, Apidog facilita la ejecución de la misma solicitud en Plus, Flash y Light y la comparación de la latencia y la calidad de salida una al lado de la otra.
Descarga Apidog gratis para comenzar a probar solicitudes de API multimodales.
Para quién es esto
Qwen3.5-Omni tiene sentido evaluarlo si estás construyendo:
Asistentes de voz. Entrada de voz en tiempo real, salida de voz, con memoria de conversación y recuperación web. Las características de interrupción semántica y ARIA resuelven dos de los problemas más difíciles en la UX de voz.
Herramientas de análisis de video. Resumen automático de video, transcripción de reuniones, generación de tutoriales a partir de grabaciones de pantalla. La ventana de contexto de 256K significa que puedes pasar grabaciones largas sin fragmentarlas.
Productos para clientes multilingües. ASR en 113 idiomas y TTS en 36 idiomas en un solo modelo. Sin un proveedor separado para cada nivel de idioma.
Herramientas de accesibilidad. Generación de texto alternativo para imágenes, descripciones de audio para contenido de video, generación de subtítulos en tiempo real con soporte de idiomas para idiomas con pocos recursos.
Herramientas de productividad para desarrolladores. La codificación de ambiente audiovisual convierte las grabaciones de pantalla en código funcional. Esa es una nueva modalidad de entrada para los asistentes de código.
Acceso
Qwen3.5-Omni está disponible a través de:
- Alibaba Cloud DashScope API (acceso a la API de producción)
- qwen.ai (interfaz web para pruebas)
- HuggingFace Hub (pesos del modelo para implementación local)
- ModelScope (recomendado para usuarios en China continental)
La API sigue el modelo de autenticación estándar de Alibaba Cloud. Necesitarás una clave de API de DashScope. Consulta la documentación de DashScope para obtener detalles del endpoint y precios por modalidad.
Qué observar
Qwen3.5-Omni es fuerte en los puntos de referencia de audio. Si esas mejoras en los puntos de referencia se traducen en una calidad real en tu caso de uso específico, vale la pena probarlo directamente. Los puntos de referencia miden el rendimiento agregado en conjuntos de prueba curados; no predicen cómo el modelo maneja el vocabulario de tu dominio, los acentos de tus usuarios o tus formatos de video.
La función de clonación de voz es solo para API por ahora. La interfaz web de qwen.ai aún no la expone.
La implementación local requiere una memoria GPU significativa. La variante Plus (MoE de 30B) necesita al menos 40 GB de VRAM para una inferencia cómoda. Las variantes Flash y Light son más accesibles.
Preguntas frecuentes
¿En qué se diferencia Qwen3.5-Omni de Qwen2.5-Omni?
Qwen2.5-Omni admitía tamaños de modelo densos de 7B y 3B con 19 idiomas para el habla. Qwen3.5-Omni utiliza una arquitectura MoE, amplía el reconocimiento de voz a 113 idiomas, añade clonación de voz e introduce ARIA para una mejor calidad de audio. El rendimiento del punto de referencia y la ventana de contexto también crecieron significativamente.
¿Puedo ejecutar Qwen3.5-Omni localmente?
Sí, a través de HuggingFace Transformers o vLLM. La variante Plus necesita más de 40 GB de VRAM. Las variantes Flash y Light se ejecutan en GPU más pequeñas. vLLM es la mejor opción para la implementación local en producción debido a la optimización de MoE.
¿Existe un nivel gratuito?
La interfaz web de qwen.ai es de uso gratuito. El acceso a la API a través de DashScope es de pago. Los precios por modalidad (tokens de audio, cuadros de video, tokens de texto) están disponibles en la documentación de precios de DashScope.
¿Admite streaming en tiempo real?
Sí. La arquitectura Thinker-Talker emite audio en un modo fragmentado por streaming, de modo que los primeros bytes de audio llegan antes de que se genere la respuesta completa. Esto es lo que hace que la conversación de voz en vivo se sienta natural.
¿Cuál es la diferencia entre Plus, Flash y Light?
Plus es la más alta calidad, ideal para tareas donde la precisión importa más que la velocidad. Flash es la opción equilibrada para la mayoría de las API de producción. Light es la más rápida, destinada a aplicaciones sensibles a la latencia como móviles o inferencia en el borde.
¿Puedo usar mi propia voz con la API?
Sí, mediante clonación de voz en la API. Subes una muestra de audio de la voz objetivo y el modelo la usa para la salida de voz. Esto aún no está disponible a través de la interfaz web.
¿Cómo se compara con ElevenLabs para la generación de voz?
Según los puntos de referencia de Alibaba en 20 idiomas, Qwen3.5-Omni Plus supera a ElevenLabs en estabilidad de voz multilingüe. ElevenLabs tiene un historial más largo y más opciones de personalización de voz en su producto. Si solo necesitas capacidades de voz, ElevenLabs sigue siendo una opción a comparar. Si necesitas un modelo multimodal integrado, Qwen3.5-Omni es la opción más clara.
¿Es seguro enviar datos de audio o video sensibles a través de la API?
Revisa el acuerdo de procesamiento de datos de Alibaba Cloud antes de enviar contenido sensible. Como con cualquier API en la nube, asume que los datos pueden ser registrados a menos que el acuerdo garantice explícitamente lo contrario.
