¿Qué es Qwen 3.7? El Nuevo Modelo de IA Insignia de Alibaba

Ashley Innocent

Ashley Innocent

21 May 2026

¿Qué es Qwen 3.7? El Nuevo Modelo de IA Insignia de Alibaba

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

El equipo Qwen de Alibaba acaba de lanzar su nuevo buque insignia, y la comunidad de IA está prestando atención. Qwen3.7-Max apareció en una tabla de clasificación pública antes de que nadie fuera de Alibaba tuviera un nombre para él, y luego fue revelado formalmente en la Cumbre de Alibaba Cloud de 2026 unos días después. Es un modelo de razonamiento creado para la era de los agentes: ejecución de tareas de largo alcance, una ventana de contexto de un millón de tokens y un puesto principal en al menos una importante clasificación de inteligencia.

Si creas software, un nuevo modelo de frontera no es una noticia abstracta. Terminarás conectándolo detrás de tu propia API, validando sus respuestas y simulando su salida mientras tu aplicación se construye. Esa parte del trabajo es exactamente para lo que sirve Apidog; este artículo se centra en el modelo en sí, para que sepas si Qwen 3.7 pertenece a tu stack. Todo lo siguiente se basa en el anuncio de Alibaba y en la cobertura independiente, y cuando un número aún no está confirmado, lo decimos claramente.

En resumen

Qwen 3.7 es la nueva familia de modelos de IA insignia de Alibaba, liderada por Qwen3.7-Max-Preview, un modelo de razonamiento propietario con una ventana de contexto de 1 millón de tokens y un modo de pensamiento extendido. Obtuvo una puntuación de 57 en el Índice de Inteligencia de Análisis Artificial, reportado como el resultado #1 en esa tabla de clasificación pública, y aproximadamente 1.475 Elo en la tabla de clasificación de texto de LM Arena. A mediados de mayo de 2026, la variante Max está solo en vista previa con acceso a la API implementándose en Alibaba Cloud; aún no se habían lanzado modelos de peso abierto de Qwen 3.7.

¿Qué es Qwen 3.7?

Qwen 3.7 es la última generación de modelos de lenguaje grandes de Qwen, la división de IA de la empresa tecnológica china Alibaba. El lanzamiento principal es Qwen3.7-Max-Preview, descrito por Alibaba como su modelo de agente más avanzado y completo hasta la fecha.

El nombre "Max" señala el nivel superior. A lo largo de las generaciones recientes de Qwen, Alibaba ha lanzado un modelo Max insignia junto con variantes más pequeñas y accesibles. Qwen3.7-Max-Preview es un modelo de razonamiento, lo que significa que resuelve un problema paso a paso antes de responder, en lugar de producir una respuesta en una sola pasada. Ese enfoque de pensamiento extendido es ahora estándar en la frontera; sacrifica un poco de velocidad y costo de tokens por resultados más sólidos en matemáticas difíciles, codificación y lógica de varios pasos.

Dos fechas son importantes aquí. El modelo apareció por primera vez en la tabla de clasificación de texto de LM Arena alrededor del 14 de mayo de 2026, listado bajo un nombre de vista previa antes de que Alibaba hubiera dicho algo públicamente. El anuncio formal se realizó en la Cumbre de Alibaba Cloud de 2026 el 20 de mayo, y el modelo llegó a la plataforma API de Alibaba el 19 de mayo. Así que la versión a la que la mayoría de la gente puede acceder hoy lleva un sufijo "-Preview"; es una versión inicial, y los detalles pueden cambiar antes de un lanzamiento estable.

El marco en toda la comunicación de Alibaba es agéntico. Qwen3.7-Max se presenta menos como un chatbot y más como un motor para el trabajo autónomo: escribir y depurar código, automatizar flujos de trabajo de oficina y ejecutar largas cadenas de tareas con una supervisión mínima. Veremos cómo se ve eso en la práctica más adelante.

La línea de variantes de Qwen 3.7

Aquí es donde la honestidad importa, porque Qwen 3.7 tiene pocos días y gran parte de internet está adivinando.

Lo que está confirmado:

Lo que no está confirmado:

El patrón de lanzamientos anteriores es instructivo sin ser una promesa. Alibaba ha estado avanzando hacia mantener su mejor modelo propietario mientras abre el código fuente del nivel inferior; esto da a los desarrolladores acceso gratuito y autoalojado a un modelo potente y reserva el buque insignia para los ingresos pagados por la API. Si Qwen 3.7 sigue esa plantilla, espera pesos de nivel medio abiertos eventualmente, pero trata cualquier tamaño o fecha específica que veas en línea como especulación hasta que Alibaba lo confirme.

La conclusión segura: cuando alguien dice "Qwen 3.7" hoy, casi con certeza se refiere a Qwen3.7-Max-Preview, y ese modelo es de peso cerrado.

La ventana de contexto de 1 millón de tokens

Qwen3.7-Max-Preview cuenta con una ventana de contexto de 1 millón de tokens, según Artificial Analysis. Esa es la cantidad de texto que el modelo puede mantener en la memoria de trabajo a la vez: tu prompt, cualquier documento que pegues, la conversación hasta el momento y la respuesta que está generando.

Un millón de tokens equivale aproximadamente a 700.000 a 750.000 palabras en inglés. En términos concretos, eso es suficiente para incluir un repositorio de código de tamaño mediano completo, una pila de PDF largos o meses de historial de chat en una sola solicitud. El modelo puede razonar sobre todo esto sin que tengas que dividir manualmente la entrada o construir una capa de recuperación.

Dos advertencias mantienen esto honesto. Primero, una ventana de contexto grande es un techo, no una garantía; los modelos a menudo recuperan y razonan de manera menos confiable a medida que la ventana se llena, y las pruebas independientes de contexto largo para Qwen 3.7 aún son escasas. Segundo, los contextos grandes cuestan dinero. Cada token que envías se factura, por lo que un prompt de un millón de tokens es un prompt costoso. Utiliza la ventana completa cuando la tarea realmente lo necesite, y recorta agresivamente cuando no lo haga.

Un contexto de 1M ya no es raro en la frontera. Los modelos insignia actuales de OpenAI, Google y Anthropic anuncian ventanas de contexto alrededor o por encima de la marca de un millón de tokens, por lo que Qwen 3.7 coincide con el campo aquí en lugar de liderarlo.

Modo de razonamiento y pensamiento extendido

Qwen3.7-Max-Preview es un modelo de razonamiento, y eso moldea la forma en que lo usas.

Cuando le das un problema difícil, el modelo primero genera una cadena de pensamiento: una secuencia interna de pasos donde planifica, verifica su trabajo y corrige el rumbo antes de comprometerse con una respuesta final. En interfaces como Qwen Chat, esto aparece como un modo "Pensando" que puedes activar para ver el rastro de razonamiento del modelo.

El costo de esto es visible en los datos. Cuando Artificial Analysis ejecutó su evaluación del Índice de Inteligencia, Qwen3.7-Max generó aproximadamente 97 millones de tokens, muy por encima del promedio de aproximadamente 24 millones de tokens para los modelos en ese benchmark. Los modelos de razonamiento son verbosos por diseño; piensan en voz alta, y cada token de pensamiento es un token por el que pagas y esperas.

Esa compensación tiene una forma práctica. Para una llamada de clasificación rápida o una reescritura corta, toda esa deliberación es un gasto inútil. Para una refactorización espinosa, una prueba de varios pasos o una tarea de agente que tiene que planificar varios movimientos por adelantado, el razonamiento adicional es lo que hace que el modelo valga la pena usarlo. Adapta el modo al trabajo.

Esto también importa cuando pruebas el modelo. La salida del razonamiento es más larga y variable que una simple finalización, por lo que tus aserciones deben apuntar a la respuesta final en lugar de la redacción exacta del rastro de pensamiento. Una configuración práctica para eso, incluyendo cómo inspeccionar cada llamada al modelo, se cubre en la guía sobre cómo usar la API de Qwen 3.7.

Benchmarks de Qwen 3.7: dónde se sitúa

Los números de los benchmarks para un modelo tan nuevo deben leerse con cuidado. Algunos provienen de terceros independientes, otros de las propias pruebas de Alibaba, y una versión preliminar puede cambiar antes del lanzamiento. Esto es lo que se informó a mediados de mayo de 2026, con las fuentes adjuntas.

Índice de Inteligencia de Análisis Artificial

El Índice de Inteligencia de Análisis Artificial es una puntuación compuesta que combina evaluaciones de razonamiento, conocimiento, matemáticas y codificación en un solo número. Qwen3.7-Max obtuvo 57 en este índice, según Artificial Analysis. Eso se informó como un salto de cinco puntos con respecto al 52 del Qwen 3.6 Max Preview anterior, y Artificial Analysis lo listó como el #1 entre 218 modelos clasificados en su tabla de clasificación pública.

Esa es una buena actuación. La advertencia es la anterior: el índice recompensa a los modelos que piensan largamente, Qwen 3.7 es muy verboso y un solo número compuesto comprime muchos detalles.

Elo de texto de LM Arena

LM Arena clasifica los modelos por preferencia humana. Las personas comparan dos respuestas de modelos anónimos y votan por la mejor; esos votos producen una calificación Elo, el mismo sistema utilizado en ajedrez. Qwen3.7-Max-Preview entró en la tabla de clasificación de texto de LM Arena con un Elo de alrededor de 1.475, ubicándolo aproximadamente en el puesto #13 en general en la arena de texto, según la cobertura de la tabla de clasificación. Ocupó un lugar más alto en categorías específicas, incluido el top diez en matemáticas y codificación.

Elo y el Índice de Inteligencia miden cosas diferentes. El Índice de Inteligencia es la corrección calificada por tareas; Elo es qué respuesta les gustó más a los humanos. Un modelo puede encabezar uno y situarse a mitad de tabla en el otro, que es aproximadamente la imagen de Qwen 3.7: una puntuación compuesta que encabeza la tabla de clasificación, una clasificación respetable pero no dominante en preferencia humana.

Afirmaciones de razonamiento y agentes

El propio anuncio de Alibaba destacó los resultados agénticos: Qwen3.7-Max mantuvo la ejecución autónoma de tareas durante hasta 35 horas y manejó más de 1.000 llamadas a herramientas en una sola ejecución sin que el rendimiento disminuyera. Informes independientes sobre la generación anterior también situaron el razonamiento de Qwen cerca de la cima del campo en preguntas de ciencia a nivel de posgrado. Trate los números de agentes de primera parte como afirmaciones del proveedor hasta que terceros los reproduzcan; describen la fuerza prevista del modelo, que es un trabajo largo y que requiere muchas herramientas.

Cómo se compara Qwen 3.7 con GPT-5.5, Claude Opus 4.7 y Gemini 3.5

Aquí hay una comparación lado a lado de los modelos frontera actuales. Se citan cifras verificadas; los valores no confirmados o no revelados se marcan para que no te equivoques.

Especificación Qwen3.7-Max-Preview GPT-5.5 Claude Opus 4.7 Gemini 3.5
Proveedor Alibaba (Qwen) OpenAI Anthropic Google DeepMind
Tipo Modelo de razonamiento Modelo de razonamiento Modelo de razonamiento Modelo de razonamiento
Ventana de contexto 1M tokens ~1M tokens ~1M tokens (rango reportado) ~1M+ tokens
Pesos Propietario Propietario Propietario Propietario
Índice de Inteligencia AA 57 (reportado #1) No especificado aquí No especificado aquí No especificado aquí
Etapa de lanzamiento Vista previa Estable Estable Estable
Modo de razonamiento / pensamiento
Fortaleza destacada Tareas de agente de largo plazo Agentes autónomos, uso de herramientas Código de calidad de producción Contexto largo, eficiencia de costos

Algunas lecturas honestas de esa tabla.

En cuanto a la inteligencia compuesta bruta, el 57 reportado por Qwen3.7-Max en el Índice de Inteligencia de Análisis Artificial lo colocó en la cima de esa tabla de clasificación específica en el momento del lanzamiento. Ese es un resultado real, pero es un único benchmark, y los buques insignia occidentales lideran diferentes evaluaciones que no están todas capturadas por un solo índice.

Las diferencias más claras son sobre el ajuste. Las comparaciones independientes de la generación actual generalmente describen a Claude Opus 4.7 como la mejor opción para enviar código de producción, a GPT-5.5 como el líder para agentes autónomos y trabajo de uso de computadoras, y a Gemini 3.5 como la opción de bajo costo y contexto largo. La propuesta de Qwen 3.7 se acerca más al ámbito de los agentes, con los ángulos adicionales de precios competitivos de la API y el historial plausible de Alibaba de abrir el código fuente de un nivel por debajo del buque insignia.

El factor decisivo para la mayoría de los equipos es el acceso, no una tabla de clasificación. Los buques insignia occidentales son estables y están disponibles globalmente hoy; Qwen3.7-Max es solo una vista previa con acceso a la API que aún se está implementando. Para un enfrentamiento más completo y basado en números una vez que se asiente el polvo, consulta Qwen 3.7 vs GPT-5.5 vs Opus 4.7. Si tu lista de opciones incluye la línea de Google, el explicador sobre qué es Gemini 3.5 y el enfrentamiento en Gemini 3.5 vs GPT-5.5 vs Opus 4.7 cubren ese lado. Y si estás siguiendo el campo más amplio de modelos chinos, el resumen de qué es ERNIE 5.1 te ofrece el buque insignia competidor de Baidu.

Cómo acceder a Qwen 3.7 hoy

A mediados de mayo de 2026, hay dos caminos prácticos, más uno a observar.

Qwen Chat. La forma más rápida de probar el modelo es la interfaz de chat oficial en chat.qwen.ai. Una cuenta gratuita te da acceso con límites de uso, y puedes activar el modo Pensando para ver el modelo razonar. Este es el punto de partida adecuado para probarlo antes de comprometer cualquier código.

API de Alibaba Cloud. Qwen3.7-Max llegó a la plataforma API de Alibaba el 19 de mayo de 2026, y Alibaba describió el acceso más amplio a la API como en proceso de implementación. En los lanzamientos recientes de Qwen, el modelo insignia se ha ofrecido a través de la plataforma de modelos de Alibaba Cloud; consulta la documentación actual de modelos de Alibaba Cloud para el nombre exacto del punto final y los precios, ya que la disponibilidad y las tarifas de un modelo de vista previa pueden cambiar semana a semana. Para una guía paso a paso sobre cómo configurar las llamadas y manejar la salida de razonamiento, la guía dedicada sobre cómo usar la API de Qwen 3.7 lo explica.

Pesos abiertos. Si esperas autoalojar, la respuesta honesta es: todavía no. No se había lanzado ningún modelo de peso abierto de Qwen 3.7 a mediados de mayo de 2026. Si Alibaba sigue su patrón reciente de liberar el código de la capa inferior al buque insignia, los pesos de tamaño medio descargables podrían llegar más tarde; hasta entonces, cada ruta a Qwen 3.7 pasa por el servicio alojado de Alibaba. Las opciones gratuitas y económicas a medida que surjan se rastrean en la guía sobre cómo usar Qwen 3.7 gratis.

Cualquiera que sea el camino que tomes, el modelo reside detrás de una API, y tu aplicación se comunica con esa API. Diseñar esas solicitudes, simular respuestas mientras construyes y probar la integración antes del lanzamiento es donde una plataforma como Apidog encaja en el ciclo. Descarga Apidog y configura una colección de solicitudes de Qwen 3.7 en unos minutos.

Conclusión

Qwen 3.7 es una entrada seria en la frontera de la IA, y llegó rápido. La versión corta:

Si Qwen 3.7 entra en tu lista de preselección, el siguiente paso es integrarlo en una aplicación real y demostrar que la integración funciona. Apidog te permite diseñar la solicitud API, simular las respuestas del modelo mientras construyes, ejecutar pruebas automatizadas contra el punto final en vivo e inspeccionar cada llamada. Descarga Apidog y convierte un titular de benchmark en algo que realmente hayas lanzado.

botón

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs