Alibaba lanzó dos modelos insignia de la línea Qwen 3.7 en dos semanas: Qwen3.7-Max, el modelo de razonamiento solo de texto, y Qwen3.7-Plus, la versión multimodal que añade visión y cuesta una fracción del precio. Comparten el mismo contexto de 1M de tokens y el mismo techo autónomo de 35 horas, por lo que la elección no es obvia solo por la hoja de especificaciones.
Esta guía los compara en cuanto a benchmarks, precio, velocidad y la decisión para el uso diario. Si primero desea conocer el trasfondo de cada modelo, consulte nuestra descripción general de Qwen 3.7 Plus y la guía más amplia qué es Qwen 3.7. Cualquiera que elija, lo llamará a través de una API y necesitará probar las respuestas; ahí es donde entra Apidog, cubierto al final.
La respuesta corta
Elija Plus por defecto. Coincide con Max en el uso de herramientas, lo supera en tareas terminales, añade entrada de imagen y video, y cuesta aproximadamente seis veces menos. Para la mayoría de las cargas de trabajo, esa decisión ya está tomada solo por el precio.

Elija Max solo cuando optimice puramente para texto. Mantiene una pequeña ventaja en las tablas de clasificación de solo texto y se ejecuta un poco más rápido en arranques en frío solo de texto. Si su trabajo nunca toca una captura de pantalla o la imagen de un documento, esa ventaja puede importar. Para todo lo demás, Plus gana.
La diferencia principal
Max es el modelo insignia puramente de texto. Razona, codifica y ejecuta largas cadenas de agentes, todo a partir de la entrada de texto. Plus toma la misma base y le añade ojos: acepta imágenes y video, y asienta las interfaces gráficas lo suficientemente bien como para devolver las coordenadas exactas de clic de una captura de pantalla. Luego supera a Max en precio.

Así que la compensación es estrecha. Renuncia a una ligera ventaja en calidad de texto y latencia, y gana visión más una factura mucho más barata.
Benchmarks
Los números cuentan una historia consistente. Plus sigue a Max ligeramente en texto puro, empata en el uso de herramientas y toma la delantera en el momento en que entra la visión.
| Benchmark | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| LM Arena (texto) | #15 | #13 |
| LM Arena (codificación) | #12 | #10 |
| Vision Arena | #16 | No aplica |
| SWE-Bench Pro | ~60% | 60.6% |
| Terminal-Bench (2.0 Terminus) | 70.3 | 69.7 |
| ScreenSpot Pro (GUI grounding) | 79.0 | Ninguno |
| MCP-Atlas (uso de herramientas) | 76.4 | 76.4 |
Tres cosas destacan.
SWE-Bench Pro es prácticamente un empate. Plus se sitúa alrededor del 60% frente al 60.6% de Max. En tareas de software reales, los parámetros de visión no le cuestan a Plus ninguna capacidad de codificación significativa. Nuestra comparación de Qwen 3.7 vs GPT-5.5 vs Opus 4.7 muestra dónde se sitúa frente a los modelos insignia occidentales.
Plus realmente gana Terminal-Bench, 70.3 a 69.7. Para el trabajo de agente con mucha shell, el modelo más barato es también el ligeramente más potente.
El asentamiento de GUI es el verdadero diferenciador. ScreenSpot Pro 79.0 está a la vanguardia, y Max no puede ejecutarlo en absoluto. Si su agente tiene que mirar una pantalla, solo uno de estos modelos califica. Como siempre, trate los números de benchmark del proveedor como una dirección, no como evangelio; el sitio de SWE-bench explica qué mide cada suite.
Precios
Aquí es donde la brecha es amplia.
| Qwen 3.7 Plus | Qwen 3.7 Max | |
|---|---|---|
| Entrada / 1M tokens | $0.40 | $2.50 |
| Salida / 1M tokens | $1.60 | $7.50 |
| Entrada en caché / 1M | $0.08 | $0.25 |
Plus es aproximadamente seis veces más barato en entrada y casi cinco veces más barato en salida. Para agentes de alto volumen o de larga duración, esa relación decide los presupuestos. El modelo más barato también lee imágenes, lo que hace que Max sea difícil de vender a menos que necesite específicamente su ventaja de texto.
Una advertencia para Plus: las imágenes y el video se tokenizan y comparten el presupuesto de contexto de 1M, por lo que una carga de trabajo con muchas capturas de pantalla o video gasta más por llamada de lo que sugiere la tarifa por token. Reduzca el tamaño de las imágenes y muestree el video con moderación. Nuestras notas sobre cómo reducir los costos de tokens del agente y la guerra de precios de LLM chinos de 2026 cubren el panorama de costos más amplio. Las tarifas oficiales se encuentran en la página de precios de Model Studio.
Especificaciones y velocidad
| Qwen 3.7 Plus | Qwen 3.7 Max | |
|---|---|---|
| Modalidades de entrada | Texto, imagen, video | Solo texto |
| Ventana de contexto | 1M (compartida con visión) | 1M |
| Techo de ejecución autónoma | 35 horas | 35 horas |
| Latencia solo de texto | Línea base | ~7–15% más rápido en rutas en frío |
| Pesos | Propietario, solo API | Propietario, solo API |
La línea de latencia es la ventaja silenciosa de Max. En arranques en frío solo de texto, responde notablemente más rápido, lo que se acumula en productos tipo chat donde el tiempo hasta el primer token es visible para los usuarios; el análisis independiente rastrea en detalle la compensación entre velocidad e inteligencia. Ambos modelos son de peso cerrado y se ejecutan solo a través de Alibaba Cloud Model Studio, por lo que ninguno es una opción si necesita autoalojarse.
Cuál debería elegir
Elija Qwen 3.7 Plus si:
- Su trabajo toca imágenes, capturas de pantalla, PDFs o video.
- Está construyendo agentes de uso informático o GUI que leen una pantalla.
- El costo importa, lo que según estos números significa casi siempre.
Elija Qwen 3.7 Max si:
- Está optimizando puramente para puntuaciones de SWE-Bench Pro solo de texto.
- Necesita la respuesta de texto más rápida en un producto sensible a la latencia.
- Nunca envía entrada visual y desea cada punto de calidad de texto.
Para la mayoría de los equipos, Plus es el valor predeterminado sensato y Max es el especialista. La brecha de costos es lo suficientemente grande como para que desee una razón concreta para pagar seis veces más por un modelo solo de texto.
Para concretar esto, aquí le mostramos cómo se mapean las cargas de trabajo comunes:
| Carga de trabajo | Elegir | Por qué |
|---|---|---|
| Agente de QA de capturas de pantalla o regresión visual | Plus | Necesita GUI grounding; solo Plus ve la pantalla |
| Extracción de facturas, recibos o PDFs escaneados | Plus | Las imágenes de documentos requieren entrada de visión |
| Clasificación de texto de alto volumen | Plus | Misma calidad de texto, una fracción del costo |
| Chatbot de atención al cliente de baja latencia | Max | Los arranques en frío más rápidos solo de texto importan a los usuarios |
| Ejecución de codificación autónoma larga | Cualquiera | Empatan en SWE-Bench Pro, así que que el costo decida |
El patrón se repite: a menos que una carga de trabajo sea solo de texto y sensible a la latencia, el modelo multimodal más barato es la opción predeterminada más segura.
Probando ambos con Apidog
Ambos modelos comparten el mismo endpoint de Model Studio compatible con OpenAI, por lo que el cambio entre ellos es un cambio de una línea en el ID del modelo. Esto facilita compararlos directamente: envíe el mismo prompt a qwen3.7-plus y qwen3.7-max, alinee las respuestas y vea si la diferencia de precio vale la pena para su tarea.

Apidog está diseñado para ese ciclo. Realice solicitudes a ambos modelos, inspeccione el JSON sin procesar lado a lado, almacene su clave de Model Studio por entorno y simule los endpoints para que su aplicación siga construyendo. Para las solicitudes multimodales de Plus, nuestra guía de la API de Qwen 3.7 Plus muestra el formato de carga útil de imagen y video, y la guía de la API base de Qwen 3.7 cubre la ruta de texto. Cuando cualquiera de los modelos encadena llamadas de herramientas en una ejecución de agente, el depurador de agentes de IA de Apidog muestra la secuencia completa.
Descargue Apidog para probar y comparar ambos modelos Qwen 3.7 antes de integrarlos en producción.
Preguntas frecuentes
¿Es Qwen 3.7 Plus mejor que Max? Para la mayoría de las cargas de trabajo, sí, porque añade visión y cuesta mucho menos, mientras iguala a Max en codificación y uso de herramientas. Max mantiene una pequeña ventaja en las tablas de clasificación solo de texto y en la latencia solo de texto.
¿Cuánto más barato es Plus? Aproximadamente seis veces más barato en entrada ($0.40 vs $2.50 por millón de tokens) y casi cinco veces más barato en salida ($1.60 vs $7.50).
¿Comparten la misma ventana de contexto? Sí, ambos tienen una ventana de 1M de tokens. En Plus, las imágenes y el video consumen tokens de ese mismo presupuesto.
¿Puede Max procesar imágenes? No. Max es solo de texto. Si necesita entrada de imagen o video, necesita Plus.
¿Alguno de ellos es de código abierto? No. Ambos son propietarios y se ejecutan solo a través de Alibaba Cloud Model Studio. No puede descargar ni autoalojar los pesos.
¿Cuál es más rápido? Max es aproximadamente entre un 7 y un 15% más rápido en rutas en frío solo de texto. Para trabajos mixtos o de visión, Plus es la única opción de todos modos.
En resumen
Qwen 3.7 Max y Plus no compiten realmente por el mismo trabajo. Max es el purista del texto con una ligera ventaja en velocidad y calidad; Plus es el generalista multimodal más barato que gana en casi todos los aspectos donde el precio o la visión son importantes. Comience con Plus, y recurra a Max solo cuando una carga de trabajo puramente de texto justifique la prima. De cualquier manera, pruebe la API en Apidog para que lo que envíe se comporte como prometen los benchmarks.
