Qwen 3.7 Plus: Modelo de agente multimodal de Alibaba, benchmarks y precios

Qwen 3.7 Plus es el modelo multimodal hermano de Alibaba de Qwen3.7-Max: entrada de texto, imagen y video, contexto de 1M, fundamentación de agentes GUI, y un precio económico de $0.40/$1.60 por 1M de tokens. Puntos de referencia, acceso y la salvedad propietaria.

Ashley Innocent

Ashley Innocent

3 June 2026

Qwen 3.7 Plus: Modelo de agente multimodal de Alibaba, benchmarks y precios

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

Alibaba lanzó Qwen 3.7 Plus pocos días después de Qwen3.7-Max. La versión corta: Plus es Max con ojos. Mantiene el mismo contexto de 1M de tokens y la columna vertebral de agente, añade entrada de imagen y video, y aterriza en aproximadamente una sexta parte del precio de Max. Si has estado siguiendo la familia, nuestra guía sobre qué es Qwen 3.7 cubre el buque insignia de texto; esta publicación trata sobre lo que la nueva variante Plus añade.

Una cosa a señalar de antemano, porque cambia a quién debería importarle: Qwen 3.7 Plus es solo API y propietario. No hay pesos abiertos, lo que rompe con el hábito de código abierto de Qwen. Veremos lo que eso significa a continuación. Dado que Plus se envía solo como una API, pasarás tu tiempo llamándola y depurándola; ahí es donde entra Apidog, cubierto al final.

button

La respuesta corta

Qwen 3.7 Plus es el hermano multimodal y de bajo precio de Qwen3.7-Max. Entrégale una captura de pantalla, un prototipo de diseño o un video, y razona sobre ellos como una entrada de primera clase. Está diseñado para agentes que manejan interfaces gráficas: puede mirar una captura de pantalla de una aplicación y devolver coordenadas de píxeles exactas para hacer clic.

Gráfico comparativo de Qwen 3.7 Plus vs Max y las puntuaciones de ScreenSpot Pro, Terminal-Bench y Autonomous Run Ceiling.

En texto puro, Max todavía lo supera ligeramente. En cualquier cosa con una señal visual, Plus es el que quieres, y cuesta una fracción de Max de cualquier manera. La única desventaja real son los pesos cerrados.

Novedades frente a Qwen 3.7 Max

Tres cambios importan.

Ve. Max es solo texto. Plus acepta texto, imágenes y video. Esto desbloquea la percepción de capturas de pantalla, la lectura de documentos y PDF, y la comprensión de video desde un único modelo.

Base GUIs. Plus se posiciona como un agente interactivo multimodal que maneja la automatización del navegador, la navegación GUI y flujos de trabajo híbridos GUI-más-CLI. Produce planes de acción estructurados como "hacer clic en (x=487, y=232)", que es lo que hace que los agentes de uso de computadora realmente funcionen.

Es barato. Plus funciona a un nivel de presupuesto muy por debajo de Max.

Qwen 3.7 Plus Qwen 3.7 Max
Modalidades de entrada Texto, imagen, video Solo texto
Ventana de contexto 1M de tokens (compartida con la visión) 1M de tokens
Entrada / salida por 1M $0.40 / $1.60 $2.50 / $7.50
Entrada en caché por 1M $0.08 $0.25
Fundamentación GUI (ScreenSpot Pro) 79.0 Ninguna
Terminal-Bench 70.3 69.7
Límite de ejecución autónoma 35 horas 35 horas

Benchmarks

Los números de lanzamiento, respaldados por reseñas prácticas tempranas, cuentan una historia consistente: Plus iguala o supera ligeramente a Max en texto, y luego toma la delantera en el momento en que la visión entra en juego.

Gráfico de barras que compara Qwen 3.7 Plus y Qwen 3.7 Max en varios benchmarks, incluyendo ScreenSpot Pro, Terminal-Bench, SWE-Bench Pro, MCP-Atlas y LM Arena.

El patrón es claro. Elige Plus cuando la tarea conlleve una señal visual: una captura de pantalla, un prototipo, un gráfico. Para una comparación directa en el lado del texto, nuestra comparación de Qwen 3.7 vs GPT-5.5 vs Opus 4.7 cubre dónde se sitúa la familia frente a los buques insignia occidentales. Como siempre, los números de referencia provienen del proveedor y de los primeros revisores, así que trátalos como una dirección más que como un evangelio.

Precios: el nivel multimodal de presupuesto

Aquí es donde Plus se pone interesante. Con $0.40 de entrada y $1.60 de salida por millón de tokens, es aproximadamente seis veces más barato que Max en entrada y casi cinco veces más barato en salida. La entrada en caché baja a $0.08. Obtienes visión y un contexto de 1M por menos de lo que cobran la mayoría de los modelos solo de texto.

Una advertencia que vale la pena incluir en tu modelo de costos: las imágenes y el video comparten ese presupuesto de 1M de tokens. Una captura de pantalla de alta resolución puede quemar miles de tokens, y los fotogramas de video se suman rápidamente, por lo que tu margen de texto efectivo se reduce a medida que aumenta la carga visual. Presupuesta para ello. Para un contexto más amplio sobre por qué los laboratorios chinos siguen rebajando los precios, consulta nuestro desglose de la guerra de precios de LLM chinos de 2026.

La desventaja: propietario y solo API

Qwen construyó su tracción empresarial con pesos abiertos. Gran parte de la línea Qwen anterior se envió bajo licencias Apache 2.0 o de uso abierto, por lo que los equipos podían descargar, ajustar y ejecutar modelos dentro de centros de datos aislados. Qwen 3.7 Plus no hace eso.

Plus se entrega estrictamente como una API comercial gestionada a través de Alibaba Cloud Model Studio. No puedes descargar los pesos, no puedes alojarlo tú mismo y no puedes ejecutarlo sin conexión. Para entornos regulados o aislados, eso es un impedimento. Una variante Plus de pesos abiertos ha sido sugerida para el tercer trimestre de 2026, pero no está confirmada, y el nivel propietario puede permanecer cerrado. Si los pesos abiertos son un requisito, este modelo no es tu elección hoy; rivales como Step 3.7 Flash se envían bajo Apache 2.0 y lo superan en precio.

Cómo acceder a Qwen 3.7 Plus

Dos caminos:

Una llamada multimodal mínima utiliza el formato de mensaje estándar de OpenAI, con una parte de imagen añadida junto al texto:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Which button submits this form? Give pixel coordinates."},
            {"type": "image_url", "image_url": {"url": "https://example.com/screenshot.png"}},
        ],
    }],
)
print(resp.choices[0].message.content)

Consulta la documentación de Model Studio para conocer el identificador exacto del modelo y la URL base regional, ya que estos difieren entre los puntos finales internacionales y de China.

Quién debería usarlo

Acude a Qwen 3.7 Plus cuando tu trabajo se parezca a esto:

Quédate con Max si estás optimizando puramente para puntuaciones de texto SWE-Bench Pro o necesitas la latencia más rápida solo de texto, donde funciona un poco más rápido en rutas frías. Para la mayoría de las cargas de trabajo mixtas, la opción multimodal más económica es la predeterminada sensible. Si estás comparando Plus con otros modelos abiertos y económicos, nuestra comparación de MiniMax M3 vs DeepSeek V4 vs Qwen 3.7 es un mapa útil.

Probando Qwen 3.7 Plus con Apidog

Dado que Plus es solo API, vives en la API. Las solicitudes multimodales son complicadas: estás codificando imágenes, adjuntando videos y leyendo planes de acción estructurados, a menudo dentro de un bucle de llamadas a herramientas que se ejecuta durante minutos u horas. Necesitas ver exactamente lo que envía cada solicitud y lo que regresa.

Apidog está diseñado para eso. Envía solicitudes a Qwen 3.7 Plus con cargas útiles de imagen y video, inspecciona las respuestas sin procesar, gestiona tus claves de Model Studio en diferentes entornos y simula el punto final para que tu aplicación siga desarrollándose mientras ajustas las indicaciones. Para el lado de los agentes, donde Plus encadena llamadas de herramientas a través de un flujo de trabajo GUI y CLI, el depurador de agentes de IA de Apidog muestra la secuencia completa de llamadas para que puedas encontrar dónde falló una ejecución.

Descarga Apidog para probar, depurar y simular la API de Qwen 3.7 Plus antes de que llegue a producción.

Preguntas frecuentes

¿Es Qwen 3.7 Plus de código abierto? No. Es propietario y solo está disponible como una API gestionada a través de Alibaba Cloud Model Studio. No puedes descargar ni autoalojar los pesos. Se ha sugerido una variante de pesos abiertos para el tercer trimestre de 2026, pero no está confirmada.

Qwen 3.7 Plus o Max, ¿cuál debo usar? Usa Plus si necesitas visión (capturas de pantalla, PDF, video) o si quieres un precio más bajo, lo que cubre la mayoría de las cargas de trabajo. Usa Max si estás optimizando para puntuaciones de texto puro SWE-Bench Pro o necesitas la latencia más rápida solo de texto.

¿Cuánto cuesta Qwen 3.7 Plus? $0.40 por millón de tokens de entrada, $1.60 por millón de tokens de salida y $0.08 por entrada en caché. Eso es aproximadamente seis veces más barato que Qwen3.7-Max.

¿Qwen 3.7 Plus maneja video? Sí. Acepta texto, imágenes y video como entrada. Recuerda que los tokens visuales comparten el presupuesto de contexto de 1M de tokens, por lo que las grandes cargas de medios reducen tu margen de texto.

¿Cuál es la ventana de contexto? 1M de tokens, heredados de la estructura Max, compartidos entre tokens de texto, imagen y video.

¿Cómo accedo a Qwen 3.7 Plus? A través de la API de Alibaba Cloud Model Studio, o pruébalo en el navegador en chat.qwen.ai.

Conclusión

Qwen 3.7 Plus toma el buque insignia de agentes de Alibaba, le añade visión y reduce el precio a un nivel económico. Para los desarrolladores que crean agentes de uso de computadoras, codificación basada en capturas de pantalla o comprensión de video, es una de las opciones multimodales de nivel de frontera más baratas disponibles. La contrapartida que aceptas son los pesos cerrados y una dependencia estricta de la nube de Alibaba.

Si esa contrapartida te funciona, el siguiente paso es la API en sí. Pruébala, depura las llamadas multimodales y simula las respuestas en Apidog para que lo que envíes se mantenga bajo tráfico real.

button

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs