Qwen 3.7 Plus: Modelo de agente multimodal de Alibaba, benchmarks y precios

Alibaba lanzó Qwen 3.7 Plus pocos días después de Qwen3.7-Max. La versión corta: Plus es Max con ojos. Mantiene el mismo contexto de 1M de tokens y la columna vertebral de agente, añade entrada de imagen y video, y aterriza en aproximadamente una sexta parte del precio de Max. Si has estado siguiendo la familia, nuestra guía sobre qué es Qwen 3.7 cubre el buque insignia de texto; esta publicación trata sobre lo que la nueva variante Plus añade.

Una cosa a señalar de antemano, porque cambia a quién debería importarle: Qwen 3.7 Plus es solo API y propietario. No hay pesos abiertos, lo que rompe con el hábito de código abierto de Qwen. Veremos lo que eso significa a continuación. Dado que Plus se envía solo como una API, pasarás tu tiempo llamándola y depurándola; ahí es donde entra Apidog, cubierto al final.

button

La respuesta corta

Qwen 3.7 Plus es el hermano multimodal y de bajo precio de Qwen3.7-Max. Entrégale una captura de pantalla, un prototipo de diseño o un video, y razona sobre ellos como una entrada de primera clase. Está diseñado para agentes que manejan interfaces gráficas: puede mirar una captura de pantalla de una aplicación y devolver coordenadas de píxeles exactas para hacer clic.

Gráfico comparativo de Qwen 3.7 Plus vs Max y las puntuaciones de ScreenSpot Pro, Terminal-Bench y Autonomous Run Ceiling.

En texto puro, Max todavía lo supera ligeramente. En cualquier cosa con una señal visual, Plus es el que quieres, y cuesta una fracción de Max de cualquier manera. La única desventaja real son los pesos cerrados.

Novedades frente a Qwen 3.7 Max

Tres cambios importan.

Ve. Max es solo texto. Plus acepta texto, imágenes y video. Esto desbloquea la percepción de capturas de pantalla, la lectura de documentos y PDF, y la comprensión de video desde un único modelo.

Base GUIs. Plus se posiciona como un agente interactivo multimodal que maneja la automatización del navegador, la navegación GUI y flujos de trabajo híbridos GUI-más-CLI. Produce planes de acción estructurados como "hacer clic en (x=487, y=232)", que es lo que hace que los agentes de uso de computadora realmente funcionen.

Es barato. Plus funciona a un nivel de presupuesto muy por debajo de Max.

	Qwen 3.7 Plus	Qwen 3.7 Max
Modalidades de entrada	Texto, imagen, video	Solo texto
Ventana de contexto	1M de tokens (compartida con la visión)	1M de tokens
Entrada / salida por 1M	$0.40 / $1.60	$2.50 / $7.50
Entrada en caché por 1M	$0.08	$0.25
Fundamentación GUI (ScreenSpot Pro)	79.0	Ninguna
Terminal-Bench	70.3	69.7
Límite de ejecución autónoma	35 horas	35 horas

Benchmarks

Los números de lanzamiento, respaldados por reseñas prácticas tempranas, cuentan una historia consistente: Plus iguala o supera ligeramente a Max en texto, y luego toma la delantera en el momento en que la visión entra en juego.

ScreenSpot Pro: 79.0. Esta es la prueba de fundamentación GUI, la capacidad del modelo para mirar una captura de pantalla y producir coordenadas de píxeles exactas. 79.0 es de nivel de frontera, y Max no puede ejecutarla en absoluto.
Terminal-Bench: 70.3. Ligeramente por delante del 69.7 de Max, incluso con los parámetros de visión añadidos.
SWE-Bench Pro: alrededor del 60%, esencialmente al mismo nivel que el 60.6% de Max.
MCP-Atlas: 76.4, un empate con Max en orquestación de uso de herramientas.
LM Arena: Plus se queda un poco por detrás de Max en texto (#15 vs #13) y codificación (#12 vs #10). Para trabajos puramente de texto, Max mantiene una pequeña ventaja.

El patrón es claro. Elige Plus cuando la tarea conlleve una señal visual: una captura de pantalla, un prototipo, un gráfico. Para una comparación directa en el lado del texto, nuestra comparación de Qwen 3.7 vs GPT-5.5 vs Opus 4.7 cubre dónde se sitúa la familia frente a los buques insignia occidentales. Como siempre, los números de referencia provienen del proveedor y de los primeros revisores, así que trátalos como una dirección más que como un evangelio.

Precios: el nivel multimodal de presupuesto

Aquí es donde Plus se pone interesante. Con $0.40 de entrada y $1.60 de salida por millón de tokens, es aproximadamente seis veces más barato que Max en entrada y casi cinco veces más barato en salida. La entrada en caché baja a $0.08. Obtienes visión y un contexto de 1M por menos de lo que cobran la mayoría de los modelos solo de texto.

Una advertencia que vale la pena incluir en tu modelo de costos: las imágenes y el video comparten ese presupuesto de 1M de tokens. Una captura de pantalla de alta resolución puede quemar miles de tokens, y los fotogramas de video se suman rápidamente, por lo que tu margen de texto efectivo se reduce a medida que aumenta la carga visual. Presupuesta para ello. Para un contexto más amplio sobre por qué los laboratorios chinos siguen rebajando los precios, consulta nuestro desglose de la guerra de precios de LLM chinos de 2026.

La desventaja: propietario y solo API

Qwen construyó su tracción empresarial con pesos abiertos. Gran parte de la línea Qwen anterior se envió bajo licencias Apache 2.0 o de uso abierto, por lo que los equipos podían descargar, ajustar y ejecutar modelos dentro de centros de datos aislados. Qwen 3.7 Plus no hace eso.

Plus se entrega estrictamente como una API comercial gestionada a través de Alibaba Cloud Model Studio. No puedes descargar los pesos, no puedes alojarlo tú mismo y no puedes ejecutarlo sin conexión. Para entornos regulados o aislados, eso es un impedimento. Una variante Plus de pesos abiertos ha sido sugerida para el tercer trimestre de 2026, pero no está confirmada, y el nivel propietario puede permanecer cerrado. Si los pesos abiertos son un requisito, este modelo no es tu elección hoy; rivales como Step 3.7 Flash se envían bajo Apache 2.0 y lo superan en precio.

Cómo acceder a Qwen 3.7 Plus

Dos caminos:

API: llámalo a través de Alibaba Cloud Model Studio. El endpoint es compatible con OpenAI, por lo que los patrones de solicitud del modelo base se mantienen; nuestra guía sobre cómo usar la API de Qwen 3.7 detalla la autenticación y la primera llamada, y puedes añadir partes de imagen o video a la carga útil del mensaje para solicitudes multimodales.
Chat: pruébalo en el navegador en chat.qwen.ai antes de escribir cualquier código. Si quieres probar la familia sin una factura, nuestra guía de Qwen 3.7 gratis muestra las rutas gratuitas.

Una llamada multimodal mínima utiliza el formato de mensaje estándar de OpenAI, con una parte de imagen añadida junto al texto:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Which button submits this form? Give pixel coordinates."},
            {"type": "image_url", "image_url": {"url": "https://example.com/screenshot.png"}},
        ],
    }],
)
print(resp.choices[0].message.content)

Consulta la documentación de Model Studio para conocer el identificador exacto del modelo y la URL base regional, ya que estos difieren entre los puntos finales internacionales y de China.

Quién debería usarlo

Acude a Qwen 3.7 Plus cuando tu trabajo se parezca a esto:

Agentes de uso de computadora y GUI que hacen clic en interfaces reales a partir de capturas de pantalla.
De captura de pantalla a código y de maqueta a UI, donde el modelo lee un diseño y escribe el front-end.
Comprensión de documentos, PDF y video a un bajo costo por token.
Ejecuciones largas de agentes, hasta el límite de 35 horas con miles de llamadas de herramientas secuenciales.

Quédate con Max si estás optimizando puramente para puntuaciones de texto SWE-Bench Pro o necesitas la latencia más rápida solo de texto, donde funciona un poco más rápido en rutas frías. Para la mayoría de las cargas de trabajo mixtas, la opción multimodal más económica es la predeterminada sensible. Si estás comparando Plus con otros modelos abiertos y económicos, nuestra comparación de MiniMax M3 vs DeepSeek V4 vs Qwen 3.7 es un mapa útil.

Probando Qwen 3.7 Plus con Apidog

Dado que Plus es solo API, vives en la API. Las solicitudes multimodales son complicadas: estás codificando imágenes, adjuntando videos y leyendo planes de acción estructurados, a menudo dentro de un bucle de llamadas a herramientas que se ejecuta durante minutos u horas. Necesitas ver exactamente lo que envía cada solicitud y lo que regresa.

Apidog está diseñado para eso. Envía solicitudes a Qwen 3.7 Plus con cargas útiles de imagen y video, inspecciona las respuestas sin procesar, gestiona tus claves de Model Studio en diferentes entornos y simula el punto final para que tu aplicación siga desarrollándose mientras ajustas las indicaciones. Para el lado de los agentes, donde Plus encadena llamadas de herramientas a través de un flujo de trabajo GUI y CLI, el depurador de agentes de IA de Apidog muestra la secuencia completa de llamadas para que puedas encontrar dónde falló una ejecución.

Descarga Apidog para probar, depurar y simular la API de Qwen 3.7 Plus antes de que llegue a producción.

Preguntas frecuentes

¿Es Qwen 3.7 Plus de código abierto? No. Es propietario y solo está disponible como una API gestionada a través de Alibaba Cloud Model Studio. No puedes descargar ni autoalojar los pesos. Se ha sugerido una variante de pesos abiertos para el tercer trimestre de 2026, pero no está confirmada.

Qwen 3.7 Plus o Max, ¿cuál debo usar? Usa Plus si necesitas visión (capturas de pantalla, PDF, video) o si quieres un precio más bajo, lo que cubre la mayoría de las cargas de trabajo. Usa Max si estás optimizando para puntuaciones de texto puro SWE-Bench Pro o necesitas la latencia más rápida solo de texto.

¿Cuánto cuesta Qwen 3.7 Plus? $0.40 por millón de tokens de entrada, $1.60 por millón de tokens de salida y $0.08 por entrada en caché. Eso es aproximadamente seis veces más barato que Qwen3.7-Max.

¿Qwen 3.7 Plus maneja video? Sí. Acepta texto, imágenes y video como entrada. Recuerda que los tokens visuales comparten el presupuesto de contexto de 1M de tokens, por lo que las grandes cargas de medios reducen tu margen de texto.

¿Cuál es la ventana de contexto? 1M de tokens, heredados de la estructura Max, compartidos entre tokens de texto, imagen y video.

¿Cómo accedo a Qwen 3.7 Plus? A través de la API de Alibaba Cloud Model Studio, o pruébalo en el navegador en chat.qwen.ai.

Conclusión

Qwen 3.7 Plus toma el buque insignia de agentes de Alibaba, le añade visión y reduce el precio a un nivel económico. Para los desarrolladores que crean agentes de uso de computadoras, codificación basada en capturas de pantalla o comprensión de video, es una de las opciones multimodales de nivel de frontera más baratas disponibles. La contrapartida que aceptas son los pesos cerrados y una dependencia estricta de la nube de Alibaba.

Si esa contrapartida te funciona, el siguiente paso es la API en sí. Pruébala, depura las llamadas multimodales y simula las respuestas en Apidog para que lo que envíes se mantenga bajo tráfico real.

button