El equipo Qwen de Alibaba lanzó Qwen3.7-Max-Preview a mediados de mayo de 2026, e inmediatamente los desarrolladores comenzaron a hacer la misma pregunta: ¿cómo lo llamo desde mi propio código? El modelo es un sistema de razonamiento insignia con una ventana de contexto de 1M de tokens y rastros explícitos de cadena de pensamiento, ideal para backends de agentes, análisis de documentos largos y generación de código. Pero la palabra "vista previa" implica mucho en ese nombre. El acceso está restringido, la superficie de la API aún se está consolidando y los detalles que necesita para escribir código funcional están dispersos en las notas de la versión y la documentación de la plataforma.
En resumen
Qwen3.7-Max-Preview es el modelo de razonamiento insignia de Alibaba, lanzado en vista previa el 14 de mayo de 2026, con una ventana de contexto de 1M de tokens. Durante la vista previa, la forma más fiable de usarlo es Qwen Chat (chat.qwen.ai); el acceso a la API de producción se realiza a través de Alibaba Cloud Model Studio (DashScope) utilizando un endpoint compatible con OpenAI, donde se establece una URL base, se pasa la clave como un token Bearer y se llama a /chat/completions. Dado que la versión 3.7 es solo de vista previa, confirme el ID exacto del modelo y el endpoint en la documentación oficial antes de implementarlo, y use Apidog para probar y simular el endpoint mientras la disponibilidad se estabiliza.
Cómo acceder a Qwen 3.7 ahora mismo
Qwen distribuye sus modelos a través de varias plataformas, y no todas se activan a la vez. A finales de mayo de 2026, este es el estado actual del acceso.
Qwen Chat (chat.qwen.ai). La forma más rápida de probar Qwen3.7-Max-Preview. Inicie sesión con una cuenta Qwen gratuita, elija qwen3.7-max-preview en el selector de modelos y active el Modo Pensamiento para ver el rastro de razonamiento. Hay límites de tasa de uso durante la vista previa, pero no cuesta nada y no requiere configuración. Es un producto de navegador, no una API, por lo que es para evaluación más que para integración.
Alibaba Cloud Model Studio (DashScope). Aquí es donde los modelos Qwen se convierten en una API real. Model Studio expone Qwen a través de un endpoint compatible con OpenAI, por lo que cualquier código que ya se comunique con el SDK de OpenAI puede llamar a Qwen con un intercambio de URL base y clave. Las versiones anteriores como qwen3.6-max-preview y la familia qwen-max ya están disponibles aquí. La versión de vista previa 3.7 puede que aún no tenga una entrada de API pública cuando lea esto; Qwen históricamente ha abierto el acceso a la API unas semanas después de la vista previa del chat.

El patrón compatible con OpenAI. Cada modelo Qwen reciente en Model Studio sigue la misma estructura. Se apunta el cliente estándar de OpenAI a una URL base de DashScope, se autentica con un token Bearer y se llama a la ruta de finalización de chat. Este patrón es estable en todas las versiones, por lo que el código siguiente seguirá funcionando a medida que el ID del modelo 3.7 esté disponible; principalmente se cambia una cadena.
Debido a que el identificador del modelo y el endpoint pueden cambiar durante una vista previa, considere la documentación oficial de Qwen y la lista de modelos de Model Studio como la fuente de verdad. Para una opción sin costo mientras espera el acceso a la API, nuestra guía sobre cómo usar Qwen 3.7 gratis cubre los canales de vista previa en detalle.
Métodos de acceso de un vistazo
| Método | Acceso a la API | Costo | Mejor para |
|---|---|---|---|
| Qwen Chat (chat.qwen.ai) | No | Gratis, con límite de tasa | Evaluación rápida, prueba de prompts |
| Alibaba Cloud Model Studio (DashScope) | Sí, compatible con OpenAI | Pago por token | Integración en producción |
| Qwen en Hugging Face | Pesos, cuando se publiquen | Gratis (autoalojado) | Modelos de código abierto, no la vista previa Max |
| Pasarelas de terceros | Varía | Varía | Enrutamiento multimodo |
Una distinción que vale la pena señalar: los modelos Qwen de peso abierto llegan a Hugging Face, pero la versión Max-Preview es propietaria, así que no espere pesos descargables para qwen3.7-max-preview.
Cómo obtener una clave de API de Qwen 3.7
El acceso a la API se realiza a través de una cuenta de Alibaba Cloud. Los pasos son sencillos.
- Cree una cuenta de Alibaba Cloud y abra la consola de Model Studio (
modelstudio.console.alibabacloud.com). - Active Model Studio para su cuenta y región. Las claves tienen un alcance regional, por lo que una clave para el endpoint de Singapur no autenticará contra Beijing.
- Abra la sección de claves API de la consola y genere una clave. Se verá como
sk-seguido de una cadena de caracteres. - Copie la clave una vez y guárdela como una contraseña.
Elija su región deliberadamente, porque establece su URL base:
| Región | URL base |
|---|---|
| Singapur | https://dashscope-intl.aliyuncs.com/compatible-mode/v1 |
| EE. UU. (Virginia) | https://dashscope-us.aliyuncs.com/compatible-mode/v1 |
| Pekín (China) | https://dashscope.aliyuncs.com/compatible-mode/v1 |
Nunca codifique la clave directamente en el código fuente que va a confirmar. En su lugar, póngala en una variable de entorno:
# macOS / Linux
export DASHSCOPE_API_KEY="sk-your-key-here"
# Windows PowerShell
setx DASHSCOPE_API_KEY "sk-your-key-here"
Su código lee DASHSCOPE_API_KEY en tiempo de ejecución. Esto mantiene el secreto fuera de su repositorio y le permite rotar claves sin tocar el código. El mismo hábito se aplica a cualquier modelo que llame; verá el mismo patrón en nuestra guía sobre la API de Gemini 3.5.
Su primera solicitud: Python, curl y JavaScript
El endpoint de Model Studio de Qwen es compatible con OpenAI, por lo que tiene dos opciones: el SDK oficial de OpenAI apuntando a la URL base de DashScope, o una llamada HTTP directa. Ambas se muestran a continuación.
Una nota antes del código. El ID del modelo qwen3.7-max-preview es el identificador que Qwen Chat utiliza para el modelo de vista previa. La cadena exacta que espera la API puede diferir durante una ventana de vista previa, y una versión anterior como qwen3.6-max-preview puede estar activa cuando intente esto. Confirme el ID actual del modelo en la lista de modelos de Model Studio, luego insértelo en el campo model. La estructura de la solicitud no cambia.
Python con el SDK de OpenAI
Instale el SDK con pip install openai, luego envíe una solicitud:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
# Use la URL base de la región de su cuenta
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
response = client.chat.completions.create(
# Confirme el ID del modelo activo en la lista de modelos de Model Studio
model="qwen3.7-max-preview",
messages=[
{"role": "system", "content": "Eres un asistente de codificación preciso."},
{"role": "user", "content": "Escribe una función en Python que invierta una lista enlazada."},
],
)
print(response.choices[0].message.content)
Esa es una solicitud completa. El array messages sigue el patrón de rol estándar: un mensaje system establece el comportamiento, luego turnos de user. La respuesta contiene el texto generado en choices[0].message.content.
curl
Para una verificación rápida desde la terminal, o para confirmar que una clave funciona antes de escribir el código de la aplicación:
curl 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model": "qwen3.7-max-preview",
"messages": [
{"role": "user", "content": "Explica la idempotencia en las APIs REST en dos oraciones."}
]
}'
Si la clave y el ID del modelo son válidos, obtendrá una respuesta JSON con la finalización. Si no, el cuerpo del error le indicará qué corregir; más sobre errores a continuación.
JavaScript / Node.js
El mismo SDK de OpenAI funciona en Node. Instálelo con npm install openai:
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DASHSCOPE_API_KEY,
baseURL: "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
});
const response = await client.chat.completions.create({
model: "qwen3.7-max-preview",
messages: [
{ role: "user", content: "Enumera tres compensaciones de GraphQL frente a REST." },
],
});
console.log(response.choices[0].message.content);
Tres lenguajes, una forma de solicitud; esa es la ventaja de una API compatible con OpenAI.
Respuestas en streaming
Para cualquier cosa orientada al usuario, no querrá esperar la finalización completa antes de mostrar la salida. El streaming envía tokens a medida que se generan. Establezca stream en true e itere sobre los fragmentos.
stream = client.chat.completions.create(
model="qwen3.7-max-preview",
messages=[
{"role": "user", "content": "Resume el teorema CAP."},
],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="", flush=True)
En Node, la respuesta en streaming es un iterable asíncrono:
const stream = await client.chat.completions.create({
model: "qwen3.7-max-preview",
messages: [{ role: "user", content: "Resume el teorema CAP." }],
stream: true,
});
for await (const chunk of stream) {
process.stdout.write(chunk.choices[0]?.delta?.content || "");
}
El streaming es más importante con un modelo de razonamiento que con un modelo de chat simple. Qwen 3.7 puede dedicar tiempo real a su cadena de pensamiento antes de la respuesta final, por lo que sin streaming el usuario se queda mirando una pantalla en blanco. Con el streaming se puede mostrar el rastro del pensamiento, un indicador de escritura o la respuesta a medida que se forma.
El parámetro de razonamiento y pensamiento
Qwen3.7-Max-Preview es un modelo de razonamiento. Puede producir una cadena de pensamiento explícita dentro de bloques <think> antes de comprometerse con una respuesta final. Ese rastro eleva sus puntuaciones en matemáticas y problemas complejos de varios pasos, y ayuda con la depuración: se puede ver dónde la lógica del modelo se desvió.
En los modelos Qwen recientes servidos a través de DashScope, el comportamiento de pensamiento se controla con un flag enable_thinking. Confirme el mecanismo exacto y el nombre del parámetro para la versión de vista previa 3.7 con la referencia actual de la API, ya que los controles de razonamiento han cambiado entre las versiones de Qwen. Conceptualmente, la solicitud se ve así:
response = client.chat.completions.create(
model="qwen3.7-max-preview",
messages=[
{"role": "user", "content": "Un tren sale a las 2 p.m. promediando 60 mph. "
"Un segundo sale a las 3 p.m. a 75 mph por la misma ruta. "
"¿Cuándo alcanza el segundo al primero?"},
],
# Los controles de razonamiento varían según la versión de Qwen; confirme el parámetro
# actual en la referencia de la API de Model Studio antes de depender de él.
extra_body={"enable_thinking": True},
)
print(response.choices[0].message.content)
Algunas notas prácticas:
- Pensar cuesta tokens y tiempo. El rastro de razonamiento es texto generado. Cuenta para la salida y añade latencia. Para búsquedas simples o formato, desactive el pensamiento.
- Actívelo para problemas difíciles. Matemáticas de varios pasos, código con casos límite complicados, planificación y análisis son donde la cadena de pensamiento justifica su costo.
- Decida si mostrar el rastro. Algunas aplicaciones muestran el contenido de
<think>para que los usuarios vean el trabajo del modelo; otras lo eliminan y muestran solo la respuesta final. Ambas son válidas.
Si está sopesando la calidad y el costo del razonamiento frente a otros modelos de vanguardia, nuestra comparación de Qwen 3.7 vs GPT-5.5 vs Opus 4.7 presenta las compensaciones lado a lado. Los modelos de razonamiento pueden consumir tokens rápidamente en bucles de agentes; si esa es su situación, las técnicas de nuestro artículo sobre cómo reducir los costos de tokens de agente se aplican directamente.
Manejo de errores y límites de tasa
Una solicitud puede fallar por razones predecibles. Manéjelas para que su aplicación degrade de manera elegante.
| Estado HTTP | Significado | Qué hacer |
|---|---|---|
| 400 | Solicitud incorrecta: JSON mal formado, parámetro inválido | Corregir el cuerpo de la solicitud; verificar el ID del modelo y los nombres de los campos |
| 401 | Clave API inválida o faltante | Verificar la clave y que coincida con la región del endpoint |
| 403 | Sin acceso al modelo | La versión de vista previa puede estar restringida; confirme que su cuenta esté habilitada |
| 404 | Modelo no encontrado | El ID del modelo es incorrecto o no está disponible en su región |
| 429 | Límite de tasa o cuota excedida | Esperar y reintentar; verificar los límites de QPS y el saldo de la cuenta |
| 500 / 503 | Error del servidor | Reintentar con retroceso exponencial |
Los modelos de vista previa lanzan 403 y 404 con más frecuencia que los estables, porque el acceso está restringido y los identificadores cambian. Si obtiene uno de esos, el problema suele ser el acceso o la cadena del modelo, no su código.
Los límites de tasa en Model Studio se establecen por cuenta como consultas por segundo o por minuto, y los números exactos dependen de su nivel de cuenta y del modelo; consulte la consola en lugar de asumir un valor fijo. El patrón es el mismo independientemente: capture 429, espere y reintente con retrasos crecientes.
import time
from openai import OpenAI, RateLimitError, APIStatusError
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
def ask_qwen(prompt, max_retries=4):
for attempt in range(max_retries):
try:
response = client.chat.completions.create(
model="qwen3.7-max-preview",
messages=[{"role": "user", "content": prompt}],
)
return response.choices[0].message.content
except RateLimitError:
wait = 2 ** attempt # 1s, 2s, 4s, 8s
print(f"Límite de tasa excedido. Reintentando en {wait}s...")
time.sleep(wait)
except APIStatusError as e:
# 400/401/403/404 no vale la pena reintentar; muéstrelos
print(f"Error de API {e.status_code}: {e.message}")
raise
raise RuntimeError("Fallo después de varios reintentos")
Retroceso exponencial en 429 y 5xx, fallo rápido en 4xx. Esa distinción le evita sobrecargar la API con errores que un reintento no solucionará.
Probando y simulando la API de Qwen con Apidog
Aquí es donde una API de vista previa se vuelve complicada, y donde las buenas herramientas dan sus frutos. Cuando el acceso está restringido, el ID del modelo cambia y los límites de tasa son estrictos, no querrá probar ejecutando toda su aplicación y leyendo registros. Desea enviar una solicitud, ver exactamente lo que regresa y guardarla para ejecutarla de nuevo. Apidog está diseñado para ese ciclo.

Simule el endpoint mientras construye. Este es el punto clave para una vista previa restringida. El servidor simulado de Apidog devuelve respuestas realistas del esquema de la API, sin clave y sin límite de tasa. Así, su frontend o agente puede desarrollarse contra un endpoint de Qwen sustituto que siempre responde instantáneamente, incluso cuando el acceso real a la vista previa está limitado, inactivo o aún no está abierto para su cuenta. Cuando la API en vivo esté lista, cambie la URL base de la simulación a DashScope y su código permanecerá sin cambios. Para más información sobre flujos de trabajo basados en esquemas, consulte nuestro tutorial del modo "spec-first".
El patrón se generaliza a cualquier API de modelo. El mismo ciclo de prueba y simulación en Apidog funciona ya sea que esté llamando a Qwen, Gemini o la API de ERNIE 5.1; un modelo de vista previa hace que el paso de simulación sea más valioso, porque el endpoint real es la parte menos fiable de su pila.
Conclusión
Llamar a Qwen 3.7 es sencillo una vez que conoce el camino. La dificultad radica en la restricción de la vista previa, no en la API.
Deje de adivinar lo que devuelve Qwen y empiece a verlo. Descargue Apidog para diseñar el endpoint de Qwen, enviar solicitudes de prueba reales, guardar escenarios reutilizables y simular la API mientras construye. Es gratis para empezar, y convierte una vista previa inestable en algo contra lo que puede desarrollar con confianza.
