Qwen3.6-Plus API: Supera a Claude en Pruebas de Rendimiento Terminal

En resumen

Qwen3.6-Plus lanzado oficialmente. Obtiene un 78.8% en SWE-bench Verified y un 61.6% en Terminal-Bench 2.0, donde supera a Claude Opus 4.5. Cuenta con una ventana de contexto de 1M de tokens, un nuevo parámetro preserve_thinking para bucles de agente y funciona directamente con Claude Code, OpenClaw y Qwen Code a través de una API compatible con OpenAI.

De la versión preliminar al lanzamiento

Si ya viste nuestra guía anterior sobre Qwen 3.6 Plus Preview en OpenRouter, ya sabes de lo que es capaz este modelo. La versión preliminar se lanzó discretamente el 30 de marzo sin lista de espera y con acceso gratuito a través de OpenRouter. En sus primeros dos días, procesó más de 400 millones de tokens de finalización en aproximadamente 400,000 solicitudes.

El lanzamiento oficial trae la versión de producción completa. Ya no es solo una versión preliminar. El modelo ahora está disponible a través de Alibaba Cloud Model Studio con una API estable, un tiempo de actividad respaldado por SLA y un nuevo parámetro de API que lo hace significativamente más capaz para tareas de agente de varios pasos.

Esta guía cubre qué ha cambiado, cómo llamar a la API correctamente y cómo probar su integración con Apidog antes de la implementación.

botón

Qué es Qwen3.6-Plus

Qwen3.6-Plus es un modelo de mezcla de expertos alojado del equipo Qwen de Alibaba. Al igual que la serie Qwen3.5, utiliza activación dispersa, lo que significa que solo una fracción de los parámetros se activan por token. El resultado es un rendimiento sólido con un menor costo computacional que un modelo denso de capacidad similar.

Especificaciones clave en el lanzamiento:

Ventana de contexto de 1 millón de tokens por defecto
Razonamiento obligatorio de cadena de pensamiento (igual que la versión preliminar)
Nuevo parámetro preserve_thinking para tareas de agente
Soporte multimodal nativo (visión, video, comprensión de documentos)
API compatible con OpenAI, API compatible con Anthropic y API de respuestas de OpenAI

En los próximos días se lanzarán variantes más pequeñas de código abierto. Si necesita pesos para autoalojar, están en camino.

Resultados de los benchmarks

Agentes de codificación

Qwen3.6-Plus se sitúa ligeramente por detrás de Claude Opus 4.5 en la mayoría de las tareas de SWE-bench, mientras que supera a todos los modelos de la comparación en operaciones de terminal.

Terminal-Bench 2.0 prueba operaciones reales de shell: gestión de archivos, control de procesos, flujos de trabajo de terminal de varios pasos bajo un tiempo de espera de 3 horas con 32 núcleos de CPU y 48 GB de RAM. La puntuación de Qwen3.6-Plus del 61.6% frente al 59.3% de Claude Opus 4.5 es una brecha significativa exactamente en el tipo de tareas que ejecutan los desarrolladores.

Agentes generales y uso de herramientas

Benchmark	Claude Opus 4.5	Qwen3.6-Plus
TAU3-Bench	70.2%	70.7%
DeepPlanning	33.9%	41.5%
MCPMark	42.3%	48.2%
MCP-Atlas	71.8%	74.1%
WideSearch	76.4%	74.3%

MCPMark prueba las llamadas a herramientas de GitHub MCP v0.30.3, con respuestas de Playwright truncadas a 32K tokens. Liderar con un 48.2% es importante para cualquiera que desarrolle herramientas basadas en MCP. DeepPlanning con un 41.5% frente al 33.9% de Claude muestra una brecha significativa en tareas de planificación a largo plazo.

Razonamiento y conocimiento

Benchmark	Claude Opus 4.5	Qwen3.6-Plus
GPQA	87.0%	90.4%
LiveCodeBench v6	84.8%	87.1%
IFEval strict	90.9%	94.3%
MMLU-Pro	89.5%	88.5%

GPQA es un benchmark de razonamiento científico de nivel de posgrado. IFEval strict mide qué tan bien un modelo sigue instrucciones precisas de formato y restricciones. Qwen3.6-Plus lidera en ambos, lo que es importante para la salida estructurada y las tareas de agente donde el modelo debe seguir instrucciones complejas sin desviarse.

Multimodal

Qwen3.6-Plus es un modelo multimodal nativo. Lidera varios benchmarks de detección de documentos, espaciales y de objetos.

Benchmark	Qwen3.6-Plus	Notas
OmniDocBench 1.5	91.2%	Mejor en la tabla
RefCOCO avg	93.5%	Mejor en la tabla
We-Math	89.0%	Mejor en la tabla
CountBench	97.6%	Mejor en la tabla
OSWorld-Verified	62.5%	Por detrás de Claude (66.3%)

OSWorld-Verified, el benchmark de uso de ordenadores de escritorio, sitúa a Claude Opus 4.5 por delante con un 66.3% frente al 62.5% de Qwen3.6-Plus. Para tareas de comprensión de documentos y fundamentación espacial, Qwen3.6-Plus lidera.

Cómo llamar a la API

Qwen3.6-Plus está en Alibaba Cloud Model Studio. Obtenga su clave de API en modelstudio.alibabacloud.com.

Tres URLs base regionales:

Singapur: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
Pekín: https://dashscope.aliyuncs.com/compatible-mode/v1
Virginia, EE. UU.: https://dashscope-us.aliyuncs.com/compatible-mode/v1

Llamada básica con streaming

from openai import OpenAI
import os

client = OpenAI(
 api_key=os.environ["DASHSCOPE_API_KEY"],
 base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=[{"role": "user", "content": "Revisa esta función de Python y encuentra errores."}],
 extra_body={"enable_thinking": True},
 stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
 if not chunk.choices:
 continue
 delta = chunk.choices[0].delta
 if hasattr(delta, "reasoning_content") and delta.reasoning_content:
 if not is_answering:
 reasoning += delta.reasoning_content
 if delta.content:
 if not is_answering:
 is_answering = True
 answer += delta.content
 print(delta.content, end="", flush=True)

El parámetro preserve_thinking

La versión preliminar solo conservaba el razonamiento del turno actual. La versión oficial añade preserve_thinking.

Cuando configura preserve_thinking: true, el modelo retiene la cadena de pensamiento de todos los turnos anteriores en la conversación. Alibaba recomienda específicamente esto para escenarios de agente. El razonamiento es: un agente que trabaja en una tarea de varios pasos se beneficia de ver su propio pensamiento previo. Toma mejores decisiones en el paso 5 cuando puede ver por qué tomó la decisión en el paso 2.

Está deshabilitado por defecto para controlar el uso de tokens. Actívelo para bucles de agente.

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=conversation_history,
 extra_body={
 "enable_thinking": True,
 "preserve_thinking": True, # conserva el razonamiento en todos los turnos
 },
 stream=True
)

Usar Qwen3.6-Plus con Claude Code

La API de Qwen es compatible con el protocolo de Anthropic. Puede ejecutar Claude Code con Qwen3.6-Plus sin cambiar ninguna configuración de Claude Code más allá de las variables de entorno.

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude

Usar Qwen3.6-Plus con OpenClaw

OpenClaw (anteriormente Moltbot / Clawdbot) es un agente de codificación de código abierto autoalojado. Instálelo y apúntelo a Model Studio:

# Instalar (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard

Edite ~/.openclaw/openclaw.json y combine estos campos (no sobrescriba todo el archivo):

{
 "models": {
 "providers": [{
 "name": "alibaba-coding-plan",
 "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
 "apiKey": "${DASHSCOPE_API_KEY}",
 "models": [{"id": "qwen3.6-plus", "reasoning": true}]
 }]
 },
 "agents": {
 "defaults": {"models": ["qwen3.6-plus"]}
 }
}

Usar Qwen3.6-Plus con Qwen Code

Qwen Code es el agente de terminal de código abierto propio de Alibaba, creado específicamente para la serie Qwen. Le ofrece 1,000 llamadas a la API gratuitas por día cuando inicia sesión con Qwen Code OAuth.

npm install -g @qwen-code/qwen-code@latest
qwen
# Escriba /auth para iniciar sesión y activar el nivel gratuito

Por qué preserve_thinking cambia el comportamiento del agente

La mayoría de las APIs de LLM tratan cada turno de forma independiente. El modelo genera una respuesta, el razonamiento se descarta y el siguiente turno comienza de nuevo. Para preguntas y respuestas sencillas, está bien. Para agentes que ejecutan tareas de 10-20 pasos, crea un problema: el modelo no puede ver por qué tomó decisiones anteriores, por lo que se desvía.

El parámetro preserve_thinking mantiene visible la cadena completa de razonamiento de todos los turnos anteriores al generar la siguiente respuesta. El efecto práctico: un agente que trabaja en una tarea compleja a nivel de repositorio en el paso 8 puede ver su análisis de los pasos 2, 4 y 6. Toma decisiones más consistentes y produce menos contradicciones.

Los benchmarks de Alibaba también muestran que esto reduce el razonamiento redundante. Cuando el modelo no tiene que volver a derivar el contexto que ya estableció, utiliza menos tokens por turno en promedio para flujos de trabajo complejos de varios pasos.

Use este patrón para bucles de agente:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# Ejemplo: agente de revisión de código de varios pasos
result = agent_step("Analiza el módulo de autenticación en busca de problemas de seguridad.")
result = agent_step("Ahora sugiere soluciones para los 3 principales problemas que encontraste.")
result = agent_step("Escribe pruebas que validen cada solución.")

Sin preserve_thinking, el modelo en el paso 3 no sabe cuáles fueron los 3 problemas que identificó en el paso 1. Con él, la cadena de razonamiento permanece intacta.

Para qué es mejor

Corrección de errores a nivel de repositorio. SWE-bench Verified con un 78.8% y SWE-bench Pro con un 56.6% son competitivos con cualquier cosa disponible hoy. Si está ejecutando pipelines automatizados de reparación o revisión de código, vale la pena comparar Qwen3.6-Plus con su configuración actual.

Automatización de terminal. El liderazgo en Terminal-Bench 2.0 lo convierte en el modelo más potente disponible para flujos de trabajo intensivos en shell. Operaciones de archivos de varios pasos, gestión de procesos, pipelines de construcción.

Llamada a herramientas MCP. MCPMark con un 48.2% (el mejor resultado) lo convierte en la mejor opción actual para integraciones de herramientas basadas en MCP.

Análisis de documentos de contexto largo. La ventana de 1M de tokens con fuertes puntuaciones en LongBench v2 maneja revisiones completas de bases de código, grandes documentos de especificación y análisis de múltiples archivos en una sola llamada.

Generación de código frontend. El QwenWebBench interno del equipo Qwen (clasificación Elo, 7 categorías: Diseño Web, Aplicaciones Web, Juegos, SVG, Visualización de Datos, Animación, 3D) otorga a Qwen3.6-Plus una puntuación de 1501.7 frente a los 1517.9 de Claude Opus 4.5. Prácticamente empatados en calidad de generación frontend.

Multilingüe. WMT24++ con un 84.3% (el mejor), MAXIFE con un 88.2% en 23 configuraciones de idioma. Potente en casos de uso no ingleses.

Probando llamadas a la API de Qwen3.6-Plus con Apidog

El endpoint es compatible con OpenAI, por lo que puede importarlo directamente a Apidog y probarlo como cualquier otra API.

Configure una solicitud POST a https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions. Agregue su clave de API como una variable de entorno: Authorization: Bearer {{DASHSCOPE_API_KEY}}.

Escriba aserciones de respuesta para validar la estructura y el contenido:

pm.test("La respuesta contiene opciones", () => {
 const body = pm.response.json();
 pm.expect(body).to.have.property("choices");
 pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("No hay razonamiento vacío cuando el pensamiento está habilitado", () => {
 const choice = pm.response.json().choices[0];
 if (choice.message.reasoning_content !== undefined) {
 pm.expect(choice.message.reasoning_content).to.not.be.empty;
 }
});

Use Smart Mock de Apidog para generar respuestas de prueba durante el desarrollo. Esto significa que su código de orquestación de agentes se puede probar sin llamar a la API en vivo en cada ejecución, ahorrando tokens y manteniendo los ciclos de prueba rápidos.

Si está construyendo un agente de múltiples turnos, cree un escenario de prueba en Apidog que encadene múltiples solicitudes. Valide que preserve_thinking transfiere el razonamiento entre turnos verificando la estructura de la respuesta en cada paso antes de ejecutar el bucle completo en producción.

Descargue Apidog gratis para configurar estas pruebas.

Lo que viene a continuación

El equipo de Qwen confirmó que las variantes más pequeñas de código abierto se enviarán en cuestión de días. Estas seguirán el patrón de Qwen3.5: modelos MoE dispersos con pesos públicos de Apache 2.0.

La hoja de ruta también incluye:

Tareas a nivel de repositorio de horizonte más largo, dirigidas a la resolución de problemas multifile cada vez más complejos
Desarrollo continuo de agentes multimodales, con agentes GUI y codificación visual como capacidades de primera clase, no características secundarias

Las variantes de código abierto de Qwen3.5 se convirtieron en algunos de los modelos autoalojados más desplegados a las pocas semanas de su lanzamiento. Si Qwen3.6 sigue el mismo patrón, es probable que las variantes más pequeñas se conviertan en la opción predeterminada para los agentes de codificación autoalojados poco después de su llegada.

Conclusión

Qwen3.6-Plus cierra la brecha con Claude Opus 4.5 en tareas de codificación y abre una clara ventaja en operaciones de terminal, llamadas a herramientas MCP y planificación a largo plazo. El contexto de 1M de tokens, la compatibilidad con el protocolo Anthropic y preserve_thinking para bucles de agente lo convierten en una opción práctica para sistemas de agentes de producción en este momento.

El período de vista previa gratuita en OpenRouter fue una forma útil de evaluar el modelo. La API oficial ofrece estabilidad, cobertura SLA y el nuevo parámetro enfocado en el agente que hace que los flujos de trabajo de múltiples turnos sean más confiables.

Apidog se encarga de la parte de pruebas: importe el endpoint compatible con OpenAI, escriba aserciones de respuesta, simule durante el desarrollo y ejecute pruebas de regresión cada vez que actualice el modelo o la versión de la API.

botón

Preguntas frecuentes

¿Cuál es la diferencia entre Qwen3.6-Plus y la versión preliminar?La versión preliminar (qwen/qwen3.6-plus-preview) se lanzó en OpenRouter el 30 de marzo de 2026. La versión oficial añade el parámetro preserve_thinking, un tiempo de actividad respaldado por SLA y soporte completo de Model Studio. También se lanzarán variantes más pequeñas de código abierto.

¿Qué es preserve_thinking y cuándo debo usarlo?Por defecto, solo se conserva el razonamiento del turno actual. Cuando se establece preserve_thinking: true, el modelo retiene la cadena de pensamiento de todos los turnos de conversación anteriores. Úselo para bucles de agente de varios pasos donde el razonamiento pasado del modelo debe informar su próxima acción.

¿Cómo se compara Qwen3.6-Plus con Claude Opus 4.5?Claude Opus 4.5 lidera en SWE-bench Verified (80.9% vs 78.8%) y OSWorld-Verified (66.3% vs 62.5%). Qwen3.6-Plus lidera en Terminal-Bench 2.0 (61.6% vs 59.3%), MCPMark (48.2% vs 42.3%), DeepPlanning (41.5% vs 33.9%) y GPQA (90.4% vs 87.0%).

¿Puedo usar Qwen3.6-Plus con Claude Code?Sí. Establezca ANTHROPIC_BASE_URL en el endpoint compatible con Anthropic de Dashscope, ANTHROPIC_MODEL en qwen3.6-plus y ANTHROPIC_AUTH_TOKEN en su clave de API de Dashscope.

¿Es Qwen3.6-Plus de código abierto?El modelo de API alojado no es de código abierto (en cuanto a los pesos). Se ha confirmado que las variantes más pequeñas con pesos públicos se lanzarán en cuestión de días.

¿Cómo obtengo acceso gratuito?Instale Qwen Code (npm install -g @qwen-code/qwen-code@latest), ejecute qwen y luego /auth. Inicie sesión con Qwen Code OAuth para 1,000 llamadas gratuitas a la API por día contra Qwen3.6-Plus.

¿Qué ventana de contexto soporta?1 millón de tokens por defecto. Algunos benchmarks en el informe oficial utilizaron 256K para una comparación estandarizada, pero el valor predeterminado de la API es 1M.

¿Cómo pruebo la integración de la API antes de la implementación?Importe el endpoint en Apidog, agregue su clave de API como variable de entorno, escriba aserciones de respuesta, simule durante el desarrollo y ejecute pruebas de regresión cada vez que actualice el modelo o la versión de la API.