API Qwen3.6-Plus: Desempenho Superior ao Claude em Testes de Terminal

TL;DR

Qwen3.6-Plus lançado oficialmente. Ele alcança 78,8% no SWE-bench Verified e 61,6% no Terminal-Bench 2.0, onde supera o Claude Opus 4.5. Possui uma janela de contexto de 1M de tokens, um novo parâmetro preserve_thinking para loops de agente e funciona diretamente com Claude Code, OpenClaw e Qwen Code via uma API compatível com OpenAI.

Da prévia ao lançamento

Se você acompanhou nosso guia anterior sobre o Qwen 3.6 Plus Preview no OpenRouter, você já sabe do que este modelo é capaz. A prévia foi lançada silenciosamente em 30 de março, sem lista de espera e com acesso gratuito via OpenRouter. Em seus primeiros dois dias, ele processou mais de 400 milhões de tokens de conclusão em aproximadamente 400.000 requisições.

O lançamento oficial traz a versão de produção completa. Não é mais apenas uma prévia. O modelo agora está disponível através do Alibaba Cloud Model Studio com uma API estável, tempo de atividade com SLA garantido e um novo parâmetro de API que o torna significativamente mais capaz para tarefas de agente multi-etapas.

Este guia aborda o que mudou, como chamar a API corretamente e como testar sua integração com o Apidog antes de implantar.

botão

O que é Qwen3.6-Plus

Qwen3.6-Plus é um modelo de mistura de especialistas hospedado da equipe Qwen da Alibaba. Assim como a série Qwen3.5, ele usa ativação esparsa, o que significa que apenas uma fração dos parâmetros é ativada por token. O resultado é um desempenho forte com um custo de computação menor do que um modelo denso de capacidade semelhante.

Especificações principais no lançamento:

Janela de contexto de 1 milhão de tokens por padrão
Raciocínio obrigatório em cadeia de pensamento (o mesmo da prévia)
Novo parâmetro preserve_thinking para tarefas de agente
Suporte multimodal nativo (visão, vídeo, compreensão de documentos)
API compatível com OpenAI, API compatível com Anthropic e API de Respostas OpenAI

Variantes menores de código aberto chegarão em questão de dias. Se você precisar de pesos para auto-hospedagem, eles estão a caminho.

Resultados dos benchmarks

Agentes de codificação

Qwen3.6-Plus fica ligeiramente atrás do Claude Opus 4.5 na maioria das tarefas SWE-bench, enquanto supera todos os modelos na comparação em operações de terminal.

O Terminal-Bench 2.0 testa operações de shell reais: gerenciamento de arquivos, controle de processos, fluxos de trabalho de terminal multi-etapas sob um tempo limite de 3 horas com 32 núcleos de CPU e 48 GB de RAM. A pontuação de 61,6% do Qwen3.6-Plus contra 59,3% do Claude Opus 4.5 é uma diferença significativa exatamente no tipo de tarefas que os desenvolvedores executam.

Agentes gerais e uso de ferramentas

Benchmark	Claude Opus 4.5	Qwen3.6-Plus
TAU3-Bench	70.2%	70.7%
DeepPlanning	33.9%	41.5%
MCPMark	42.3%	48.2%
MCP-Atlas	71.8%	74.1%
WideSearch	76.4%	74.3%

O MCPMark testa chamadas de ferramentas GitHub MCP v0.30.3, com respostas Playwright truncadas em 32K tokens. Liderar com 48,2% é importante para qualquer pessoa que esteja construindo com ferramentas baseadas em MCP. O DeepPlanning em 41,5% contra 33,9% para Claude mostra uma lacuna significativa em tarefas de planejamento de longo prazo.

Raciocínio e conhecimento

Benchmark	Claude Opus 4.5	Qwen3.6-Plus
GPQA	87.0%	90.4%
LiveCodeBench v6	84.8%	87.1%
IFEval strict	90.9%	94.3%
MMLU-Pro	89.5%	88.5%

GPQA é um benchmark de raciocínio científico de nível de pós-graduação. IFEval estrito mede o quão bem um modelo segue instruções precisas de formatação e restrição. O Qwen3.6-Plus lidera em ambos, o que é importante para saída estruturada e tarefas de agente onde o modelo deve seguir instruções complexas sem se desviar.

Multimodal

Qwen3.6-Plus é um modelo multimodal nativo. Ele lidera vários benchmarks de documentos, espaciais e de detecção de objetos.

Benchmark	Qwen3.6-Plus	Notas
OmniDocBench 1.5	91.2%	Líder na tabela
RefCOCO avg	93.5%	Líder na tabela
We-Math	89.0%	Líder na tabela
CountBench	97.6%	Líder na tabela
OSWorld-Verified	62.5%	Atrás de Claude (66,3%)

OSWorld-Verified, o benchmark de uso de computador desktop, coloca Claude Opus 4.5 à frente com 66,3% versus Qwen3.6-Plus com 62,5%. Para tarefas de compreensão de documentos e ancoragem espacial, o Qwen3.6-Plus lidera.

Como chamar a API

Qwen3.6-Plus está no Alibaba Cloud Model Studio. Obtenha sua chave de API em modelstudio.alibabacloud.com.

Três URLs base regionais:

Singapura: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
Pequim: https://dashscope.aliyuncs.com/compatible-mode/v1
Virgínia, EUA: https://dashscope-us.aliyuncs.com/compatible-mode/v1

Chamada básica com streaming

from openai import OpenAI
import os

client = OpenAI(
 api_key=os.environ["DASHSCOPE_API_KEY"],
 base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
 extra_body={"enable_thinking": True},
 stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
 if not chunk.choices:
 continue
 delta = chunk.choices[0].delta
 if hasattr(delta, "reasoning_content") and delta.reasoning_content:
 if not is_answering:
 reasoning += delta.reasoning_content
 if delta.content:
 if not is_answering:
 is_answering = True
 answer += delta.content
 print(delta.content, end="", flush=True)

O parâmetro preserve_thinking

A versão de prévia apenas mantinha o raciocínio da vez atual. O lançamento oficial adiciona preserve_thinking.

Quando você define preserve_thinking: true, o modelo retém a cadeia de pensamento de todas as interações anteriores na conversa. A Alibaba recomenda especificamente isso para cenários de agente. O raciocínio é: um agente trabalhando em uma tarefa multi-etapas se beneficia ao ver seu próprio pensamento anterior. Ele toma decisões melhores na etapa 5 quando consegue ver por que tomou a decisão na etapa 2.

Está desativado por padrão para controlar o uso de tokens. Ative-o para loops de agente.

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=conversation_history,
 extra_body={
 "enable_thinking": True,
 "preserve_thinking": True, # mantém o raciocínio em todas as interações
 },
 stream=True
)

Use Qwen3.6-Plus com Claude Code

A API Qwen suporta o protocolo Anthropic. Você pode executar o Claude Code com o Qwen3.6-Plus sem alterar nenhuma configuração do Claude Code além das variáveis de ambiente.

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude

Use Qwen3.6-Plus com OpenClaw

OpenClaw (anteriormente Moltbot / Clawdbot) é um agente de codificação de código aberto auto-hospedado. Instale-o e aponte-o para o Model Studio:

# Instalar (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard

Edite ~/.openclaw/openclaw.json e mescle estes campos (não sobrescreva o arquivo inteiro):

{
 "models": {
 "providers": [{
 "name": "alibaba-coding-plan",
 "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
 "apiKey": "${DASHSCOPE_API_KEY}",
 "models": [{"id": "qwen3.6-plus", "reasoning": true}]
 }]
 },
 "agents": {
 "defaults": {"models": ["qwen3.6-plus"]}
 }
}

Use Qwen3.6-Plus com Qwen Code

Qwen Code é o próprio agente de terminal de código aberto da Alibaba, construído especificamente para a série Qwen. Ele oferece 1.000 chamadas de API gratuitas por dia ao fazer login com o OAuth do Qwen Code.

npm install -g @qwen-code/qwen-code@latest
qwen
# Digite /auth para fazer login e ativar o nível gratuito

Por que preserve_thinking muda o comportamento do agente

A maioria das APIs de LLM trata cada interação de forma independente. O modelo gera uma resposta, o raciocínio é descartado e a próxima interação começa do zero. Para perguntas e respostas simples, isso é aceitável. Para agentes executando tarefas de 10-20 etapas, isso cria um problema: o modelo não consegue ver por que tomou decisões anteriores, então ele se desvia.

O parâmetro preserve_thinking mantém toda a cadeia de raciocínio de todas as interações anteriores visível ao gerar a próxima resposta. O efeito prático: um agente trabalhando em uma tarefa complexa de nível de repositório na etapa 8 pode ver sua análise das etapas 2, 4 e 6. Ele toma decisões mais consistentes e produz menos contradições.

Os benchmarks da Alibaba mostram que isso também reduz o raciocínio redundante. Quando o modelo não precisa redesenvolver um contexto que já estabeleceu, ele usa menos tokens por interação, em média, para fluxos de trabalho complexos de várias etapas.

Use este padrão para loops de agente:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# Exemplo: agente de revisão de código multi-etapas
result = agent_step("Analyze the auth module for security issues.")
result = agent_step("Now suggest fixes for the top 3 issues you found.")
result = agent_step("Write tests that validate each fix.")

Sem preserve_thinking, o modelo na etapa 3 não sabe quais 3 problemas ele identificou na etapa 1. Com ele, a cadeia de raciocínio permanece intacta.

Para que é melhor

Correção de bugs em nível de repositório. SWE-bench Verified com 78,8% e SWE-bench Pro com 56,6% são competitivos com qualquer coisa disponível hoje. Se você estiver executando pipelines automatizados de reparo ou revisão de código, vale a pena comparar o Qwen3.6-Plus com sua configuração atual.

Automação de terminal. A liderança no Terminal-Bench 2.0 o torna o modelo mais forte disponível para fluxos de trabalho que dependem muito de shell. Operações de arquivo multi-etapas, gerenciamento de processos, pipelines de construção.

Chamada de ferramentas MCP. O MCPMark com 48,2% (melhor resultado) o torna a melhor escolha atual para integrações de ferramentas baseadas em MCP.

Análise de documentos com contexto longo. A janela de 1M de tokens com fortes pontuações no LongBench v2 lida com revisões completas de bases de código, grandes documentos de especificação e análise de múltiplos arquivos em uma única chamada.

Geração de código frontend. O QwenWebBench interno da equipe Qwen (classificação Elo, 7 categorias: Web Design, Web Apps, Jogos, SVG, Visualização de Dados, Animação, 3D) dá ao Qwen3.6-Plus uma pontuação de 1501,7 contra 1517,9 do Claude Opus 4.5. Efetivamente empatados em qualidade de geração de frontend.

Multilíngue. WMT24++ com 84,3% (líder), MAXIFE com 88,2% em 23 configurações de idioma. Forte em casos de uso não-inglês.

Testando chamadas de API do Qwen3.6-Plus com Apidog

O endpoint é compatível com OpenAI, então você pode importá-lo diretamente para o Apidog e testá-lo como qualquer outra API.

Captura de tela do Apidog mostrando como configurar e testar chamadas de API do Qwen3.6-Plus.

Configure uma requisição POST para https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions. Adicione sua chave de API como uma variável de ambiente: Authorization: Bearer {{DASHSCOPE_API_KEY}}.

Escreva asserções de resposta para validar a estrutura e o conteúdo:

pm.test("Response contains choices", () => {
 const body = pm.response.json();
 pm.expect(body).to.have.property("choices");
 pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("No empty reasoning when thinking enabled", () => {
 const choice = pm.response.json().choices[0];
 if (choice.message.reasoning_content !== undefined) {
 pm.expect(choice.message.reasoning_content).to.not.be.empty;
 }
});

Use o Smart Mock do Apidog para gerar respostas de teste durante o desenvolvimento. Isso significa que seu código de orquestração de agente pode ser testado sem chamar a API real em cada execução, economizando tokens e mantendo os ciclos de teste rápidos.

Se você estiver construindo um agente multi-turn, crie um Cenário de Teste no Apidog que encadeia múltiplas requisições. Valide que preserve_thinking carrega o raciocínio entre as interações, verificando a estrutura da resposta em cada etapa antes de executar o loop completo em produção.

Baixe o Apidog gratuitamente para configurar esses testes.

O que vem a seguir

A equipe Qwen confirmou que variantes menores de código aberto serão lançadas em dias. Elas seguirão o padrão do Qwen3.5: modelos MoE esparsos com pesos públicos Apache 2.0.

O roteiro também inclui:

Tarefas de nível de repositório com horizontes mais longos, visando a resolução de problemas multifile cada vez mais complexos
Desenvolvimento contínuo de agentes multimodais, com agentes GUI e codificação visual como capacidades de primeira classe, não como recursos secundários

As variantes de código aberto do Qwen3.5 tornaram-se alguns dos modelos auto-hospedados mais implantados semanas após o lançamento. Se o Qwen3.6 seguir o mesmo padrão, as variantes menores provavelmente se tornarão a escolha padrão para agentes de codificação auto-hospedados logo após serem lançadas.

Conclusão

Qwen3.6-Plus reduz a lacuna com Claude Opus 4.5 em tarefas de codificação e abre uma clara liderança em operações de terminal, chamadas de ferramentas MCP e planejamento de longo prazo. O contexto de 1M de tokens, a compatibilidade com o protocolo Anthropic e o preserve_thinking para loops de agente o tornam uma escolha prática para sistemas de agente em produção agora mesmo.

O período de prévia gratuita no OpenRouter foi uma forma útil de avaliar o modelo. A API oficial traz estabilidade, cobertura de SLA e o novo parâmetro focado em agentes que torna os fluxos de trabalho multi-turn mais confiáveis.

Apidog cuida da parte de testes: importe o endpoint compatível com OpenAI, escreva asserções de resposta, faça mock durante o desenvolvimento e execute testes de regressão sempre que atualizar o modelo ou a versão da API.

botão

FAQ

Qual a diferença entre Qwen3.6-Plus e a prévia?A prévia (qwen/qwen3.6-plus-preview) foi lançada no OpenRouter em 30 de março de 2026. O lançamento oficial adiciona o parâmetro preserve_thinking, tempo de atividade com SLA garantido e suporte completo ao Model Studio. Variantes menores de código aberto também estão a caminho.

O que é preserve_thinking e quando devo usá-lo?Por padrão, apenas o raciocínio da interação atual é mantido. Quando preserve_thinking: true é definido, o modelo retém a cadeia de pensamento de todas as interações anteriores da conversa. Use-o para loops de agente multi-etapas onde o raciocínio passado do modelo deve informar sua próxima ação.

Como o Qwen3.6-Plus se compara ao Claude Opus 4.5?Claude Opus 4.5 lidera no SWE-bench Verified (80,9% vs 78,8%) e no OSWorld-Verified (66,3% vs 62,5%). Qwen3.6-Plus lidera no Terminal-Bench 2.0 (61,6% vs 59,3%), MCPMark (48,2% vs 42,3%), DeepPlanning (41,5% vs 33,9%) e GPQA (90,4% vs 87,0%).

Posso usar Qwen3.6-Plus com Claude Code?Sim. Defina ANTHROPIC_BASE_URL para o endpoint compatível com Anthropic do Dashscope, ANTHROPIC_MODEL para qwen3.6-plus e ANTHROPIC_AUTH_TOKEN para sua chave de API do Dashscope.

O Qwen3.6-Plus é de código aberto?O modelo de API hospedado não é de pesos abertos. Variantes menores com pesos públicos estão confirmadas para serem lançadas em dias.

Como obtenho acesso gratuito?Instale o Qwen Code (npm install -g @qwen-code/qwen-code@latest), execute qwen e depois /auth. Faça login com o OAuth do Qwen Code para 1.000 chamadas de API gratuitas por dia contra o Qwen3.6-Plus.

Qual janela de contexto ele suporta?1 milhão de tokens por padrão. Alguns benchmarks no relatório oficial usaram 256K para comparação padronizada, mas o padrão da API é 1M.

Como testo a integração da API antes de implantar?Importe o endpoint para o Apidog, adicione sua chave de API como uma variável de ambiente, escreva asserções de resposta e use o Smart Mock para desenvolvimento offline. Encadeie requisições em um Cenário de Teste para validar o comportamento do agente multi-turn de ponta a ponta.