Como Usar a API Qwen 3.7? Guia Completo

Ashley Innocent

Ashley Innocent

21 maio 2026

Como Usar a API Qwen 3.7? Guia Completo

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

A equipe Qwen da Alibaba lançou o Qwen3.7-Max-Preview em meados de maio de 2026, e os desenvolvedores imediatamente começaram a fazer a mesma pergunta: como eu o chamo do meu próprio código? O modelo é um sistema de raciocínio carro-chefe com uma janela de contexto de 1 milhão de tokens e rastreamentos explícitos de cadeia de pensamento, ideal para backends de agentes, análise de documentos longos e geração de código. Mas o termo “preview” (prévia) implica muito nesse nome. O acesso é restrito, a superfície da API ainda está se estabelecendo e os detalhes que você precisa para escrever código funcional estão espalhados pelas notas de lançamento e pela documentação da plataforma.

botão

TL;DR

O Qwen3.7-Max-Preview é o modelo de raciocínio carro-chefe da Alibaba, lançado em prévia em 14 de maio de 2026, com uma janela de contexto de 1 milhão de tokens. Durante a prévia, a forma mais confiável de usá-lo é através do Qwen Chat (chat.qwen.ai); o acesso à API de produção é feito pelo Alibaba Cloud Model Studio (DashScope) usando um endpoint compatível com OpenAI, onde você define uma URL base, passa sua chave como um token Bearer e chama /chat/completions. Como a camada 3.7 é apenas para prévia, confirme o ID exato do modelo e o endpoint na documentação oficial antes de lançar, e use o Apidog para testar e simular o endpoint enquanto a disponibilidade se estabiliza.

Como acessar o Qwen 3.7 agora

O Qwen disponibiliza seus modelos em várias interfaces, e nem todas são ativadas ao mesmo tempo. No final de maio de 2026, o estado real do acesso é o seguinte.

**Qwen Chat (chat.qwen.ai).** A maneira mais rápida de experimentar o Qwen3.7-Max-Preview. Faça login com uma conta Qwen gratuita, selecione qwen3.7-max-preview no seletor de modelos e ative o Modo de Pensamento para ver o rastreamento do raciocínio. Há limites de taxa de uso durante a prévia, mas é gratuito e não exige configuração. É um produto de navegador, não uma API, portanto, é para avaliação e não para integração.

**Alibaba Cloud Model Studio (DashScope).** É aqui que os modelos Qwen se tornam uma API real. O Model Studio expõe o Qwen através de um endpoint compatível com OpenAI, então qualquer código que já se comunica com o SDK do OpenAI pode chamar o Qwen com uma troca de URL base e chave. Camadas mais antigas como qwen3.6-max-preview e a família qwen-max já estão disponíveis aqui. A camada de prévia 3.7 pode ainda não ter uma entrada de API pública quando você ler isto; historicamente, o Qwen abriu o acesso à API algumas semanas após a prévia do chat.

**O padrão compatível com OpenAI.** Todo modelo Qwen recente no Model Studio segue a mesma estrutura. Você aponta o cliente OpenAI padrão para uma URL base do DashScope, autentica com um token Bearer e chama a rota de conclusões de chat. Esse padrão é estável entre as versões, então o código abaixo continua funcionando à medida que o ID do modelo 3.7 é lançado; você muda principalmente uma string.

Como o identificador do modelo e o endpoint podem mudar durante uma prévia, considere a documentação oficial do Qwen e a lista de modelos do Model Studio como a fonte da verdade. Para uma rota de custo zero enquanto você espera pelo acesso à API, nosso guia sobre como usar o Qwen 3.7 gratuitamente cobre os canais de prévia em detalhes.

Métodos de acesso em um relance

Método Acesso à API Custo Melhor para
Qwen Chat (chat.qwen.ai) Não Gratuito, com limite de taxa Avaliação rápida, teste de prompts
Alibaba Cloud Model Studio (DashScope) Sim, compatível com OpenAI Pague por token Integração em produção
Qwen no Hugging Face Pesos, quando lançado Gratuito (self-host) Modelos de peso aberto, não a prévia Max
Gateways de terceiros Varia Varia Roteamento multi-modelo

Uma distinção que vale a pena notar: os modelos Qwen de peso aberto chegam ao Hugging Face, mas a camada Max-Preview é proprietária, então não espere pesos para download para qwen3.7-max-preview.

Obtendo uma chave de API do Qwen 3.7

O acesso à API é feito por meio de uma conta Alibaba Cloud. Os passos são curtos.

  1. Crie uma conta Alibaba Cloud e abra o console do Model Studio (modelstudio.console.alibabacloud.com).
  2. Ative o Model Studio para sua conta e região. As chaves são restritas à região, então uma chave para o endpoint de Singapura não autenticará contra Pequim.
  3. Abra a seção de chaves de API do console e gere uma chave. Ela se parece com sk- seguida por uma sequência de caracteres.
  4. Copie a chave uma vez e armazene-a como uma senha.

Escolha sua região deliberadamente, pois ela define sua URL base:

Região URL base
Singapura https://dashscope-intl.aliyuncs.com/compatible-mode/v1
EUA (Virgínia) https://dashscope-us.aliyuncs.com/compatible-mode/v1
Pequim (China) https://dashscope.aliyuncs.com/compatible-mode/v1

Nunca codifique a chave diretamente no código-fonte que você commita. Em vez disso, coloque-a em uma variável de ambiente:

# macOS / Linux
export DASHSCOPE_API_KEY="sk-your-key-here"

# Windows PowerShell
setx DASHSCOPE_API_KEY "sk-your-key-here"

Seu código lê DASHSCOPE_API_KEY em tempo de execução. Isso mantém o segredo fora do seu repositório e permite que você rotacione chaves sem tocar no código. O mesmo hábito se aplica a qualquer modelo que você chame; você verá o mesmo padrão em nosso guia para a API do Gemini 3.5.

Sua primeira requisição: Python, curl e JavaScript

O endpoint do Model Studio do Qwen é compatível com OpenAI, então você tem duas opções: o SDK oficial do OpenAI apontado para a URL base do DashScope, ou uma chamada HTTP direta. Ambas estão abaixo.

Uma observação antes do código. O ID do modelo qwen3.7-max-preview é o identificador que o Qwen Chat usa para o modelo de prévia. A string exata que a API espera pode diferir durante uma janela de prévia, e uma camada mais antiga como qwen3.6-max-preview pode estar ativa quando você tentar isso. Confirme o ID do modelo atual na lista de modelos do Model Studio e, em seguida, insira-o no campo model. A estrutura da requisição não muda.

Python com o SDK do OpenAI

Instale o SDK com pip install openai, e então envie uma requisição:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    # Use a URL base para a região da sua conta
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

response = client.chat.completions.create(
    # Confirme o ID do modelo ativo na lista de modelos do Model Studio
    model="qwen3.7-max-preview",
    messages=[
        {"role": "system", "content": "Você é um assistente de codificação preciso."},
        {"role": "user", "content": "Escreva uma função Python que inverte uma lista encadeada."},
    ],
)

print(response.choices[0].message.content)

Essa é uma requisição completa. O array messages segue o padrão de papéis: uma mensagem system define o comportamento, e então as falas do user. A resposta contém o texto gerado em choices[0].message.content.

curl

Para uma verificação rápida no terminal, ou para confirmar se uma chave funciona antes de escrever o código do aplicativo:

curl 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions' \
  --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "qwen3.7-max-preview",
    "messages": [
      {"role": "user", "content": "Explique idempotência em APIs REST em duas frases."}
    ]
  }'

Se a chave e o ID do modelo forem válidos, você receberá uma resposta JSON com a conclusão. Caso contrário, o corpo do erro informará o que corrigir; mais sobre erros abaixo.

JavaScript / Node.js

O mesmo SDK do OpenAI funciona no Node. Instale-o com npm install openai:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
});

const response = await client.chat.completions.create({
  model: "qwen3.7-max-preview",
  messages: [
    { role: "user", content: "Liste três desvantagens do GraphQL em relação ao REST." },
  ],
});

console.log(response.choices[0].message.content);

Três linguagens, uma única estrutura de requisição; essa é a vantagem de uma API compatível com OpenAI.

Respostas em streaming

Para qualquer coisa voltada para o usuário, você não quer esperar pela conclusão completa antes de exibir a saída. O streaming envia tokens à medida que são gerados. Defina stream como true e itere sobre os blocos.

stream = client.chat.completions.create(
    model="qwen3.7-max-preview",
    messages=[
        {"role": "user", "content": "Resuma o teorema CAP."},
    ],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

No Node, a resposta em streaming é um iterável assíncrono:

const stream = await client.chat.completions.create({
  model: "qwen3.7-max-preview",
  messages: [{ role: "user", content: "Resuma o teorema CAP." }],
  stream: true,
});

for await (const chunk of stream) {
  process.stdout.write(chunk.choices[0]?.delta?.content || "");
}

O streaming é mais importante com um modelo de raciocínio do que com um modelo de chat comum. O Qwen 3.7 pode gastar um tempo considerável em sua cadeia de pensamento antes da resposta final, então, sem streaming, o usuário fica olhando para uma tela em branco. Com o streaming, você pode mostrar o rastro do pensamento, um indicador de digitação ou a resposta à medida que ela se forma.

O parâmetro de raciocínio e pensamento

O Qwen3.7-Max-Preview é um modelo de raciocínio. Ele pode produzir uma cadeia de pensamento explícita dentro de blocos <think> antes de se comprometer com uma resposta final. Esse rastro impulsiona suas pontuações em matemática e problemas multi-passos complexos, e ajuda na depuração: você pode ver onde a lógica do modelo falhou.

Em modelos Qwen recentes servidos através do DashScope, o comportamento de pensamento é controlado com um flag enable_thinking. Confirme o mecanismo exato e o nome do parâmetro para a camada de prévia 3.7 na referência da API atual, pois os controles de raciocínio mudaram entre as versões do Qwen. Conceitualmente, a requisição se parece com isto:

response = client.chat.completions.create(
    model="qwen3.7-max-preview",
    messages=[
        {"role": "user", "content": "Um trem parte às 14h a uma velocidade média de 60 mph. "
                                    "Um segundo trem parte às 15h a 75 mph na mesma rota. "
                                    "Quando o segundo alcança o primeiro?"},
    ],
    # Os controles de raciocínio variam de acordo com a versão do Qwen; confirme o
    # parâmetro atual na referência da API do Model Studio antes de depender dele.
    extra_body={"enable_thinking": True},
)

print(response.choices[0].message.content)

Algumas observações práticas:

Se você está comparando a qualidade e o custo do raciocínio com outros modelos de ponta, nossa comparação de Qwen 3.7 vs GPT-5.5 vs Opus 4.7 apresenta as vantagens e desvantagens lado a lado. Modelos de raciocínio podem consumir tokens rapidamente em loops de agentes; se essa for sua situação, as técnicas em nosso artigo sobre como reduzir os custos de tokens de agentes se aplicam diretamente.

Tratamento de erros e limites de taxa

Uma requisição pode falhar por motivos previsíveis. Trate-os para que seu aplicativo degrade graciosamente.

Status HTTP Significado O que fazer
400 Requisição inválida: JSON malformado, parâmetro inválido Corrija o corpo da requisição; verifique o ID do modelo e os nomes dos campos
401 Chave de API inválida ou ausente Verifique a chave e se ela corresponde à região do endpoint
403 Sem acesso ao modelo A camada de prévia pode ser restrita; confirme se sua conta está ativada
404 Modelo não encontrado O ID do modelo está incorreto ou não está disponível em sua região
429 Limite de taxa ou cota excedida Espere e tente novamente; verifique os limites de QPS e o saldo da conta
500 / 503 Erro do lado do servidor Tente novamente com backoff exponencial

Modelos em prévia retornam 403 e 404 com mais frequência do que os estáveis, porque o acesso é restrito e os identificadores mudam. Se você receber um desses, o problema geralmente é o acesso ou a string do modelo, não o seu código.

Os limites de taxa no Model Studio são definidos por conta como consultas por segundo ou por minuto, e os números exatos dependem do nível da sua conta e do modelo; verifique o console em vez de assumir um valor fixo. O padrão é o mesmo, independentemente: capture 429, espere e tente novamente com atrasos crescentes.

import time
from openai import OpenAI, RateLimitError, APIStatusError

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

def ask_qwen(prompt, max_retries=4):
    for attempt in range(max_retries):
        try:
            response = client.chat.completions.create(
                model="qwen3.7-max-preview",
                messages=[{"role": "user", "content": prompt}],
            )
            return response.choices[0].message.content
        except RateLimitError:
            wait = 2 ** attempt          # 1s, 2s, 4s, 8s
            print(f"Limite de taxa atingido. Tentando novamente em {wait}s...")
            time.sleep(wait)
        except APIStatusError as e:
            # Erros 400/401/403/404 não valem a pena tentar novamente; mostre-os
            print(f"Erro da API {e.status_code}: {e.message}")
            raise
    raise RuntimeError("Falha após tentativas")

Backoff exponencial em 429 e 5xx, falha rápida em 4xx. Essa divisão impede que você sobrecarregue a API em erros que uma nova tentativa não resolverá.

Testando e simulando a API do Qwen com Apidog

É aqui que uma API em prévia se torna problemática, e onde boas ferramentas valem a pena. Quando o acesso é restrito, o ID do modelo está mudando e os limites de taxa são apertados, você não quer testar executando todo o seu aplicativo e lendo logs. Você quer enviar uma requisição, ver exatamente o que retorna e mantê-la para executar novamente. O Apidog foi desenvolvido para esse ciclo.

Simule o endpoint enquanto você constrói. Este é o ponto principal para uma prévia restrita. O servidor de simulação do Apidog retorna respostas realistas do esquema da API, sem chave e sem limite de taxa. Assim, seu frontend ou agente pode desenvolver contra um endpoint Qwen substituto que sempre responde instantaneamente, mesmo quando o acesso real à prévia está limitado, inativo ou ainda não aberto para sua conta. Quando a API real estiver pronta, basta mudar a URL base da simulação para o DashScope e seu código permanece inalterado. Para mais informações sobre fluxos de trabalho "schema-first", consulte nosso passo a passo do modo "spec-first".

O padrão se generaliza para qualquer API de modelo. O mesmo ciclo de teste e simulação no Apidog funciona seja você chamando Qwen, Gemini ou a API do ERNIE 5.1; um modelo em prévia torna a etapa de simulação mais valiosa, porque o endpoint real é a parte menos confiável da sua pilha.

Conclusão

Chamar o Qwen 3.7 é simples uma vez que você conhece o caminho. A dificuldade está na restrição da prévia, não na API.

Pare de adivinhar o que o Qwen retorna e comece a vê-lo. Baixe o Apidog para projetar o endpoint do Qwen, enviar requisições de teste reais, salvar cenários reutilizáveis e simular a API enquanto você constrói. É gratuito para começar e transforma uma prévia instável em algo que você pode desenvolver com confiança.

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs