A equipe Qwen da Alibaba lançou o Qwen3.7-Max-Preview em meados de maio de 2026, e os desenvolvedores imediatamente começaram a fazer a mesma pergunta: como eu o chamo do meu próprio código? O modelo é um sistema de raciocínio carro-chefe com uma janela de contexto de 1 milhão de tokens e rastreamentos explícitos de cadeia de pensamento, ideal para backends de agentes, análise de documentos longos e geração de código. Mas o termo “preview” (prévia) implica muito nesse nome. O acesso é restrito, a superfície da API ainda está se estabelecendo e os detalhes que você precisa para escrever código funcional estão espalhados pelas notas de lançamento e pela documentação da plataforma.
TL;DR
O Qwen3.7-Max-Preview é o modelo de raciocínio carro-chefe da Alibaba, lançado em prévia em 14 de maio de 2026, com uma janela de contexto de 1 milhão de tokens. Durante a prévia, a forma mais confiável de usá-lo é através do Qwen Chat (chat.qwen.ai); o acesso à API de produção é feito pelo Alibaba Cloud Model Studio (DashScope) usando um endpoint compatível com OpenAI, onde você define uma URL base, passa sua chave como um token Bearer e chama /chat/completions. Como a camada 3.7 é apenas para prévia, confirme o ID exato do modelo e o endpoint na documentação oficial antes de lançar, e use o Apidog para testar e simular o endpoint enquanto a disponibilidade se estabiliza.
Como acessar o Qwen 3.7 agora
O Qwen disponibiliza seus modelos em várias interfaces, e nem todas são ativadas ao mesmo tempo. No final de maio de 2026, o estado real do acesso é o seguinte.
**Qwen Chat (chat.qwen.ai).** A maneira mais rápida de experimentar o Qwen3.7-Max-Preview. Faça login com uma conta Qwen gratuita, selecione qwen3.7-max-preview no seletor de modelos e ative o Modo de Pensamento para ver o rastreamento do raciocínio. Há limites de taxa de uso durante a prévia, mas é gratuito e não exige configuração. É um produto de navegador, não uma API, portanto, é para avaliação e não para integração.
**Alibaba Cloud Model Studio (DashScope).** É aqui que os modelos Qwen se tornam uma API real. O Model Studio expõe o Qwen através de um endpoint compatível com OpenAI, então qualquer código que já se comunica com o SDK do OpenAI pode chamar o Qwen com uma troca de URL base e chave. Camadas mais antigas como qwen3.6-max-preview e a família qwen-max já estão disponíveis aqui. A camada de prévia 3.7 pode ainda não ter uma entrada de API pública quando você ler isto; historicamente, o Qwen abriu o acesso à API algumas semanas após a prévia do chat.

**O padrão compatível com OpenAI.** Todo modelo Qwen recente no Model Studio segue a mesma estrutura. Você aponta o cliente OpenAI padrão para uma URL base do DashScope, autentica com um token Bearer e chama a rota de conclusões de chat. Esse padrão é estável entre as versões, então o código abaixo continua funcionando à medida que o ID do modelo 3.7 é lançado; você muda principalmente uma string.
Como o identificador do modelo e o endpoint podem mudar durante uma prévia, considere a documentação oficial do Qwen e a lista de modelos do Model Studio como a fonte da verdade. Para uma rota de custo zero enquanto você espera pelo acesso à API, nosso guia sobre como usar o Qwen 3.7 gratuitamente cobre os canais de prévia em detalhes.
Métodos de acesso em um relance
| Método | Acesso à API | Custo | Melhor para |
|---|---|---|---|
| Qwen Chat (chat.qwen.ai) | Não | Gratuito, com limite de taxa | Avaliação rápida, teste de prompts |
| Alibaba Cloud Model Studio (DashScope) | Sim, compatível com OpenAI | Pague por token | Integração em produção |
| Qwen no Hugging Face | Pesos, quando lançado | Gratuito (self-host) | Modelos de peso aberto, não a prévia Max |
| Gateways de terceiros | Varia | Varia | Roteamento multi-modelo |
Uma distinção que vale a pena notar: os modelos Qwen de peso aberto chegam ao Hugging Face, mas a camada Max-Preview é proprietária, então não espere pesos para download para qwen3.7-max-preview.
Obtendo uma chave de API do Qwen 3.7
O acesso à API é feito por meio de uma conta Alibaba Cloud. Os passos são curtos.
- Crie uma conta Alibaba Cloud e abra o console do Model Studio (
modelstudio.console.alibabacloud.com). - Ative o Model Studio para sua conta e região. As chaves são restritas à região, então uma chave para o endpoint de Singapura não autenticará contra Pequim.
- Abra a seção de chaves de API do console e gere uma chave. Ela se parece com
sk-seguida por uma sequência de caracteres. - Copie a chave uma vez e armazene-a como uma senha.
Escolha sua região deliberadamente, pois ela define sua URL base:
| Região | URL base |
|---|---|
| Singapura | https://dashscope-intl.aliyuncs.com/compatible-mode/v1 |
| EUA (Virgínia) | https://dashscope-us.aliyuncs.com/compatible-mode/v1 |
| Pequim (China) | https://dashscope.aliyuncs.com/compatible-mode/v1 |
Nunca codifique a chave diretamente no código-fonte que você commita. Em vez disso, coloque-a em uma variável de ambiente:
# macOS / Linux
export DASHSCOPE_API_KEY="sk-your-key-here"
# Windows PowerShell
setx DASHSCOPE_API_KEY "sk-your-key-here"
Seu código lê DASHSCOPE_API_KEY em tempo de execução. Isso mantém o segredo fora do seu repositório e permite que você rotacione chaves sem tocar no código. O mesmo hábito se aplica a qualquer modelo que você chame; você verá o mesmo padrão em nosso guia para a API do Gemini 3.5.
Sua primeira requisição: Python, curl e JavaScript
O endpoint do Model Studio do Qwen é compatível com OpenAI, então você tem duas opções: o SDK oficial do OpenAI apontado para a URL base do DashScope, ou uma chamada HTTP direta. Ambas estão abaixo.
Uma observação antes do código. O ID do modelo qwen3.7-max-preview é o identificador que o Qwen Chat usa para o modelo de prévia. A string exata que a API espera pode diferir durante uma janela de prévia, e uma camada mais antiga como qwen3.6-max-preview pode estar ativa quando você tentar isso. Confirme o ID do modelo atual na lista de modelos do Model Studio e, em seguida, insira-o no campo model. A estrutura da requisição não muda.
Python com o SDK do OpenAI
Instale o SDK com pip install openai, e então envie uma requisição:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
# Use a URL base para a região da sua conta
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
response = client.chat.completions.create(
# Confirme o ID do modelo ativo na lista de modelos do Model Studio
model="qwen3.7-max-preview",
messages=[
{"role": "system", "content": "Você é um assistente de codificação preciso."},
{"role": "user", "content": "Escreva uma função Python que inverte uma lista encadeada."},
],
)
print(response.choices[0].message.content)
Essa é uma requisição completa. O array messages segue o padrão de papéis: uma mensagem system define o comportamento, e então as falas do user. A resposta contém o texto gerado em choices[0].message.content.
curl
Para uma verificação rápida no terminal, ou para confirmar se uma chave funciona antes de escrever o código do aplicativo:
curl 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model": "qwen3.7-max-preview",
"messages": [
{"role": "user", "content": "Explique idempotência em APIs REST em duas frases."}
]
}'
Se a chave e o ID do modelo forem válidos, você receberá uma resposta JSON com a conclusão. Caso contrário, o corpo do erro informará o que corrigir; mais sobre erros abaixo.
JavaScript / Node.js
O mesmo SDK do OpenAI funciona no Node. Instale-o com npm install openai:
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DASHSCOPE_API_KEY,
baseURL: "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
});
const response = await client.chat.completions.create({
model: "qwen3.7-max-preview",
messages: [
{ role: "user", content: "Liste três desvantagens do GraphQL em relação ao REST." },
],
});
console.log(response.choices[0].message.content);
Três linguagens, uma única estrutura de requisição; essa é a vantagem de uma API compatível com OpenAI.
Respostas em streaming
Para qualquer coisa voltada para o usuário, você não quer esperar pela conclusão completa antes de exibir a saída. O streaming envia tokens à medida que são gerados. Defina stream como true e itere sobre os blocos.
stream = client.chat.completions.create(
model="qwen3.7-max-preview",
messages=[
{"role": "user", "content": "Resuma o teorema CAP."},
],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="", flush=True)
No Node, a resposta em streaming é um iterável assíncrono:
const stream = await client.chat.completions.create({
model: "qwen3.7-max-preview",
messages: [{ role: "user", content: "Resuma o teorema CAP." }],
stream: true,
});
for await (const chunk of stream) {
process.stdout.write(chunk.choices[0]?.delta?.content || "");
}
O streaming é mais importante com um modelo de raciocínio do que com um modelo de chat comum. O Qwen 3.7 pode gastar um tempo considerável em sua cadeia de pensamento antes da resposta final, então, sem streaming, o usuário fica olhando para uma tela em branco. Com o streaming, você pode mostrar o rastro do pensamento, um indicador de digitação ou a resposta à medida que ela se forma.
O parâmetro de raciocínio e pensamento
O Qwen3.7-Max-Preview é um modelo de raciocínio. Ele pode produzir uma cadeia de pensamento explícita dentro de blocos <think> antes de se comprometer com uma resposta final. Esse rastro impulsiona suas pontuações em matemática e problemas multi-passos complexos, e ajuda na depuração: você pode ver onde a lógica do modelo falhou.
Em modelos Qwen recentes servidos através do DashScope, o comportamento de pensamento é controlado com um flag enable_thinking. Confirme o mecanismo exato e o nome do parâmetro para a camada de prévia 3.7 na referência da API atual, pois os controles de raciocínio mudaram entre as versões do Qwen. Conceitualmente, a requisição se parece com isto:
response = client.chat.completions.create(
model="qwen3.7-max-preview",
messages=[
{"role": "user", "content": "Um trem parte às 14h a uma velocidade média de 60 mph. "
"Um segundo trem parte às 15h a 75 mph na mesma rota. "
"Quando o segundo alcança o primeiro?"},
],
# Os controles de raciocínio variam de acordo com a versão do Qwen; confirme o
# parâmetro atual na referência da API do Model Studio antes de depender dele.
extra_body={"enable_thinking": True},
)
print(response.choices[0].message.content)
Algumas observações práticas:
- **Pensar custa tokens e tempo.** O rastro de raciocínio é texto gerado. Ele conta para a saída e adiciona latência. Para buscas simples ou formatação, mantenha o pensamento desativado.
- **Ative-o para problemas difíceis.** Matemática multi-passos, código com casos de borda complicados, planejamento e análise são onde a cadeia de pensamento compensa seu custo.
- **Decida se deve mostrar o rastro.** Alguns aplicativos exibem o conteúdo
<think>para que os usuários vejam o trabalho do modelo; outros o removem e mostram apenas a resposta final. Ambos são válidos.
Se você está comparando a qualidade e o custo do raciocínio com outros modelos de ponta, nossa comparação de Qwen 3.7 vs GPT-5.5 vs Opus 4.7 apresenta as vantagens e desvantagens lado a lado. Modelos de raciocínio podem consumir tokens rapidamente em loops de agentes; se essa for sua situação, as técnicas em nosso artigo sobre como reduzir os custos de tokens de agentes se aplicam diretamente.
Tratamento de erros e limites de taxa
Uma requisição pode falhar por motivos previsíveis. Trate-os para que seu aplicativo degrade graciosamente.
| Status HTTP | Significado | O que fazer |
|---|---|---|
| 400 | Requisição inválida: JSON malformado, parâmetro inválido | Corrija o corpo da requisição; verifique o ID do modelo e os nomes dos campos |
| 401 | Chave de API inválida ou ausente | Verifique a chave e se ela corresponde à região do endpoint |
| 403 | Sem acesso ao modelo | A camada de prévia pode ser restrita; confirme se sua conta está ativada |
| 404 | Modelo não encontrado | O ID do modelo está incorreto ou não está disponível em sua região |
| 429 | Limite de taxa ou cota excedida | Espere e tente novamente; verifique os limites de QPS e o saldo da conta |
| 500 / 503 | Erro do lado do servidor | Tente novamente com backoff exponencial |
Modelos em prévia retornam 403 e 404 com mais frequência do que os estáveis, porque o acesso é restrito e os identificadores mudam. Se você receber um desses, o problema geralmente é o acesso ou a string do modelo, não o seu código.
Os limites de taxa no Model Studio são definidos por conta como consultas por segundo ou por minuto, e os números exatos dependem do nível da sua conta e do modelo; verifique o console em vez de assumir um valor fixo. O padrão é o mesmo, independentemente: capture 429, espere e tente novamente com atrasos crescentes.
import time
from openai import OpenAI, RateLimitError, APIStatusError
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
def ask_qwen(prompt, max_retries=4):
for attempt in range(max_retries):
try:
response = client.chat.completions.create(
model="qwen3.7-max-preview",
messages=[{"role": "user", "content": prompt}],
)
return response.choices[0].message.content
except RateLimitError:
wait = 2 ** attempt # 1s, 2s, 4s, 8s
print(f"Limite de taxa atingido. Tentando novamente em {wait}s...")
time.sleep(wait)
except APIStatusError as e:
# Erros 400/401/403/404 não valem a pena tentar novamente; mostre-os
print(f"Erro da API {e.status_code}: {e.message}")
raise
raise RuntimeError("Falha após tentativas")
Backoff exponencial em 429 e 5xx, falha rápida em 4xx. Essa divisão impede que você sobrecarregue a API em erros que uma nova tentativa não resolverá.
Testando e simulando a API do Qwen com Apidog
É aqui que uma API em prévia se torna problemática, e onde boas ferramentas valem a pena. Quando o acesso é restrito, o ID do modelo está mudando e os limites de taxa são apertados, você não quer testar executando todo o seu aplicativo e lendo logs. Você quer enviar uma requisição, ver exatamente o que retorna e mantê-la para executar novamente. O Apidog foi desenvolvido para esse ciclo.

Simule o endpoint enquanto você constrói. Este é o ponto principal para uma prévia restrita. O servidor de simulação do Apidog retorna respostas realistas do esquema da API, sem chave e sem limite de taxa. Assim, seu frontend ou agente pode desenvolver contra um endpoint Qwen substituto que sempre responde instantaneamente, mesmo quando o acesso real à prévia está limitado, inativo ou ainda não aberto para sua conta. Quando a API real estiver pronta, basta mudar a URL base da simulação para o DashScope e seu código permanece inalterado. Para mais informações sobre fluxos de trabalho "schema-first", consulte nosso passo a passo do modo "spec-first".
O padrão se generaliza para qualquer API de modelo. O mesmo ciclo de teste e simulação no Apidog funciona seja você chamando Qwen, Gemini ou a API do ERNIE 5.1; um modelo em prévia torna a etapa de simulação mais valiosa, porque o endpoint real é a parte menos confiável da sua pilha.
Conclusão
Chamar o Qwen 3.7 é simples uma vez que você conhece o caminho. A dificuldade está na restrição da prévia, não na API.
Pare de adivinhar o que o Qwen retorna e comece a vê-lo. Baixe o Apidog para projetar o endpoint do Qwen, enviar requisições de teste reais, salvar cenários reutilizáveis e simular a API enquanto você constrói. É gratuito para começar e transforma uma prévia instável em algo que você pode desenvolver com confiança.
