A equipe Qwen da Alibaba acaba de lançar seu mais novo modelo carro-chefe, e a comunidade de IA está prestando atenção. O Qwen3.7-Max apareceu em um placar público antes que alguém fora da Alibaba tivesse um nome para ele, e então foi formalmente revelado na Cúpula da Alibaba Cloud de 2026, alguns dias depois. É um modelo de raciocínio construído para a era dos agentes: execução de tarefas de longo horizonte, uma janela de contexto de um milhão de tokens e um lugar de destaque em pelo menos um ranking importante de inteligência.
Se você constrói software, um novo modelo de ponta não é uma notícia abstrata. Você acabará conectando-o por trás de sua própria API, validando suas respostas e simulando sua saída enquanto seu aplicativo é desenvolvido. Essa parte do trabalho é exatamente para o que Apidog serve; este artigo foca no próprio modelo, para que você saiba se o Qwen 3.7 pertence à sua pilha. Tudo abaixo é proveniente do anúncio da Alibaba e de cobertura independente, e onde um número ainda não é confirmado, o dizemos claramente.
TL;DR
Qwen 3.7 é a mais nova família de modelos de IA carro-chefe da Alibaba, liderada pelo Qwen3.7-Max-Preview, um modelo proprietário de raciocínio com uma janela de contexto de 1 milhão de tokens e um modo de pensamento estendido. Ele obteve 57 pontos no Índice de Inteligência de Análise Artificial, relatado como o #1 resultado nesse placar público, e aproximadamente 1.475 Elo no placar de texto do LM Arena. Em meados de maio de 2026, a variante Max é apenas para pré-visualização, com acesso à API sendo implementado na Alibaba Cloud; nenhum modelo de código aberto do Qwen 3.7 havia sido lançado ainda.
O que é Qwen 3.7?
Qwen 3.7 é a última geração de grandes modelos de linguagem da Qwen, a divisão de IA da empresa de tecnologia chinesa Alibaba. O lançamento principal é o Qwen3.7-Max-Preview, descrito pela Alibaba como seu modelo de agente mais avançado e abrangente até o momento.

O nome "Max" sinaliza o nível superior. Ao longo das recentes gerações Qwen, a Alibaba lançou um modelo Max carro-chefe juntamente com variantes menores e mais acessíveis. O Qwen3.7-Max-Preview é um modelo de raciocínio, o que significa que ele trabalha um problema passo a passo antes de responder, em vez de produzir uma resposta em uma única passagem. Essa abordagem de "pensamento estendido" é agora padrão na fronteira; ela troca um pouco de velocidade e custo de token por resultados mais fortes em matemática difícil, codificação e lógica multi-etapa.
Duas datas importam aqui. O modelo apareceu pela primeira vez no placar de texto do LM Arena por volta de 14 de maio de 2026, listado sob um nome de pré-visualização antes que a Alibaba tivesse dito algo publicamente. O anúncio formal veio na Cúpula da Alibaba Cloud de 2026, em 20 de maio, com o modelo chegando à plataforma de API da Alibaba em 19 de maio. Assim, a versão que a maioria das pessoas pode acessar hoje carrega um sufixo "-Preview"; é uma construção inicial, e os detalhes podem mudar antes de um lançamento estável.
A estrutura em toda a comunicação da Alibaba é de agente. O Qwen3.7-Max é apresentado menos como um chatbot e mais como um motor para trabalho autônomo: escrever e depurar código, automatizar fluxos de trabalho de escritório e executar longas cadeias de tarefas com supervisão mínima. Veremos como isso se parece na prática mais adiante.
A linha de variantes do Qwen 3.7
Aqui é onde a honestidade importa, porque o Qwen 3.7 é recém-lançado e grande parte da internet está apenas especulando.
O que está confirmado:
- Qwen3.7-Max-Preview é real, nomeado e acessível. É o modelo de raciocínio carro-chefe e o tema do anúncio da Alibaba.
O que não está confirmado:
- Um nível Qwen 3.7 Plus. Gerações anteriores do Qwen emparelharam um modelo Max carro-chefe com um modelo Plus, e várias fontes esperam que o Qwen 3.7 siga esse padrão. Em meados de maio de 2026, nenhum Qwen3.7-Plus havia sido formalmente lançado.
- Modelos Qwen 3.7 de código aberto. A cobertura da geração anterior observou que a Alibaba lançou variantes Qwen 3.6 de código aberto nas faixas de 27B e 35B, e alguns relatórios esperam um lançamento aberto semelhante para o 3.7. Em meados de maio de 2026, a organização QwenLM no GitHub ainda não hospedava um repositório Qwen 3.7, e nenhum peso do Qwen 3.7 estava disponível para download no Hugging Face.
O padrão de lançamentos anteriores é instrutivo, mas não uma promessa. A Alibaba tem se movido para manter seu melhor modelo proprietário enquanto disponibiliza a camada abaixo como código aberto; isso dá aos desenvolvedores acesso gratuito e auto-hospedável a um modelo forte e reserva o carro-chefe para receita de API paga. Se o Qwen 3.7 seguir esse modelo, espere pesos de código aberto de nível médio eventualmente, mas trate qualquer tamanho ou data específica que você veja online como especulação até que a Alibaba confirme.
A conclusão segura: quando alguém diz "Qwen 3.7" hoje, quase certamente significa Qwen3.7-Max-Preview, e esse modelo tem pesos fechados (não é de código aberto).
A janela de contexto de 1 milhão de tokens
Qwen3.7-Max-Preview possui uma janela de contexto de 1 milhão de tokens, de acordo com a Artificial Analysis. Essa é a quantidade de texto que o modelo pode manter na memória de trabalho de uma vez: seu prompt, quaisquer documentos que você colar, a conversa até agora e a resposta que ele está gerando.
Um milhão de tokens equivale a aproximadamente 700.000 a 750.000 palavras em inglês. Em termos concretos, isso é o suficiente para caber um repositório de código de tamanho médio inteiro, uma pilha de PDFs longos ou meses de histórico de chat em uma única solicitação. O modelo pode raciocinar sobre tudo isso sem que você precise dividir manualmente a entrada ou construir uma camada de recuperação.
Duas ressalvas para manter a honestidade. Primeiro, uma grande janela de contexto é um limite, não uma garantia; os modelos muitas vezes recuperam e raciocinam de forma menos confiável à medida que a janela se enche, e testes independentes de longo contexto para o Qwen 3.7 ainda são escassos. Segundo, contextos grandes custam dinheiro. Cada token que você envia é cobrado, então um prompt de um milhão de tokens é um prompt caro. Use a janela completa quando a tarefa realmente precisar, e corte agressivamente quando não for o caso.
Um contexto de 1 milhão de tokens não é mais raro na fronteira. Os atuais modelos carro-chefe da OpenAI, Google e Anthropic todos anunciam janelas de contexto em torno ou acima da marca de um milhão de tokens, então o Qwen 3.7 se iguala ao campo aqui, em vez de liderá-lo.
Modo de raciocínio e pensamento estendido
Qwen3.7-Max-Preview é um modelo de raciocínio, e isso molda como você o usa.
Quando você o apresenta a um problema difícil, o modelo gera uma cadeia de pensamento primeiro: uma sequência interna de passos onde ele planeja, verifica seu trabalho e corrige o curso antes de se comprometer com uma resposta final. Em interfaces como o Qwen Chat, isso aparece como um modo "Pensando" que você pode ativar para ver o rastreamento de raciocínio do modelo.
O custo disso é visível nos dados. Quando a Artificial Analysis executou sua avaliação do Índice de Inteligência, o Qwen3.7-Max gerou cerca de 97 milhões de tokens, bem acima da média de aproximadamente 24 milhões de tokens para modelos nesse benchmark. Modelos de raciocínio são verbosos por design; eles pensam em voz alta, e cada token de pensamento é um token pelo qual você paga e espera.
Essa troca tem uma forma prática. Para uma chamada de classificação rápida ou uma pequena reescrita, toda essa deliberação é um custo desnecessário. Para uma refatoração espinhosa, uma prova de várias etapas ou uma tarefa de agente que precisa planejar vários movimentos à frente, o raciocínio extra é o que torna o modelo útil.
Isso também importa ao testar o modelo. A saída de raciocínio é mais longa e mais variável do que uma conclusão simples, então suas asserções precisam focar na resposta final, e não na redação exata do rastro de pensamento. Uma configuração prática para isso, incluindo como inspecionar cada chamada de modelo, é abordada no guia sobre como usar a API Qwen 3.7.
Benchmarks do Qwen 3.7: onde ele se posiciona
Os números de benchmark para um modelo tão novo devem ser lidos com cuidado. Alguns vêm de terceiros independentes, outros dos próprios testes da Alibaba, e uma versão de pré-visualização pode mudar antes do lançamento. Aqui está o que foi relatado em meados de maio de 2026, com as fontes anexadas.
Índice de Inteligência de Análise Artificial
O Índice de Inteligência de Análise Artificial é uma pontuação composta que combina avaliações de raciocínio, conhecimento, matemática e codificação em um único número. O Qwen3.7-Max obteve 57 pontos neste índice, de acordo com a Artificial Analysis. Isso foi relatado como um salto de cinco pontos em relação aos 52 do Qwen 3.6 Max Preview anterior, e a Artificial Analysis o listou como o #1 resultado entre 218 modelos classificados em seu placar público.
Isso é um forte desempenho. A ressalva é a mencionada acima: o índice recompensa modelos que pensam por extenso, o Qwen 3.7 é muito verboso, e um único número composto comprime muitos detalhes.
Elo de texto do LM Arena
O LM Arena classifica os modelos pela preferência humana. Pessoas comparam duas respostas anônimas de modelos e votam na melhor; esses votos produzem uma classificação Elo, o mesmo sistema usado no xadrez. O Qwen3.7-Max-Preview entrou no placar de texto do LM Arena com um Elo em torno de 1.475, colocando-o em aproximadamente #13 no geral na arena de texto, de acordo com a cobertura do placar. Ele se classificou mais alto em categorias específicas, incluindo os dez primeiros para matemática e codificação.
Elo e o Índice de Inteligência medem coisas diferentes. O Índice de Inteligência é a correção graduada por tarefa; Elo é qual resposta os humanos gostaram mais. Um modelo pode liderar um e ficar no meio do pacote no outro, o que é aproximadamente a imagem do Qwen 3.7: uma pontuação composta que lidera o placar, uma classificação respeitável, mas não dominante, de preferência humana.

Alegações de raciocínio e agente
O próprio anúncio da Alibaba destacou resultados de agente: o Qwen3.7-Max mantendo a execução autônoma de tarefas por até 35 horas e lidando com mais de 1.000 chamadas de ferramenta em uma única execução sem queda de desempenho. Relatórios independentes sobre a geração anterior também colocaram o raciocínio do Qwen próximo ao topo do campo em questões científicas de nível de pós-graduação. Trate os números de agente de primeira parte como alegações do fornecedor até que terceiros os reproduzam; eles descrevem a força pretendida do modelo, que é um trabalho longo e intensivo em ferramentas.
Como o Qwen 3.7 se compara ao GPT-5.5, Claude Opus 4.7 e Gemini 3.5
Aqui está uma comparação lado a lado dos modelos de ponta atuais. Figuras verificadas são citadas; valores não confirmados ou não divulgados são marcados para que você não seja enganado.
| Especificação | Qwen3.7-Max-Preview | GPT-5.5 | Claude Opus 4.7 | Gemini 3.5 |
|---|---|---|---|---|
| Fornecedor | Alibaba (Qwen) | OpenAI | Anthropic | Google DeepMind |
| Tipo | Modelo de raciocínio | Modelo de raciocínio | Modelo de raciocínio | Modelo de raciocínio |
| Janela de contexto | 1M tokens | ~1M tokens | ~1M tokens (faixa relatada) | ~1M+ tokens |
| Pesos | Proprietário | Proprietário | Proprietário | Proprietário |
| Índice de Inteligência AA | 57 (relatado #1) | Não declarado aqui | Não declarado aqui | Não declarado aqui |
| Estágio de lançamento | Pré-visualização | Estável | Estável | Estável |
| Modo de raciocínio / pensamento | Sim | Sim | Sim | Sim |
| Principal força | Tarefas de agente de longo horizonte | Agentes autônomos, uso de ferramentas | Código com qualidade de produção | Contexto longo, eficiência de custo |
Algumas leituras honestas desta tabela.
Em inteligência composta bruta, o Qwen3.7-Max, com seus 57 pontos relatados no Índice de Inteligência de Análise Artificial, o colocou no topo desse placar específico no lançamento. Esse é um resultado real, mas é um benchmark, e os carros-chefe ocidentais lideram diferentes avaliações que nem todas são capturadas por um único índice.
As diferenças mais claras são sobre o ajuste. Comparações independentes da geração atual geralmente descrevem o Claude Opus 4.7 como a escolha mais forte para enviar código de produção, o GPT-5.5 como o líder para agentes autônomos e trabalho de uso de computador, e o Gemini 3.5 como a opção de custo e contexto longo. A proposta do Qwen 3.7 se aproxima mais da linha de agentes, com os ângulos adicionais de preços competitivos de API e o histórico plausível da Alibaba de abrir o código da camada abaixo do carro-chefe.
O fator decisivo para a maioria das equipes é o acesso, não um placar. Os carros-chefe ocidentais são estáveis e globalmente disponíveis hoje; o Qwen3.7-Max está em pré-visualização, com o acesso à API ainda em implementação. Para um confronto mais completo e focado em números, uma vez que a poeira baixar, veja Qwen 3.7 vs GPT-5.5 vs Opus 4.7. Se sua lista de modelos passa pela linha do Google, a explicação sobre o que é Gemini 3.5 e o confronto em Gemini 3.5 vs GPT-5.5 vs Opus 4.7 cobrem esse lado. E se você está acompanhando o campo mais amplo de modelos chineses, o resumo de o que é ERNIE 5.1 oferece o carro-chefe concorrente da Baidu.
Como acessar o Qwen 3.7 hoje
Em meados de maio de 2026, existem dois caminhos práticos, mais um a observar.
Qwen Chat. A maneira mais rápida de experimentar o modelo é através da interface oficial de chat em chat.qwen.ai. Uma conta gratuita concede acesso com limites de uso, e você pode ativar o modo de Pensamento para observar o modelo raciocinar. Este é o ponto de partida ideal para testar antes de se comprometer com qualquer código.
API da Alibaba Cloud. O Qwen3.7-Max chegou à plataforma de API da Alibaba em 19 de maio de 2026, com a Alibaba descrevendo um acesso mais amplo à API como em fase de implementação. Em lançamentos recentes do Qwen, o modelo carro-chefe foi servido através da plataforma de modelos da Alibaba Cloud; verifique a documentação atual de modelos da Alibaba Cloud para o nome exato do endpoint e preços, já que a disponibilidade e as taxas de um modelo de pré-visualização podem mudar semanalmente. Para um guia passo a passo sobre como conectar chamadas e lidar com a saída de raciocínio, o guia dedicado sobre como usar a API Qwen 3.7 detalha o processo.
Pesos abertos. Se você espera auto-hospedar, a resposta honesta é: ainda não. Nenhum modelo Qwen 3.7 de código aberto havia sido lançado em meados de maio de 2026. Se a Alibaba seguir seu padrão recente de disponibilizar a camada abaixo do carro-chefe como código aberto, pesos de tamanho médio para download podem chegar mais tarde; até então, todas as rotas para o Qwen 3.7 passam pelo serviço hospedado da Alibaba. Opções de nível gratuito e de baixo custo, à medida que surgem, são rastreadas no guia sobre como usar o Qwen 3.7 gratuitamente.
Qualquer que seja o caminho que você escolher, o modelo vive por trás de uma API, e seu aplicativo se comunica com essa API. Projetar essas requisições, simular respostas enquanto você constrói e testar a integração antes do lançamento é onde uma plataforma como o Apidog se encaixa no ciclo. Baixe o Apidog e configure uma coleção de requisições do Qwen 3.7 em poucos minutos.
Conclusão
Qwen 3.7 é uma entrada séria na fronteira da IA, e chegou rápido. A versão curta:
- Qwen3.7-Max-Preview é o mais novo carro-chefe da Alibaba: um modelo de raciocínio proprietário com uma janela de contexto de 1M de tokens e um modo de pensamento estendido.
- Ele obteve 57 pontos no Índice de Inteligência de Análise Artificial, relatado como #1 nesse placar, e aproximadamente 1.475 Elo no texto do LM Arena, cerca de #13 no geral.
- A proposta é agente: execução de tarefas de longo horizonte, uso intensivo de ferramentas e codificação de repositório inteiro.
- Em meados de maio de 2026, é somente para pré-visualização, de código fechado, com acesso à API da Alibaba Cloud sendo implementado. Nenhum peso aberto do Qwen 3.7 havia sido lançado.
- Trate qualquer variante, tamanho ou data não confirmada que você veja online como especulação até que a Alibaba o diga.
- Em comparação com GPT-5.5, Claude Opus 4.7 e Gemini 3.5, o Qwen 3.7 é competitivo em uma pontuação composta e tem um preço agressivo; o fator decisivo para a maioria das equipes é a disponibilidade e o ajuste, não um único benchmark.
Se o Qwen 3.7 entra na sua lista, o próximo passo é integrá-lo a um aplicativo real e provar que a integração funciona. O Apidog permite que você projete a requisição da API, simule as respostas do modelo enquanto constrói, execute testes automatizados contra o endpoint em tempo real e inspecione cada chamada. Baixe o Apidog e transforme uma manchete de benchmark em algo que você realmente enviou.

