A Alibaba lançou dois carros-chefe da linha Qwen 3.7 em duas semanas: Qwen3.7-Max, o modelo de raciocínio apenas de texto, e Qwen3.7-Plus, a versão multimodal que adiciona visão e custa uma fração do preço. Eles compartilham o mesmo contexto de 1M de tokens e o mesmo teto autônomo de 35 horas, então a escolha não é óbvia apenas pela folha de especificações.
Este guia os coloca lado a lado em benchmarks, preço, velocidade e na decisão de uso diário. Se você deseja o histórico de cada modelo primeiro, consulte nossa visão geral do Qwen 3.7 Plus e o guia mais amplo o que é Qwen 3.7. Seja qual for a sua escolha, você o chamará por meio de uma API e precisará testar as respostas; é aí que o Apidog entra, abordado no final.
A resposta curta
Use Plus por padrão. Ele se iguala ao Max no uso de ferramentas, o supera em tarefas de terminal, adiciona entrada de imagem e vídeo e custa cerca de seis vezes menos. Para a maioria das cargas de trabalho, essa decisão já é tomada apenas pelo preço.

Escolha Max apenas quando estiver otimizando puramente para texto. Ele mantém uma pequena vantagem nos rankings de texto puro e funciona um pouco mais rápido em inicializações a frio apenas de texto. Se o seu trabalho nunca envolve uma captura de tela ou uma imagem de documento, essa vantagem pode importar. Para todo o resto, Plus vence.
A diferença principal
Max é o carro-chefe puramente textual. Ele raciocina, codifica e executa longas cadeias de agentes, tudo a partir de entrada de texto. Plus pega a mesma base e adiciona olhos: ele aceita imagens e vídeos, e ele fundamenta GUIs bem o suficiente para retornar coordenadas de clique exatas de uma captura de tela. E ainda supera Max no preço.

Então a troca é limitada. Você abre mão de uma ligeira vantagem em qualidade de texto e latência, e ganha visão, além de uma conta muito mais barata.
Benchmarks
Os números contam uma história consistente. Plus fica ligeiramente atrás de Max em texto puro, empata no uso de ferramentas e assume a liderança no momento em que a visão entra.
| Benchmark | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| LM Arena (texto) | #15 | #13 |
| LM Arena (codificação) | #12 | #10 |
| Vision Arena | #16 | Não aplicável |
| SWE-Bench Pro | ~60% | 60.6% |
| Terminal-Bench (2.0 Terminus) | 70.3 | 69.7 |
| ScreenSpot Pro (GUI grounding) | 79.0 | Nenhum |
| MCP-Atlas (uso de ferramentas) | 76.4 | 76.4 |
Três pontos se destacam.
SWE-Bench Pro é efetivamente um empate. Plus atinge cerca de 60% contra os 60,6% do Max. Em tarefas de software reais, os parâmetros de visão não custam ao Plus nenhuma capacidade de codificação significativa. Nossa comparação Qwen 3.7 vs GPT-5.5 vs Opus 4.7 mostra onde isso se encaixa em relação aos carros-chefe ocidentais.
Plus realmente vence o Terminal-Bench, 70.3 a 69.7. Para trabalhos de agente com uso intenso de shell, o modelo mais barato também é o ligeiramente mais forte.
A fundamentação de GUI é o verdadeiro diferencial. ScreenSpot Pro 79.0 está no nível de fronteira, e Max não consegue executá-lo de forma alguma. Se seu agente precisa "olhar" para uma tela, apenas um desses modelos se qualifica. Como sempre, trate os números de benchmark do fornecedor como uma direção, não como a verdade absoluta; o site SWE-bench explica o que cada suíte mede.
Preços
É aqui que a diferença é grande.
| Qwen 3.7 Plus | Qwen 3.7 Max | |
|---|---|---|
| Entrada / 1M tokens | US$ 0.40 | US$ 2.50 |
| Saída / 1M tokens | US$ 1.60 | US$ 7.50 |
| Entrada em cache / 1M | US$ 0.08 | US$ 0.25 |
Plus é aproximadamente seis vezes mais barato na entrada e quase cinco vezes mais barato na saída. Para agentes de alto volume ou de longa execução, essa proporção decide orçamentos. O modelo mais barato também lê imagens, o que torna o Max uma venda difícil, a menos que você precise especificamente de sua vantagem em texto.
Uma ressalva para o Plus: imagens e vídeos são tokenizados e compartilham o orçamento de contexto de 1M, então uma carga de trabalho pesada em capturas de tela ou vídeo gasta mais por chamada do que a taxa por token sugere. Redimensione imagens e amostre vídeos com moderação. Nossas notas sobre como reduzir custos de token do agente e a guerra de preços de LLMs chineses de 2026 cobrem o cenário de custos mais amplo. As tarifas oficiais estão na página de preços do Model Studio.
Especificações e velocidade
| Qwen 3.7 Plus | Qwen 3.7 Max | |
|---|---|---|
| Modalidades de entrada | Texto, imagem, vídeo | Somente texto |
| Janela de contexto | 1M (compartilhada com visão) | 1M |
| Teto de execução autônoma | 35 horas | 35 horas |
| Latência somente de texto | Linha de base | ~7–15% mais rápido em caminhos frios |
| Pesos | Proprietário, somente API | Proprietário, somente API |
A latência é a vantagem silenciosa do Max. Em inicializações a frio somente de texto, ele responde visivelmente mais rápido, o que se acumula em produtos estilo chat onde o tempo para o primeiro token é visível para os usuários; análise independente rastreia o equilíbrio entre velocidade e inteligência em detalhes. Ambos os modelos têm pesos fechados e funcionam apenas através do Alibaba Cloud Model Studio, então nenhum deles é uma opção se você precisar de auto-hospedagem.
Qual você deve escolher
Escolha Qwen 3.7 Plus se:
- Seu trabalho envolve imagens, capturas de tela, PDFs ou vídeo.
- Você está construindo agentes de uso de computador ou GUI que leem uma tela.
- O custo é importante, o que, com esses números, significa quase sempre.
Escolha Qwen 3.7 Max se:
- Você está otimizando puramente para pontuações SWE-Bench Pro somente de texto.
- Você precisa da resposta de texto mais rápida em um produto sensível à latência.
- Você nunca envia entrada visual e quer cada ponto de qualidade de texto.
Para a maioria das equipes, Plus é o padrão sensato e Max é o especialista. A diferença de custo é grande o suficiente para que você queira uma razão concreta para pagar seis vezes mais por um modelo somente de texto.
Para concretizar isso, veja como as cargas de trabalho comuns se mapeiam:
| Carga de Trabalho | Escolha | Porquê |
|---|---|---|
| Agente de QA de captura de tela ou regressão visual | Plus | Precisa de fundamentação de GUI; apenas Plus "vê" a tela |
| Extração de fatura, recibo ou PDF escaneado | Plus | Imagens de documentos exigem entrada visual |
| Classificação de texto de alto volume | Plus | Mesma qualidade de texto, uma fração do custo |
| Chatbot de suporte ao cliente de baixa latência | Max | Inicializações a frio somente de texto mais rápidas importam para os usuários |
| Execução autônoma de codificação longa | Qualquer um | Eles empatam no SWE-Bench Pro, então deixe o custo decidir |
O padrão se repete: a menos que uma carga de trabalho seja apenas de texto e sensível à latência, o modelo multimodal mais barato é o padrão mais seguro.
Testando ambos com Apidog
Ambos os modelos compartilham o mesmo endpoint do Model Studio compatível com OpenAI, então alternar entre eles é uma mudança de ID de modelo de uma linha. Isso os torna fáceis de comparar diretamente: envie o mesmo prompt para qwen3.7-plus e qwen3.7-max, alinhe as respostas e veja se a diferença de preço vale a pena para sua tarefa.

Apidog foi construído para esse ciclo. Envie requisições para ambos os modelos, inspecione o JSON bruto lado a lado, armazene sua chave do Model Studio por ambiente e simule os endpoints para que seu aplicativo continue em construção. Para requisições multimodais do Plus, nosso guia da API Qwen 3.7 Plus mostra o formato do payload de imagem e vídeo, e o guia da API base Qwen 3.7 cobre o caminho de texto. Quando qualquer modelo está encadeando chamadas de ferramentas em uma execução de agente, o depurador de agente de IA do Apidog mostra a sequência completa.
Baixe o Apidog para testar e comparar ambos os modelos Qwen 3.7 antes de conectá-los à produção.
FAQ
O Qwen 3.7 Plus é melhor que o Max? Para a maioria das cargas de trabalho, sim, porque ele adiciona visão e custa muito menos, ao mesmo tempo em que se iguala ao Max em codificação e uso de ferramentas. O Max mantém uma pequena vantagem nos rankings de texto puro e na latência apenas de texto.
Quanto mais barato é o Plus? Cerca de seis vezes mais barato na entrada (US$ 0,40 vs US$ 2,50 por milhão de tokens) e quase cinco vezes mais barato na saída (US$ 1,60 vs US$ 7,50).
Eles compartilham a mesma janela de contexto? Sim, ambos têm uma janela de 1M de tokens. No Plus, imagens e vídeos consomem tokens desse mesmo orçamento.
O Max pode processar imagens? Não. O Max é somente de texto. Se você precisa de entrada de imagem ou vídeo, você precisa do Plus.
Algum deles é de código aberto? Não. Ambos são proprietários e rodam apenas através do Alibaba Cloud Model Studio. Você não pode baixar ou auto-hospedar os pesos.
Qual é mais rápido? O Max é aproximadamente 7 a 15% mais rápido em caminhos frios somente de texto. Para trabalhos mistos ou de visão, o Plus é a única opção de qualquer forma.
Conclusão
Qwen 3.7 Max e Plus não estão realmente competindo pelo mesmo trabalho. Max é o purista de texto com uma ligeira vantagem de velocidade e qualidade; Plus é o generalista multimodal mais barato que vence em quase todos os lugares onde o preço ou a visão importam. Comece com Plus e use Max apenas quando uma carga de trabalho somente de texto justificar o custo premium. De qualquer forma, teste a API no Apidog para que o que você entrega se comporte da maneira que os benchmarks prometem.
