Qwen 3.7 Plus: Modelo de agente multimodal da Alibaba, desempenho e precificação

A Alibaba lançou o Qwen 3.7 Plus poucos dias após o Qwen3.7-Max. A versão curta: Plus é o Max com olhos. Ele mantém o mesmo contexto de 1M de tokens e a estrutura de agente, adiciona entrada de imagem e vídeo, e custa aproximadamente um sexto do preço do Max. Se você tem acompanhado a família, nosso guia sobre o que é o Qwen 3.7 cobre o carro-chefe de texto; este post é sobre o que a nova variante Plus adiciona.

Algo a destacar de antemão, porque muda quem deveria se importar: o Qwen 3.7 Plus é apenas por API e proprietário. Não há pesos abertos, o que quebra o hábito de código aberto do Qwen. Abordaremos o que isso significa abaixo. Como o Plus é entregue apenas como uma API, você passará seu tempo chamando e depurando-o; é aí que o Apidog entra, coberto no final.

botão

A resposta curta

Qwen 3.7 Plus é o irmão multimodal e com preço acessível do Qwen3.7-Max. Entregue a ele uma captura de tela, um protótipo de design ou um vídeo, e ele os analisa como uma entrada de primeira classe. Ele é construído para agentes que controlam interfaces gráficas: ele pode olhar para uma captura de tela de um aplicativo e retornar coordenadas exatas de pixel para clicar.

Em texto puro, o Max ainda o supera ligeiramente. Em qualquer coisa com um sinal visual, o Plus é o que você quer, e custa uma fração do Max de qualquer forma. A única desvantagem real são os pesos fechados.

O que há de novo em relação ao Qwen 3.7 Max

Três mudanças importam.

Ele enxerga. O Max é apenas texto. O Plus aceita texto, imagens e vídeo. Isso desbloqueia a percepção de capturas de tela, leitura de documentos e PDFs, e compreensão de vídeo a partir de um único modelo.

Ele fundamenta GUIs. O Plus é posicionado como um agente interativo multimodal que lida com automação de navegador, navegação de GUI e fluxos de trabalho híbridos de GUI-mais-CLI. Ele produz planos de ação estruturados como "clicar em (x=487, y=232)", que é o que faz os agentes de uso de computador realmente funcionarem.

É barato. O Plus opera em uma faixa de preço significativamente abaixo do Max.

	Qwen 3.7 Plus	Qwen 3.7 Max
Modalidades de entrada	Texto, imagem, vídeo	Somente texto
Janela de contexto	1M tokens (compartilhados com visão)	1M tokens
Entrada / saída por 1M	$0.40 / $1.60	$2.50 / $7.50
Entrada em cache por 1M	$0.08	$0.25
Fundamentação de GUI (ScreenSpot Pro)	79.0	Nenhum
Terminal-Bench	70.3	69.7
Teto de execução autônoma	35 horas	35 horas

Benchmarks

Os números de lançamento, apoiados por análises iniciais, contam uma história consistente: o Plus iguala ou fica ligeiramente atrás do Max em texto, e então se destaca no momento em que a visão entra em cena.

ScreenSpot Pro: 79.0. Este é o teste de fundamentação de GUI, a capacidade do modelo de olhar para uma captura de tela e produzir coordenadas exatas de pixel. 79.0 é de nível de ponta, e o Max não consegue executá-lo.
Terminal-Bench: 70.3. Ligeiramente à frente do 69.7 do Max, mesmo com os parâmetros de visão adicionados.
SWE-Bench Pro: cerca de 60%, essencialmente no mesmo nível que os 60.6% do Max.
MCP-Atlas: 76.4, um empate com o Max na orquestração do uso de ferramentas.
LM Arena: O Plus fica um pouco atrás do Max em texto (#15 vs #13) e codificação (#12 vs #10). Para trabalho puramente textual, o Max mantém uma pequena vantagem.

O padrão é claro. Escolha o Plus quando a tarefa envolver um sinal visual: uma captura de tela, um protótipo, um gráfico. Para uma comparação direta no lado do texto, nosso comparativo Qwen 3.7 vs GPT-5.5 vs Opus 4.7 cobre onde a família se posiciona contra os carros-chefes ocidentais. Como sempre, os números de benchmark vêm do fornecedor e de revisores iniciais, então trate-os como uma direção em vez de uma verdade absoluta.

Preço: o nível multimodal econômico

É aqui que o Plus se torna interessante. Com $0.40 de entrada e $1.60 de saída por milhão de tokens, ele é aproximadamente seis vezes mais barato que o Max na entrada e quase cinco vezes mais barato na saída. A entrada em cache cai para $0.08. Você obtém visão e um contexto de 1M por menos do que a maioria dos modelos somente texto cobra.

Uma ressalva que vale a pena incorporar ao seu modelo de custo: imagens e vídeo compartilham esse orçamento de 1M de tokens. Uma captura de tela de alta resolução pode consumir milhares de tokens, e os quadros de vídeo somam rapidamente, então seu espaço efetivo de texto diminui à medida que a carga visual aumenta. Orce para isso. Para o contexto mais amplo sobre por que os laboratórios chineses continuam a reduzir os preços, veja nossa análise da guerra de preços chinesa de LLMs de 2026.

A pegadinha: proprietário e apenas por API

O Qwen construiu sua tração empresarial em pesos abertos. Grande parte da linha Qwen anterior foi lançada sob licenças Apache 2.0 ou de uso aberto, para que as equipes pudessem baixar, ajustar e executar modelos dentro de data centers com isolamento de rede. O Qwen 3.7 Plus não faz isso.

O Plus é entregue estritamente como uma API comercial gerenciada através do Alibaba Cloud Model Studio. Você não pode baixar os pesos, não pode auto-hospedar e não pode executá-lo offline. Para ambientes regulamentados ou com isolamento de rede, isso é um impedimento. Uma variante Plus de peso aberto foi mencionada para o terceiro trimestre de 2026, mas não está confirmada, e o nível proprietário pode permanecer fechado. Se pesos abertos são um requisito, este modelo não é sua escolha hoje; rivais como o Step 3.7 Flash são lançados sob Apache 2.0 e o superam em preço.

Como acessar o Qwen 3.7 Plus

Duas maneiras:

API: chame-o através do Alibaba Cloud Model Studio. O endpoint é compatível com OpenAI, então os padrões de solicitação do modelo base se mantêm; nosso guia sobre como usar a API do Qwen 3.7 descreve a autenticação e a primeira chamada, e você adiciona partes de imagem ou vídeo ao payload da mensagem para solicitações multimodais.
Chat: experimente no navegador em chat.qwen.ai antes de escrever qualquer código. Se você quiser testar a família sem uma conta, nosso guia Qwen 3.7 gratuitamente mostra os caminhos gratuitos.

Uma chamada multimodal mínima usa o formato padrão de mensagem OpenAI, com uma parte de imagem adicionada ao lado do texto:

from openai import OpenAI

client = OpenAI(
    api_key="SUA_CHAVE_MODEL_STUDIO",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Qual botão envia este formulário? Dê as coordenadas de pixel."},
            {"type": "image_url", "image_url": {"url": "https://example.com/screenshot.png"}},
        ],
    }],
)
print(resp.choices[0].message.content)

Verifique a documentação do Model Studio para o identificador exato do modelo e a URL base regional, pois estes diferem entre os endpoints internacionais e da China.

Quem deve usá-lo

Opte pelo Qwen 3.7 Plus quando seu trabalho se parecer com isto:

Agentes de uso de computador e GUI que clicam em interfaces reais a partir de capturas de tela.
Screenshot-to-code e mockup-to-UI, onde o modelo lê um design e escreve o front-end.
Compreensão de documentos, PDFs e vídeos a um baixo custo por token.
Execuções longas de agentes, até o limite de 35 horas com milhares de chamadas de ferramentas sequenciais.

Mantenha o Max se você estiver otimizando puramente para pontuações de texto SWE-Bench Pro ou precisar da latência mais rápida apenas para texto, onde ele é um pouco mais rápido em caminhos frios. Para a maioria das cargas de trabalho mistas, a opção multimodal mais barata é o padrão sensato. Se você está comparando o Plus com outros modelos abertos e econômicos, nosso comparativo MiniMax M3 vs DeepSeek V4 vs Qwen 3.7 é um mapa útil.

Testando o Qwen 3.7 Plus com Apidog

Como o Plus é apenas por API, você vive na API. As solicitações multimodais são complicadas: você está codificando imagens, anexando vídeo e lendo planos de ação estruturados, muitas vezes dentro de um loop de chamada de ferramentas que dura minutos ou horas. Você precisa ver exatamente o que cada solicitação envia e o que retorna.

Apidog é construído para isso. Envie solicitações do Qwen 3.7 Plus com payloads de imagem e vídeo, inspecione as respostas brutas, gerencie suas chaves do Model Studio em diferentes ambientes e simule o endpoint para que seu aplicativo continue sendo construído enquanto você ajusta os prompts. Para o lado dos agentes, onde o Plus encadeia chamadas de ferramentas em um fluxo de trabalho GUI-e-CLI, o depurador de agentes de IA do Apidog mostra a sequência completa de chamadas para que você possa encontrar onde uma execução deu errado.

Baixe o Apidog para testar, depurar e simular a API do Qwen 3.7 Plus antes que ela chegue à produção.

FAQ

O Qwen 3.7 Plus é de código aberto? Não. É proprietário e disponível apenas como uma API gerenciada através do Alibaba Cloud Model Studio. Você não pode baixar ou auto-hospedar os pesos. Uma variante de peso aberto foi sugerida para o terceiro trimestre de 2026, mas não está confirmada.

Qwen 3.7 Plus ou Max, qual devo usar? Use o Plus se precisar de visão (capturas de tela, PDFs, vídeo) ou quiser o preço mais baixo, que cobre a maioria das cargas de trabalho. Use o Max se estiver ajustando para pontuações puramente textuais no SWE-Bench Pro ou precisar da latência mais rápida apenas para texto.

Quanto custa o Qwen 3.7 Plus? $0.40 por milhão de tokens de entrada, $1.60 por milhão de tokens de saída e $0.08 para entrada em cache. Isso é aproximadamente seis vezes mais barato que o Qwen3.7-Max.

O Qwen 3.7 Plus lida com vídeo? Sim. Ele aceita texto, imagens e vídeo como entrada. Lembre-se de que os tokens visuais compartilham o orçamento de contexto de 1M de tokens, então grandes payloads de mídia reduzem seu espaço de texto.

Qual é a janela de contexto? 1M de tokens, herdados da arquitetura Max, compartilhados entre tokens de texto, imagem e vídeo.

Como acesso o Qwen 3.7 Plus? Através da API do Alibaba Cloud Model Studio, ou experimente no navegador em chat.qwen.ai.

Conclusão

O Qwen 3.7 Plus pega o carro-chefe de agente da Alibaba, adiciona visão e reduz o preço para um nível econômico. Para desenvolvedores que estão criando agentes de uso de computador, codificação baseada em captura de tela ou compreensão de vídeo, é uma das opções multimodais de ponta mais baratas disponíveis. A contrapartida que você aceita são pesos fechados e uma forte dependência da nuvem da Alibaba.

Se essa troca funciona para você, o próximo passo é a própria API. Teste-a, depure as chamadas multimodais e simule as respostas no Apidog para que o que você lançar se mantenha sob tráfego real.

botão