Qwen 3.7 Plus pontua 79.0 no ScreenSpot Pro, o benchmark para analisar uma captura de tela e retornar as coordenadas exatas em pixels para clicar. Essa única habilidade é o que transforma um modelo de chat em um agente de uso de computador: software que vê uma tela, decide o que fazer e o faz. Este guia constrói um agente funcional em Python, de ponta a ponta.
Abordaremos o ciclo do agente, o prompt que obtém ações confiáveis do modelo, um exemplo de navegador executável com Playwright, e as salvaguardas de custo e segurança que você precisa antes de apontá-lo para algo real. Se você quiser primeiro o contexto do modelo, consulte nossa visão geral do Qwen 3.7 Plus; para o formato de requisição bruta, o guia da API do Qwen 3.7 Plus cobre payloads multimodais. Você testará as chamadas do agente no Apidog à medida que avança.
TL;DR
Um agente de uso de computador executa um ciclo: captura a tela, envia-a para o Qwen 3.7 Plus com um objetivo, recebe uma ação estruturada como clicar (x, y), executa essa ação com um driver como Playwright e repete até que o objetivo seja alcançado. O Plus é uma ótima opção devido à sua fundamentação GUI e baixo preço multimodal. As partes difíceis não são o modelo; são limitar o ciclo, escalar coordenadas, controlar o custo de tokens e isolar ações para que um clique errado não cause danos.
O que um agente de uso de computador realmente faz
Tire o hype e são quatro etapas repetidas:
- Perceber: capturar uma imagem da tela ou página atual.
- Decidir: enviar a captura de tela e o objetivo para o modelo e obter a próxima ação.
- Agir: executar essa ação (clicar, digitar, rolar) através de um driver de automação.
- Verificar: tirar uma nova captura de tela e decidir se o objetivo foi alcançado.
O modelo é a etapa "decidir". Todo o resto é a tubulação que você controla.
Por que o Qwen 3.7 Plus se encaixa
Três razões. Sua fundamentação GUI é de ponta, então ele retorna coordenadas utilizáveis em vez de descrições vagas. Ele lida com fluxos de trabalho híbridos GUI-e-CLI, então o mesmo agente pode clicar em um botão e executar um comando de shell. E a US$ 0,40 por milhão de tokens de entrada, é barato o suficiente para executar as muitas chamadas de visão que um ciclo de agente exige. Para saber como ele se compara ao carro-chefe somente de texto, consulte nossa comparação Qwen 3.7 Plus vs Max.

A etapa de decisão: obtendo uma ação limpa
O truque é restringir o modelo a um pequeno vocabulário de ações e forçar a saída JSON. Uma prosa solta é difícil de executar; um esquema estrito não é.
import os, json, base64
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
SYSTEM = """Você é um agente de GUI. Você vê uma captura de tela e um objetivo.
Responda com UMA ação JSON e nada mais:
{"action": "click", "x": <int>, "y": <int>}
{"action": "type", "text": "<string>"}
{"action": "scroll", "dy": <int>}
{"action": "done", "reason": "<string>"}
As coordenadas são pixels na captura de tela que você recebeu."""
def next_action(goal, png_bytes):
b64 = base64.b64encode(png_bytes).decode()
resp = client.chat.completions.create(
model="qwen3.7-plus",
messages=[
{"role": "system", "content": SYSTEM},
{"role": "user", "content": [
{"type": "text", "text": f"Goal: {goal}"},
{"type": "image_url",
"image_url": {"url": f"data:image/png;base64,{b64}"}},
]},
],
)
return json.loads(resp.choices[0].message.content)
Confirme o ID exato do modelo na documentação do Model Studio antes de implantar, pois os identificadores podem mudar.
O ciclo completo com Playwright
Playwright controla um navegador real, então o agente age em páginas reais. Um detalhe evita muita dor de cabeça: faça com que a resolução da captura de tela corresponda à janela de visualização, para que as coordenadas retornadas pelo modelo se mapeiem um a um e você pule a matemática de escala.
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
browser = p.chromium.launch(headless=False)
page = browser.new_page(viewport={"width": 1280, "height": 800})
page.goto("https://example.com")
goal = "Abra a página de preços e encontre o plano mais barato"
for step in range(15): # limite rígido de etapas
shot = page.screenshot() # PNG 1280x800, corresponde à janela de visualização
action = next_action(goal, shot)
print(step, action)
if action["action"] == "done":
break
if action["action"] == "click":
page.mouse.click(action["x"], action["y"])
elif action["action"] == "type":
page.keyboard.type(action["text"])
elif action["action"] == "scroll":
page.mouse.wheel(0, action["dy"])
page.wait_for_timeout(800) # deixe a UI se estabilizar
browser.close()
Esse é um agente real. Ele navegará por um site em direção a um objetivo, uma ação fundamentada por vez. O mesmo padrão funciona para aplicativos de desktop se você trocar Playwright por um driver de desktop e capturar a janela do sistema operacional.
Custo e confiabilidade
As capturas de tela são a parte cara. Cada uma é convertida em tokens, e uma imagem de 1280 pixels de largura custa alguns milhares de tokens, então um ciclo de 15 etapas envia dinheiro real através da API. Mantenha isso baixo:
- Reduzir e cortar. Envie a menor imagem que o modelo ainda consiga ler. Corte para o painel relevante quando puder.
- Limitar o ciclo. Sempre limite a contagem de etapas, como o exemplo faz, para que um agente confuso não possa rodar indefinidamente.
- Verificar após agir. Trate cada ação como uma hipótese. A próxima captura de tela confirma se funcionou, e o ciclo se autocorrige.
Nosso guia sobre redução de custos de tokens de agente aprofunda o assunto, e nossas notas sobre padrões e armadilhas de fiação de fluxo de trabalho de agente cobrem onde esses ciclos falham na prática.
Quando o agente trava
Três falhas aparecem constantemente, e cada uma tem uma correção barata:
- O modelo retorna prosa em vez de JSON. Re-programe com um breve lembrete "responda apenas com JSON" e tente novamente uma vez antes de desistir. Um esquema rigoroso mais uma etapa de reparo corrige quase todas essas falhas.
- Um clique erra o alvo. A próxima captura de tela mostra que nada mudou, então adicione uma regra que tenta novamente com uma nova captura de tela em vez de repetir cegamente as mesmas coordenadas.
- O ciclo gira sem progresso. Rastreie as últimas ações; se elas se repetirem, pare e exiba a captura de tela para um humano. O limite de etapas é sua salvaguarda.
Segurança
Um agente de uso de computador clica em coisas de verdade. Antes de tocar em qualquer coisa importante:
- Execute-o em um ambiente isolado (sandbox) ou em um perfil de navegador descartável, nunca em sua sessão de produção logada.
- Exija confirmação humana para ações destrutivas como excluir, enviar ou pagar.
- Registre cada ação com sua captura de tela para que você possa auditar o que o agente fez e por quê.
Teste as chamadas do agente com Apidog
A maioria das falhas de agente remonta a uma pergunta: o modelo retornou uma ação válida? Antes de conectar o Playwright, defina isso. Use o Apidog para enviar uma captura de tela de exemplo ao Qwen 3.7 Plus, inspecione o JSON bruto que ele retorna e ajuste seu prompt de sistema até que o esquema de ação volte limpo todas as vezes. Armazene sua chave do Model Studio por ambiente e simule o endpoint para que você possa construir o loop sem queimar tokens em cada execução de teste. Quando o ciclo completo estiver encadeando chamadas, o depurador de agente de IA do Apidog mostra a sequência para que você possa encontrar a etapa que falhou.

Para gerar código de interface de usuário a partir de um design em vez de controlá-lo, consulte nosso guia complementar sobre captura de tela para código com Qwen 3.7 Plus.
Baixe o Apidog para testar e depurar as chamadas do modelo por trás do seu agente.
FAQ
O que é um agente de uso de computador? Software que percebe uma tela através de capturas de tela, decide uma ação com um modelo e a executa através de um driver de automação, repetindo até que um objetivo seja alcançado.
O Qwen 3.7 Plus pode controlar meu desktop? O modelo apenas retorna ações. Você as executa com um driver. Emparelhe-o com Playwright para navegadores ou uma biblioteca de automação de desktop para aplicativos nativos.
Quanto custa cada etapa? Principalmente a captura de tela. Uma única imagem de tela pode custar alguns milhares de tokens de entrada a US$ 0,40 por milhão, então a redução de escala e o limite do loop são as principais alavancas de custo.
É confiável o suficiente para produção? Para tarefas delimitadas e bem definidas com verificação após cada etapa, sim. Para controle aberto de sistemas críticos, mantenha um humano no circuito e isole tudo em sandbox.
Preciso dimensionar as coordenadas? Não se a resolução da sua captura de tela corresponder à sua viewport. Se elas diferirem, dimensione as coordenadas retornadas pela proporção entre elas.
O resultado final
Um agente de uso de computador é um ciclo curto em torno de um modelo capaz, e o Qwen 3.7 Plus oferece a base e o preço para executá-lo. Construa o ciclo, limite-o, coloque-o em sandbox e verifique cada etapa. Em seguida, teste as chamadas do modelo no Apidog para que a etapa "decidir" seja sólida antes que o agente comece a clicar.
