Como construir um agente de IA para automação de computador com Qwen 3.7 Plus

Qwen 3.7 Plus pontua 79.0 no ScreenSpot Pro, o benchmark para analisar uma captura de tela e retornar as coordenadas exatas em pixels para clicar. Essa única habilidade é o que transforma um modelo de chat em um agente de uso de computador: software que vê uma tela, decide o que fazer e o faz. Este guia constrói um agente funcional em Python, de ponta a ponta.

Abordaremos o ciclo do agente, o prompt que obtém ações confiáveis do modelo, um exemplo de navegador executável com Playwright, e as salvaguardas de custo e segurança que você precisa antes de apontá-lo para algo real. Se você quiser primeiro o contexto do modelo, consulte nossa visão geral do Qwen 3.7 Plus; para o formato de requisição bruta, o guia da API do Qwen 3.7 Plus cobre payloads multimodais. Você testará as chamadas do agente no Apidog à medida que avança.

TL;DR

Um agente de uso de computador executa um ciclo: captura a tela, envia-a para o Qwen 3.7 Plus com um objetivo, recebe uma ação estruturada como clicar (x, y), executa essa ação com um driver como Playwright e repete até que o objetivo seja alcançado. O Plus é uma ótima opção devido à sua fundamentação GUI e baixo preço multimodal. As partes difíceis não são o modelo; são limitar o ciclo, escalar coordenadas, controlar o custo de tokens e isolar ações para que um clique errado não cause danos.

O que um agente de uso de computador realmente faz

Tire o hype e são quatro etapas repetidas:

Perceber: capturar uma imagem da tela ou página atual.
Decidir: enviar a captura de tela e o objetivo para o modelo e obter a próxima ação.
Agir: executar essa ação (clicar, digitar, rolar) através de um driver de automação.
Verificar: tirar uma nova captura de tela e decidir se o objetivo foi alcançado.

O modelo é a etapa "decidir". Todo o resto é a tubulação que você controla.

0:00

/1:26

Por que o Qwen 3.7 Plus se encaixa

Três razões. Sua fundamentação GUI é de ponta, então ele retorna coordenadas utilizáveis em vez de descrições vagas. Ele lida com fluxos de trabalho híbridos GUI-e-CLI, então o mesmo agente pode clicar em um botão e executar um comando de shell. E a US$ 0,40 por milhão de tokens de entrada, é barato o suficiente para executar as muitas chamadas de visão que um ciclo de agente exige. Para saber como ele se compara ao carro-chefe somente de texto, consulte nossa comparação Qwen 3.7 Plus vs Max.

A etapa de decisão: obtendo uma ação limpa

O truque é restringir o modelo a um pequeno vocabulário de ações e forçar a saída JSON. Uma prosa solta é difícil de executar; um esquema estrito não é.

import os, json, base64
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

SYSTEM = """Você é um agente de GUI. Você vê uma captura de tela e um objetivo.
Responda com UMA ação JSON e nada mais:
{"action": "click", "x": <int>, "y": <int>}
{"action": "type", "text": "<string>"}
{"action": "scroll", "dy": <int>}
{"action": "done", "reason": "<string>"}
As coordenadas são pixels na captura de tela que você recebeu."""

def next_action(goal, png_bytes):
    b64 = base64.b64encode(png_bytes).decode()
    resp = client.chat.completions.create(
        model="qwen3.7-plus",
        messages=[
            {"role": "system", "content": SYSTEM},
            {"role": "user", "content": [
                {"type": "text", "text": f"Goal: {goal}"},
                {"type": "image_url",
                 "image_url": {"url": f"data:image/png;base64,{b64}"}},
            ]},
        ],
    )
    return json.loads(resp.choices[0].message.content)

Confirme o ID exato do modelo na documentação do Model Studio antes de implantar, pois os identificadores podem mudar.

O ciclo completo com Playwright

Playwright controla um navegador real, então o agente age em páginas reais. Um detalhe evita muita dor de cabeça: faça com que a resolução da captura de tela corresponda à janela de visualização, para que as coordenadas retornadas pelo modelo se mapeiem um a um e você pule a matemática de escala.

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)
    page = browser.new_page(viewport={"width": 1280, "height": 800})
    page.goto("https://example.com")

    goal = "Abra a página de preços e encontre o plano mais barato"

    for step in range(15):                 # limite rígido de etapas
        shot = page.screenshot()           # PNG 1280x800, corresponde à janela de visualização
        action = next_action(goal, shot)
        print(step, action)

        if action["action"] == "done":
            break
        if action["action"] == "click":
            page.mouse.click(action["x"], action["y"])
        elif action["action"] == "type":
            page.keyboard.type(action["text"])
        elif action["action"] == "scroll":
            page.mouse.wheel(0, action["dy"])

        page.wait_for_timeout(800)         # deixe a UI se estabilizar

    browser.close()

Esse é um agente real. Ele navegará por um site em direção a um objetivo, uma ação fundamentada por vez. O mesmo padrão funciona para aplicativos de desktop se você trocar Playwright por um driver de desktop e capturar a janela do sistema operacional.

Custo e confiabilidade

As capturas de tela são a parte cara. Cada uma é convertida em tokens, e uma imagem de 1280 pixels de largura custa alguns milhares de tokens, então um ciclo de 15 etapas envia dinheiro real através da API. Mantenha isso baixo:

Reduzir e cortar. Envie a menor imagem que o modelo ainda consiga ler. Corte para o painel relevante quando puder.
Limitar o ciclo. Sempre limite a contagem de etapas, como o exemplo faz, para que um agente confuso não possa rodar indefinidamente.
Verificar após agir. Trate cada ação como uma hipótese. A próxima captura de tela confirma se funcionou, e o ciclo se autocorrige.

Nosso guia sobre redução de custos de tokens de agente aprofunda o assunto, e nossas notas sobre padrões e armadilhas de fiação de fluxo de trabalho de agente cobrem onde esses ciclos falham na prática.

Quando o agente trava

Três falhas aparecem constantemente, e cada uma tem uma correção barata:

O modelo retorna prosa em vez de JSON. Re-programe com um breve lembrete "responda apenas com JSON" e tente novamente uma vez antes de desistir. Um esquema rigoroso mais uma etapa de reparo corrige quase todas essas falhas.
Um clique erra o alvo. A próxima captura de tela mostra que nada mudou, então adicione uma regra que tenta novamente com uma nova captura de tela em vez de repetir cegamente as mesmas coordenadas.
O ciclo gira sem progresso. Rastreie as últimas ações; se elas se repetirem, pare e exiba a captura de tela para um humano. O limite de etapas é sua salvaguarda.

Segurança

Um agente de uso de computador clica em coisas de verdade. Antes de tocar em qualquer coisa importante:

Execute-o em um ambiente isolado (sandbox) ou em um perfil de navegador descartável, nunca em sua sessão de produção logada.
Exija confirmação humana para ações destrutivas como excluir, enviar ou pagar.
Registre cada ação com sua captura de tela para que você possa auditar o que o agente fez e por quê.

Teste as chamadas do agente com Apidog

A maioria das falhas de agente remonta a uma pergunta: o modelo retornou uma ação válida? Antes de conectar o Playwright, defina isso. Use o Apidog para enviar uma captura de tela de exemplo ao Qwen 3.7 Plus, inspecione o JSON bruto que ele retorna e ajuste seu prompt de sistema até que o esquema de ação volte limpo todas as vezes. Armazene sua chave do Model Studio por ambiente e simule o endpoint para que você possa construir o loop sem queimar tokens em cada execução de teste. Quando o ciclo completo estiver encadeando chamadas, o depurador de agente de IA do Apidog mostra a sequência para que você possa encontrar a etapa que falhou.

Para gerar código de interface de usuário a partir de um design em vez de controlá-lo, consulte nosso guia complementar sobre captura de tela para código com Qwen 3.7 Plus.

Baixe o Apidog para testar e depurar as chamadas do modelo por trás do seu agente.

FAQ

O que é um agente de uso de computador? Software que percebe uma tela através de capturas de tela, decide uma ação com um modelo e a executa através de um driver de automação, repetindo até que um objetivo seja alcançado.

O Qwen 3.7 Plus pode controlar meu desktop? O modelo apenas retorna ações. Você as executa com um driver. Emparelhe-o com Playwright para navegadores ou uma biblioteca de automação de desktop para aplicativos nativos.

Quanto custa cada etapa? Principalmente a captura de tela. Uma única imagem de tela pode custar alguns milhares de tokens de entrada a US$ 0,40 por milhão, então a redução de escala e o limite do loop são as principais alavancas de custo.

É confiável o suficiente para produção? Para tarefas delimitadas e bem definidas com verificação após cada etapa, sim. Para controle aberto de sistemas críticos, mantenha um humano no circuito e isole tudo em sandbox.

Preciso dimensionar as coordenadas? Não se a resolução da sua captura de tela corresponder à sua viewport. Se elas diferirem, dimensione as coordenadas retornadas pela proporção entre elas.

O resultado final

Um agente de uso de computador é um ciclo curto em torno de um modelo capaz, e o Qwen 3.7 Plus oferece a base e o preço para executá-lo. Construa o ciclo, limite-o, coloque-o em sandbox e verifique cada etapa. Em seguida, teste as chamadas do modelo no Apidog para que a etapa "decidir" seja sólida antes que o agente comece a clicar.

button