Como construir um agente de IA para automação de computador com Qwen 3.7 Plus

Construa um agente funcional para uso de computador / GUI com Qwen 3.7 Plus: o ciclo de perceber-decidir-agir, um prompt de ação JSON estrito, um exemplo Playwright executável, além de salvaguardas de custo, confiabilidade e segurança.

Ashley Innocent

Ashley Innocent

3 junho 2026

Como construir um agente de IA para automação de computador com Qwen 3.7 Plus

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

Qwen 3.7 Plus pontua 79.0 no ScreenSpot Pro, o benchmark para analisar uma captura de tela e retornar as coordenadas exatas em pixels para clicar. Essa única habilidade é o que transforma um modelo de chat em um agente de uso de computador: software que vê uma tela, decide o que fazer e o faz. Este guia constrói um agente funcional em Python, de ponta a ponta.

Abordaremos o ciclo do agente, o prompt que obtém ações confiáveis do modelo, um exemplo de navegador executável com Playwright, e as salvaguardas de custo e segurança que você precisa antes de apontá-lo para algo real. Se você quiser primeiro o contexto do modelo, consulte nossa visão geral do Qwen 3.7 Plus; para o formato de requisição bruta, o guia da API do Qwen 3.7 Plus cobre payloads multimodais. Você testará as chamadas do agente no Apidog à medida que avança.

TL;DR

Um agente de uso de computador executa um ciclo: captura a tela, envia-a para o Qwen 3.7 Plus com um objetivo, recebe uma ação estruturada como clicar (x, y), executa essa ação com um driver como Playwright e repete até que o objetivo seja alcançado. O Plus é uma ótima opção devido à sua fundamentação GUI e baixo preço multimodal. As partes difíceis não são o modelo; são limitar o ciclo, escalar coordenadas, controlar o custo de tokens e isolar ações para que um clique errado não cause danos.

O que um agente de uso de computador realmente faz

Tire o hype e são quatro etapas repetidas:

  1. Perceber: capturar uma imagem da tela ou página atual.
  2. Decidir: enviar a captura de tela e o objetivo para o modelo e obter a próxima ação.
  3. Agir: executar essa ação (clicar, digitar, rolar) através de um driver de automação.
  4. Verificar: tirar uma nova captura de tela e decidir se o objetivo foi alcançado.

O modelo é a etapa "decidir". Todo o resto é a tubulação que você controla.

0:00
/1:26

Por que o Qwen 3.7 Plus se encaixa

Três razões. Sua fundamentação GUI é de ponta, então ele retorna coordenadas utilizáveis em vez de descrições vagas. Ele lida com fluxos de trabalho híbridos GUI-e-CLI, então o mesmo agente pode clicar em um botão e executar um comando de shell. E a US$ 0,40 por milhão de tokens de entrada, é barato o suficiente para executar as muitas chamadas de visão que um ciclo de agente exige. Para saber como ele se compara ao carro-chefe somente de texto, consulte nossa comparação Qwen 3.7 Plus vs Max.

A etapa de decisão: obtendo uma ação limpa

O truque é restringir o modelo a um pequeno vocabulário de ações e forçar a saída JSON. Uma prosa solta é difícil de executar; um esquema estrito não é.

import os, json, base64
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

SYSTEM = """Você é um agente de GUI. Você vê uma captura de tela e um objetivo.
Responda com UMA ação JSON e nada mais:
{"action": "click", "x": <int>, "y": <int>}
{"action": "type", "text": "<string>"}
{"action": "scroll", "dy": <int>}
{"action": "done", "reason": "<string>"}
As coordenadas são pixels na captura de tela que você recebeu."""

def next_action(goal, png_bytes):
    b64 = base64.b64encode(png_bytes).decode()
    resp = client.chat.completions.create(
        model="qwen3.7-plus",
        messages=[
            {"role": "system", "content": SYSTEM},
            {"role": "user", "content": [
                {"type": "text", "text": f"Goal: {goal}"},
                {"type": "image_url",
                 "image_url": {"url": f"data:image/png;base64,{b64}"}},
            ]},
        ],
    )
    return json.loads(resp.choices[0].message.content)

Confirme o ID exato do modelo na documentação do Model Studio antes de implantar, pois os identificadores podem mudar.

O ciclo completo com Playwright

Playwright controla um navegador real, então o agente age em páginas reais. Um detalhe evita muita dor de cabeça: faça com que a resolução da captura de tela corresponda à janela de visualização, para que as coordenadas retornadas pelo modelo se mapeiem um a um e você pule a matemática de escala.

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)
    page = browser.new_page(viewport={"width": 1280, "height": 800})
    page.goto("https://example.com")

    goal = "Abra a página de preços e encontre o plano mais barato"

    for step in range(15):                 # limite rígido de etapas
        shot = page.screenshot()           # PNG 1280x800, corresponde à janela de visualização
        action = next_action(goal, shot)
        print(step, action)

        if action["action"] == "done":
            break
        if action["action"] == "click":
            page.mouse.click(action["x"], action["y"])
        elif action["action"] == "type":
            page.keyboard.type(action["text"])
        elif action["action"] == "scroll":
            page.mouse.wheel(0, action["dy"])

        page.wait_for_timeout(800)         # deixe a UI se estabilizar

    browser.close()

Esse é um agente real. Ele navegará por um site em direção a um objetivo, uma ação fundamentada por vez. O mesmo padrão funciona para aplicativos de desktop se você trocar Playwright por um driver de desktop e capturar a janela do sistema operacional.

Custo e confiabilidade

As capturas de tela são a parte cara. Cada uma é convertida em tokens, e uma imagem de 1280 pixels de largura custa alguns milhares de tokens, então um ciclo de 15 etapas envia dinheiro real através da API. Mantenha isso baixo:

Nosso guia sobre redução de custos de tokens de agente aprofunda o assunto, e nossas notas sobre padrões e armadilhas de fiação de fluxo de trabalho de agente cobrem onde esses ciclos falham na prática.

Quando o agente trava

Três falhas aparecem constantemente, e cada uma tem uma correção barata:

Segurança

Um agente de uso de computador clica em coisas de verdade. Antes de tocar em qualquer coisa importante:

Teste as chamadas do agente com Apidog

A maioria das falhas de agente remonta a uma pergunta: o modelo retornou uma ação válida? Antes de conectar o Playwright, defina isso. Use o Apidog para enviar uma captura de tela de exemplo ao Qwen 3.7 Plus, inspecione o JSON bruto que ele retorna e ajuste seu prompt de sistema até que o esquema de ação volte limpo todas as vezes. Armazene sua chave do Model Studio por ambiente e simule o endpoint para que você possa construir o loop sem queimar tokens em cada execução de teste. Quando o ciclo completo estiver encadeando chamadas, o depurador de agente de IA do Apidog mostra a sequência para que você possa encontrar a etapa que falhou.

Para gerar código de interface de usuário a partir de um design em vez de controlá-lo, consulte nosso guia complementar sobre captura de tela para código com Qwen 3.7 Plus.

Baixe o Apidog para testar e depurar as chamadas do modelo por trás do seu agente.

FAQ

O que é um agente de uso de computador? Software que percebe uma tela através de capturas de tela, decide uma ação com um modelo e a executa através de um driver de automação, repetindo até que um objetivo seja alcançado.

O Qwen 3.7 Plus pode controlar meu desktop? O modelo apenas retorna ações. Você as executa com um driver. Emparelhe-o com Playwright para navegadores ou uma biblioteca de automação de desktop para aplicativos nativos.

Quanto custa cada etapa? Principalmente a captura de tela. Uma única imagem de tela pode custar alguns milhares de tokens de entrada a US$ 0,40 por milhão, então a redução de escala e o limite do loop são as principais alavancas de custo.

É confiável o suficiente para produção? Para tarefas delimitadas e bem definidas com verificação após cada etapa, sim. Para controle aberto de sistemas críticos, mantenha um humano no circuito e isole tudo em sandbox.

Preciso dimensionar as coordenadas? Não se a resolução da sua captura de tela corresponder à sua viewport. Se elas diferirem, dimensione as coordenadas retornadas pela proporção entre elas.

O resultado final

Um agente de uso de computador é um ciclo curto em torno de um modelo capaz, e o Qwen 3.7 Plus oferece a base e o preço para executá-lo. Construa o ciclo, limite-o, coloque-o em sandbox e verifique cada etapa. Em seguida, teste as chamadas do modelo no Apidog para que a etapa "decidir" seja sólida antes que o agente comece a clicar.

button

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs

Como construir um agente de IA para automação de computador com Qwen 3.7 Plus