Cómo crear un agente de IA para PC con Qwen 3.7 Plus

Qwen 3.7 Plus obtiene una puntuación de 79.0 en ScreenSpot Pro, el benchmark para mirar una captura de pantalla y devolver las coordenadas exactas de píxeles para hacer clic. Esa única habilidad es lo que convierte un modelo de chat en un agente de uso de computadora: software que ve una pantalla, decide qué hacer y lo hace. Esta guía construye uno funcional en Python, de principio a fin.

Cubriremos el bucle del agente, el prompt que obtiene acciones fiables del modelo, un ejemplo de navegador ejecutable con Playwright, y los límites de costo y seguridad que necesitas antes de apuntarlo a algo real. Si primero quieres el contexto del modelo, consulta nuestra descripción general de Qwen 3.7 Plus; para el formato de solicitud sin procesar, la guía de API de Qwen 3.7 Plus cubre las cargas útiles multimodales. Probarás las llamadas del agente en Apidog a medida que avanzas.

TL;DR

Un agente de uso de computadora ejecuta un bucle: captura la pantalla, la envía a Qwen 3.7 Plus con un objetivo, recibe una acción estructurada como clic (x, y), ejecuta esa acción con un controlador como Playwright y luego repite hasta que se cumpla el objetivo. Plus es una excelente opción debido a su capacidad de comprensión de GUI y su bajo precio multimodal. Las partes difíciles no son el modelo; son limitar el bucle, escalar coordenadas, controlar el costo de los tokens y aislar las acciones para que un clic incorrecto no pueda causar daños.

Qué hace realmente un agente de uso de computadora

Quita la exageración y son cuatro pasos que se repiten:

Percibir: captura una captura de pantalla de la pantalla o página actual.
Decidir: envía la captura de pantalla y el objetivo al modelo, y obtiene la siguiente acción.
Actuar: ejecuta esa acción (hacer clic, escribir, desplazarse) a través de un controlador de automatización.
Verificar: toma una nueva captura de pantalla y decide si el objetivo está completado.

El modelo es el paso "decidir". Todo lo demás es la infraestructura que controlas.

0:00

/1:26

Por qué Qwen 3.7 Plus encaja

Tres razones. Su capacidad de comprensión de GUI es de vanguardia, por lo que devuelve coordenadas utilizables en lugar de descripciones vagas. Maneja flujos de trabajo híbridos de GUI y CLI, por lo que el mismo agente puede hacer clic en un botón y ejecutar un comando de shell. Y a $0.40 por millón de tokens de entrada, es lo suficientemente económico como para ejecutar las muchas llamadas de visión que necesita un bucle de agente. Para ver cómo se compara con el modelo insignia solo de texto, consulta nuestra comparación de Qwen 3.7 Plus vs Max.

El paso de decisión: obtener una acción limpia

El truco es restringir el modelo a un vocabulario de acción pequeño y forzar la salida JSON. La prosa suelta es difícil de ejecutar; un esquema estricto no lo es.

import os, json, base64
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

SYSTEM = """Eres un agente de GUI. Ves una captura de pantalla y un objetivo.
Responde con UNA acción JSON y nada más:
{"action": "click", "x": <int>, "y": <int>}
{"action": "type", "text": "<string>"}
{"action": "scroll", "dy": <int>}
{"action": "done", "reason": "<string>"}
Las coordenadas son píxeles en la captura de pantalla que se te proporcionó."""

def next_action(goal, png_bytes):
    b64 = base64.b64encode(png_bytes).decode()
    resp = client.chat.completions.create(
        model="qwen3.7-plus",
        messages=[
            {"role": "system", "content": SYSTEM},
            {"role": "user", "content": [
                {"type": "text", "text": f"Objetivo: {goal}"},
                {"type": "image_url",
                 "image_url": {"url": f"data:image/png;base64,{b64}"}},
            ]},
        ],
    )
    return json.loads(resp.choices[0].message.content)

Confirma el ID exacto del modelo en la documentación de Model Studio antes de implementarlo, ya que los identificadores pueden cambiar.

El bucle completo con Playwright

Playwright controla un navegador real, por lo que el agente actúa en páginas reales. Un detalle te ahorrará mucho dolor: haz que la resolución de la captura de pantalla coincida con el viewport, para que las coordenadas que devuelve el modelo se mapeen uno a uno y te ahorres los cálculos de escalado.

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)
    page = browser.new_page(viewport={"width": 1280, "height": 800})
    page.goto("https://example.com")

    goal = "Abrir la página de precios y encontrar el plan más barato"

    for step in range(15):                 # límite máximo de pasos
        shot = page.screenshot()           # PNG de 1280x800, coincide con el viewport
        action = next_action(goal, shot)
        print(step, action)

        if action["action"] == "done":
            break
        if action["action"] == "click":
            page.mouse.click(action["x"], action["y"])
        elif action["action"] == "type":
            page.keyboard.type(action["text"])
        elif action["action"] == "scroll":
            page.mouse.wheel(0, action["dy"])

        page.wait_for_timeout(800)         # deja que la interfaz de usuario se asiente

    browser.close()

Ese es un agente real. Navegará por un sitio web hacia un objetivo, una acción fundamentada a la vez. El mismo patrón funciona para aplicaciones de escritorio si cambias Playwright por un controlador de escritorio y capturas la ventana del sistema operativo en su lugar.

Costo y fiabilidad

Las capturas de pantalla son la parte costosa. Cada una se convierte en tokens, y una imagen de 1280 de ancho asciende a unos pocos miles de tokens, por lo que un bucle de 15 pasos envía dinero real a través de la API. Mantenlo bajo:

Reducir y recortar. Envía la imagen más pequeña que el modelo aún pueda leer. Recorta al panel relevante cuando puedas.
Limita el bucle. Siempre limita el número de pasos, como lo hace el ejemplo, para que un agente confundido no pueda ejecutarse indefinidamente.
Verifica después de actuar. Trata cada acción como una hipótesis. La siguiente captura de pantalla confirma si funcionó, y el bucle se autocorrige.

Nuestra guía sobre cómo reducir los costos de tokens del agente profundiza, y nuestras notas sobre el cableado del flujo de trabajo de agentes cubren dónde estos bucles fallan en la práctica.

Cuando el agente se atasca

Tres fallas aparecen constantemente, y cada una tiene una solución económica:

El modelo devuelve prosa en lugar de JSON. Vuelve a solicitar con un breve recordatorio de "responder solo con JSON" y reintenta una vez antes de rendirte. Un esquema estricto más un paso de reparación soluciona casi todos estos casos.
Un clic no da en el blanco. La siguiente captura de pantalla muestra que nada cambió, así que añade una regla que reintente con una nueva captura de pantalla en lugar de repetir ciegamente las mismas coordenadas.
El bucle gira sin progreso. Rastrea las últimas acciones; si se repiten, detente y muestra la captura de pantalla a un humano. El límite de pasos es tu respaldo.

Seguridad

Un agente de uso de computadora hace clics de verdad. Antes de que toque algo importante:

Ejecútalo en un entorno aislado o en un perfil de navegador desechable, nunca en tu sesión de producción con tu cuenta iniciada.
Requiere confirmación humana para acciones destructivas como eliminar, enviar o pagar.
Registra cada acción con su captura de pantalla para que puedas auditar lo que hizo el agente y por qué.

Prueba las llamadas del agente con Apidog

La mayoría de los fallos del agente se remontan a una pregunta: ¿el modelo devolvió una acción válida? Antes de conectar Playwright, asegúrate de esto. Usa Apidog para enviar una captura de pantalla de ejemplo a Qwen 3.7 Plus, inspeccionar el JSON sin procesar que devuelve y ajustar tu prompt de sistema hasta que el esquema de acción sea limpio en todo momento. Almacena tu clave de Model Studio por entorno y simula el endpoint para poder construir el bucle sin gastar tokens en cada ejecución de prueba. Cuando el bucle completo encadena llamadas, el depurador de agentes de IA de Apidog muestra la secuencia para que puedas encontrar el paso que lo descarriló.

Para generar código de interfaz de usuario a partir de un diseño en lugar de controlarlo, consulta nuestra guía complementaria sobre captura de pantalla a código con Qwen 3.7 Plus.

Descarga Apidog para probar y depurar las llamadas del modelo detrás de tu agente.

Preguntas Frecuentes

¿Qué es un agente de uso de computadora? Software que percibe una pantalla a través de capturas de pantalla, decide una acción con un modelo y la ejecuta a través de un controlador de automatización, repitiendo hasta que se cumpla un objetivo.

¿Puede Qwen 3.7 Plus controlar mi escritorio? El modelo solo devuelve acciones. Tú las ejecutas con un controlador. Combínalo con Playwright para navegadores o una biblioteca de automatización de escritorio para aplicaciones nativas.

¿Cuánto cuesta cada paso? Principalmente la captura de pantalla. Una sola imagen de pantalla puede consumir unos pocos miles de tokens de entrada a $0.40 por millón, por lo que reducir la escala y limitar el bucle son las principales palancas de costo.

¿Es lo suficientemente fiable para producción? Para tareas acotadas y bien definidas con verificación después de cada paso, sí. Para el control abierto de sistemas críticos, mantén a un humano en el bucle y aísla todo.

¿Necesito escalar las coordenadas? No si la resolución de tu captura de pantalla coincide con tu viewport. Si difieren, escala las coordenadas devueltas por la relación entre ellas.

En resumen

Un agente de uso de computadora es un bucle corto alrededor de un modelo capaz, y Qwen 3.7 Plus te brinda la base y el precio para ejecutarlo. Construye el bucle, limítalo, aíslalo y verifica cada paso. Luego, prueba las llamadas del modelo en Apidog para que el paso de "decidir" sea sólido antes de que el agente comience a hacer clics.

botón