Conducir un navegador con un LLM a través de modelos de uso de computadora es aproximadamente 45 veces más caro que llamar al mismo proveedor a través de una API estructurada. SÍ.
Esta guía desglosa esa cifra de 45x, explica cuándo el uso de la computadora sigue siendo rentable y muestra cómo mantener ambos caminos rápidos y económicos al construir con Apidog. El marco que sigue funciona para OpenAI Operator, el uso de computadora de Anthropic, el uso de navegador, Skyvern y cualquier herramienta del momento futura que venga con un bucle de captura de pantalla.
Si escribes APIs para agentes de IA, también deberías leer nuestra guía complementaria sobre cómo escribir archivos agents.md; las convenciones allí hacen que la ruta de la API estructurada sea el valor predeterminado obvio para tus interlocutores.
TL;DR
- El uso de computadora significa que un LLM mira capturas de pantalla y emite clics, pulsaciones de teclas y desplazamientos; las APIs estructuradas significan que el LLM emite llamadas a herramientas JSON que tu backend ejecuta.
- Para la misma tarea, el uso de computadora quema de 30 a 50 veces más tokens porque cada paso envía una nueva captura de pantalla, más reintentos.
- Elige el uso de computadora solo cuando no exista una API, la API esté limitada por tarifa, o el flujo de trabajo esté detrás de una autenticación que resista la escritura de scripts.
- Elige una API estructurada para todo lo demás: pagos, búsquedas, actualizaciones de CRM, herramientas internas, cualquier cosa que puedas documentar con OpenAPI.
- Híbrido es la respuesta realista: las APIs estructuradas manejan el 90 por ciento que tiene endpoints, el uso de computadora cubre el resto.
- Descarga Apidog para diseñar los esquemas de herramientas JSON, simular los endpoints mientras iteras y reproducir todo el flujo sin quemar créditos de agente.
Por qué la brecha de costos es tan grande
El número 45x no es un punto de referencia inteligente; resulta de cómo cada ruta utiliza los tokens.
Una llamada a una API estructurada envía un prompt con la solicitud del usuario y un esquema de herramienta, luego recibe un objeto JSON que el tiempo de ejecución ejecuta. Ida y vuelta: unos pocos cientos de tokens de entrada, cincuenta tokens de salida, un salto de red.
Un bucle de uso de computadora envía el mismo prompt más una captura de pantalla, recibe una coordenada de clic, la ejecuta, toma otra captura de pantalla y se repite. Una tarea típica de "reservar un vuelo" ejecuta de 12 a 30 de esas rondas. Cada captura de pantalla cuesta alrededor de 1,500 tokens con una resolución típica. Multiplica.
La propia documentación de uso de computadora de Anthropic valora abiertamente los tokens de captura de pantalla; los gastos generales en el mundo real son aún mayores porque los modelos reintentan en clics erróneos, se desplazan más allá del elemento correcto y queman rondas descartando banners de cookies. El hilo de HN al que se hace referencia Computer Use is 45x more expensive than structured APIs (El uso de computadora es 45 veces más caro que las APIs estructuradas) estableció la penalización típica en 30 a 50x, lo que coincide con lo que vemos cuando reproducimos la misma tarea a través de ambos caminos en Apidog.
Cuando la ruta de la API estructurada gana
Por defecto, utiliza APIs estructuradas cuando se cumpla alguna de las siguientes condiciones.
El proveedor publica una especificación OpenAPI, un esquema GraphQL o incluso una sola página REST. Si existe una forma JSON, el LLM puede rellenarla. La precisión de las llamadas a herramientas en GPT-5.5, Claude 4.5 y DeepSeek V4 supera el 95 por ciento en endpoints documentados; el modo de fallo es raro, barato de detectar y fácil de reintentar.
La tarea se ajusta a uno o dos endpoints. "Crear un cliente de Stripe", "actualizar una etapa de negocio en HubSpot", "publicar un mensaje en Slack", "activar una nueva ejecución de CI" son todas llamadas individuales. Dirigirlas a través de un navegador es el equivalente de ingeniería a enviar una postal desde el otro lado de la habitación.
El flujo de trabajo se ejecuta sin supervisión. Los trabajos cron, los webhooks y los trabajadores de cola no pueden supervisar un bucle de captura de pantalla que decide desplazarse en la dirección equivocada. Las llamadas estructuradas son deterministas a nivel de red.
La latencia importa. Una llamada estructurada se devuelve en 200 a 800 milisegundos. Un bucle de uso de computadora con 15 rondas tarda de 30 a 90 segundos, más tiempo cuando se activan los reintentos.
Necesitas probarlo antes de implementarlo. Simular un endpoint JSON toma segundos en Apidog. Simular un bucle de captura de pantalla del navegador es un proyecto de investigación.
Cuando el uso de computadora vale la pena
Algunos casos todavía favorecen el bucle de captura de pantalla.
Portales de proveedores antiguos. Algunos portales de adquisiciones, transporte y beneficios son anteriores a REST. Viven detrás de sesiones de ASP.NET sin interfaz de máquina. El uso de computadora reemplaza un script de Selenium frágil que se rompía cada trimestre; a veces, cambiar un costo 45x por cero mantenimiento es la decisión correcta.
Herramientas internas que no puedes modificar. El CRM que tu cliente pagó en 2014, el ERP heredado, el panel de SharePoint. Si no puedes implementar una integración y el equipo no quiere pagar por un iPaaS, el bucle de captura de pantalla es una opción real.
Tareas de operador únicas. Un fundador que pide a un agente que "investigue a estos 50 competidores y ponga los aspectos más destacados en Notion" no es un flujo de trabajo que necesite un contrato estructurado. El uso de computadora lo maneja una vez y desaparece.
Ingeniería inversa protegida por los Términos de Servicio. Omite esto. La mayoría de las solicitudes de "raspar este sitio con uso de computadora" están en el lado equivocado de los términos del proveedor; el costo es el menor de tus problemas.
Un marco de decisión simple
Ejecuta la solicitud a través de estas cuatro verificaciones antes de recurrir al uso de la computadora.
| Verificación | Si es sí | Si es no |
|---|---|---|
| ¿Existe una API documentada? | Usa la API. | Continúa. |
| ¿Puedes enviar un adaptador delgado del lado del servidor que envuelva un endpoint privado? | Construye el adaptador, expónlo como JSON. | Continúa. |
| ¿La tarea es única o de bajo volumen (<100 ejecuciones/día)? | El uso de computadora es aceptable. | Continúa. |
| ¿Estás dispuesto a pagar un costo de tokens de 30-50x en cada ejecución? | Uso de computadora. | Detente. Negocia el acceso a la API. |
Tres cuartas partes de los flujos de trabajo que vemos en las bases de código de los clientes fallan en la verificación uno o dos; el uso de la computadora solo sobrevive cuando ambos fallan.
Cómo se ven realmente las APIs estructuradas en un agente
Aquí está la misma tarea de "obtener los pagos fallidos de ayer" expresada de ambas maneras. La versión estructurada es lo que quieres que cualquier agente use por defecto.
from openai import OpenAI
client = OpenAI()
tools = [{
"type": "function",
"function": {
"name": "list_failed_payments",
"description": "List failed payments in a date range",
"parameters": {
"type": "object",
"properties": {
"start": {"type": "string", "format": "date"},
"end": {"type": "string", "format": "date"},
},
"required": ["start", "end"],
},
},
}]
resp = client.chat.completions.create(
model="gpt-5.5",
messages=[{"role": "user", "content": "Show yesterday's failed payments."}],
tools=tools,
tool_choice="auto",
)
call = resp.choices[0].message.tool_calls[0]
args = json.loads(call.function.arguments)
payments = stripe.PaymentIntent.list(
created={"gte": args["start"], "lte": args["end"]},
limit=100,
)
Dos prompts de entrada, una respuesta estructurada de salida, una llamada HTTP a Stripe. El agente nunca ve el panel de control.
El equivalente de uso de computadora arranca un navegador, inicia sesión en Stripe, toma una captura de pantalla del panel de control, hace clic en el selector de fechas, toma otra captura de pantalla, arrastra un rango, toma una captura de pantalla, se desplaza hasta "Fallido", toma una captura de pantalla y finalmente extrae números de píxeles. Cada captura de pantalla es de aproximadamente 1,500 tokens de entrada. Doce rondas es lo típico. La factura es 45 veces mayor y la tasa de éxito es menor.
Diseñando el camino estructurado con Apidog
La razón por la que los equipos recurren al uso de la computadora rara vez es el costo; por lo general, es que nadie diseñó una superficie de herramienta limpia para el agente. Apidog te ofrece un lugar para hacer ese trabajo correctamente.
Paso uno: modela las operaciones que el agente necesita como endpoints en un proyecto de Apidog. Un puñado de POST que cubran "listar facturas", "actualizar acuerdo", "enviar mensaje" es suficiente para reemplazar el 80 por ciento de las demostraciones del operador. Apidog genera un documento OpenAPI 3.1 directamente desde la vista de diseño.
Paso dos: alimenta ese documento OpenAPI a tu marco de agente. La matriz `tools` de OpenAI, el esquema `tool-use` de Anthropic y el cargador OpenAPI de LangChain consumen OpenAPI 3.1 directamente. El agente ahora tiene llamadas a funciones tipadas que reflejan tu diseño.
Paso tres: activa el servidor de simulación de Apidog. El simulador devuelve JSON realista para cada endpoint, por lo que puedes ejecutar el agente de extremo a extremo sin afectar la producción o pagar costos de tokens en una ejecución real. Cubrimos el mismo patrón en la guía de desarrollo "contract-first" de Apidog.
Paso cuatro: reproduce el tráfico. Apidog registra cada solicitud y respuesta mientras el agente se ejecuta, para que puedas diferenciar una ejecución exitosa de una fallida y ver qué llamada a la herramienta se desvió. Así es como cortas la larga cola de "el agente funcionó ayer y se rompió hoy".
Paso cinco: envía. El mismo proyecto se duplica como tus documentos públicos, tu arnés de control de calidad y tu panel de monitoreo.
Híbrido: cuando necesitas ambos caminos
En producción, la mayoría de los agentes terminan siendo híbridos. Un valor predeterminado razonable se ve así.
- El 90 por ciento de las operaciones pasan por una interfaz de herramienta estructurada que diseñaste.
- El 10 por ciento recurre a un bucle de uso de computadora para la cola larga de portales heredados.
- Un prompt de enrutamiento decide qué camino tomar basándose en el nombre de la operación.
El enrutador es un pequeño mensaje del sistema: "Si `tool_name` está en `known_tools`, llama a la herramienta. De lo contrario, pasa al agente del navegador". Tanto Claude 4.5 de Anthropic como GPT-5.5 de OpenAI manejan este enrutamiento de manera confiable; puedes esbozar el mismo patrón en DeepSeek V4. Consulta cómo usar la API de DeepSeek V4 para ver la forma de la solicitud.
Monitoriza ambas rutas por separado en tu stack de observabilidad. Las llamadas estructuradas deberían representar el 99 por ciento del volumen y el 30 por ciento del costo; el fallback de uso de computadora debería ser el 1 por ciento del volumen y el 70 por ciento del costo. Si la relación se invierte, alguien añadió una operación de forma incorrecta y necesitas diseñar un endpoint para ella.
Errores comunes a evitar
Estos son los patrones que aparecen en los tickets de soporte.
Omitir el esquema. Los equipos implementan agentes con prompts de sistema solo en prosa y se preguntan por qué fallan las llamadas estructuradas. Siempre pasa JSON Schema; tanto Claude como GPT mejoran la precisión de las herramientas en dos dígitos cuando el esquema es estricto.
Permitir que el agente diseñe el esquema en tiempo de ejecución. Un esquema es una superficie de producto. Créalo en Apidog, versiona y trata los cambios como tratarías un cambio en una API pública. Los esquemas auto-modificables son la causa de las interrupciones en producción.
Registrar tokens, no costos. Los tokens de uso de computadora se ocultan en las entradas de imágenes, que la mayoría de las herramientas de observabilidad valoran de manera diferente. Lee la consola de facturación de tu proveedor, no tu panel de seguimiento.
Confundir el uso de la computadora con RPA. La automatización robótica de procesos ejecuta clics programados contra elementos DOM conocidos. El uso de la computadora decide qué hacer clic en cada captura de pantalla. El primero es repetible y barato; el segundo es flexible y caro. No recurras al uso de la computadora cuando RPA sea la herramienta adecuada.
Olvidar el costo de la latencia. Una factura de 45x tokens es un impuesto. El mayor es que un bucle de captura de pantalla de 60 segundos saca al agente del flujo del usuario. Si el usuario está mirando, casi siempre querrás la API.
Alternativas a considerar
Si un proveedor carece de una API pero tiene una interfaz de usuario conocida, existen tres opciones intermedias entre el uso completo de la computadora y la integración total.
Los scripts de navegador sin interfaz (Playwright, Puppeteer) no tienen costo por ejecución después del desarrollo. Se rompen cuando la interfaz de usuario cambia; tenlo en cuenta en tu presupuesto.
Conectores Zapier o Make publicados por el proveedor. Las plataformas iPaaS ya han pagado el impuesto de integración por ti. Paga por la licencia, envía más rápido.
APIs privadas de ingeniería inversa. Observa la pestaña de red en DevTools. Muchos paneles de control de proveedores se comunican con endpoints JSON internos a los que puedes llamar directamente con la misma cookie de autenticación. Documéntalos en Apidog y trátalos como semiestables. Usamos este truco en pruebas de API sin Postman.
El uso de la computadora es el último recurso, no el predeterminado.
Casos de uso en el mundo real
Un equipo de cumplimiento financiero reemplazó un informe de Stripe de 6 pasos de uso de computadora con tres llamadas estructuradas. El costo de los tokens se redujo un 92 por ciento y la ejecución pasó de 41 segundos a 2.
Un agente de soporte de SaaS B2B mantuvo el uso de la computadora para un solo flujo de trabajo: un portal de compras de proveedores sin API. Todo lo demás se enrutó a través de llamadas de herramientas OpenAPI diseñadas en Apidog. El gasto total de tokens en el agente se redujo de $4,200 a $310 al mes.
Un fundador independiente usaba la computadora exactamente una vez a la semana para actualizar un panel de Notion desde un ERP heredado. El costo 45x en una ejecución semanal era de unos pocos centavos; la alternativa era un proyecto de integración de varias semanas. Esa es la forma correcta para el uso de la computadora.
Conclusión
La cifra de 45x es real, repetible y debería redefinir cómo tu equipo elige las herramientas. Por defecto, utiliza APIs estructuradas diseñadas en Apidog; recurre al uso de la computadora solo cuando no exista una API y el flujo de trabajo se ejecute con una frecuencia tan baja que el costo de los tokens sea un error de redondeo.
Cinco puntos clave para llevarse:
- El uso de computadora cuesta de 30 a 50 veces más tokens que la llamada equivalente a una API estructurada.
- Un endpoint documentado más un JSON Schema supera a un bucle de captura de pantalla en costo, latencia y fiabilidad.
- Los stacks híbridos son normales: diseña el 90 por ciento en Apidog, recurre al uso de computadora para el 10 por ciento restante.
- Simula la superficie de la herramienta estructurada antes de conectarla a un modelo en vivo. Ahorra créditos de agente y acorta el ciclo.
- Monitoriza ambos caminos por separado en la observabilidad para que notes cuando la relación se desvía.
Siguiente paso: abre Apidog, crea un proyecto para la superficie de herramientas de tu agente y activa el servidor de simulación. Sabrás en una hora si el flujo de trabajo que ibas a implementar como uso de computadora puede reducirse a dos llamadas estructuradas en su lugar.
Preguntas Frecuentes
¿Es el uso de computadora alguna vez más barato que una API estructurada?
No, no por ejecución. Los tokens de captura de pantalla dominan. El uso de computadora puede ser más barato en total cuando el costo de integración excede años de costo de ejecución, lo que solo ocurre para flujos de trabajo de muy bajo volumen contra APIs que no existen.
¿Cómo simulo una superficie de herramienta JSON para un agente?
Diseña los endpoints en Apidog, activa el servidor de simulación integrado y apunta tu agente a la URL simulada. Cada solicitud devuelve JSON realista sin costo de tokens. Cubrimos el flujo de trabajo de principio a fin en herramientas de prueba de API para ingenieros de control de calidad.
¿Puedo usar OpenAPI para llamadas a herramientas en cualquier modelo?
Sí. El parámetro `tools` de OpenAI, el bloque `tool_use` de Anthropic y el endpoint de llamada a herramientas de DeepSeek V4 consumen esquemas OpenAPI 3.1. Apidog exporta el esquema de forma limpia. Consulta cómo usar la API de DeepSeek V4 para la forma de solicitud de DeepSeek.
¿GPT-5.5 sigue siendo compatible con el uso de computadora?
OpenAI ofrece el uso de computadora a través del producto Operator y la API de Responses. El perfil de costos coincide aproximadamente con el de Anthropic, captura de pantalla por captura de pantalla. La recomendación en este artículo se aplica independientemente del proveedor.
¿Qué pasa con Skyvern, el uso del navegador y otros agentes de código abierto?
Las mismas matemáticas. Reducen el precio por llamada al enrutar a través de modelos abiertos más económicos, pero el recuento de rondas y el tamaño de la captura de pantalla son similares. Las APIs estructuradas aún los superan por un amplio margen donde existen APIs.
¿Cómo sé cuándo falta un endpoint para una tarea de agente?
Observa qué llamadas a herramientas fallan o son rechazadas. Si el agente sigue intentando recurrir a un navegador, eso significa que falta un endpoint en la superficie de tu herramienta. Agrégalo en Apidog, regenera el esquema y el agente dejará de recurrir.
