컴퓨터 사용 모델을 통해 LLM으로 브라우저를 구동하는 것은 구조화된 API를 통해 동일한 공급업체를 호출하는 것보다 약 45배 더 비쌉니다. 네, 그렇습니다.
이 가이드는 그 45배라는 수치를 자세히 설명하고, 컴퓨터 사용이 여전히 가치를 발휘하는 경우를 설명하며, Apidog로 구축할 때 두 가지 방법을 모두 빠르고 저렴하게 유지하는 방법을 보여줍니다. 이어지는 프레임워크는 OpenAI Operator, Anthropic 컴퓨터 사용, 브라우저 사용, Skyvern, 그리고 스크린샷 루프와 함께 제공되는 미래의 모든 '이번 주 도구'에 적용됩니다.
AI 에이전트용 API를 작성하는 경우, agents.md 파일 작성 방법에 대한 동반 가이드도 읽어보셔야 합니다. 거기에 제시된 규칙은 호출자에게 구조화된 API 경로를 명백한 기본값으로 만듭니다.
요약
- 컴퓨터 사용은 LLM이 스크린샷을 보고 클릭, 키 입력, 스크롤을 방출하는 것을 의미합니다. 구조화된 API는 LLM이 백엔드가 실행하는 JSON 도구 호출을 방출하는 것을 의미합니다.
- 동일한 작업을 수행할 때 컴퓨터 사용은 모든 단계에서 새로운 스크린샷과 재시도를 보내기 때문에 30~50배 더 많은 토큰을 소모합니다.
- API가 존재하지 않거나, API가 속도 제한에 걸려 있거나, 워크플로가 스크립팅에 저항하는 인증 뒤에 있을 때만 컴퓨터 사용을 선택하십시오.
- 결제, 검색, CRM 업데이트, 내부 도구 등 OpenAPI로 문서화할 수 있는 모든 다른 경우에는 구조화된 API를 선택하십시오.
- 하이브리드는 현실적인 답변입니다. 구조화된 API는 엔드포인트가 있는 90%를 처리하고, 컴퓨터 사용은 긴 꼬리를 처리합니다.
- Apidog를 다운로드하여 JSON 도구 스키마를 설계하고, 반복 작업 중 엔드포인트를 모의하고, 에이전트 크레딧을 소모하지 않고 전체 흐름을 재생하십시오.
비용 격차가 이렇게 큰 이유
45배라는 숫자는 영리한 벤치마크가 아닙니다. 각 경로가 토큰을 사용하는 방식에서 자연스럽게 나옵니다.
구조화된 API 호출은 사용자 요청과 도구 스키마가 포함된 하나의 프롬프트를 보내고, 런타임이 실행하는 JSON 객체를 받습니다. 왕복: 수백 개의 토큰 입력, 50개의 토큰 출력, 한 번의 네트워크 홉.
컴퓨터 사용 루프는 동일한 프롬프트와 스크린샷을 보내고, 클릭 좌표를 받고, 실행하고, 다시 스크린샷을 찍고, 반복합니다. 일반적인 "항공권 예약" 작업은 이러한 라운드를 12~30회 실행합니다. 각 스크린샷은 일반 해상도에서 약 1,500 토큰이 듭니다. 곱해보십시오.
Anthropic 자체의 컴퓨터 사용 문서는 스크린샷 토큰 가격을 공개적으로 명시합니다. 실제 오버헤드는 모델이 오클릭에 대해 재시도하고, 올바른 요소를 지나 스크롤하고, 쿠키 배너를 닫는 데 라운드를 소모하기 때문에 훨씬 더 높습니다. 컴퓨터 사용이 구조화된 API보다 45배 더 비싸다고 언급된 HN 스레드는 일반적인 패널티를 30~50배로 책정했는데, 이는 Apidog에서 동일한 작업을 두 가지 경로를 통해 재생할 때 우리가 보는 것과 일치합니다.
구조화된 API 경로가 유리한 경우
다음 중 하나라도 해당된다면 구조화된 API를 기본으로 사용하십시오.
벤더가 OpenAPI 스펙, GraphQL 스키마, 또는 단일 REST 페이지를 게시합니다. JSON 형식이 존재한다면 LLM은 이를 채울 수 있습니다. GPT-5.5, Claude 4.5, DeepSeek V4의 도구 호출 정확도는 문서화된 엔드포인트에서 95% 이상입니다. 실패 모드는 드물고, 감지 비용이 저렴하며, 재시도하기 쉽습니다.
작업이 한두 개의 엔드포인트에 맞습니다. "Stripe 고객 생성", "HubSpot 거래 단계 업데이트", "Slack 메시지 게시", "CI 재실행 트리거"는 모두 단일 호출입니다. 이를 브라우저를 통해 라우팅하는 것은 방 건너편에서 엽서를 우편으로 보내는 것과 같은 공학적 비유입니다.
워크플로가 무인으로 실행됩니다. 크론 작업, 웹훅, 큐 워커는 잘못된 방향으로 스크롤하기로 결정하는 스크린샷 루프를 감독할 수 없습니다. 구조화된 호출은 네트워크 계층에서 결정론적입니다.
지연 시간이 중요합니다. 구조화된 호출은 200~800밀리초 안에 반환됩니다. 15라운드가 있는 컴퓨터 사용 루프는 30~90초가 걸리며, 재시도가 발생하면 더 길어집니다.
배포 전에 테스트해야 합니다. Apidog에서 JSON 엔드포인트를 모의하는 데는 몇 초밖에 걸리지 않습니다. 브라우저 스크린샷 루프를 모의하는 것은 연구 프로젝트입니다.
컴퓨터 사용이 제 역할을 하는 경우
몇몇 경우에는 여전히 스크린샷 루프가 유리합니다.
레거시 벤더 포털. 일부 조달, 운송, 혜택 포털은 REST 이전에 존재합니다. 기계 인터페이스가 없는 ASP.NET 세션 뒤에 숨어 있습니다. 컴퓨터 사용은 분기마다 깨지는 취약한 셀레늄 스크립트를 대체합니다. 45배의 비용을 지불하고 유지 보수 비용을 0으로 만드는 것이 때로는 올바른 선택입니다.
수정할 수 없는 내부 도구. 2014년에 고객이 구매한 CRM, 레거시 ERP, SharePoint 대시보드. 통합을 배포할 수 없고 팀이 iPaaS 비용을 지불하지 않는다면 스크린샷 루프는 현실적인 옵션입니다.
일회성 운영자 작업. 창업자가 에이전트에게 "이 50개 경쟁사를 조사하고 Notion에 핵심 내용을 정리해달라"고 요청하는 것은 구조화된 계약이 필요한 워크플로가 아닙니다. 컴퓨터 사용은 이를 한 번 처리하고 사라집니다.
이용 약관으로 보호되는 역설계. 이것은 건너뛰십시오. 대부분의 "컴퓨터 사용으로 이 사이트를 스크랩해달라"는 요청은 벤더 약관의 잘못된 편에 있습니다. 비용은 가장 작은 문제입니다.
간단한 결정 프레임워크
컴퓨터 사용을 선택하기 전에 이 네 가지 검사를 통해 요청을 실행하십시오.
| 검사 | 예인 경우 | 아니오인 경우 |
|---|---|---|
| 문서화된 API가 존재하는가? | API를 사용하십시오. | 계속하십시오. |
| 비공개 엔드포인트를 래핑하는 얇은 서버측 어댑터를 배포할 수 있는가? | 어댑터를 구축하고 JSON으로 노출하십시오. | 계속하십시오. |
| 작업이 일회성이거나 소량(<100회 실행/일)인가? | 컴퓨터 사용이 허용됩니다. | 계속하십시오. |
| 매 실행마다 30-50배의 토큰 비용을 지불해도 괜찮은가? | 컴퓨터 사용. | 중단. API 액세스 협상. |
고객 코드베이스에서 우리가 보는 워크플로의 4분의 3은 첫 번째 또는 두 번째 검사에서 실패합니다. 컴퓨터 사용은 두 가지 모두를 통과할 때만 살아남습니다.
에이전트에서 구조화된 API가 실제로 작동하는 방식
"어제 실패한 결제 내역 가져오기"라는 동일한 작업이 두 가지 방식으로 표현되었습니다. 구조화된 버전은 모든 에이전트가 기본값으로 사용하기를 원하는 것입니다.
from openai import OpenAI
client = OpenAI()
tools = [{
"type": "function",
"function": {
"name": "list_failed_payments",
"description": "List failed payments in a date range",
"parameters": {
"type": "object",
"properties": {
"start": {"type": "string", "format": "date"},
"end": {"type": "string", "format": "date"},
},
"required": ["start", "end"],
},
},
}]
resp = client.chat.completions.create(
model="gpt-5.5",
messages=[{"role": "user", "content": "Show yesterday's failed payments."}],
tools=tools,
tool_choice="auto",
)
call = resp.choices[0].message.tool_calls[0]
args = json.loads(call.function.arguments)
payments = stripe.PaymentIntent.list(
created={"gte": args["start"], "lte": args["end"]},
limit=100,
)
두 개의 프롬프트가 들어가고, 하나의 구조화된 응답이 나오며, Stripe로의 한 번의 HTTP 호출이 이루어집니다. 에이전트는 대시보드를 전혀 보지 않습니다.
컴퓨터 사용과 동일한 방식은 브라우저를 부팅하고, Stripe에 로그인하고, 대시보드를 스크린샷하고, 날짜 선택기를 클릭하고, 다시 스크린샷하고, 범위를 드래그하고, 스크린샷하고, "실패"로 스크롤하고, 스크린샷한 다음, 마지막으로 픽셀에서 숫자를 추출합니다. 각 스크린샷은 대략 1,500개의 입력 토큰입니다. 12라운드가 일반적입니다. 비용은 45배이며 성공률은 더 낮습니다.
Apidog로 구조화된 경로 설계하기
팀이 컴퓨터 사용을 선택하는 이유는 비용 때문이 아니라, 에이전트에게 깔끔한 도구 인터페이스를 설계한 사람이 없기 때문입니다. Apidog는 그 작업을 제대로 수행할 수 있는 공간을 제공합니다.
1단계: 에이전트가 Apidog 프로젝트에서 엔드포인트로 필요한 작업을 모델링합니다. "송장 목록", "거래 업데이트", "메시지 보내기"를 다루는 몇 개의 POST만으로 운영자 데모의 80%를 대체할 수 있습니다. Apidog는 디자인 보기에서 직접 OpenAPI 3.1 문서를 생성합니다.
2단계: 해당 OpenAPI 문서를 에이전트 프레임워크에 입력합니다. OpenAI의 `tools` 배열, Anthropic의 tool-use 스키마, LangChain OpenAPI 로더는 모두 OpenAPI 3.1을 직접 소비합니다. 이제 에이전트는 디자인을 반영하는 유형화된 함수 호출을 갖게 됩니다.
3단계: Apidog의 모의 서버를 켭니다. 모의 서버는 모든 엔드포인트에 대해 현실적인 JSON을 반환하므로, 프로덕션 환경에 연결하거나 실제 실행에 토큰 비용을 지불하지 않고도 에이전트를 처음부터 끝까지 실행할 수 있습니다. Apidog의 계약 우선 개발 가이드에서 동일한 패턴을 다룹니다.
4단계: 트래픽을 재생합니다. Apidog는 에이전트가 실행되는 동안 모든 요청과 응답을 기록하므로, 성공적인 실행과 실패한 실행을 비교하여 어떤 도구 호출이 잘못되었는지 확인할 수 있습니다. 이것이 "에이전트가 어제는 작동했지만 오늘은 고장났다"는 긴 꼬리 문제를 해결하는 방법입니다.
5단계: 배포. 동일한 프로젝트가 공개 문서, QA 하네스, 모니터링 대시보드 역할을 합니다.
하이브리드: 두 가지 경로가 모두 필요한 경우
실제 환경에서 대부분의 에이전트는 하이브리드 형태로 작동합니다. 합리적인 기본값은 다음과 같습니다.
- 작업의 90%는 설계한 구조화된 도구 인터페이스를 통해 이루어집니다.
- 10%는 레거시 포털의 긴 꼬리를 위해 컴퓨터 사용 루프로 대체됩니다.
- 라우터 프롬프트가 작업 이름에 따라 어떤 경로를 택할지 결정합니다.
라우터는 아주 작은 시스템 메시지입니다. "만약 `tool_name`이 `known_tools` 안에 있다면, 도구를 호출하십시오. 그렇지 않다면 브라우저 에이전트에게 넘기십시오." Anthropic의 Claude 4.5와 OpenAI의 GPT-5.5는 모두 이 라우팅을 안정적으로 처리합니다. DeepSeek V4에서도 동일한 패턴을 구현할 수 있습니다. 요청 형태에 대해서는 DeepSeek V4 API 사용 방법을 참조하십시오.
관측 가능성 스택에서 두 경로를 별도로 추적하십시오. 구조화된 호출은 볼륨의 99%와 비용의 30%를 차지해야 합니다. 컴퓨터 사용 폴백은 볼륨의 1%와 비용의 70%를 차지해야 합니다. 비율이 역전되면 누군가 잘못된 방식으로 작업을 추가한 것이므로 해당 엔드포인트를 설계해야 합니다.
피해야 할 일반적인 실수
다음은 지원 티켓에서 자주 나타나는 패턴입니다.
스키마 생략. 팀은 산문으로만 된 시스템 프롬프트로 에이전트를 배포하고 구조화된 호출이 실패하는 이유를 궁금해합니다. 항상 JSON 스키마를 전달하십시오. 스키마가 엄격할 때 Claude와 GPT는 모두 도구 정확도를 두 자릿수로 향상시킵니다.
에이전트가 런타임에 스키마를 설계하도록 허용. 스키마는 제품의 인터페이스입니다. Apidog에서 작성하고, 버전을 관리하며, 변경 사항을 공개 API 변경 사항처럼 다루십시오. 자가 수정 스키마는 프로덕션 중단이 발생하는 방식입니다.
토큰을 로깅하고 비용을 로깅하지 않음. 컴퓨터 사용 토큰은 대부분의 관측 가능성 도구가 다르게 가격을 책정하는 이미지 입력에 숨어 있습니다. 추적 대시보드가 아닌 공급업체의 청구 콘솔을 읽으십시오.
컴퓨터 사용과 RPA 혼동. 로봇 프로세스 자동화는 알려진 DOM 요소에 대해 스크립트화된 클릭을 실행합니다. 컴퓨터 사용은 모든 스크린샷에서 무엇을 클릭할지 다시 결정합니다. 전자는 반복 가능하고 저렴하며, 후자는 유연하고 비쌉니다. RPA가 올바른 도구일 때 컴퓨터 사용을 선택하지 마십시오.
지연 시간 비용을 잊음. 45배의 토큰 요금은 하나의 세금입니다. 더 큰 문제는 60초의 스크린샷 루프가 에이전트를 사용자 흐름에서 벗어나게 한다는 것입니다. 사용자가 보고 있다면 거의 항상 API를 원할 것입니다.
고려할 대안
벤더에 API가 없지만 잘 알려진 UI가 있는 경우, 완전한 컴퓨터 사용과 완전한 통합 사이에는 세 가지 중간 옵션이 있습니다.
헤드리스 브라우저 스크립트(Playwright, Puppeteer)는 개발 후 실행당 비용이 없습니다. UI가 변경되면 고장나므로 예산을 책정하십시오.
벤더가 게시한 Zapier 또는 Make 커넥터. iPaaS 플랫폼은 이미 통합 비용을 대신 지불했습니다. 계정 비용을 지불하고 더 빨리 배포하십시오.
역설계된 비공개 API. 개발자 도구에서 네트워크 탭을 확인하십시오. 많은 벤더 대시보드는 동일한 인증 쿠키로 직접 호출할 수 있는 내부 JSON 엔드포인트와 통신합니다. Apidog에 문서화하고 준안정으로 취급하십시오. 우리는 Postman 없이 API 테스트하기에서 이 트릭을 사용합니다.
컴퓨터 사용은 최후의 수단이지 기본값이 아닙니다.
실제 사용 사례
핀테크 규제 준수 팀은 6단계 컴퓨터 사용 Stripe 보고서를 세 가지 구조화된 호출로 대체했습니다. 토큰 비용은 92% 감소했고 실행 시간은 41초에서 2초로 줄었습니다.
B2B SaaS 지원 에이전트는 API가 없는 벤더 조달 포털이라는 한 가지 워크플로에만 컴퓨터 사용을 유지했습니다. 다른 모든 것은 Apidog에서 설계된 OpenAPI 도구 호출을 통해 라우팅되었습니다. 에이전트의 총 토큰 지출은 월 $4,200에서 $310으로 감소했습니다.
개인 창업자는 레거시 ERP에서 Notion 대시보드를 새로 고치기 위해 일주일에 한 번만 컴퓨터 사용을 했습니다. 일주일에 한 번 실행하는 데 드는 45배의 비용은 몇 센트였고, 대안은 몇 주가 걸리는 통합 프로젝트였습니다. 이것이 컴퓨터 사용에 적합한 형태입니다.
결론
45배라는 수치는 실제이며 반복 가능하며, 팀이 도구를 선택하는 방식에 대한 인식을 재설정해야 합니다. Apidog에서 설계된 구조화된 API를 기본으로 사용하고, API가 존재하지 않고 워크플로가 토큰 비용이 오차 범위에 들 정도로 드물게 실행될 때만 컴퓨터 사용을 선택하십시오.
배포 시 고려해야 할 다섯 가지 핵심 사항:
- 컴퓨터 사용은 동일한 구조화된 API 호출보다 30~50배 더 많은 토큰을 소모합니다.
- 문서화된 엔드포인트와 JSON 스키마는 비용, 지연 시간, 안정성 측면에서 스크린샷 루프를 능가합니다.
- 하이브리드 스택은 일반적입니다. Apidog에서 90%를 설계하고, 10%의 긴 꼬리에는 컴퓨터 사용으로 대체하십시오.
- 라이브 모델에 연결하기 전에 구조화된 도구 인터페이스를 모의하십시오. 에이전트 크레딧을 절약하고 루프를 단축합니다.
- 비율이 변경될 때 알 수 있도록 관측 가능성에서 두 경로를 별도로 추적하십시오.
다음 단계: Apidog를 열고 에이전트의 도구 인터페이스를 위한 프로젝트를 생성한 다음 모의 서버를 켜십시오. 컴퓨터 사용으로 배포하려던 워크플로가 대신 두 개의 구조화된 호출로 축소될 수 있는지 한 시간 내에 알 수 있을 것입니다.
FAQ
컴퓨터 사용이 구조화된 API보다 저렴할 때가 있습니까?
아니요, 실행당 기준으로 볼 때는 그렇지 않습니다. 스크린샷 토큰이 대부분을 차지합니다. 통합 비용이 몇 년간의 실행 비용을 초과할 경우에만 총 비용 면에서 컴퓨터 사용이 더 저렴할 수 있으며, 이는 존재하지 않는 API에 대한 매우 낮은 볼륨의 워크플로에서만 발생합니다.
에이전트용 JSON 도구 인터페이스를 어떻게 모의합니까?
Apidog에서 엔드포인트를 설계하고, 내장 모의 서버를 켠 다음, 에이전트를 모의 URL로 지정하십시오. 모든 요청은 토큰 비용 없이 현실적인 JSON을 반환합니다. 우리는 QA 엔지니어를 위한 API 테스트 도구에서 이 워크플로를 처음부터 끝까지 다룹니다.
어떤 모델에서든 도구 호출에 OpenAPI를 사용할 수 있습니까?
네, 그렇습니다. OpenAI의 `tools` 매개변수, Anthropic의 `tool_use` 블록, DeepSeek V4의 도구 호출 엔드포인트는 모두 OpenAPI 3.1 스키마를 사용합니다. Apidog는 스키마를 깔끔하게 내보냅니다. DeepSeek 요청 형태에 대해서는 DeepSeek V4 API 사용 방법을 참조하십시오.
GPT-5.5는 여전히 컴퓨터 사용을 지원합니까?
OpenAI는 Operator 제품과 Responses API를 통해 컴퓨터 사용을 제공합니다. 비용 프로필은 Anthropic의 스크린샷당 비용과 대략 일치합니다. 이 글의 권장 사항은 벤더와 상관없이 적용됩니다.
Skyvern, 브라우저 사용, 기타 오픈 소스 에이전트는 어떻습니까?
동일한 계산입니다. 이들은 더 저렴한 오픈 모델을 통해 라우팅하여 호출당 가격을 낮추지만, 라운드 수와 스크린샷 크기는 비슷합니다. API가 존재하는 경우 구조화된 API는 여전히 이들을 크게 능가합니다.
에이전트 작업에 필요한 엔드포인트가 누락되었는지 어떻게 알 수 있습니까?
어떤 도구 호출이 실패하거나 거부되는지 주시하십시오. 에이전트가 계속 브라우저로 대체하려고 한다면, 그것은 도구 인터페이스에 누락된 엔드포인트입니다. Apidog에 추가하고 스키마를 다시 생성하면 에이전트가 대체하지 않게 됩니다.
