Điều khiển trình duyệt bằng LLM thông qua các mô hình sử dụng máy tính tốn kém hơn khoảng 45 lần so với việc gọi cùng một nhà cung cấp thông qua API có cấu trúc. ĐÚNG VẬY.
Hướng dẫn này phân tích con số 45 lần đó, giải thích khi nào việc sử dụng máy tính vẫn đáng giá, và chỉ ra cách giữ cho cả hai phương pháp đều nhanh chóng và tiết kiệm chi phí khi bạn xây dựng với Apidog. Khuôn khổ sau đây áp dụng cho OpenAI Operator, việc sử dụng máy tính của Anthropic, trình duyệt, Skyvern và bất kỳ công cụ mới nổi nào trong tương lai có vòng lặp chụp màn hình.
nút bấm
Nếu bạn viết API cho các tác nhân AI, bạn cũng nên đọc hướng dẫn bổ sung của chúng tôi về cách viết tệp agents.md; các quy ước ở đó biến phương pháp API có cấu trúc trở thành lựa chọn mặc định rõ ràng cho người gọi của bạn.
TÓM TẮT
- Sử dụng máy tính nghĩa là LLM xem ảnh chụp màn hình và tạo ra các cú nhấp chuột, gõ phím và cuộn; API có cấu trúc nghĩa là LLM tạo ra các lệnh gọi công cụ JSON mà phần phụ trợ của bạn thực thi.
- Đối với cùng một tác vụ, việc sử dụng máy tính tiêu tốn số lượng token nhiều hơn từ 30 đến 50 lần vì mỗi bước đều gửi một ảnh chụp màn hình mới, cộng thêm các lần thử lại.
- Chỉ chọn sử dụng máy tính khi không có API nào tồn tại, API bị giới hạn tốc độ hoặc quy trình làm việc nằm sau xác thực chống lại việc viết script.
- Chọn API có cấu trúc cho mọi thứ khác: thanh toán, tìm kiếm, cập nhật CRM, công cụ nội bộ, bất cứ điều gì bạn có thể tài liệu hóa bằng OpenAPI.
- Hybrid là câu trả lời thực tế: API có cấu trúc xử lý 90 phần trăm có điểm cuối, sử dụng máy tính bao phủ phần còn lại.
- Tải xuống Apidog để thiết kế các lược đồ công cụ JSON, mô phỏng các điểm cuối khi bạn lặp lại và phát lại toàn bộ quy trình mà không tốn tín dụng tác nhân.
Tại sao khoảng cách chi phí lại lớn đến vậy
Con số 45 lần không phải là một tiêu chuẩn thông minh; nó xuất phát từ cách mỗi phương pháp sử dụng token.
Một lệnh gọi API có cấu trúc gửi một lời nhắc với yêu cầu của người dùng và một lược đồ công cụ, sau đó nhận một đối tượng JSON mà môi trường chạy thực thi. Khứ hồi: vài trăm token vào, năm mươi token ra, một bước nhảy mạng.
Một vòng lặp sử dụng máy tính gửi cùng một lời nhắc cộng với một ảnh chụp màn hình, nhận tọa độ nhấp chuột, thực thi nó, chụp màn hình lại và lặp lại. Một tác vụ "đặt vé máy bay" điển hình chạy từ 12 đến 30 vòng như vậy. Mỗi ảnh chụp màn hình tốn khoảng 1.500 token ở độ phân giải thông thường. Hãy nhân lên.
Tài liệu sử dụng máy tính của Anthropic công khai giá token ảnh chụp màn hình; chi phí thực tế thậm chí còn cao hơn vì các mô hình thử lại khi nhấp sai, cuộn qua phần tử đúng và tốn vòng lặp để bỏ qua các biểu ngữ cookie. Chủ đề HN tham khảo Sử dụng máy tính đắt hơn 45 lần so với API có cấu trúc đưa ra mức phạt điển hình là từ 30 đến 50 lần, phù hợp với những gì chúng tôi thấy khi chúng tôi phát lại cùng một tác vụ thông qua cả hai phương pháp trong Apidog.
Khi phương pháp API có cấu trúc thắng thế
Mặc định sử dụng API có cấu trúc khi có bất kỳ điều kiện nào sau đây.
Nhà cung cấp xuất bản một đặc tả OpenAPI, một lược đồ GraphQL hoặc thậm chí một trang REST đơn lẻ. Nếu một hình dạng JSON tồn tại, LLM có thể điền vào đó. Độ chính xác của lệnh gọi công cụ trên GPT-5.5, Claude 4.5 và DeepSeek V4 đạt trên 95 phần trăm trên các điểm cuối được tài liệu hóa; chế độ lỗi hiếm gặp, dễ phát hiện và dễ thử lại.
Tác vụ nằm gọn trong một hoặc hai điểm cuối. "Tạo khách hàng Stripe," "cập nhật giai đoạn giao dịch HubSpot," "đăng tin nhắn Slack," "kích hoạt chạy lại CI" đều là các lệnh gọi đơn lẻ. Định tuyến chúng qua trình duyệt tương đương với việc gửi một tấm bưu thiếp từ bên kia căn phòng về mặt kỹ thuật.
Quy trình làm việc chạy tự động. Các tác vụ định kỳ (Cron jobs), webhook và trình xử lý hàng đợi không thể giám sát một vòng lặp chụp màn hình quyết định cuộn sai hướng. Các lệnh gọi có cấu trúc có tính xác định ở lớp mạng.
Độ trễ quan trọng. Một lệnh gọi có cấu trúc trả về trong 200 đến 800 mili giây. Một vòng lặp sử dụng máy tính với 15 vòng mất từ 30 đến 90 giây, lâu hơn khi có các lần thử lại.
Bạn cần kiểm tra trước khi triển khai. Mô phỏng một điểm cuối JSON mất vài giây trong Apidog. Mô phỏng một vòng lặp chụp màn hình trình duyệt là một dự án nghiên cứu.
Khi việc sử dụng máy tính chứng tỏ giá trị của nó
Một vài trường hợp vẫn ưu tiên vòng lặp chụp màn hình.
Các cổng thông tin nhà cung cấp cũ. Một số cổng thông tin về mua sắm, vận chuyển hàng hóa và phúc lợi đã có trước REST. Chúng nằm sau các phiên ASP.NET mà không có giao diện máy. Sử dụng máy tính thay thế một script Selenium dễ vỡ thường xuyên bị hỏng mỗi quý; đánh đổi chi phí gấp 45 lần để không cần bảo trì đôi khi là một quyết định đúng đắn.
Các công cụ nội bộ mà bạn không thể sửa đổi. CRM mà khách hàng của bạn đã trả tiền vào năm 2014, ERP cũ, bảng điều khiển SharePoint. Nếu bạn không thể triển khai tích hợp và nhóm không muốn trả tiền cho iPaaS, vòng lặp chụp màn hình là một lựa chọn thực tế.
Các tác vụ vận hành một lần. Một nhà sáng lập yêu cầu một tác nhân "nghiên cứu 50 đối thủ cạnh tranh này và đưa những điểm nổi bật vào Notion" không phải là một quy trình làm việc cần một hợp đồng có cấu trúc. Sử dụng máy tính xử lý nó một lần rồi biến mất.
Kỹ thuật đảo ngược được bảo vệ bởi Điều khoản dịch vụ. Bỏ qua cái này. Hầu hết các yêu cầu "cào trang web này bằng cách sử dụng máy tính" đều vi phạm các điều khoản của nhà cung cấp; chi phí là vấn đề nhỏ nhất của bạn.
Một khuôn khổ quyết định đơn giản
Chạy yêu cầu qua bốn kiểm tra này trước khi sử dụng máy tính.
| Kiểm tra | Nếu có | Nếu không |
|---|---|---|
| Có API được tài liệu hóa không? | Sử dụng API. | Tiếp tục. |
| Bạn có thể triển khai một bộ điều hợp mỏng phía máy chủ bao bọc một điểm cuối riêng tư không? | Xây dựng bộ điều hợp, hiển thị nó dưới dạng JSON. | Tiếp tục. |
| Tác vụ này là một lần hoặc có khối lượng thấp (<100 lần chạy/ngày) không? | Sử dụng máy tính là chấp nhận được. | Tiếp tục. |
| Bạn có chấp nhận trả chi phí token gấp 30-50 lần cho mỗi lần chạy không? | Sử dụng máy tính. | Dừng lại. Đàm phán quyền truy cập API. |
Ba phần tư các quy trình làm việc chúng tôi thấy trong cơ sở mã của khách hàng không vượt qua kiểm tra một hoặc hai; việc sử dụng máy tính chỉ tồn tại khi cả hai đều không được thỏa mãn.
Cách API có cấu trúc thực sự trông như thế nào trong một tác nhân
Đây là cùng một tác vụ "lấy các khoản thanh toán thất bại của ngày hôm qua" được thể hiện theo cả hai cách. Phiên bản có cấu trúc là những gì bạn muốn mọi tác nhân mặc định sử dụng.
from openai import OpenAI
client = OpenAI()
tools = [{
"type": "function",
"function": {
"name": "list_failed_payments",
"description": "List failed payments in a date range",
"parameters": {
"type": "object",
"properties": {
"start": {"type": "string", "format": "date"},
"end": {"type": "string", "format": "date"},
},
"required": ["start", "end"],
},
},
}]
resp = client.chat.completions.create(
model="gpt-5.5",
messages=[{"role": "user", "content": "Show yesterday's failed payments."}],
tools=tools,
tool_choice="auto",
)
call = resp.choices[0].message.tool_calls[0]
args = json.loads(call.function.arguments)
payments = stripe.PaymentIntent.list(
created={"gte": args["start"], "lte": args["end"]},
limit=100,
)
Hai lời nhắc vào, một phản hồi có cấu trúc ra, một lệnh gọi HTTP đến Stripe. Tác nhân không bao giờ nhìn thấy bảng điều khiển.
Tương đương với việc sử dụng máy tính là khởi động trình duyệt, đăng nhập vào Stripe, chụp màn hình bảng điều khiển, nhấp vào bộ chọn ngày, chụp màn hình lại, kéo một phạm vi, chụp màn hình, cuộn đến "Thất bại", chụp màn hình và cuối cùng trích xuất số liệu từ pixel. Mỗi ảnh chụp màn hình tương đương khoảng 1.500 token đầu vào. Mười hai vòng là điển hình. Hóa đơn gấp 45 lần và tỷ lệ thành công thấp hơn.
Thiết kế phương pháp có cấu trúc với Apidog
Lý do các nhóm sử dụng máy tính hiếm khi là vì chi phí; mà thường là do không ai thiết kế một bề mặt công cụ sạch sẽ cho tác nhân. Apidog cung cấp cho bạn một nơi để thực hiện công việc đó một cách đúng đắn.
Bước một: mô hình hóa các hoạt động mà tác nhân cần dưới dạng điểm cuối trong một dự án Apidog. Một vài lệnh POST bao gồm "liệt kê hóa đơn," "cập nhật giao dịch," "gửi tin nhắn" là đủ để thay thế 80 phần trăm các bản demo của nhà điều hành. Apidog tạo tài liệu OpenAPI 3.1 trực tiếp từ chế độ thiết kế.
Bước hai: đưa tài liệu OpenAPI đó vào khuôn khổ tác nhân của bạn. Mảng tools của OpenAI, lược đồ sử dụng công cụ của Anthropic và bộ tải OpenAPI của LangChain đều tiêu thụ trực tiếp OpenAPI 3.1. Giờ đây, tác nhân có các lệnh gọi hàm được định kiểu phản ánh thiết kế của bạn.
Bước ba: bật máy chủ mô phỏng của Apidog. Bản mô phỏng trả về JSON thực tế cho mọi điểm cuối, vì vậy bạn có thể chạy tác nhân từ đầu đến cuối mà không cần truy cập vào môi trường sản xuất hoặc trả chi phí token cho một lần chạy thực tế. Chúng tôi trình bày cùng một mô hình trong hướng dẫn phát triển hợp đồng trước tiên của Apidog.
Bước bốn: phát lại lưu lượng. Apidog ghi lại mọi yêu cầu và phản hồi khi tác nhân chạy, vì vậy bạn có thể so sánh một lần chạy thành công với một lần chạy thất bại và xem lệnh gọi công cụ nào đã bị lệch. Đây là cách bạn loại bỏ vấn đề "tác nhân hôm qua hoạt động và hôm nay bị hỏng."
Bước năm: triển khai. Cùng một dự án đóng vai trò là tài liệu công khai, công cụ kiểm thử chất lượng và bảng điều khiển giám sát của bạn.
Hybrid: khi bạn cần cả hai phương pháp
Trong sản xuất, hầu hết các tác nhân đều kết thúc ở dạng hybrid. Một mặc định hợp lý trông như thế này.
- 90 phần trăm hoạt động đi qua một bề mặt công cụ có cấu trúc mà bạn đã thiết kế.
- 10 phần trăm quay trở lại vòng lặp sử dụng máy tính cho các cổng thông tin cũ còn lại.
- Một lời nhắc định tuyến quyết định phương pháp nào sẽ sử dụng dựa trên tên hoạt động.
Bộ định tuyến là một thông báo hệ thống nhỏ: “Nếu tool_name nằm trong known_tools, hãy gọi công cụ đó. Nếu không, hãy chuyển giao cho tác nhân trình duyệt.” Claude 4.5 của Anthropic và GPT-5.5 của OpenAI đều xử lý việc định tuyến này một cách đáng tin cậy; bạn có thể phác thảo cùng một mô hình trong DeepSeek V4. Xem cách sử dụng API DeepSeek V4 để biết hình dạng yêu cầu.
Theo dõi cả hai phương pháp riêng biệt trong ngăn xếp quan sát của bạn. Các lệnh gọi có cấu trúc nên chiếm 99 phần trăm khối lượng và 30 phần trăm chi phí; phương án dự phòng sử dụng máy tính nên chiếm 1 phần trăm khối lượng và 70 phần trăm chi phí. Nếu tỷ lệ đảo ngược, ai đó đã thêm một hoạt động sai cách và bạn cần thiết kế một điểm cuối cho nó.
Những sai lầm thường gặp cần tránh
Đây là những mô hình xuất hiện trong các phiếu hỗ trợ.
Bỏ qua lược đồ. Các nhóm triển khai tác nhân với lời nhắc hệ thống chỉ bằng văn xuôi và tự hỏi tại sao các lệnh gọi có cấu trúc thất bại. Luôn truyền JSON Schema; cả Claude và GPT đều cải thiện độ chính xác của công cụ đáng kể khi lược đồ nghiêm ngặt.
Để tác nhân thiết kế lược đồ trong thời gian chạy. Lược đồ là bề mặt sản phẩm. Xây dựng nó trong Apidog, tạo phiên bản cho nó và xử lý các thay đổi theo cách bạn xử lý một thay đổi API công khai. Các lược đồ tự sửa đổi là cách các sự cố sản xuất xảy ra.
Ghi nhật ký token, không phải chi phí. Token sử dụng máy tính ẩn trong đầu vào hình ảnh, mà hầu hết các công cụ quan sát định giá khác nhau. Đọc bảng điều khiển thanh toán của nhà cung cấp, không phải bảng điều khiển theo dõi của bạn.
Nhầm lẫn việc sử dụng máy tính với RPA. Tự động hóa quy trình robot (RPA) chạy các cú nhấp chuột theo kịch bản chống lại các phần tử DOM đã biết. Việc sử dụng máy tính quyết định lại những gì cần nhấp vào trên mỗi ảnh chụp màn hình. Cái đầu tiên có thể lặp lại và rẻ; cái thứ hai linh hoạt và đắt đỏ. Đừng sử dụng máy tính khi RPA là công cụ phù hợp.
Quên chi phí độ trễ. Hóa đơn token gấp 45 lần là một khoản thuế. Khoản lớn hơn là vòng lặp chụp màn hình 60 giây đẩy tác nhân ra khỏi luồng của người dùng. Nếu người dùng đang theo dõi, bạn hầu như luôn muốn sử dụng API.
Các lựa chọn thay thế cần xem xét
Nếu một nhà cung cấp thiếu API nhưng có giao diện người dùng (UI) quen thuộc, ba lựa chọn trung gian nằm giữa việc sử dụng máy tính hoàn toàn và tích hợp hoàn chỉnh.
Các script trình duyệt không giao diện (Headless browser scripts) (Playwright, Puppeteer) không tốn chi phí cho mỗi lần chạy sau khi phát triển. Chúng sẽ bị hỏng khi giao diện người dùng thay đổi; hãy dự trù ngân sách cho điều đó.
Các trình kết nối Zapier hoặc Make do nhà cung cấp xuất bản. Các nền tảng iPaaS đã trả chi phí tích hợp cho bạn. Trả tiền cho vị trí, triển khai nhanh hơn.
Các API riêng tư được kỹ thuật đảo ngược. Theo dõi tab mạng trong DevTools. Nhiều bảng điều khiển của nhà cung cấp giao tiếp với các điểm cuối JSON nội bộ mà bạn có thể gọi trực tiếp bằng cùng một cookie xác thực. Tài liệu hóa chúng trong Apidog và coi chúng là bán ổn định. Chúng tôi sử dụng thủ thuật này trong kiểm thử API mà không cần Postman.
Sử dụng máy tính là phương án cuối cùng, không phải mặc định.
Các trường hợp sử dụng thực tế
Một nhóm tuân thủ fintech đã thay thế báo cáo Stripe 6 bước sử dụng máy tính bằng ba lệnh gọi có cấu trúc. Chi phí token giảm 92 phần trăm và thời gian chạy từ 41 giây xuống còn 2 giây.
Một tác nhân hỗ trợ SaaS B2B chỉ giữ lại việc sử dụng máy tính cho một quy trình làm việc duy nhất: một cổng thông tin mua sắm của nhà cung cấp không có API. Mọi thứ khác được định tuyến thông qua các lệnh gọi công cụ OpenAPI được thiết kế trong Apidog. Tổng chi tiêu token cho tác nhân đã giảm từ 4.200 đô la xuống còn 310 đô la mỗi tháng.
Một nhà sáng lập độc lập đã sử dụng máy tính chính xác một lần một tuần để làm mới bảng điều khiển Notion từ một hệ thống ERP cũ. Chi phí gấp 45 lần cho một lần chạy mỗi tuần chỉ là vài xu; lựa chọn thay thế là một dự án tích hợp kéo dài nhiều tuần. Đó là hình dạng phù hợp cho việc sử dụng máy tính.
Kết luận
Con số 45 lần là có thật, có thể lặp lại và nó nên thay đổi cách nhóm của bạn chọn công cụ. Mặc định sử dụng API có cấu trúc được thiết kế trong Apidog; chỉ sử dụng máy tính khi không có API nào tồn tại và quy trình làm việc chạy đủ hiếm để chi phí token là sai số làm tròn.
Năm điểm chính cần ghi nhớ:
- Sử dụng máy tính tốn nhiều hơn từ 30 đến 50 lần token so với lệnh gọi API có cấu trúc tương đương.
- Một điểm cuối được tài liệu hóa cộng với JSON Schema đánh bại vòng lặp chụp màn hình về chi phí, độ trễ và độ tin cậy.
- Các ngăn xếp hybrid là bình thường: thiết kế 90 phần trăm trong Apidog, quay lại sử dụng máy tính cho 10 phần trăm còn lại.
- Mô phỏng bề mặt công cụ có cấu trúc trước khi bạn kết nối nó với một mô hình trực tiếp. Nó tiết kiệm tín dụng tác nhân và rút ngắn vòng lặp.
- Theo dõi cả hai phương pháp riêng biệt trong quan sát để bạn nhận thấy khi tỷ lệ thay đổi.
Bước tiếp theo: mở Apidog, tạo một dự án cho bề mặt công cụ của tác nhân của bạn và bật máy chủ mô phỏng. Bạn sẽ biết trong vòng một giờ liệu quy trình làm việc mà bạn định triển khai dưới dạng sử dụng máy tính có thể rút gọn thành hai lệnh gọi có cấu trúc thay thế hay không.
nút bấm
CÂU HỎI THƯỜNG GẶP
Việc sử dụng máy tính có bao giờ rẻ hơn API có cấu trúc không?
Không, không phải trên cơ sở mỗi lần chạy. Các token ảnh chụp màn hình chiếm ưu thế. Việc sử dụng máy tính có thể rẻ hơn tổng thể khi chi phí tích hợp vượt quá chi phí vận hành trong nhiều năm, điều này chỉ xảy ra đối với các quy trình làm việc có khối lượng rất thấp đối với các API không tồn tại.
Làm cách nào để mô phỏng một bề mặt công cụ JSON cho một tác nhân?
Thiết kế các điểm cuối trong Apidog, bật máy chủ mô phỏng tích hợp và trỏ tác nhân của bạn đến URL mô phỏng. Mỗi yêu cầu trả về JSON thực tế mà không tốn token. Chúng tôi trình bày quy trình làm việc từ đầu đến cuối trong các công cụ kiểm thử API dành cho kỹ sư QA.
Tôi có thể sử dụng OpenAPI cho các lệnh gọi công cụ trong bất kỳ mô hình nào không?
Có. Tham số tools của OpenAI, khối tool_use của Anthropic và điểm cuối gọi công cụ của DeepSeek V4 đều tiêu thụ lược đồ OpenAPI 3.1. Apidog xuất lược đồ một cách rõ ràng. Xem cách sử dụng API DeepSeek V4 để biết hình dạng yêu cầu của DeepSeek.
GPT-5.5 có còn hỗ trợ việc sử dụng máy tính không?
OpenAI cung cấp việc sử dụng máy tính thông qua sản phẩm Operator và thông qua API Responses. Hồ sơ chi phí phù hợp với của Anthropic, xấp xỉ từng ảnh chụp màn hình. Khuyến nghị trong bài viết này áp dụng cho bất kể nhà cung cấp nào.
Còn Skyvern, trình duyệt và các tác nhân mã nguồn mở khác thì sao?
Tương tự. Chúng giảm giá mỗi lần gọi bằng cách định tuyến qua các mô hình mở rẻ hơn, nhưng số vòng và kích thước ảnh chụp màn hình tương tự. API có cấu trúc vẫn vượt trội hơn chúng rất nhiều khi có API.
Làm cách nào để biết khi nào một điểm cuối bị thiếu cho một tác vụ tác nhân?
Theo dõi những lệnh gọi công cụ nào thất bại hoặc bị từ chối. Nếu tác nhân tiếp tục cố gắng quay lại trình duyệt, đó là một điểm cuối bị thiếu trong bề mặt công cụ của bạn. Thêm nó vào Apidog, tạo lại lược đồ và tác nhân sẽ ngừng quay lại.
