Mengendalikan peramban (browser) dengan LLM melalui model penggunaan komputer kira-kira 45 kali lebih mahal daripada memanggil vendor yang sama melalui API terstruktur. YA.
Panduan ini menguraikan angka 45x tersebut, menjelaskan kapan penggunaan komputer masih bermanfaat, dan menunjukkan cara menjaga kedua jalur tetap cepat dan murah saat Anda membangun dengan Apidog. Kerangka kerja berikut berfungsi untuk OpenAI Operator, penggunaan komputer Anthropic, penggunaan peramban, Skyvern, dan alat mingguan masa depan apa pun yang dilengkapi dengan lingkaran tangkapan layar.
tombol
Jika Anda menulis API untuk agen AI, Anda juga harus membaca panduan pelengkap kami tentang cara menulis file agents.md; konvensi di sana menjadikan jalur API terstruktur sebagai standar yang jelas bagi pemanggil Anda.
TL;DR
- Penggunaan komputer berarti LLM melihat tangkapan layar dan mengeluarkan klik, penekanan tombol, dan gulir; API terstruktur berarti LLM mengeluarkan panggilan alat JSON yang dieksekusi oleh backend Anda.
- Untuk tugas yang sama, penggunaan komputer menghabiskan 30 hingga 50 kali lebih banyak token karena setiap langkah mengirimkan tangkapan layar baru, ditambah percobaan ulang.
- Pilih penggunaan komputer hanya jika tidak ada API yang tersedia, API dibatasi tingkat panggilannya (rate-locked), atau alur kerja berada di balik autentikasi yang sulit diotomatisasi dengan skrip.
- Pilih API terstruktur untuk hal lainnya: pembayaran, pencarian, pembaruan CRM, alat internal, apa pun yang dapat Anda dokumentasikan dengan OpenAPI.
- Hibrida adalah jawaban realistis: API terstruktur menangani 90 persen yang memiliki endpoint, penggunaan komputer mencakup bagian 'long tail'.
- Unduh Apidog untuk mendesain skema alat JSON, mensimulasikan endpoint saat Anda melakukan iterasi, dan memutar ulang seluruh alur tanpa menghabiskan kredit agen.
Mengapa Kesenjangan Biaya Begitu Besar
Angka 45x bukanlah tolok ukur yang cerdas; itu muncul dari cara setiap jalur menggunakan token.
Panggilan API terstruktur mengirimkan satu prompt dengan permintaan pengguna dan skema alat, kemudian menerima objek JSON yang dieksekusi oleh runtime. Bolak-balik: beberapa ratus token masuk, lima puluh token keluar, satu lompatan jaringan.
Sebuah lingkaran penggunaan komputer mengirimkan prompt yang sama ditambah tangkapan layar, menerima koordinat klik, mengeksekusinya, mengambil tangkapan layar lagi, dan mengulanginya. Tugas tipikal “memesan penerbangan” menjalankan 12 hingga 30 putaran tersebut. Setiap tangkapan layar berharga sekitar 1.500 token pada resolusi tipikal. Kalikan.
Dokumentasi penggunaan komputer Anthropic sendiri secara terbuka mencantumkan harga token tangkapan layar; biaya tambahan di dunia nyata bahkan lebih tinggi karena model mencoba ulang pada kesalahan klik, menggulir melewati elemen yang benar, dan menghabiskan putaran untuk menolak spanduk cookie. Utas HN yang merujuk Penggunaan Komputer 45x Lebih Mahal daripada API Terstruktur menempatkan penalti tipikal pada 30 hingga 50x, yang cocok dengan apa yang kami lihat ketika kami memutar ulang tugas yang sama melalui kedua jalur di Apidog.
Kapan Jalur API Terstruktur Unggul
Gunakan API terstruktur sebagai standar ketika salah satu dari berikut ini berlaku.
Vendor menerbitkan spesifikasi OpenAPI, skema GraphQL, atau bahkan satu halaman REST. Jika bentuk JSON ada, LLM dapat mengisinya. Akurasi panggilan alat pada GPT-5.5, Claude 4.5, dan DeepSeek V4 berada di atas 95 persen pada endpoint yang didokumentasikan; mode kegagalan jarang terjadi, murah untuk dideteksi, dan mudah untuk dicoba ulang.
Tugas tersebut sesuai dengan satu atau dua endpoint. "Buat pelanggan Stripe," "perbarui tahap kesepakatan HubSpot," "kirim pesan Slack," "picu ulang CI" semuanya adalah panggilan tunggal. Merutekan mereka melalui peramban adalah setara rekayasa dengan mengirim kartu pos dari seberang ruangan.
Alur kerja berjalan tanpa pengawasan. Cron job, webhook, dan pekerja antrean tidak dapat mengawasi lingkaran tangkapan layar yang memutuskan untuk menggulir ke arah yang salah. Panggilan terstruktur bersifat deterministik pada lapisan jaringan.
Latensi penting. Panggilan terstruktur kembali dalam 200 hingga 800 milidetik. Lingkaran penggunaan komputer dengan 15 putaran membutuhkan waktu 30 hingga 90 detik, lebih lama saat percobaan ulang dimulai.
Anda perlu mengujinya sebelum diluncurkan. Mensimulasikan endpoint JSON hanya membutuhkan waktu beberapa detik di Apidog. Mensimulasikan lingkaran tangkapan layar peramban adalah proyek penelitian.
Kapan Penggunaan Komputer Membuktikan Nilainya
Beberapa kasus masih lebih menguntungkan penggunaan lingkaran tangkapan layar.
Portal vendor lawas. Beberapa portal pengadaan, pengiriman, dan tunjangan sudah ada sebelum REST. Mereka berada di balik sesi ASP.NET tanpa antarmuka mesin. Penggunaan komputer menggantikan skrip Selenium yang rentan dan rusak setiap kuartal; menukar biaya 45x dengan nol pemeliharaan kadang-kadang adalah keputusan yang tepat.
Alat internal yang tidak dapat Anda modifikasi. CRM yang dibayar klien Anda pada tahun 2014, ERP lawas, dasbor SharePoint. Jika Anda tidak dapat mengirimkan integrasi dan tim tidak akan membayar untuk iPaaS, lingkaran tangkapan layar adalah pilihan yang nyata.
Tugas operator sekali pakai. Seorang pendiri yang meminta agen untuk "meneliti 50 pesaing ini dan menempelkan sorotannya di Notion" bukanlah alur kerja yang membutuhkan kontrak terstruktur. Penggunaan komputer menanganinya sekali dan menghilang.
Rekayasa balik dilindungi oleh Syarat Layanan (ToS). Lewati ini. Sebagian besar permintaan "mengikis situs ini dengan penggunaan komputer" berada di sisi yang salah dari ketentuan vendor; biaya adalah masalah terkecil Anda.
Kerangka Keputusan Sederhana
Jalankan permintaan melalui empat pemeriksaan ini sebelum menggunakan penggunaan komputer.
| Pemeriksaan | Jika ya | Jika tidak |
|---|---|---|
| Apakah ada API yang didokumentasikan? | Gunakan API. | Lanjutkan. |
| Bisakah Anda mengirimkan adaptor sisi server tipis yang membungkus endpoint privat? | Bangun adaptornya, paparkan sebagai JSON. | Lanjutkan. |
| Apakah tugas ini sekali pakai atau bervolume rendah (<100 kali/hari)? | Penggunaan komputer dapat diterima. | Lanjutkan. |
| Apakah Anda bersedia membayar biaya token 30-50x pada setiap eksekusi? | Penggunaan komputer. | Berhenti. Negosiasikan akses API. |
Tiga perempat dari alur kerja yang kami lihat dalam basis kode pelanggan gagal pada pemeriksaan satu atau dua; penggunaan komputer hanya bertahan jika keduanya tidak terpenuhi.
Bagaimana Sebenarnya API Terstruktur Terlihat dalam Agen
Berikut adalah tugas “ambil pembayaran yang gagal kemarin” yang dinyatakan dalam dua cara. Versi terstruktur adalah apa yang Anda inginkan menjadi standar setiap agen.
from openai import OpenAI
client = OpenAI()
tools = [{
"type": "function",
"function": {
"name": "list_failed_payments",
"description": "List failed payments in a date range",
"parameters": {
"type": "object",
"properties": {
"start": {"type": "string", "format": "date"},
"end": {"type": "string", "format": "date"},
},
"required": ["start", "end"],
},
},
}]
resp = client.chat.completions.create(
model="gpt-5.5",
messages=[{"role": "user", "content": "Show yesterday's failed payments."}],
tools=tools,
tool_choice="auto",
)
call = resp.choices[0].message.tool_calls[0]
args = json.loads(call.function.arguments)
payments = stripe.PaymentIntent.list(
created={"gte": args["start"], "lte": args["end"]},
limit=100,
)
Dua prompt masuk, satu respons terstruktur keluar, satu panggilan HTTP ke Stripe. Agen tidak pernah melihat dasbor.
Setara dengan penggunaan komputer mem-boot peramban, masuk ke Stripe, mengambil tangkapan layar dasbor, mengeklik pemilih tanggal, mengambil tangkapan layar lagi, menyeret rentang, mengambil tangkapan layar, menggulir ke "Gagal," mengambil tangkapan layar, dan akhirnya mengekstrak angka dari piksel. Setiap tangkapan layar kira-kira 1.500 token input. Dua belas putaran adalah tipikal. Biayanya 45x dan tingkat keberhasilannya lebih rendah.
Mendesain Jalur Terstruktur dengan Apidog
Alasan tim menggunakan penggunaan komputer jarang karena biaya; biasanya karena tidak ada yang mendesain permukaan alat yang bersih untuk agen. Apidog memberi Anda tempat untuk melakukan pekerjaan itu dengan benar.
Langkah pertama: model operasi yang dibutuhkan agen sebagai endpoint dalam proyek Apidog. Beberapa POST yang mencakup "daftar faktur," "perbarui kesepakatan," "kirim pesan" cukup untuk menggantikan 80 persen demo operator. Apidog menghasilkan dokumen OpenAPI 3.1 langsung dari tampilan desain.
Langkah kedua: masukkan dokumen OpenAPI tersebut ke dalam kerangka agen Anda. Array tools OpenAI, skema penggunaan alat Anthropic, dan pemuat OpenAPI LangChain semuanya mengonsumsi OpenAPI 3.1 secara langsung. Agen sekarang memiliki panggilan fungsi yang diketik yang mencerminkan desain Anda.
Langkah ketiga: aktifkan server tiruan Apidog. Tiruan mengembalikan JSON realistis untuk setiap endpoint, sehingga Anda dapat menjalankan agen secara end-to-end tanpa menyentuh produksi atau membayar biaya token pada eksekusi nyata. Kami membahas pola yang sama dalam panduan pengembangan kontrak-pertama Apidog.
Langkah keempat: putar ulang lalu lintas. Apidog merekam setiap permintaan dan respons saat agen berjalan, sehingga Anda dapat membandingkan eksekusi yang berhasil dengan yang gagal dan melihat panggilan alat mana yang menyimpang. Ini adalah cara Anda memotong masalah "agen berfungsi kemarin dan rusak hari ini".
Langkah kelima: luncurkan. Proyek yang sama berfungsi ganda sebagai dokumen publik Anda, perangkat pengujian QA Anda, dan dasbor pemantauan Anda.
Hibrida: Ketika Anda Membutuhkan Kedua Jalur
Dalam produksi, sebagian besar agen berakhir sebagai hibrida. Standar yang wajar terlihat seperti ini.
- 90 persen operasi melalui permukaan alat terstruktur yang Anda rancang.
- 10 persen kembali ke lingkaran penggunaan komputer untuk bagian 'long tail' dari portal lama.
- Prompt router memutuskan jalur mana yang akan diambil berdasarkan nama operasi.
Router adalah pesan sistem kecil: “Jika tool_name ada di known_tools, panggil alat tersebut. Jika tidak, serahkan ke agen peramban.” Claude 4.5 dari Anthropic dan GPT-5.5 dari OpenAI keduanya menangani perutean ini dengan andal; Anda dapat membuat sketsa pola yang sama di DeepSeek V4. Lihat cara menggunakan API DeepSeek V4 untuk bentuk permintaannya.
Lacak kedua jalur secara terpisah dalam tumpukan observabilitas Anda. Panggilan terstruktur harus 99 persen dari volume dan 30 persen dari biaya; penggunaan komputer sebagai fallback harus 1 persen dari volume dan 70 persen dari biaya. Jika rasio berbalik, seseorang menambahkan operasi dengan cara yang salah dan Anda perlu merancang endpoint untuknya.
Kesalahan Umum yang Harus Dihindari
Ini adalah pola yang muncul di tiket dukungan.
Melewatkan skema. Tim mengirimkan agen dengan prompt sistem hanya berbasis prosa dan bertanya-tanya mengapa panggilan terstruktur gagal. Selalu berikan Skema JSON; baik Claude maupun GPT meningkatkan akurasi alat hingga dua digit ketika skema ketat.
Membiarkan agen mendesain skema saat runtime. Skema adalah permukaan produk. Buat di Apidog, buat versinya, dan perlakukan perubahan sebagaimana Anda memperlakukan perubahan API publik. Skema yang memodifikasi diri adalah penyebab terjadinya pemadaman produksi.
Mencatat token, bukan biaya. Token penggunaan komputer tersembunyi dalam input gambar, yang kebanyakan alat observabilitas menilainya secara berbeda. Baca konsol penagihan penyedia Anda, bukan dasbor pelacakan Anda.
Mencampuradukkan penggunaan komputer dengan RPA. Otomatisasi proses robotik (RPA) menjalankan klik skrip terhadap elemen DOM yang diketahui. Penggunaan komputer memutuskan ulang apa yang akan diklik pada setiap tangkapan layar. Yang pertama dapat diulang dan murah; yang kedua fleksibel dan mahal. Jangan menggunakan penggunaan komputer ketika RPA adalah alat yang tepat.
Melupakan biaya latensi. Tagihan token 45x adalah salah satu biaya. Yang lebih besar adalah bahwa lingkaran tangkapan layar 60 detik mengeluarkan agen dari alur pengguna. Jika pengguna sedang mengamati, Anda hampir selalu menginginkan API.
Alternatif untuk Dipertimbangkan
Jika vendor tidak memiliki API tetapi memiliki UI yang dikenal baik, tiga opsi perantara berada di antara penggunaan komputer penuh dan integrasi penuh.
Skrip peramban headless (Playwright, Puppeteer) tidak memakan biaya per eksekusi setelah pengembangan. Mereka rusak ketika UI berubah; anggarkan untuk itu.
Konektor Zapier atau Make yang diterbitkan vendor. Platform iPaaS telah membayar biaya integrasi untuk Anda. Bayar untuk lisensinya, luncurkan lebih cepat.
API privat hasil rekayasa balik. Perhatikan tab jaringan di DevTools. Banyak dasbor vendor berkomunikasi dengan endpoint JSON internal yang dapat Anda panggil langsung dengan cookie autentikasi yang sama. Dokumenkan di Apidog dan perlakukan sebagai semi-stabil. Kami menggunakan trik ini dalam pengujian API tanpa Postman.
Penggunaan komputer adalah pilihan terakhir, bukan standar.
Kasus Penggunaan Dunia Nyata
Tim kepatuhan fintech mengganti laporan Stripe 6 langkah berbasis penggunaan komputer dengan tiga panggilan terstruktur. Biaya token turun 92 persen dan eksekusi berjalan dari 41 detik menjadi 2 detik.
Agen dukungan B2B SaaS hanya mempertahankan penggunaan komputer untuk satu alur kerja: portal pengadaan vendor tanpa API. Segala sesuatu yang lain dialihkan melalui panggilan alat OpenAPI yang dirancang di Apidog. Total pengeluaran token pada agen turun dari $4,200 menjadi $310 per bulan.
Seorang pendiri tunggal menggunakan penggunaan komputer persis sekali seminggu untuk menyegarkan dasbor Notion dari ERP lawas. Biaya 45x pada eksekusi sekali seminggu hanya beberapa sen; alternatifnya adalah proyek integrasi beberapa minggu. Itulah bentuk yang tepat untuk penggunaan komputer.
Kesimpulan
Angka 45x adalah nyata, dapat diulang, dan seharusnya mengubah cara tim Anda memilih alat. Gunakan API terstruktur yang dirancang di Apidog sebagai standar; gunakan penggunaan komputer hanya jika tidak ada API dan alur kerja berjalan sangat jarang sehingga biaya token hanyalah kesalahan pembulatan.
Lima poin penting untuk dibawa pulang:
- Penggunaan komputer menghabiskan token 30 hingga 50 kali lebih banyak daripada panggilan API terstruktur yang setara.
- Endpoint yang didokumentasikan ditambah Skema JSON mengungguli lingkaran tangkapan layar dalam hal biaya, latensi, dan keandalan.
- Tumpukan hibrida adalah normal: rancang 90 persen di Apidog, kembali ke penggunaan komputer untuk 10 persen bagian 'long tail'.
- Simulasikan permukaan alat terstruktur sebelum Anda menghubungkannya ke model langsung. Ini menghemat kredit agen dan memperpendek lingkaran.
- Lacak kedua jalur secara terpisah dalam observabilitas sehingga Anda menyadari kapan rasio berubah.
Langkah selanjutnya: buka Apidog, buat proyek untuk permukaan alat agen Anda, dan aktifkan server tiruan. Anda akan tahu dalam waktu satu jam apakah alur kerja yang akan Anda luncurkan sebagai penggunaan komputer dapat diringkas menjadi dua panggilan terstruktur saja.
tombol
FAQ
Apakah penggunaan komputer pernah lebih murah daripada API terstruktur?
Tidak, tidak berdasarkan per eksekusi. Token tangkapan layar mendominasi. Penggunaan komputer bisa lebih murah secara total ketika biaya integrasi akan melebihi biaya eksekusi bertahun-tahun, yang hanya terjadi untuk alur kerja bervolume sangat rendah terhadap API yang tidak ada.
Bagaimana cara mensimulasikan permukaan alat JSON untuk agen?
Desain endpoint di Apidog, aktifkan server tiruan bawaan, dan arahkan agen Anda ke URL tiruan. Setiap permintaan mengembalikan JSON realistis tanpa biaya token. Kami membahas alur kerja secara menyeluruh dalam alat pengujian API untuk insinyur QA.
Bisakah saya menggunakan OpenAPI untuk panggilan alat di model mana pun?
Ya. Parameter tools OpenAI, blok tool_use Anthropic, dan endpoint panggilan alat DeepSeek V4 semuanya mengonsumsi skema OpenAPI 3.1. Apidog mengekspor skema dengan bersih. Lihat cara menggunakan API DeepSeek V4 untuk bentuk permintaan DeepSeek.
Apakah GPT-5.5 masih mendukung penggunaan komputer?
OpenAI mengirimkan penggunaan komputer melalui produk Operator dan melalui API Respons. Profil biayanya kira-kira cocok dengan Anthropic, tangkapan layar per tangkapan layar. Rekomendasi dalam artikel ini berlaku terlepas dari vendor.
Bagaimana dengan Skyvern, browser-use, dan agen sumber terbuka lainnya?
Matematikanya sama. Mereka mengurangi harga per panggilan dengan merutekan melalui model terbuka yang lebih murah, tetapi jumlah putaran dan ukuran tangkapan layar serupa. API terstruktur masih mengalahkan mereka dengan selisih yang lebar di mana API tersedia.
Bagaimana saya tahu jika endpoint hilang untuk tugas agen?
Perhatikan panggilan alat mana yang gagal atau ditolak. Jika agen terus mencoba kembali ke peramban, itu berarti ada endpoint yang hilang di permukaan alat Anda. Tambahkan di Apidog, buat ulang skema, dan agen berhenti melakukan fallback.
