コンピューター利用 vs 構造化API：それぞれの強み (2026年)

LLM を使用してコンピュータ利用モデルを介してブラウザを操作することは、同じベンダーを構造化 API 経由で呼び出すよりも約 45 倍費用がかかります。はい。

このガイドでは、その 45 倍の数字を掘り下げ、コンピュータ利用が依然としてその価値を発揮する場面を説明し、Apidog で構築する際に両方のパスを高速かつ安価に保つ方法を示します。以下のフレームワークは、OpenAI Operator、Anthropic のコンピュータ利用、ブラウザ利用、Skyvern、およびスクリーンショットループを伴う将来のあらゆる「今週のツール」に適用されます。

ボタン

AI エージェント向けに API を作成する場合、agents.md ファイルの書き方に関する補足ガイドも読むべきです。そこにある慣例により、構造化 API パスが呼び出し元にとって明白なデフォルトとなります。

要約

コンピュータ利用とは、LLM がスクリーンショットを見てクリック、キーストローク、スクロールを送信することを意味します。構造化 API とは、LLM がバックエンドで実行される JSON ツール呼び出しを送信することを意味します。
同じタスクの場合、コンピュータ利用は、各ステップで新しいスクリーンショットが送信され、さらにリトライが行われるため、30〜50 倍多くのトークンを消費します。
API が存在しない場合、API がレート制限されている場合、またはワークフローがスクリプト化に抵抗する認証の背後にある場合にのみ、コンピュータ利用を選択してください。
それ以外の場合、支払い、検索、CRM 更新、社内ツールなど、OpenAPI で文書化できるすべてのものには構造化 API を選択してください。
ハイブリッドが現実的な答えです。構造化 API はエンドポイントを持つ 90 パーセントを処理し、コンピュータ利用はロングテールをカバーします。
Apidog をダウンロードして、JSON ツールスキーマを設計し、イテレーション中にエンドポイントをモックし、エージェントのクレジットを消費せずにフロー全体を再生してください。

なぜこれほどコストに差があるのか

45 倍という数字は巧妙なベンチマークではありません。それは、各パスがどのようにトークンを使用するかによって自然と導き出されます。

構造化 API 呼び出しは、ユーザー要求とツールスキーマを含む 1 つのプロンプトを送信し、ランタイムが実行する JSON オブジェクトを受信します。往復で、数百トークンが入力され、50 トークンが出力され、1 回のネットワークホップです。

コンピュータ利用ループは、同じプロンプトとスクリーンショットを送信し、クリック座標を受信し、それを実行し、再度スクリーンショットを撮り、繰り返します。一般的な「フライトを予約する」タスクでは、これらのラウンドが 12〜30 回実行されます。各スクリーンショットは、通常の解像度で約 1,500 トークンかかります。乗算してください。

Anthropic 自身のコンピュータ利用に関するドキュメントでは、スクリーンショットのトークン価格が公表されています。実際のオーバーヘッドはさらに高く、モデルが誤クリックでリトライしたり、正しい要素を通り過ぎてスクロールしたり、クッキーバナーを閉じるためにラウンドを消費したりするからです。参照されている HN スレッド「Computer Use is 45x more expensive than structured APIs」では、一般的なペナルティは 30〜50 倍とされており、これはApidog で両方のパスで同じタスクを再生したときに私たちが見るものと一致します。

構造化 API パスが勝る場合

以下のいずれかが当てはまる場合は、構造化 API をデフォルトにしてください。

ベンダーが OpenAPI スペック、GraphQL スキーマ、あるいは単一の REST ページを公開している場合。JSON 形式が存在すれば、LLM はそれを埋めることができます。GPT-5.5、Claude 4.5、DeepSeek V4 のツール呼び出し精度は、文書化されたエンドポイントで 95% を超えています。失敗モードは稀で、検出が安価で、リトライが簡単です。

タスクが 1 つまたは 2 つのエンドポイントに収まる場合。「Stripe 顧客を作成する」、「HubSpot の取引ステージを更新する」、「Slack メッセージを投稿する」、「CI を再実行する」はすべて単一の呼び出しです。それらをブラウザ経由でルーティングするのは、部屋の反対側からハガキを郵送するようなエンジニアリング的無駄です。

ワークフローが非監視で実行される場合。Cron ジョブ、Webhooks、キューワーカーは、誤った方向にスクロールすることを決定するスクリーンショットループを監督することはできません。構造化呼び出しはネットワーク層で確定的です。

レイテンシが重要である場合。構造化呼び出しは 200〜800 ミリ秒で返されます。15 ラウンドのコンピュータ利用ループは 30〜90 秒かかり、リトライが発生するとさらに長くなります。

出荷前にテストする必要がある場合。Apidog で JSON エンドポイントをモックするのは数秒です。ブラウザのスクリーンショットループをモックするのは研究プロジェクトです。

コンピュータ利用が役立つ場合

いくつかのケースでは、依然としてスクリーンショットループが有利です。

レガシーベンダーポータル。一部の調達、貨物、福利厚生ポータルは REST 以前のものです。機械インターフェースがない ASP.NET セッションの背後に存在します。コンピュータ利用は、四半期ごとに壊れていた脆い Selenium スクリプトの代わりになります。45 倍のコストと引き換えにメンテナンスがゼロになることは、時には正しい選択です。

変更できない社内ツール。クライアントが 2014 年に購入した CRM、レガシー ERP、SharePoint ダッシュボード。統合を導入できず、チームが iPaaS の費用を支払わない場合、スクリーンショットループは現実的な選択肢です。

単発のオペレータータスク。「これら 50 の競合他社を調査し、ハイライトを Notion に貼り付ける」ようにエージェントに依頼する創業者は、構造化された契約を必要とするワークフローではありません。コンピュータ利用はそれを一度処理し、その後は不要になります。

ToS によって保護されたリバースエンジニアリング。これはスキップしてください。ほとんどの「コンピュータ利用でこのサイトをスクレイピングする」要求は、ベンダーの規約に違反しており、コストは最も小さな問題です。

簡単な意思決定フレームワーク

コンピュータ利用を検討する前に、これらの 4 つのチェックを要求に対して実行してください。

チェック	はいの場合	いいえの場合
文書化された API は存在しますか？	API を使用します。	続行します。
プライベートエンドポイントをラップする軽量なサーバーサイドアダプターを導入できますか？	アダプターを構築し、JSON として公開します。	続行します。
タスクは単発、または低頻度（1 日あたり 100 回未満）ですか？	コンピュータ利用は許容されます。	続行します。
毎回の実行で 30〜50 倍のトークンコストを支払っても問題ありませんか？	コンピュータ利用。	停止します。API アクセスを交渉してください。

顧客のコードベースで見るワークフローの 4 分の 3 は、チェック 1 または 2 で失敗します。コンピュータ利用が残るのは、両方が満たされなかった場合のみです。

エージェントでの構造化 API の実際の動作

「昨日の失敗した支払いを取得する」タスクを両方の方法で表現したものです。構造化バージョンは、すべてのエージェントがデフォルトとすべきものです。

from openai import OpenAI

client = OpenAI()

tools = [{
    "type": "function",
    "function": {
        "name": "list_failed_payments",
        "description": "List failed payments in a date range",
        "parameters": {
            "type": "object",
            "properties": {
                "start": {"type": "string", "format": "date"},
                "end":   {"type": "string", "format": "date"},
            },
            "required": ["start", "end"],
        },
    },
}]

resp = client.chat.completions.create(
    model="gpt-5.5",
    messages=[{"role": "user", "content": "Show yesterday's failed payments."}],
    tools=tools,
    tool_choice="auto",
)

call = resp.choices[0].message.tool_calls[0]
args = json.loads(call.function.arguments)
payments = stripe.PaymentIntent.list(
    created={"gte": args["start"], "lte": args["end"]},
    limit=100,
)

2 つのプロンプトが入力され、1 つの構造化された応答が出力され、Stripe への 1 つの HTTP 呼び出しが行われます。エージェントがダッシュボードを見ることはありません。

コンピュータ利用の場合、ブラウザを起動し、Stripe にログインし、ダッシュボードのスクリーンショットを撮り、日付ピッカーをクリックし、再度スクリーンショットを撮り、範囲をドラッグし、スクリーンショットを撮り、「失敗」までスクロールし、スクリーンショットを撮り、最後にピクセルから数字を抽出します。各スクリーンショットは約 1,500 入力トークンです。12 ラウンドが一般的です。費用は 45 倍で、成功率は低くなります。

Apidog で構造化パスを設計する

チームがコンピュータ利用に手を出す理由は、めったにコストではなく、通常はエージェント向けにクリーンなツールサーフェスを設計した人がいないためです。Apidog は、その作業を適切に行う場所を提供します。

ステップ 1: エージェントが必要とする操作を Apidog プロジェクトのエンドポイントとしてモデル化します。「請求書のリスト表示」、「取引の更新」、「メッセージの送信」をカバーする少数の POST で、オペレーターデモの 80% を置き換えるのに十分です。Apidog は、デザインビューから直接 OpenAPI 3.1 ドキュメントを生成します。

ステップ 2: その OpenAPI ドキュメントをエージェントフレームワークにフィードします。OpenAI の tools 配列、Anthropic のツール利用スキーマ、LangChain OpenAPI ローダーはすべて OpenAPI 3.1 を直接消費します。これにより、エージェントは設計を反映した型付き関数呼び出しを持つことになります。

ステップ 3: Apidog のモックサーバーをオンにします。モックはすべてのエンドポイントに対して現実的な JSON を返すため、本番環境に接続したり、実際の実行でトークンコストを支払ったりすることなく、エージェントをエンドツーエンドで実行できます。これと同じパターンについては、Apidog の契約優先開発ガイドで説明しています。

ステップ 4: トラフィックを再生します。Apidog はエージェントの実行中にすべてのリクエストとレスポンスを記録するため、成功した実行と失敗した実行を比較して、どのツール呼び出しがずれたかを確認できます。これは、「エージェントは昨日動いたのに今日は壊れた」という長年の問題を解決する方法です。

ステップ 5: 出荷します。同じプロジェクトは、公開ドキュメント、QA ハーネス、監視ダッシュボードとしても機能します。

ハイブリッド：両方のパスが必要な場合

本番環境では、ほとんどのエージェントがハイブリッドになります。合理的なデフォルトは次のようになります。

操作の 90% は、設計した構造化ツールサーフェスを経由します。
10% は、レガシーポータルのロングテールに対してコンピュータ利用ループにフォールバックします。
ルータープロンプトは、操作名に基づいてどのパスを取るかを決定します。

ルーターは小さなシステムメッセージです。「tool_name in known_tools の場合、ツールを呼び出します。それ以外の場合は、ブラウザエージェントに渡します。」Anthropic の Claude 4.5 と OpenAI の GPT-5.5 はどちらもこのルーティングを確実に処理します。DeepSeek V4 でも同じパターンをスケッチできます。DeepSeek V4 API の使用方法でリクエスト形式を確認してください。

オブザーバビリティスタックで両方のパスを個別に追跡します。構造化された呼び出しは、ボリュームの 99% を占め、コストの 30% を占めるはずです。コンピュータ利用のフォールバックは、ボリュームの 1% を占め、コストの 70% を占めるはずです。比率が逆転した場合、誰かが誤った方法で操作を追加したため、その操作のエンドポイントを設計する必要があります。

避けるべき一般的な間違い

これらはサポートチケットでよく見られるパターンです。

スキーマをスキップすること。チームは散文のみのシステムプロンプトでエージェントをデプロイし、構造化された呼び出しが失敗する理由を不思議に思います。常に JSON Schema を渡してください。スキーマが厳密な場合、Claude と GPT の両方でツール精度が 2 桁向上します。

エージェントに実行時にスキーマを設計させること。スキーマは製品の表面です。Apidog で作成し、バージョン管理し、パブリック API の変更と同じように変更を扱ってください。自己変更スキーマは本番環境の障害を引き起こします。

トークンではなくコストを記録すること。コンピュータ利用のトークンは画像入力に隠れており、ほとんどのオブザーバビリティツールでは価格が異なります。トレースダッシュボードではなく、プロバイダーの請求コンソールを確認してください。

コンピュータ利用と RPA を混同すること。ロボットプロセスオートメーション (RPA) は、既知の DOM 要素に対してスクリプト化されたクリックを実行します。コンピュータ利用は、すべてのスクリーンショットでクリックする対象を再決定します。前者は繰り返し可能で安価ですが、後者は柔軟で高価です。RPA が適切なハンマーであるときに、コンピュータ利用に手を出すべきではありません。

レイテンシのコストを忘れること。45 倍のトークン料金は 1 つの負担です。より大きな負担は、60 秒のスクリーンショットループがエージェントをユーザーのフローから外してしまうことです。ユーザーが待っている場合、ほとんどの場合、API を使用したいと考えるでしょう。

考慮すべき代替案

ベンダーが API を持たないが、よく知られた UI を持っている場合、完全なコンピュータ利用と完全な統合の間に 3 つの中間的な選択肢があります。

ヘッドレスブラウザスクリプト (Playwright, Puppeteer) は、開発後の実行コストはかかりません。UI が変更されると壊れますので、その費用を見積もってください。

ベンダー公開の Zapier または Make コネクタ。iPaaS プラットフォームは、すでに統合の負担を支払ってくれています。シート代を支払い、より早く出荷してください。

リバースエンジニアリングされたプライベート API。DevTools のネットワークタブを監視してください。多くのベンダーダッシュボードは、同じ認証クッキーで直接呼び出すことができる内部 JSON エンドポイントと通信します。Apidog でそれらを文書化し、半安定したものとして扱ってください。このトリックについては、Postman なしでの API テストで説明しています。

コンピュータ利用は最後の手段であり、デフォルトではありません。

実際の使用例

あるフィンテックコンプライアンスチームは、6 ステップのコンピュータ利用 Stripe レポートを 3 つの構造化された呼び出しに置き換えました。トークンコストは 92% 減少し、実行時間は 41 秒から 2 秒になりました。

ある B2B SaaS サポートエージェントは、API がないベンダー調達ポータルという 1 つのワークフローにのみコンピュータ利用を維持しました。その他すべては、Apidog で設計された OpenAPI ツール呼び出しを経由しました。エージェントの総トークン費用は月額 4,200 ドルから 310 ドルに減少しました。

ある単独の創業者は、レガシー ERP から Notion ダッシュボードを更新するために、週に 1 回だけコンピュータ利用を行いました。週に 1 回の実行での 45 倍のコストは数セントであり、代替案は数週間かかる統合プロジェクトでした。これがコンピュータ利用の適切な形態です。

結論

45 倍という数字は現実的で再現可能であり、チームがツールを選択する方法をリセットするはずです。デフォルトはApidog で設計された構造化 API を使用し、API が存在せず、ワークフローの実行頻度が非常に低く、トークンコストが誤差の範囲内である場合にのみコンピュータ利用を検討してください。

持ち帰るべき 5 つのポイント:

コンピュータ利用は、同等の構造化 API 呼び出しよりも 30〜50 倍多くのトークンを消費します。
文書化されたエンドポイントと JSON Schema は、コスト、レイテンシ、信頼性の点でスクリーンショットループに勝ります。
ハイブリッドスタックは一般的です。90% を Apidog で設計し、残りの 10% のロングテールにはコンピュータ利用にフォールバックします。
ライブモデルに接続する前に、構造化されたツールサーフェスをモックしてください。これにより、エージェントのクレジットが節約され、ループが短縮されます。
比率がずれたときに気づくように、オブザーバビリティで両方のパスを個別に追跡してください。

次のステップ: Apidog を開き、エージェントのツールサーフェスのプロジェクトを作成し、モックサーバーをオンにしてください。コンピュータ利用として出荷しようとしていたワークフローが、代わりに 2 つの構造化された呼び出しに集約できるかどうか、1 時間以内にわかるでしょう。

ボタン

FAQ

コンピュータ利用が構造化 API よりも安くなることはありますか？

いいえ、1 回あたりの実行では安くなりません。スクリーンショットのトークンが圧倒的です。統合コストが数年間の実行コストを超える場合（API が存在しない非常に低頻度のワークフローの場合にのみ発生）、コンピュータ利用の合計コストが安くなることがあります。

エージェント用の JSON ツールサーフェスをモックするにはどうすればよいですか？

Apidog でエンドポイントを設計し、組み込みのモックサーバーをオンにして、エージェントをモック URL に向けます。すべてのリクエストはトークンコストなしで現実的な JSON を返します。このワークフロー全体については、QA エンジニア向けの API テストツールで説明しています。

OpenAPI を任意のモデルのツール呼び出しに使用できますか？

はい。OpenAI の tools パラメータ、Anthropic の tool_use ブロック、DeepSeek V4 のツール呼び出しエンドポイントはすべて OpenAPI 3.1 スキーマを消費します。Apidog はスキーマをきれいにエクスポートします。DeepSeek V4 API の使用方法で DeepSeek のリクエスト形式を確認してください。

GPT-5.5 はまだコンピュータ利用をサポートしていますか？

OpenAI は Operator 製品と Responses API を通じてコンピュータ利用を提供しています。コストプロファイルは、スクリーンショットあたりのコストでおおよそ Anthropic と一致します。この記事の推奨事項は、ベンダーに関係なく適用されます。

Skyvern、browser-use、その他のオープンソースエージェントについてはどうですか？

計算は同じです。より安価なオープンモデルを介してルーティングすることで 1 回あたりの価格は下がりますが、ラウンド数とスクリーンショットのサイズは似ています。API が存在する場所では、構造化 API が依然として大幅に優位に立ちます。

エージェントタスクに必要なエンドポイントがないことはどうすればわかりますか？

どのツール呼び出しが失敗するか、または拒否されるかを確認してください。エージェントがブラウザにフォールバックしようとし続ける場合、それはツールサーフェスにエンドポイントがないことを意味します。Apidog でそれを追加し、スキーマを再生成すれば、エージェントはフォールバックしなくなります。