إن قيادة المتصفح باستخدام نموذج لغوي كبير (LLM) من خلال نماذج استخدام الكمبيوتر أغلى بحوالي 45 مرة من الاتصال بنفس المورد عبر واجهة برمجة تطبيقات (API) منظمة. نعم.
يشرح هذا الدليل رقم 45x، ويوضح متى لا يزال استخدام الكمبيوتر يستحق العناء، ويبين كيفية الحفاظ على سرعة ورخص كلا المسارين عند البناء باستخدام Apidog. يعمل الإطار التالي مع OpenAI Operator، واستخدام الكمبيوتر من Anthropic، واستخدام المتصفح، و Skyvern، وأي أداة مستقبلية تظهر أسبوعياً وتأتي مع حلقة لقطات الشاشة.
إذا كنت تكتب واجهات برمجة تطبيقات (APIs) لوكلاء الذكاء الاصطناعي، يجب عليك أيضًا قراءة دليلنا المصاحب حول كيفية كتابة ملفات agents.md؛ حيث تجعل الاتفاقيات الموجودة هناك مسار API المنظم هو الخيار الافتراضي الواضح للمتصلين بك.
ملخص سريع (TL;DR)
- يعني استخدام الكمبيوتر أن النموذج اللغوي الكبير (LLM) ينظر إلى لقطات الشاشة ويصدر نقرات وضغطات مفاتيح وتمريرات؛ بينما تعني واجهات برمجة التطبيقات (APIs) المنظمة أن النموذج اللغوي الكبير يصدر استدعاءات أدوات JSON ينفذها نظامك الخلفي.
- لإنجاز نفس المهمة، يستهلك استخدام الكمبيوتر من 30 إلى 50 ضعفًا من الرموز (tokens) لأن كل خطوة ترسل لقطة شاشة جديدة، بالإضافة إلى محاولات إعادة التشغيل.
- اختر استخدام الكمبيوتر فقط عندما لا تتوفر واجهة برمجة تطبيقات، أو عندما تكون واجهة برمجة التطبيقات مقيدة بمعدل، أو عندما يكون سير العمل خلف مصادقة تقاوم البرمجة النصية.
- اختر واجهة برمجة تطبيقات منظمة لكل شيء آخر: المدفوعات، البحث، تحديثات CRM، الأدوات الداخلية، أي شيء يمكنك توثيقه باستخدام OpenAPI.
- الحل الهجين هو الإجابة الواقعية: تتعامل واجهات برمجة التطبيقات المنظمة مع 90 بالمائة من المهام التي تحتوي على نقاط نهاية، ويغطي استخدام الكمبيوتر الجزء المتبقي.
- قم بتنزيل Apidog لتصميم مخططات أدوات JSON، ومحاكاة نقاط النهاية أثناء التكرار، وإعادة تشغيل التدفق بأكمله دون استهلاك أرصدة الوكيل.
لماذا الفجوة في التكلفة كبيرة جدًا
الرقم 45x ليس معيارًا ذكيًا؛ إنه نتيجة لكيفية استخدام كل مسار للرموز.
يرسل استدعاء API المنظم مطالبة واحدة مع طلب المستخدم ومخطط الأداة، ثم يتلقى كائن JSON ينفذه وقت التشغيل. رحلة ذهاب وعودة: بضع مئات من الرموز المدخلة، خمسون رمزًا مخرجًا، قفزة شبكة واحدة.
ترسل حلقة استخدام الكمبيوتر نفس المطالبة بالإضافة إلى لقطة شاشة، وتتلقى إحداثيًا للنقرة، وتنفذه، وتلتقط لقطة شاشة مرة أخرى، وتكرر. تستغرق مهمة "حجز رحلة طيران" النموذجية من 12 إلى 30 جولة من تلك الجولات. تكلف كل لقطة شاشة حوالي 1500 رمز بدقة نموذجية. اضرب.
توثيق استخدام الكمبيوتر الخاص بشركة Anthropic يسعر رموز لقطات الشاشة علانية؛ وتكون التكاليف العامة في العالم الحقيقي أعلى لأن النماذج تعيد المحاولة عند النقرات الخاطئة، وتتخطى العنصر الصحيح، وتستهلك جولات لإغلاق لافتات ملفات تعريف الارتباط. موضوع HN الذي أشار إلى أن استخدام الكمبيوتر أغلى 45 مرة من واجهات برمجة التطبيقات المنظمة قدر العقوبة النموذجية بـ 30 إلى 50 مرة، وهو ما يتوافق مع ما نراه عندما نعيد تشغيل نفس المهمة عبر كلا المسارين في Apidog.
متى يفوز مسار API المنظم
افترض استخدام واجهات برمجة التطبيقات المنظمة عندما ينطبق أي مما يلي.
ينشر المورد مواصفات OpenAPI، أو مخطط GraphQL، أو حتى صفحة REST واحدة. إذا كان شكل JSON موجودًا، يمكن للنموذج اللغوي الكبير (LLM) أن يملأه. دقة استدعاء الأداة في GPT-5.5 و Claude 4.5 و DeepSeek V4 تتجاوز 95 بالمائة على نقاط النهاية الموثقة؛ وضع الفشل نادر، ورخيص الاكتشاف، وسهل إعادة المحاولة.
تتلاءم المهمة مع نقطة نهاية واحدة أو اثنتين. "إنشاء عميل Stripe"، "تحديث مرحلة صفقة HubSpot"، "نشر رسالة Slack"، "تشغيل إعادة تشغيل CI" كلها استدعاءات فردية. توجيهها عبر متصفح يعادل هندسيًا إرسال بطاقة بريدية من الغرفة المقابلة.
يعمل سير العمل دون إشراف. لا يمكن لوظائف Cron، و webhooks، وعمال قائمة الانتظار الإشراف على حلقة لقطات الشاشة التي تقرر التمرير في الاتجاه الخاطئ. المكالمات المنظمة حتمية على مستوى الشبكة.
أهمية زمن الاستجابة. تعود المكالمة المنظمة في غضون 200 إلى 800 مللي ثانية. تستغرق حلقة استخدام الكمبيوتر التي تحتوي على 15 جولة من 30 إلى 90 ثانية، وأطول عند بدء عمليات إعادة المحاولة.
تحتاج إلى اختبارها قبل الإطلاق. يستغرق محاكاة نقطة نهاية JSON ثوانٍ في Apidog. محاكاة حلقة لقطات شاشة المتصفح هو مشروع بحثي.
متى يستحق استخدام الكمبيوتر العناء
لا تزال بعض الحالات تفضل حلقة لقطات الشاشة.
بوابات البائعين القديمة. بعض بوابات المشتريات والشحن والمزايا سبقت REST. إنها تعمل خلف جلسات ASP.NET بدون واجهة آلية. يحل استخدام الكمبيوتر محل نص برمجي لـ Selenium هش كان يتعطل كل ثلاثة أشهر؛ أحيانًا يكون دفع تكلفة 45 ضعفًا مقابل صفر صيانة هو القرار الصحيح.
أدوات داخلية لا يمكنك تعديلها. نظام إدارة علاقات العملاء (CRM) الذي دفع عميلك ثمنه عام 2014، نظام تخطيط موارد المؤسسات (ERP) القديم، لوحة معلومات SharePoint. إذا لم تتمكن من إطلاق تكامل ولم يدفع الفريق مقابل iPaaS، فإن حلقة لقطات الشاشة خيار حقيقي.
مهام المشغل لمرة واحدة. مؤسس يطلب من وكيل "البحث عن هؤلاء الـ 50 منافسًا ووضع أبرز النقاط في Notion" ليس سير عمل يتطلب عقدًا منظمًا. يتعامل استخدام الكمبيوتر معها مرة واحدة ويختفي.
الهندسة العكسية المحمية بشروط الخدمة. تخطى هذا. معظم طلبات "استخراج هذا الموقع باستخدام استخدام الكمبيوتر" تقع في الجانب الخاطئ من شروط البائع؛ التكلفة هي أقل مشاكلك.
إطار عمل قرار بسيط
قم بتشغيل الطلب من خلال هذه الفحوصات الأربعة قبل اللجوء إلى استخدام الكمبيوتر.
| الفحص | إذا كان نعم | إذا كان لا |
|---|---|---|
| هل تتوفر واجهة برمجة تطبيقات (API) موثقة؟ | استخدم واجهة برمجة التطبيقات. | تابع. |
| هل يمكنك شحن محول خادم رقيق يغلف نقطة نهاية خاصة؟ | قم ببناء المحول، واكشفه بصيغة JSON. | تابع. |
| هل المهمة لمرة واحدة أو ذات حجم منخفض (أقل من 100 تشغيل/يوم)؟ | استخدام الكمبيوتر مقبول. | تابع. |
| هل أنت موافق على دفع تكلفة رمزية تتراوح من 30 إلى 50 ضعفًا في كل مرة؟ | استخدام الكمبيوتر. | توقف. تفاوض بشأن الوصول إلى واجهة برمجة التطبيقات. |
ثلاثة أرباع مسارات العمل التي نراها في قواعد بيانات العملاء تفشل في الفحص الأول أو الثاني؛ ولا يبقى استخدام الكمبيوتر إلا عندما يفشل كلاهما.
كيف تبدو واجهات برمجة التطبيقات المنظمة بالفعل في وكيل
هنا نفس مهمة "جلب المدفوعات الفاشلة بالأمس" معبر عنها بطريقتين. الإصدار المنظم هو ما تريده أن يكون الافتراضي لكل وكيل.
from openai import OpenAI
client = OpenAI()
tools = [{
"type": "function",
"function": {
"name": "list_failed_payments",
"description": "List failed payments in a date range",
"parameters": {
"type": "object",
"properties": {
"start": {"type": "string", "format": "date"},
"end": {"type": "string", "format": "date"},
},
"required": ["start", "end"],
},
},
}]
resp = client.chat.completions.create(
model="gpt-5.5",
messages=[{"role": "user", "content": "Show yesterday's failed payments."}],
tools=tools,
tool_choice="auto",
)
call = resp.choices[0].message.tool_calls[0]
args = json.loads(call.function.arguments)
payments = stripe.PaymentIntent.list(
created={"gte": args["start"], "lte": args["end"]},
limit=100,
)
مطالبتان داخليتان، استجابة منظمة واحدة خارجة، استدعاء HTTP واحد إلى Stripe. الوكيل لا يرى لوحة القيادة أبدًا.
يعادل استخدام الكمبيوتر تشغيل متصفح، وتسجيل الدخول إلى Stripe، وأخذ لقطة شاشة للوحة التحكم، والنقر على منتقي التاريخ، وأخذ لقطة شاشة مرة أخرى، وسحب نطاق، وأخذ لقطة شاشة، والتمرير إلى "فشل"، وأخذ لقطة شاشة، وأخيراً استخراج الأرقام من وحدات البكسل. تكلف كل لقطة شاشة حوالي 1500 رمز إدخال. اثنا عشر جولة أمر نموذجي. الفاتورة تكون 45 ضعفاً ومعدل النجاح أقل.
تصميم المسار المنظم باستخدام Apidog
نادرًا ما يكون السبب وراء لجوء الفرق إلى استخدام الكمبيوتر هو التكلفة؛ عادةً ما يكون السبب هو عدم قيام أحد بتصميم واجهة أدوات نظيفة للوكيل. يمنحك Apidog مكانًا للقيام بهذا العمل بشكل صحيح.
الخطوة الأولى: نمذجة العمليات التي يحتاجها الوكيل كنقاط نهاية في مشروع Apidog. يكفي عدد قليل من طلبات POST التي تغطي "قائمة الفواتير" و "تحديث الصفقة" و "إرسال رسالة" لاستبدال 80 بالمائة من عروض المشغل. يولد Apidog مستند OpenAPI 3.1 مباشرة من عرض التصميم.
الخطوة الثانية: قم بتغذية مستند OpenAPI هذا إلى إطار عمل الوكيل الخاص بك. تدعم مصفوفة `tools` الخاصة بـ OpenAI، ومخطط استخدام الأدوات الخاص بـ Anthropic، ومحمل OpenAPI في LangChain جميعًا OpenAPI 3.1 مباشرة. أصبح لدى الوكيل الآن استدعاءات دالة من نوع معين تعكس تصميمك.
الخطوة الثالثة: قم بتشغيل خادم Apidog الوهمي. يعيد الخادم الوهمي JSON واقعيًا لكل نقطة نهاية، بحيث يمكنك تشغيل الوكيل من البداية إلى النهاية دون الوصول إلى الإنتاج أو دفع تكاليف الرموز المميزة في تشغيل حقيقي. نغطي نفس النمط في دليل التطوير القائم على العقد أولاً في Apidog.
الخطوة الرابعة: إعادة تشغيل حركة المرور. يسجل Apidog كل طلب واستجابة أثناء تشغيل الوكيل، بحيث يمكنك مقارنة تشغيل ناجح بآخر فاشل ومعرفة أي استدعاء أداة قد انحرف. هذه هي الطريقة التي تقطع بها الذيل الطويل لـ "الوكيل كان يعمل بالأمس وتعطل اليوم".
الخطوة الخامسة: الإطلاق. يعمل المشروع نفسه كوثائق عامة لك، وإطار عمل QA الخاص بك، ولوحة تحكم المراقبة الخاصة بك.
الهجين: عندما تحتاج إلى كلا المسارين
في الإنتاج، ينتهي المطاف بمعظم الوكلاء بأن يكونوا هجينين. يبدو الافتراضي المعقول كالتالي.
- 90 بالمائة من العمليات تتم عبر واجهة أدوات منظمة قمت بتصميمها.
- 10 بالمائة تعود إلى حلقة استخدام الكمبيوتر لمعالجة الجزء المتبقي من البوابات القديمة.
- تحدد مطالبة الموجه (router prompt) المسار الذي يجب اتخاذه بناءً على اسم العملية.
الموجه عبارة عن رسالة نظام صغيرة: "إذا كان `tool_name` ضمن `known_tools`، فاستدعِ الأداة. بخلاف ذلك، قم بالتسليم إلى وكيل المتصفح." يتعامل كل من Claude 4.5 من Anthropic و GPT-5.5 من OpenAI مع هذا التوجيه بشكل موثوق؛ يمكنك رسم نفس النمط في DeepSeek V4. انظر كيفية استخدام واجهة برمجة تطبيقات DeepSeek V4 لشكل الطلب.
تتبع كلا المسارين بشكل منفصل في مكدس المراقبة الخاص بك. يجب أن تكون المكالمات المنظمة 99 بالمائة من الحجم و 30 بالمائة من التكلفة؛ بينما يجب أن يكون استخدام الكمبيوتر كخيار احتياطي 1 بالمائة من الحجم و 70 بالمائة من التكلفة. إذا انعكست النسبة، فهذا يعني أن شخصًا ما أضاف عملية بطريقة خاطئة وتحتاج إلى تصميم نقطة نهاية لها.
أخطاء شائعة يجب تجنبها
هذه هي الأنماط التي تظهر في تذاكر الدعم.
تخطي المخطط. تقوم الفرق بإطلاق وكلاء باستخدام مطالبات نظام نثرية فقط وتتساءل لماذا تفشل الاستدعاءات المنظمة. قم دائمًا بتمرير مخطط JSON؛ يعمل كل من Claude و GPT على تحسين دقة الأداة بأرقام مزدوجة عندما يكون المخطط صارمًا.
السماح للوكيل بتصميم المخطط أثناء وقت التشغيل. المخطط هو واجهة المنتج. قم بتأليفه في Apidog، وقم بإصداراته، وتعامل مع التغييرات كما لو كنت تتعامل مع تغيير في واجهة برمجة تطبيقات عامة. المخططات ذاتية التعديل هي كيف تحدث انقطاعات الإنتاج.
تسجيل الرموز المميزة، وليس التكلفة. تختبئ رموز استخدام الكمبيوتر في مدخلات الصور، والتي تسعرها معظم أدوات المراقبة بشكل مختلف. اقرأ لوحة تحكم الفوترة لمزود الخدمة الخاص بك، وليس لوحة تحكم التتبع الخاصة بك.
الخلط بين استخدام الكمبيوتر و RPA. تقوم أتمتة العمليات الروبوتية بتشغيل نقرات مخططة على عناصر DOM معروفة. بينما يعيد استخدام الكمبيوتر اتخاذ قرار بشأن ما يجب النقر عليه في كل لقطة شاشة. الأول قابل للتكرار ورخيص؛ والثاني مرن ومكلف. لا تلجأ إلى استخدام الكمبيوتر عندما يكون RPA هو الأداة المناسبة.
نسيان تكلفة زمن الاستجابة. فاتورة الرموز المميزة البالغة 45 ضعفًا هي ضريبة واحدة. الأكبر هو أن حلقة لقطة الشاشة التي تستغرق 60 ثانية تخرج الوكيل من تدفق المستخدم. إذا كان المستخدم يشاهد، فأنت تريد واجهة برمجة التطبيقات دائمًا تقريبًا.
بدائل للنظر فيها
إذا كان المورد يفتقر إلى واجهة برمجة تطبيقات ولكنه يمتلك واجهة مستخدم معروفة، فهناك ثلاثة خيارات وسيطة تقع بين استخدام الكمبيوتر الكامل والتكامل الكامل.
نصوص متصفح بدون واجهة مستخدم (Playwright, Puppeteer) لا تكلف شيئًا لكل تشغيل بعد التطوير. تتعطل عند تغيير واجهة المستخدم؛ خصص ميزانية لذلك.
موصلات Zapier أو Make المنشورة من قبل البائع. لقد دفعت منصات iPaaS بالفعل ضريبة التكامل نيابة عنك. ادفع ثمن المقعد، وقم بالشحن بشكل أسرع.
واجهات برمجة التطبيقات الخاصة المهندسة عكسياً. راقب علامة تبويب الشبكة في DevTools. تتحدث العديد من لوحات تحكم البائعين إلى نقاط نهاية JSON داخلية يمكنك استدعائها مباشرة باستخدام نفس ملف تعريف الارتباط للمصادقة. قم بتوثيقها في Apidog وتعامل معها على أنها شبه مستقرة. نستخدم هذه الحيلة في اختبار واجهة برمجة التطبيقات بدون Postman.
استخدام الكمبيوتر هو الملاذ الأخير، وليس الافتراضي.
حالات الاستخدام في العالم الحقيقي
قام فريق الامتثال المالي (fintech compliance team) باستبدال تقرير Stripe المكون من 6 خطوات والذي كان يعتمد على استخدام الكمبيوتر بثلاث استدعاءات منظمة. انخفضت تكلفة الرموز بنسبة 92 بالمائة وانتقل التشغيل من 41 ثانية إلى 2 ثانية.
احتفظ وكيل دعم B2B SaaS باستخدام الكمبيوتر لسير عمل واحد فقط: بوابة مشتريات مورد بدون واجهة برمجة تطبيقات (API). تم توجيه كل شيء آخر عبر استدعاءات أدوات OpenAPI المصممة في Apidog. انخفض إجمالي إنفاق الرموز المميزة على الوكيل من 4200 دولار إلى 310 دولارات شهريًا.
استخدم مؤسس منفرد الكمبيوتر مرة واحدة فقط في الأسبوع لتحديث لوحة معلومات Notion من نظام تخطيط موارد المؤسسات (ERP) القديم. كانت تكلفة 45 ضعفًا في التشغيل مرة واحدة في الأسبوع بضعة سنتات؛ وكان البديل مشروع تكامل لعدة أسابيع. هذا هو الشكل الصحيح لاستخدام الكمبيوتر.
الخلاصة
الرقم 45x حقيقي، وقابل للتكرار، ويجب أن يعيد ضبط كيفية اختيار فريقك للأدوات. افتراضياً، استخدم واجهات برمجة التطبيقات المنظمة المصممة في Apidog؛ ولا تلجأ إلى استخدام الكمبيوتر إلا عندما لا تتوفر واجهة برمجة تطبيقات ويكون سير العمل نادرًا بما يكفي لتكون تكلفة الرمز خطأ تقريبيًا.
خمس نقاط أساسية للانطلاق بها:
- يكلف استخدام الكمبيوتر من 30 إلى 50 ضعفًا من الرموز المميزة مقارنةً باستدعاء واجهة برمجة التطبيقات المنظمة المكافئة.
- تغلب نقطة نهاية موثقة بالإضافة إلى مخطط JSON على حلقة لقطات الشاشة من حيث التكلفة، وزمن الاستجابة، والموثوقية.
- التقنيات الهجينة طبيعية: صمم 90 بالمائة في Apidog، ثم عد إلى استخدام الكمبيوتر للجزء المتبقي بنسبة 10 بالمائة.
- قم بمحاكاة واجهة الأداة المنظمة قبل توصيلها بنموذج مباشر. يوفر ذلك أرصدة الوكيل ويقصر الحلقة.
- تتبع كلا المسارين بشكل منفصل في المراقبة حتى تلاحظ متى تنحرف النسبة.
الخطوة التالية: افتح Apidog، أنشئ مشروعًا لواجهة أدوات وكيلك، وقم بتشغيل الخادم الوهمي. ستعرف في غضون ساعة ما إذا كان سير العمل الذي كنت تنوي إطلاقه كاستخدام للكمبيوتر يمكن أن يتقلص إلى استدعاءين منظمين بدلاً من ذلك.
الأسئلة الشائعة
هل استخدام الكمبيوتر أرخص من واجهة برمجة تطبيقات (API) منظمة في أي وقت؟
لا، ليس على أساس كل تشغيل. تهيمن رموز لقطات الشاشة. يمكن أن يكون استخدام الكمبيوتر أرخص إجماليًا عندما تتجاوز تكلفة التكامل سنوات من تكلفة التشغيل، وهذا لا يحدث إلا لمهام العمل ذات الحجم المنخفض جدًا مقابل واجهات برمجة تطبيقات غير موجودة.
كيف يمكنني محاكاة واجهة أدوات JSON لوكيل؟
صمم نقاط النهاية في Apidog، وقم بتشغيل خادم المحاكاة المدمج، ووجه وكيلك إلى عنوان URL للمحاكاة. سيعيد كل طلب JSON واقعيًا بدون تكلفة رمزية. نغطي سير العمل من البداية إلى النهاية في أدوات اختبار API لمهندسي ضمان الجودة.
هل يمكنني استخدام OpenAPI لاستدعاءات الأدوات في أي نموذج؟
نعم. معلمات `tools` في OpenAI، وكتلة `tool_use` في Anthropic، ونقطة نهاية استدعاء الأدوات في DeepSeek V4 كلها تستهلك مخططات OpenAPI 3.1. يقوم Apidog بتصدير المخطط بشكل نظيف. انظر كيفية استخدام واجهة برمجة تطبيقات DeepSeek V4 لشكل طلب DeepSeek.
هل لا يزال GPT-5.5 يدعم استخدام الكمبيوتر؟
تقدم OpenAI استخدام الكمبيوتر من خلال منتج Operator ومن خلال واجهة برمجة تطبيقات Responses. يتطابق ملف تعريف التكلفة تقريبًا مع Anthropic لقطة شاشة بلقطة شاشة. تنطبق التوصية في هذه المقالة بغض النظر عن البائع.
ماذا عن Skyvern، واستخدام المتصفح، والوكلاء مفتوحي المصدر الآخرين؟
نفس الحسابات. إنهم يقللون السعر لكل مكالمة عن طريق التوجيه عبر نماذج مفتوحة أرخص، لكن عدد الجولات وحجم لقطات الشاشة متشابهان. لا تزال واجهات برمجة التطبيقات المنظمة تتفوق عليهم بفارق كبير حيث توجد واجهات برمجة التطبيقات.
كيف أعرف متى تكون نقطة النهاية مفقودة لمهمة وكيل؟
راقب أي استدعاءات للأداة تفشل أو يتم رفضها. إذا استمر الوكيل في محاولة العودة إلى المتصفح، فهذه نقطة نهاية مفقودة في واجهة أدواتك. أضفها في Apidog، وأعد إنشاء المخطط، وسيتوقف الوكيل عن العودة.
