كيفية إعداد سكرابلنج MCP في أوبن كلو

خلاصة

يقدم Scrapling MCP إمكانيات قوية وغير قابلة للكشف لجمع البيانات من الويب (web scraping) مباشرة إلى بيئة OpenClaw الخاصة بك. من خلال تثبيت حزمة بايثون scrapling وإضافة إعداد JSON بسيط إلى إعدادات OpenClaw الخاصة بك، يمكنك تمكين عامل الذكاء الاصطناعي الخاص بك من تصفح الويب، وتجاوز حماية مكافحة الروبوتات مثل Cloudflare Turnstile، واستخراج البيانات المنظمة تلقائيًا. يغطي هذا الدليل عملية التثبيت الكاملة، وخطوات التكوين، وكيفية الاستفادة من Apidog لإدارة البيانات التي تم جمعها.

مقدمة

هل سبق لك أن حاولت جعل عامل الذكاء الاصطناعي الخاص بك يقرأ موقعًا إلكترونيًا، لتجد أنك محظور بواسطة اختبار الكابتشا "تحقق أنك إنسان"؟ إنه عائق محبط يوقف الأتمتة تمامًا. ومع تزايد أهمية عوامل الذكاء الاصطناعي مثل OpenClaw في سير عمل تطويرنا، فإن عدم قدرتها على الوصول إلى محتوى الويب المحمي يحد من إمكاناتها.

هنا يأتي دور Scrapling MCP ليغير قواعد اللعبة. Scrapling هو إطار عمل لجمع البيانات من الويب (web scraping) غير قابل للكشف، يتعامل مع كل شيء بدءًا من الطلبات البسيطة وحتى المواقع المعقدة التي تعتمد على JavaScript والمحمية بواسطة Cloudflare. من خلال دمجه كخادم Model Context Protocol (MCP) في OpenClaw، تمنح وكيلك القدرة على تصفح الويب تمامًا مثل مستخدم بشري، متجاوزًا أنظمة مكافحة الروبوتات بسهولة.

في هذا الدليل، سنرشدك خطوة بخطوة حول كيفية إعداد Scrapling MCP في OpenClaw. ستتعلم كيفية تثبيت الأدوات الضرورية، وتكوين بيئتك، وبدء جمع البيانات في دقائق. بالإضافة إلى ذلك، سنوضح لك كيفية أخذ تلك البيانات التي تم جمعها، وتحديداً وثائق API واستيرادها إلى Apidog لإنشاء اختبارات ووثائق API جاهزة للاستخدام على الفور.

بحلول نهاية هذا البرنامج التعليمي، لن يقوم وكيل OpenClaw الخاص بك بالبرمجة فحسب؛ بل سيقوم بالبحث والتفاعل بنشاط مع الويب المباشر.

المشكلة: لماذا تواجه عوامل الذكاء الاصطناعي صعوبة في جمع البيانات من الويب (Web Scraping)

تتمتع عوامل الذكاء الاصطناعي ببراعة في معالجة المعلومات، لكنها غالبًا ما تكون سيئة للغاية في الحصول عليها. أدوات الجلب التقليدية التي تستخدمها العوامل (مثل curl أو مكتبات HTTP القياسية) تصرخ "أنا روبوت" لخوادم الويب الحديثة.

حاجز مكافحة الروبوتات

تستخدم معظم مواقع الويب الحديثة حماية متطورة لمكافحة الروبوتات.

Cloudflare Turnstile: يتحقق من حركات الماوس الشبيهة بالبشر وبصمات المتصفح.
TLS Fingerprinting: يحدد العملاء غير المتصفحين بناءً على مصافحة SSL/TLS.
المحتوى الديناميكي: العديد من المواقع تقوم بتحميل المحتوى عبر JavaScript، والذي لا تستطيع أدوات الجلب القياسية تنفيذه.

عندما يحاول OpenClaw الوصول إلى هذه المواقع باستخدام الأدوات القياسية، فإنه يتلقى خطأ 403 Forbidden أو صفحة كابتشا. هذا يعطل سير عملك ويجبرك على نسخ ولصق المحتوى يدويًا في سياق الدردشة - وهي عملية مملة وغير قابلة للتطوير.

حدود نافذة السياق

حتى لو تمكن الوكيل من الوصول إلى صفحة ما، فإنه غالبًا ما يسترد كامل HTML الخام. إن إلقاء 5 ميجابايت من HTML في نافذة سياق LLM غير فعال، ومكلف، وغالبًا ما يربك النموذج. أنت بحاجة إلى طريقة لاستخراج المحتوى المرتبط فقط قبل أن يعالجه الذكاء الاصطناعي.

ما هو Scrapling MCP؟

Scrapling هو إطار عمل لجمع البيانات من الويب (web scraping) يعتمد على بايثون، مصمم ليكون غير قابل للكشف. يغلف خادم Scrapling MCP هذا المحرك القوي في بروتوكول يفهمه OpenClaw.

عند تثبيت Scrapling MCP، فإنك تمنح OpenClaw مجموعة من الأدوات المتخصصة:

التصفح الخفي (Stealth Browsing): يحاكي رؤوس المتصفح الحقيقية، وبصمات TLS، والسلوك.
التحكم في المتصفح الخفي (Headless Browser Control): يستخدم Playwright و Camoufox لعرض JavaScript والتفاعل مع الصفحات.
الاستخراج الذكي (Smart Extraction): يسمح للذكاء الاصطناعي باختيار عناصر محددة باستخدام محددات CSS أو XPath، مما يقلل من الضوضاء.
تجاوز Turnstile (Turnstile Bypass): يتعامل تلقائيًا مع فحوصات "تحقق أنك إنسان" دون تدخل المستخدم.

فكر في الأمر على أنه منح OpenClaw متصفح ويب خفي يتم التحكم فيه عن بعد يمكنه قراءة أي شيء يمكنك قراءته.

دليل خطوة بخطوة: إعداد Scrapling في OpenClaw

يعد إعداد Scrapling MCP في OpenClaw أمرًا بسيطًا. سنقوم بتثبيت حزمة Python ثم تهيئة OpenClaw للتواصل معها.

المتطلبات الأساسية

Python 3.10+: تأكد من تثبيت إصدار حديث من Python.
OpenClaw: يجب أن يكون تطبيق OpenClaw مثبتًا ويعمل لديك.
الوصول إلى الطرفية (Terminal Access): ستحتاج إلى تشغيل بعض الأوامر في الطرفية الخاصة بك.

الخطوة 1: تثبيت Scrapling

أولاً، نحتاج إلى تثبيت حزمة Scrapling مع تبعيات الذكاء الاصطناعي الخاصة بها. افتح الطرفية الخاصة بك وقم بتشغيل:

pip install "scrapling[ai]"

يقوم هذا بتثبيت الإطار الأساسي ومكونات خادم MCP. بعد ذلك، قم بتثبيت ثنائيات المتصفح المطلوبة لعرض الصفحات الديناميكية:

scrapling install

يقوم هذا الأمر بتنزيل محركات المتصفح الضرورية (Chromium و Firefox) التي يستخدمها Scrapling لمحاكاة المستخدمين الحقيقيين.

الخطوة 2: تحديد موقع إعدادات OpenClaw الخاصة بك

يستخدم OpenClaw ملف إعداد JSON لإدارة خوادم MCP الخاصة به. تحتاج إلى العثور على هذا الملف.

macOS: ~/Library/Application Support/OpenClaw/openclaw_config.json
Windows: %APPDATA%\OpenClaw\openclaw_config.json
Linux: ~/.config/OpenClaw/openclaw_config.json

ملاحظة: إذا لم يكن الملف موجودًا، يمكنك إنشاؤه.

الخطوة 3: إضافة إعدادات خادم Scrapling

افتح ملف الإعدادات في محرر النصوص المفضل لديك. تحتاج إلى إضافة ScraplingServer إلى كائن mcpServers.

إليك كتلة الإعدادات:

{
  "mcpServers": {
    "ScraplingServer": {
      "command": "python",
      "args": [
        "-m",
        "scrapling.mcp_server"
      ]
    }
  }
}

نصيحة احترافية: إذا كنت تستخدم بيئة افتراضية (موصى بها بشدة)، فاستخدم المسار المطلق لملف Python التنفيذي بدلاً من python فقط. يمكنك العثور على هذا المسار بتشغيل which python (macOS/Linux) أو where python (Windows) داخل بيئتك المنشطة.

مثال بالمسار المطلق:

{
  "mcpServers": {
    "ScraplingServer": {
      "command": "/Users/username/my-env/bin/python",
      "args": [
        "-m",
        "scrapling.mcp_server"
      ]
    }
  }
}

الخطوة 4: إعادة تشغيل OpenClaw

احفظ ملف الإعدادات وأعد تشغيل OpenClaw. عندما يتم تحميله، يجب أن ترى مؤشر "ScraplingServer" جديدًا أو مجموعة أدوات متاحة في قائمة السياق الخاصة بك.

الخطوة 5: التحقق من التثبيت

لاختبار ما إذا كان يعمل، اطلب من OpenClaw جلب موقع محمي:

https://example.com

إذا تم التكوين بشكل صحيح، فسيستخدم OpenClaw أداة scrapling_fetch، ويتجاوز أي حظر محتمل، ويعيد ملخصًا واضحًا.

تقنيات متقدمة وأفضل الممارسات

بمجرد تشغيل الأساسيات، يمكنك تحسين سير عمل جمع البيانات للحصول على نتائج أفضل وتكاليف أقل.

1. استخدم المحددات الذكية لحفظ السياق

لا تطلب من OpenClaw "قراءة الصفحة". فهذا يجلب كل شيء. بدلًا من ذلك، كن محددًا:

.pricing-tablehttps://example.com

يتيح لك Scrapling تمرير محددات CSS. هذا يستخرج البيانات ذات الصلة فقط، مما يحافظ على انخفاض استخدام الرموز وتركيز الذكاء الاصطناعي عاليًا.

2. تفعيل وضع التخفي للمواقع الصعبة

بالنسبة للمواقع التي تحتوي على إجراءات قوية لمكافحة الروبوتات، اطلب صراحة من OpenClaw استخدام "وضع التخفي". لدى Scrapling استراتيجيات جلب مختلفة:

أساسي (Basic): سريع، يعتمد على HTTP (جيد للمواقع الثابتة).
تخفي (Stealth): يستخدم متصفحًا خفيًا مع بصمة (جيد لـ Cloudflare).
تفاعلي (Interactive): يمكنه النقر على الأزرار أو التمرير قبل الجلب (جيد لصفحات التمرير اللانهائي).

3. التعامل مع ترقيم الصفحات تلقائيًا

يمكنك إنشاء حلقة في OpenClaw للتعامل مع ترقيم الصفحات. اطلب منه:
"اجمع البيانات من أول 5 صفحات من المدونة. ابحث عن محدد زر 'التالي' .pagination-next واتبعه."
يضمن التعامل المستمر مع الجلسات في Scrapling الحفاظ على ملفات تعريف الارتباط والحالة عبر هذه الطلبات.

دمج البيانات المجمعة مع Apidog

أحد أقوى حالات الاستخدام لهذا الإعداد هو الهندسة العكسية لوثائق API. غالبًا ما ستصادف واجهات برمجة تطبيقات داخلية أو نقاط نهاية غير موثقة أثناء البحث عن خدمة تابعة لجهة خارجية.

صورة توضيحية لـ Apidog يظهر واجهة برمجة تطبيقات مستوردة

إليك كيفية تحويل البيانات المجمعة إلى اختبارات API وظيفية باستخدام Apidog:

جمع البيانات من الوثائق (Scrape the Docs): اطلب من OpenClaw جمع البيانات من صفحة وثائق أو استجابة API خام.

https://api.example.com/v1/products

توليد مواصفات OpenAPI: اطلب من OpenClaw تحويل النص المجمع إلى مواصفات OpenAPI (Swagger).

"بناءً على الاستجابة المجمعة، قم بتوليد مواصفات OpenAPI 3.0 YAML."

الاستيراد إلى Apidog:

افتح Apidog.
انتقل إلى استيراد مشروع (Import Project).
الصق ملف YAML الذي تم إنشاؤه بواسطة OpenClaw.

لماذا تفعل هذا؟
بمجرد وجود البيانات في Apidog، تحصل على:

اختبارات مُولَّدة تلقائيًا: يقوم Apidog بإنشاء حالات اختبار لنقاط النهاية تلقائيًا.
خوادم وهمية (Mock Servers): يمكنك محاكاة واجهة برمجة التطبيقات على الفور لفريق الواجهة الأمامية لديك.
التوثيق: تحصل على وثائق تفاعلية وجميلة أفضل من الصفحة الأصلية التي تم جمع بياناتها.

يحول سير العمل هذا "قراءة الوثائق" إلى "الحصول على مجموعة اختبارات قابلة للتشغيل" في دقائق.

حالات استخدام واقعية

مراقبة أسعار المنافسين

قم بإعداد مهمة يومية في OpenClaw لجمع البيانات من صفحات أسعار أكبر 5 منافسين لك. استخدم Scrapling لاستخراج عناصر الأسعار المحددة وتنسيقها في جدول Markdown. يمنحك هذا تقرير ذكاء سوق آلي دون دفع تكاليف أدوات مراقبة باهظة الثمن.

تجميع أخبار المطورين

استخدم Scrapling لجلب قسم "Show HN" من HackerNews أو صفحة "Trending" على GitHub. نظرًا لأن هذه الصفحات تتغير بشكل متكرر وتحتوي على عناصر ديناميكية، يضمن الجلب المستند إلى المتصفح في Scrapling أنك لن تفوت أي منشور. يمكنك بعد ذلك أن تطلب من OpenClaw تلخيص أفضل 3 أدوات لهذا اليوم.

أتمتة ضمان الجودة لموقعك الخاص

إذا كان لديك بيئة اختبار (staging environment) خلف مصادقة أساسية (basic auth) أو جدار حماية (firewall)، يمكنك تهيئة Scrapling (عبر OpenClaw) للوصول إليها. اطلب من OpenClaw "التحقق من أن زر 'التسجيل' على الصفحة الرئيسية لبيئة الاختبار مرئي ويحتوي على النص الصحيح." هذا يعمل كاختبار دخان دلالي لواجهة المستخدم الخاصة بك.

الخاتمة

إن دمج Scrapling MCP في OpenClaw يحوّل عامل الذكاء الاصطناعي الخاص بك من معالج نصوص سلبي إلى عامل ويب نشط. لم يعد عليك أن تخشى أخطاء 403، أو اختبارات الكابتشا، أو محتوى JavaScript الديناميكي. باتباع الخطوات في هذا الدليل، لقد فتحت القدرة على أتمتة البحث، ومراقبة المنافسين، واستخراج البيانات من أي زاوية من الويب تقريبًا.

إن الجمع بين قدرات OpenClaw على الاستدلال، ووصول Scrapling الخفي، وإدارة دورة حياة واجهة برمجة التطبيقات (API) في Apidog يخلق سير عمل قويًا للمطورين المعاصرين.

هل أنت مستعد لتعزيز سير عمل واجهة برمجة التطبيقات الخاص بك؟ قم بتنزيل Apidog مجانًا وابدأ في تحويل بياناتك التي تم جمعها إلى اختبارات قابلة للتنفيذ اليوم.

تنزيل التطبيق

الأسئلة الشائعة

س: هل Scrapling مجاني للاستخدام؟
ج: نعم، Scrapling هي مكتبة بايثون مفتوحة المصدر. يمكنك استخدامها بحرية، على الرغم من أنك مسؤول عن البنية التحتية (جهازك المحلي) التي تشغل مثيلات المتصفح.

س: هل يعمل هذا على Windows؟
ج: بالتأكيد. يعمل Scrapling على أنظمة macOS و Windows و Linux. فقط تأكد من تثبيت Python واستخدام المسار الصحيح في إعدادات JSON الخاصة بك.

س: هل يمكن لـ Scrapling تجاوز جميع اختبارات الكابتشا؟
ج: Scrapling فعال للغاية ضد Cloudflare Turnstile والفحوصات السلبية المماثلة. ومع ذلك، قد لا تزال اختبارات الكابتشا "التفاعلية" (مثل تحديد إشارات المرور) تتطلب تدخلًا يدويًا أو خدمات حلول متخصصة.

س: كيف يقارن هذا بأداة fetch القياسية؟
ج: أدوات الجلب القياسية يمكن حظرها بسهولة ولا يمكنها عرض JavaScript. يستخدم Scrapling محرك متصفح حقيقي (Chrome/Firefox بدون واجهة رسومية)، مما يجعله لا يمكن تمييزه عن المستخدم البشري لمعظم الخوادم.