Cara Setting Scrapling MCP di OpenClaw

Inti Masalah

Scrapling MCP menghadirkan kemampuan web scraping yang kuat dan tidak terdeteksi langsung ke lingkungan OpenClaw Anda. Dengan menginstal paket python scrapling dan menambahkan konfigurasi JSON sederhana ke pengaturan OpenClaw Anda, Anda dapat memberdayakan agen AI Anda untuk menjelajahi web, melewati perlindungan anti-bot seperti Cloudflare Turnstile, dan mengekstrak data terstruktur secara otomatis. Panduan ini mencakup proses instalasi lengkap, langkah-langkah konfigurasi, dan cara memanfaatkan Apidog untuk mengelola data yang di-scrape.

Pendahuluan

Pernahkah Anda mencoba membuat agen AI Anda membaca situs web, namun terhalang oleh captcha "Verifikasi Anda manusia"? Itu adalah hambatan yang membuat frustrasi yang menghentikan otomatisasi. Ketika agen AI seperti OpenClaw menjadi pusat alur kerja pengembangan kita, ketidakmampuan mereka untuk mengakses konten web yang dilindungi membatasi potensi mereka.

Di sinilah Scrapling MCP mengubah permainan. Scrapling adalah kerangka kerja web scraping yang tidak terdeteksi yang menangani semuanya mulai dari permintaan sederhana hingga situs yang kompleks dan berat JavaScript yang dilindungi oleh Cloudflare. Dengan mengintegrasikannya sebagai server Model Context Protocol (MCP) di OpenClaw, Anda memberikan agen Anda kemampuan untuk menjelajahi web seperti pengguna manusia, melewati sistem anti-bot dengan mudah.

Dalam panduan ini, kami akan memandu Anda secara tepat tentang cara mengatur Scrapling MCP di OpenClaw. Anda akan belajar cara menginstal alat yang diperlukan, mengonfigurasi lingkungan Anda, dan mulai meng-scrape data dalam hitungan menit. Selain itu, kami akan menunjukkan kepada Anda cara mengambil data yang di-scrape tersebut, khususnya dokumentasi API, dan mengimpornya ke Apidog untuk menghasilkan tes dan dokumentasi API yang siap pakai secara instan.

Di akhir tutorial ini, agen OpenClaw Anda tidak hanya akan membuat kode; ia akan secara aktif meneliti dan berinteraksi dengan web secara langsung.

Masalahnya: Mengapa Agen AI Kesulitan dengan Web Scraping

Agen AI sangat brilian dalam memproses informasi, tetapi mereka seringkali buruk dalam mendapatkan informasi tersebut. Alat pengambilan tradisional yang digunakan oleh agen (seperti curl atau pustaka HTTP standar) berteriak "Saya bot" ke server web modern.

Penghalang Anti-Bot

Cloudflare Turnstile: Memeriksa gerakan mouse seperti manusia dan sidik jari peramban.
TLS Fingerprinting: Mengidentifikasi klien non-peramban berdasarkan jabat tangan SSL/TLS.
Konten Dinamis: Banyak situs memuat konten melalui JavaScript, yang tidak dapat dieksekusi oleh pengambil standar.

Ketika OpenClaw mencoba mengakses situs-situs ini menggunakan alat standar, ia akan mendapatkan kesalahan 403 Forbidden atau halaman captcha. Ini mengganggu alur kerja Anda dan memaksa Anda untuk menyalin-tempel konten secara manual ke dalam konteks obrolan—sebuah proses yang membosankan dan tidak skalabel.

Batasan Jendela Konteks

Bahkan jika agen bisa mengakses halaman, ia seringkali mengambil seluruh HTML mentah. Membuang 5MB HTML ke jendela konteks LLM tidak efisien, mahal, dan seringkali membingungkan model. Anda memerlukan cara untuk mengekstrak hanya konten yang relevan sebelum AI memprosesnya.

Apa Itu Scrapling MCP?

Scrapling adalah kerangka kerja web scraping berbasis Python yang dirancang agar tidak terdeteksi. Scrapling MCP Server membungkus mesin yang kuat ini ke dalam protokol yang dipahami oleh OpenClaw.

Saat Anda menginstal Scrapling MCP, Anda memberikan OpenClaw seperangkat alat khusus:

Penjelajahan Senyap (Stealth Browsing): Meniru header peramban asli, sidik jari TLS, dan perilaku.
Kontrol Peramban Tanpa Antarmuka (Headless Browser Control): Menggunakan Playwright dan Camoufox untuk merender JavaScript dan berinteraksi dengan halaman.
Ekstraksi Cerdas (Smart Extraction): Memungkinkan AI untuk memilih elemen tertentu menggunakan pemilih CSS atau XPath, mengurangi gangguan.
Bypass Turnstile: Secara otomatis menangani pemeriksaan "Verifikasi Anda manusia" tanpa intervensi pengguna.

Anggaplah ini sebagai memberikan OpenClaw peramban web tak terlihat yang dikendalikan dari jarak jauh yang dapat membaca apa pun yang dapat Anda baca.

Panduan Langkah-demi-Langkah: Mengatur Scrapling di OpenClaw

Mengatur Scrapling MCP di OpenClaw itu mudah. Kami akan menginstal paket Python dan kemudian mengonfigurasi OpenClaw untuk berkomunikasi dengannya.

Prasyarat

Python 3.10+: Pastikan Anda memiliki versi Python terbaru yang terinstal.
OpenClaw: Anda harus memiliki aplikasi OpenClaw yang terinstal dan berjalan.
Akses Terminal: Anda perlu menjalankan beberapa perintah di terminal Anda.

Langkah 1: Instal Scrapling

Pertama, kita perlu menginstal paket Scrapling dengan dependensi AI-nya. Buka terminal Anda dan jalankan:

pip install "scrapling[ai]"

Ini menginstal kerangka kerja inti dan komponen server MCP. Selanjutnya, instal biner peramban yang diperlukan untuk merender halaman dinamis:

scrapling install

Perintah ini mengunduh mesin peramban yang diperlukan (Chromium dan Firefox) yang digunakan Scrapling untuk meniru pengguna sungguhan.

Langkah 2: Temukan Konfigurasi OpenClaw Anda

OpenClaw menggunakan file konfigurasi JSON untuk mengelola server MCP-nya. Anda perlu menemukan file ini.

macOS: ~/Library/Application Support/OpenClaw/openclaw_config.json
Windows: %APPDATA%\OpenClaw\openclaw_config.json
Linux: ~/.config/OpenClaw/openclaw_config.json

Catatan: Jika file tidak ada, Anda bisa membuatnya.

Langkah 3: Tambahkan Konfigurasi Server Scrapling

Buka file konfigurasi di editor teks favorit Anda. Anda perlu menambahkan ScraplingServer ke objek mcpServers.

Berikut adalah blok konfigurasi:

{
  "mcpServers": {
    "ScraplingServer": {
      "command": "python",
      "args": [
        "-m",
        "scrapling.mcp_server"
      ]
    }
  }
}

Tips Pro: Jika Anda menggunakan lingkungan virtual (sangat direkomendasikan), gunakan jalur absolut ke executable Python Anda alih-alih hanya python. Anda dapat menemukan jalur ini dengan menjalankan which python (macOS/Linux) atau where python (Windows) di dalam lingkungan yang Anda aktifkan.

Contoh dengan jalur absolut:

{
  "mcpServers": {
    "ScraplingServer": {
      "command": "/Users/username/my-env/bin/python",
      "args": [
        "-m",
        "scrapling.mcp_server"
      ]
    }
  }
}

Langkah 4: Mulai Ulang OpenClaw

Simpan file konfigurasi dan mulai ulang OpenClaw. Saat dimuat, Anda akan melihat indikator "ScraplingServer" baru atau set alat yang tersedia di menu konteks Anda.

Langkah 5: Verifikasi Instalasi

Untuk menguji apakah itu berfungsi, minta OpenClaw untuk mengambil situs yang dilindungi:

https://example.com

Jika dikonfigurasi dengan benar, OpenClaw akan menggunakan alat scrapling_fetch, melewati blokir potensial apa pun, dan mengembalikan ringkasan yang bersih.

Teknik Lanjutan & Praktik Terbaik

Setelah dasar-dasarnya berjalan, Anda dapat mengoptimalkan alur kerja scraping Anda untuk hasil yang lebih baik dan biaya yang lebih rendah.

1. Gunakan Pemilih Cerdas untuk Menghemat Konteks

Jangan meminta OpenClaw untuk "membaca halaman." Itu mengambil semuanya. Sebaliknya, jadilah spesifik:

.pricing-tablehttps://example.com

Scrapling memungkinkan Anda untuk meneruskan pemilih CSS. Ini hanya mengekstrak data yang relevan, menjaga penggunaan token Anda rendah dan fokus AI tetap tinggi.

2. Aktifkan Mode Siluman untuk Situs yang Sulit

Untuk situs dengan tindakan anti-bot yang agresif, secara eksplisit minta OpenClaw untuk menggunakan "mode siluman". Scrapling memiliki strategi pengambilan yang berbeda:

Dasar: Cepat, berbasis HTTP (baik untuk situs statis).
Siluman (Stealth): Menggunakan peramban tanpa antarmuka (headless browser) dengan fingerprinting (baik untuk Cloudflare).
Interaktif: Dapat mengklik tombol atau menggulir sebelum mengambil (baik untuk halaman gulir tak terbatas).

3. Tangani Paginasi Secara Otomatis

Anda dapat membuat loop di OpenClaw untuk menangani paginasi. Minta itu untuk:
"Scrape 5 halaman pertama blog. Cari pemilih tombol 'Berikutnya' .pagination-next dan ikuti itu."
Penanganan sesi persisten Scrapling memastikan cookie dan status dipertahankan di seluruh permintaan ini.

Mengintegrasikan Data yang Di-scrape dengan Apidog

Salah satu kasus penggunaan paling kuat untuk pengaturan ini adalah rekayasa balik dokumentasi API. Seringkali, Anda akan menemukan API internal atau titik akhir yang tidak terdokumentasi saat meneliti layanan pihak ketiga.

Berikut adalah cara Anda dapat mengubah data yang di-scrape menjadi tes API fungsional menggunakan Apidog:

Scrape Dokumen: Minta OpenClaw untuk meng-scrape halaman dokumentasi atau respons API mentah.

https://api.example.com/v1/products

Hasilkan Spesifikasi OpenAPI: Minta OpenClaw untuk mengubah teks yang di-scrape itu menjadi spesifikasi OpenAPI (Swagger).

"Berdasarkan respons yang di-scrape, hasilkan spesifikasi OpenAPI 3.0 dalam format YAML."

Impor ke Apidog:

Buka Apidog.
Pergi ke Impor Proyek.
Tempel YAML yang dihasilkan oleh OpenClaw.

Mengapa melakukan ini?
Setelah data ada di Apidog, Anda akan mendapatkan:

Tes yang Dibuat Otomatis: Apidog secara otomatis membuat kasus uji untuk titik akhir.
Server Mock: Anda dapat langsung mensimulasikan API untuk tim frontend Anda.
Dokumentasi: Anda mendapatkan dokumentasi interaktif yang indah yang lebih baik dari halaman asli yang di-scrape.

Alur kerja ini mengubah "membaca dokumen" menjadi "memiliki suite tes yang dapat dijalankan" dalam hitungan menit.

Kasus Penggunaan Dunia Nyata

Pemantauan Harga Pesaing

Atur tugas harian di OpenClaw untuk meng-scrape halaman harga 5 pesaing teratas Anda. Gunakan Scrapling untuk mengekstrak elemen harga tertentu dan memformatnya ke dalam tabel markdown. Ini memberi Anda laporan intelijen pasar otomatis tanpa harus membayar alat pemantauan yang mahal.

Mengumpulkan Berita Pengembang

Gunakan Scrapling untuk mengambil bagian "Show HN" dari HackerNews atau halaman "Trending" dari GitHub. Karena halaman-halaman ini sering berubah dan mengandung elemen dinamis, pengambilan berbasis peramban Scrapling memastikan Anda tidak pernah melewatkan postingan. Anda kemudian dapat meminta OpenClaw untuk meringkas 3 alat teratas hari itu.

Mengotomatiskan QA untuk Situs Anda Sendiri

Jika Anda memiliki lingkungan staging di balik otentikasi dasar atau firewall, Anda dapat mengonfigurasi Scrapling (melalui OpenClaw) untuk mengaksesnya. Minta OpenClaw untuk "Verifikasi bahwa tombol 'Daftar' di halaman beranda staging terlihat dan berisi teks yang benar." Ini berfungsi sebagai uji asap semantik untuk UI Anda.

Kesimpulan

Mengintegrasikan Scrapling MCP ke dalam OpenClaw mengubah AI Anda dari pemroses teks pasif menjadi agen web aktif. Anda tidak perlu lagi takut akan kesalahan 403, captcha, atau konten JavaScript dinamis. Dengan mengikuti langkah-langkah dalam panduan ini, Anda telah membuka kemampuan untuk mengotomatisasi penelitian, memantau pesaing, dan mengekstrak data dari hampir setiap sudut web.

Kombinasi kemampuan penalaran OpenClaw, akses siluman Scrapling, dan manajemen siklus hidup API Apidog menciptakan alur kerja yang sangat kuat untuk pengembang modern.

Siap untuk meningkatkan alur kerja API Anda? Unduh Apidog secara gratis dan mulailah mengubah data yang Anda scrape menjadi tes yang dapat ditindaklanjuti hari ini.

button

Pertanyaan Umum

T: Apakah Scrapling gratis untuk digunakan?
J: Ya, Scrapling adalah pustaka Python sumber terbuka. Anda dapat menggunakannya secara gratis, meskipun Anda bertanggung jawab atas infrastruktur (mesin lokal Anda) yang menjalankan instance peramban.

T: Apakah ini berfungsi di Windows?
J: Tentu saja. Scrapling berfungsi di macOS, Windows, dan Linux. Pastikan Anda memiliki Python terinstal dan gunakan jalur yang benar dalam konfigurasi JSON Anda.

T: Bisakah Scrapling melewati semua captcha?
J: Scrapling sangat efektif melawan Cloudflare Turnstile dan pemeriksaan pasif serupa. Namun, captcha "interaktif" (seperti memilih lampu lalu lintas) mungkin masih memerlukan intervensi manual atau layanan pemecah khusus.

T: Bagaimana ini dibandingkan dengan alat fetch standar?
J: Alat fetch standar mudah diblokir dan tidak dapat merender JavaScript. Scrapling menggunakan mesin peramban sungguhan (Chrome/Firefox tanpa antarmuka), membuatnya tidak dapat dibedakan dari pengguna manusia bagi sebagian besar server.