OpenClawでScrapling MCPを設定する方法

まとめ

Scrapling MCPは、強力で検出されないWebスクレイピング機能をOpenClaw環境に直接もたらします。`scrapling` Pythonパッケージをインストールし、OpenClawの設定に簡単なJSON構成を追加することで、AIエージェントがWebを閲覧し、Cloudflare Turnstileのようなアンチボット保護をバイパスし、構造化されたデータを自動的に抽出できるようになります。このガイドでは、完全なインストールプロセス、構成手順、およびスクレイピングしたデータをApidogで管理する方法について説明します。

はじめに

AIエージェントにWebサイトを読ませようとして、「あなたは人間ですか？」というCAPTCHAによってブロックされた経験はありませんか？それは、自動化を妨げる苛立たしい障害です。OpenClawのようなAIエージェントが開発ワークフローの中心となるにつれて、保護されたWebコンテンツにアクセスできないことがその可能性を制限しています。

ここで、Scrapling MCPが状況を一変させます。Scraplingは、シンプルなリクエストからCloudflareによって保護された複雑なJavaScriptを多用するサイトまで、あらゆるものを処理する検出不可能なWebスクレイピングフレームワークです。それをOpenClawのModel Context Protocol (MCP) サーバーとして統合することで、エージェントは人間ユーザーと同じようにWebを閲覧し、アンチボットシステムを楽々とバイパスする能力を得ることができます。

このガイドでは、OpenClawでScrapling MCPを正確にセットアップする方法を順を追って説明します。必要なツールをインストールし、環境を構成し、数分でデータのスクレイピングを開始する方法を学びます。さらに、スクレイピングしたデータ、特にAPIドキュメントを取得し、Apidogにインポートして、すぐに使えるAPIテストとドキュメントを即座に生成する方法を紹介します。

このチュートリアルを終える頃には、あなたのOpenClawエージェントはコーディングだけでなく、ライブWebを積極的に調査し、操作できるようになっているでしょう。

問題：AIエージェントがWebスクレイピングで苦戦する理由

AIエージェントは情報の処理には優れていますが、情報を取得することにはしばしば苦手意識があります。エージェントが使用する従来のフェッチツール（`curl`や標準HTTPライブラリなど）は、現代のWebサーバーに対して「私はボットです」と叫んでいるようなものです。

アンチボットの障壁

ほとんどの現代のWebサイトは、高度なアンチボット保護を使用しています。

Cloudflare Turnstile: 人間のようなマウスの動きやブラウザのフィンガープリントをチェックします。
TLSフィンガープリンティング: SSL/TLSハンドシェイクに基づいて、ブラウザ以外のクライアントを識別します。
動的コンテンツ: 多くのサイトはJavaScriptを介してコンテンツをロードしますが、標準のフェッチャーでは実行できません。

OpenClawが標準ツールを使用してこれらのサイトにアクセスしようとすると、403 ForbiddenエラーまたはCAPTCHAページが表示されます。これによりワークフローが中断され、コンテンツを手動でチャットコンテキストにコピー＆ペーストする必要が生じます。これは退屈で拡張性のないプロセスです。

コンテキストウィンドウの制限

エージェントがページにアクセスできたとしても、多くの場合、生のHTML全体を取得してしまいます。5MBものHTMLをLLMのコンテキストウィンドウにダンプするのは非効率的で高価であり、モデルを混乱させることがよくあります。AIが処理する前に、関連するコンテンツのみを抽出する方法が必要です。

Scrapling MCPとは？

Scraplingは、検出されないように設計されたPythonベースのWebスクレイピングフレームワークです。Scrapling MCP Serverは、この強力なエンジンをOpenClawが理解できるプロトコルにラップします。

Scrapling MCPをインストールすると、OpenClawに特殊なツールセットが提供されます。

ステルスブラウジング: 実際のブラウザヘッダー、TLSフィンガープリント、および動作を模倣します。
ヘッドレスブラウザ制御: PlaywrightとCamoufoxを使用してJavaScriptをレンダリングし、ページと対話します。
スマート抽出: AIがCSSセレクターまたはXPathを使用して特定の要素を選択できるようにし、ノイズを削減します。
Turnstileバイパス: ユーザーの介入なしに「あなたは人間ですか？」チェックを自動的に処理します。

OpenClawに、あなたが読めるものなら何でも読めるリモート制御の目に見えないWebブラウザを与えるようなものだと考えてください。

ステップバイステップガイド：OpenClawでのScraplingのセットアップ

OpenClawでScrapling MCPをセットアップするのは簡単です。Pythonパッケージをインストールし、OpenClawがそれと通信するように設定します。

前提条件

Python 3.10+: 最新バージョンのPythonがインストールされていることを確認してください。
OpenClaw: OpenClawアプリケーションがインストールされ、実行されている必要があります。
ターミナルアクセス: ターミナルでいくつかのコマンドを実行する必要があります。

ステップ1：Scraplingのインストール

まず、ScraplingパッケージとそのAI依存関係をインストールする必要があります。ターミナルを開いて実行します。

pip install "scrapling[ai]"

これにより、コアフレームワークとMCPサーバーコンポーネントがインストールされます。次に、動的ページをレンダリングするために必要なブラウザバイナリをインストールします。

scrapling install

このコマンドは、Scraplingが実際のユーザーを模倣するために使用する必要なブラウザエンジン（ChromiumとFirefox）をダウンロードします。

ステップ2：OpenClaw構成の場所を特定する

OpenClawは、MCPサーバーを管理するためにJSON構成ファイルを使用します。このファイルを見つける必要があります。

macOS: ~/Library/Application Support/OpenClaw/openclaw_config.json
Windows: %APPDATA%\OpenClaw\openclaw_config.json
Linux: ~/.config/OpenClaw/openclaw_config.json

注: ファイルが存在しない場合は、作成できます。

ステップ3：Scraplingサーバー構成を追加する

お好みのテキストエディタで構成ファイルを開きます。mcpServersオブジェクトにScraplingServerを追加する必要があります。

以下に構成ブロックを示します。

{
  "mcpServers": {
    "ScraplingServer": {
      "command": "python",
      "args": [
        "-m",
        "scrapling.mcp_server"
      ]
    }
  }
}

プロのヒント: 仮想環境を使用している場合（強く推奨）、`python`の代わりにPython実行可能ファイルの絶対パスを使用してください。このパスは、アクティブ化された環境内で`which python`（macOS/Linux）または`where python`（Windows）を実行することで見つけることができます。

絶対パスの例：

{
  "mcpServers": {
    "ScraplingServer": {
      "command": "/Users/username/my-env/bin/python",
      "args": [
        "-m",
        "scrapling.mcp_server"
      ]
    }
  }
}

ステップ4：OpenClawの再起動

構成ファイルを保存し、OpenClawを再起動します。ロードされると、コンテキストメニューに新しい「ScraplingServer」インジケーターまたはツールセットが表示されるはずです。

ステップ5：インストールの確認

動作を確認するには、OpenClawに保護されたサイトのフェッチを依頼します。

https://example.com

正しく構成されていれば、OpenClawは`scrapling_fetch`ツールを使用し、潜在的なブロックをバイパスして、クリーンな要約を返します。

高度なテクニックとベストプラクティス

基本が動作したら、より良い結果と低コストのためにスクレイピングワークフローを最適化できます。

1. スマートセレクターを使用してコンテキストを節約する

OpenClawに「ページを読んで」と依頼しないでください。それではすべてをフェッチしてしまいます。代わりに、具体的に指定します。

https://example.com.pricing-table

ScraplingではCSSセレクターを渡すことができます。これにより、関連データのみが抽出され、トークンの使用量が低く抑えられ、AIの集中力が高まります。

2. 困難なサイトにはステルスモードを有効にする

攻撃的なアンチボット対策が施されているサイトには、OpenClawに「ステルスモード」を使用するよう明示的に依頼してください。Scraplingには、さまざまなフェッチ戦略があります。

ベーシック: 高速なHTTPベース（静的サイトに適しています）。
ステルス: フィンガープリンティングを備えたヘッドレスブラウザを使用します（Cloudflareに適しています）。
インタラクティブ: フェッチする前にボタンをクリックしたりスクロールしたりできます（無限スクロールページに適しています）。

3. ページネーションを自動的に処理する

OpenClawでループを作成してページネーションを処理できます。次のように依頼します。
「ブログの最初の5ページをスクレイピングしてください。「次へ」ボタンセレクター.pagination-nextを探して、それに従ってください。」
Scraplingの永続的なセッション処理により、これらのリクエスト間でクッキーと状態が維持されます。

スクレイピングしたデータをApidogと統合する

このセットアップの最も強力なユースケースの1つは、APIドキュメントのリバースエンジニアリングです。サードパーティサービスを調査しているときに、内部APIやドキュメント化されていないエンドポイントに遭遇することがよくあります。

スクレイピングしたデータをApidogで機能的なAPIテストに変える方法は次のとおりです。

ドキュメントをスクレイピングする: OpenClawにドキュメントページまたは生のAPIレスポンスをスクレイピングするよう依頼します。

https://api.example.com/v1/products

OpenAPI仕様を生成する: OpenClawに、スクレイピングしたテキストをOpenAPI (Swagger) 仕様に変換するよう依頼します。

「スクレイピングしたレスポンスに基づいて、OpenAPI 3.0仕様のYAMLを生成してください。」

Apidogにインポートする:

Apidogを開きます。
プロジェクトのインポートに進みます。
OpenClawが生成したYAMLを貼り付けます。

なぜこれを行うのですか？
データがApidogに入ると、次のものが得られます。

自動生成されたテスト: Apidogはエンドポイントのテストケースを自動的に作成します。
モックサーバー: フロントエンドチームのためにAPIを即座にシミュレートできます。
ドキュメント: 元のスクレイピングされたページよりも優れた、美しくインタラクティブなドキュメントが得られます。

このワークフローにより、「ドキュメントを読む」ことが数分で「実行可能なテストスイートを持つ」ことに変わります。

実際のユースケース

競合他社の価格監視

OpenClawで、上位5社の競合他社の価格ページをスクレイピングする日次タスクを設定します。Scraplingを使用して、特定の価格要素を抽出し、マークダウンテーブルにフォーマットします。これにより、高価な監視ツールに費用をかけずに、自動化された市場インテリジェンスレポートが得られます。

開発者ニュースの集約

Scraplingを使用して、HackerNewsの「Show HN」セクションやGitHubの「Trending」ページをフェッチします。これらのページは頻繁に変更され、動的要素が含まれているため、Scraplingのブラウザベースのフェッチにより、投稿を見逃すことはありません。その後、OpenClawにその日の上位3つのツールを要約するよう依頼できます。

自身のサイトのQAを自動化する

ベーシック認証またはファイアウォールの背後にあるステージング環境がある場合、Scrapling（OpenClaw経由）を設定してそれにアクセスできます。OpenClawに「ステージングホームページの『サインアップ』ボタンが表示され、正しいテキストが含まれていることを確認してください。」と依頼します。これは、UIのセマンティックなスモークテストとして機能します。

結論

Scrapling MCPをOpenClawに統合することで、AIは受動的なテキストプロセッサからアクティブなWebエージェントへと変貌します。403エラー、CAPTCHA、動的なJavaScriptコンテンツを恐れる必要はもうありません。このガイドの手順に従うことで、リサーチの自動化、競合他社の監視、Web上のほぼあらゆる場所からのデータ抽出能力を解放しました。

OpenClawの推論能力、Scraplingのステルスアクセス、そしてApidogのAPIライフサイクル管理の組み合わせは、現代の開発者にとって強力なワークフローを生み出します。

APIワークフローを強化する準備はできましたか？ Apidogを無料でダウンロードして、スクレイピングしたデータを今日から実用的なテストに変えましょう。

button

よくある質問

Q: Scraplingは無料で使えますか？
A: はい、ScraplingはオープンソースのPythonライブラリです。ブラウザインスタンスを実行するインフラストラクチャ（あなたのローカルマシン）は自己責任ですが、自由に利用できます。

Q: Windowsで動作しますか？
A: もちろんです。ScraplingはmacOS、Windows、Linuxで動作します。Pythonがインストールされており、JSON構成で正しいパスを使用していることを確認するだけです。

Q: ScraplingはすべてのCAPTCHAをバイパスできますか？
A: ScraplingはCloudflare Turnstileや同様の受動的なチェックに対して非常に効果的です。ただし、「インタラクティブな」CAPTCHA（信号機を選択するなど）は、手動による介入や専門のソルバーサービスを必要とする場合があります。

Q: これは標準のfetchツールとどう違いますか？
A: 標準のフェッチツールは簡単にブロックされ、JavaScriptをレンダリングできません。Scraplingは実際のブラウザエンジン（ヘッドレスChrome/Firefox）を使用するため、ほとんどのサーバーにとっては人間ユーザーと区別できません。