クラウドリサーチのオープンソース代替を構築する方法

AnthropicのClaudeは、最近リアルタイムのウェブ情報にアクセスして合成する新たな能力を持ち、実質的にリサーチアシスタントとして機能することで注目を集めました。この機能は「Claude Research」としてよく言及され、単純なウェブ検索を超えて、トピックの複数の視点を探求し、さまざまなソースから情報を引き出して合成された答えを提供することを目指しています。強力ではありますが、クローズソースのプロプライエタリシステムに依存することは常に理想的とは言えません。多くのユーザーは、より多くの制御、透明性、カスタマイズ、または単に基盤となる技術を試したいと考えています。

良いニュースは、オープンソースコミュニティがそのような機能を再現するための構成要素を提供することが多いということです。この分野での興味深いプロジェクトの1つが、GitHub上のbtahir/open-deep-researchです。このツールは、ウェブ検索と大規模言語モデル（LLMs）を活用して、トピックに関する詳細なリサーチを自動化することを目指しています。

まず、Claudeのような洗練されたAIリサーチ機能が提供する主要な能力を理解し、それをオープンソースの形式で模倣しようとするopen-deep-researchの実行方法について詳しく見ていきましょう。

`open-deep-research`の紹介: あなたのオープンソースの出発点

open-deep-researchプロジェクト（https://github.com/btahir/open-deep-research）は、すぐに利用可能なツールとAPIを使用して類似の目標を達成するためのフレームワークを提供します。これはおそらく、次のようなパイプラインを構築します：

検索エンジンクエリ: 指定された研究トピックに関連するウェブページを見つけるためにAPI（SearchApi、Google Search APIなど）を使用します。
ウェブスクレイピング: 特定されたURLからコンテンツを取得します。
LLM処理: ウェブページから収集した情報を読み取り、理解し、合成し、構造化するために、大規模言語モデル（一般的にはOpenAI APIを通じて、しかし適応可能である可能性もあります）を利用します。
レポート生成: 処理された情報を詳細なレポートなどの最終出力にまとめます。

これを自分で実行することで、プロセスの透明性を得て、潜在的にカスタマイズすることも可能になります。

💡

美しいAPIドキュメントを生成する優れたAPIテストツールが欲しいですか？

開発者チームが最大限の生産性で協力して作業できる統合されたワンストッププラットフォームが必要ですか？

Apidogはすべての要求に応え、Postmanをより手頃な価格で置き換えます！

button

`open-deep-research`の実行手順ガイド

自分のリサーチアシスタントを構築してみたいですか？ここでは、open-deep-researchをセットアップするための詳細なガイドを提供します。

前提条件:

Python: システムにPythonをインストールする必要があります（通常はPython 3.7+）。
Git: リポジトリをクローンするために必要です。
APIキー: これは重要です。ツールは次のAPIキーが必要になります。
検索エンジンAPI: プログラム的にウェブ検索を行うために必要です。例としては、SearchApi、Serper、またはプロジェクトの設定に応じた他のものがあります。これらのサービスのいずれかにサインアップしてAPIキーを取得する必要があります。
LLM API: おそらく、合成ステップで必要なGPTモデルにアクセスするためのOpenAI APIキーが必要になります（GPT-3.5やGPT-4など）。OpenAIアカウントが必要で、APIアクセスがあることを確認してください。
(必要なAPIとキーの詳細はopen-deep-researchのREADMEを確認してください).
コマンドライン/ターミナル: ターミナルまたはコマンドプロンプトでコマンドを実行します。

ステップ1: リポジトリをクローンする

まず、ターミナルを開き、プロジェクトを保存したいディレクトリに移動します。それから、GitHubリポジトリをクローンします：

git clone <https://github.com/btahir/open-deep-research.git>

次に、新しく作成されたプロジェクトディレクトリに移動します：

cd open-deep-research

ステップ2: 仮想環境をセットアップする（推奨）

プロジェクトの依存関係を個別に管理するために、仮想環境を使用するのがベストプラクティスです。

macOS/Linuxでは：

python3 -m venv venv
source venv/bin/activate

Windowsでは：

python -m venv venv
.\\venv\\Scripts\\activate

ターミナルプロンプトは今や(venv)環境にいることを示しているはずです。

ステップ3: 依存関係をインストールする

プロジェクトには、必要なPythonライブラリをリストしたrequirements.txtファイルが含まれているはずです。pipを使ってインストールします：

pip install -r requirements.txt

このコマンドは、openai、requests、おそらくbeautifulsoup4や同様のもの（ウェブスクレイピング用）、および使用する特定の検索API用のライブラリをダウンロードしてインストールします。

ステップ4: APIキーを設定する

これが最も重要な設定ステップです。前提条件で取得したAPIキーを提供する必要があります。オープンソースプロジェクトは通常、環境変数または.envファイルを通じてキーを扱います。必ずopen-deep-researchのREADMEファイルを確認して、必要な環境変数名を確認してください。

一般的に、次のような変数を設定する必要があります：

OPENAI_API_KEY
SEARCHAPI_API_KEY（またはSERPER_API_KEY、GOOGLE_API_KEYなど、使用する検索サービスに応じて異なります）

環境変数を直接ターミナルで設定できます（これは現在のセッションのために一時的です）：

macOS/Linuxでは：

export OPENAI_API_KEY='your_openai_api_key_here'
export SEARCHAPI_API_KEY='your_search_api_key_here'

Windows（コマンドプロンプト）：

set OPENAI_API_KEY=your_openai_api_key_here
set SEARCHAPI_API_KEY=your_search_api_key_here

Windows（PowerShell）：

$env:OPENAI_API_KEY="your_openai_api_key_here"$env:SEARCHAPI_API_KEY="your_search_api_key_here"

あるいは、プロジェクトが.envファイルをサポートしている可能性があります。その場合、プロジェクトのルートディレクトリに.envという名前のファイルを作成し、次のようにキーを追加します：

OPENAI_API_KEY=your_openai_api_key_here
SEARCHAPI_API_KEY=your_search_api_key_here

python-dotenvのようなライブラリ（requirements.txtにリストされている場合）は、スクリプトが実行されるときにこれらの変数を自動的に読み込みます。再度、プロジェクトのドキュメントを確認して、正しい方法と変数名を確認してください。

ステップ5: リサーチツールを実行する

環境が設定され、依存関係がインストールされ、APIキーが設定されたら、メインスクリプトを実行できます。正確なコマンドは、プロジェクトの構造によって異なります。主要なPythonスクリプト（例：main.py、research.pyなど）を探してください。

コマンドは次のようになります（正確なコマンドと引数はREADMEで確認してください！）：

python main.py --query "再生可能エネルギー導入が世界のCO2排出トレンドに与える影響"

または：

python research_agent.py "電気自動車用の固体電池技術の最新の進展"

スクリプトは次のように進行します：

クエリを受け取ります。
検索APIキーを使用して関連するURLを見つけます。
そのURLからコンテンツをスクレイピングします。
OpenAI APIキーを使用してコンテンツを処理し合成します。
出力を生成します。

ステップ6: 出力を確認する

ツールは、クエリの複雑さ、分析されたソースの数、APIの速度に応じて、実行にしばらく時間がかかることがあります。完了したら、出力を確認してください。これは次のようになる可能性があります：

ターミナルコンソールに直接表示されます。
プロジェクトディレクトリにテキストファイルやMarkdownファイル（例：research_report.txtまたはreport.md）として保存されます。

生成されたレポートの関連性、一貫性、正確性をレビューしてください。

カスタマイズと考慮事項

LLMの選択: おそらくデフォルトではOpenAIですが、プロジェクトが異なるLLMの設定を許可しているかどうかを確認してください（おそらくOllamaやLM Studioを通じてローカルで動作するオープンソースモデル、ただし、組み込まれていない場合はコード変更が必要です）。
検索プロバイダー: 必要に応じて検索APIプロバイダーを交換することができるかもしれません。
プロンプトエンジニアリング: 合成段階でLLMに指示を出すために使用されるプロンプトを変更して、出力スタイルや焦点を調整することができるかもしれません。
コスト: API（特にOpenAIのより強力なモデルや潜在的に検索API）を使用することは、使用量に基づいてコストがかかります。支出を監視してください。
信頼性: このようなオープンソースツールは、商用製品よりも堅牢性が劣る可能性があります。ウェブサイトが変更されることがあり、スクレイピングが失敗することもあり、LLMの出力が変わることがあります。問題をデバッグするための覚悟を持っておいてください。
複雑さ: これを設定するには、Claudeのような洗練されたSaaS製品を使用するよりも、より多くの技術的努力が必要です。

結論

Claudeのような商用AIツールは、印象的で統合されたリサーチ機能を提供しますが、btahir/open-deep-researchのようなオープンソースプロジェクトは、同様の機能が独立して構築され、実行できることを示しています。上記のステップに従うことで、自動化されたリサーチエージェントをセットアップし、さまざまなトピックについて深く掘り下げるための強力なツールを得ることができ、オープンソースが提供する透明性とカスタマイズの可能性を兼ね備えています。常に特定のプロジェクトのドキュメント（README.md）を確認し、最も正確で最新の指示を得ることを忘れないでください。ハッピーリサーチ！

💡

button

open-deep-researchの紹介: あなたのオープンソースの出発点

open-deep-researchの実行手順ガイド

カスタマイズと考慮事項

結論

`open-deep-research`の紹介: あなたのオープンソースの出発点

`open-deep-research`の実行手順ガイド