Como Construir uma Alternativa Open Source ao Claude Research

Claude da Anthropic recentemente ganhou atenção com novas capacidades que permitem acessar e sintetizar informações da web em tempo real, atuando efetivamente como um assistente de pesquisa. Este recurso, muitas vezes discutido como "Claude Research", tem como objetivo ir além de uma simples pesquisa na web, explorando múltiplos ângulos de um tópico, reunindo informações de várias fontes e fornecendo respostas sintetizadas. Embora seja poderoso, depender de sistemas fechados e proprietários nem sempre é ideal. Muitos usuários buscam mais controle, transparência, personalização ou simplesmente desejam experimentar a tecnologia subjacente.

A boa notícia é que a comunidade de código aberto frequentemente fornece blocos de construção para replicar tais funcionalidades. Um projeto interessante nesse espaço é btahir/open-deep-research no GitHub. Esta ferramenta visa automatizar o processo de realização de pesquisas aprofundadas sobre um tópico, aproveitando pesquisas na web e Modelos de Linguagem de Grande Escala (LLMs).

Vamos primeiro entender as principais capacidades oferecidas por recursos de pesquisa de IA sofisticados como os de Claude, que open-deep-research tenta emular de maneira de código aberto, e depois mergulhar em como você pode executar essa ferramenta por conta própria.

Apresentando `open-deep-research`: Seu Ponto de Partida de Código Aberto

O projeto open-deep-research (https://github.com/btahir/open-deep-research) fornece uma estrutura para alcançar objetivos similares usando ferramentas e APIs prontamente disponíveis. Ele provavelmente orquestra um pipeline que envolve:

Consultas do Motor de Busca: Usando APIs (como SearchApi, Google Search API, etc.) para encontrar páginas da web relevantes para um determinado tópico de pesquisa.
Web Scraping: Obtendo o conteúdo das URLs identificadas.
Processamento LLM: Utilizando um Modelo de Linguagem de Grande Escala (comumente via API da OpenAI, mas potencialmente adaptável) para ler, entender, sintetizar e estruturar as informações coletadas das páginas da web.
Geração de Relatórios: Compilando as informações processadas em uma saída final, como um relatório detalhado.

Ao executar isso por conta própria, você ganha transparência no processo e a capacidade de potencialmente personalizá-lo.

💡

Quer uma ótima ferramenta de Teste de API que gera documentação de API bonita?

Quer uma plataforma integrada, tudo-em-um para sua equipe de desenvolvedores trabalhar junta com máxima produtividade?

A Apidog atende todas as suas demandas e substitui o Postman a um preço muito mais acessível!

botão

Guia Passo a Passo para Executar `open-deep-research`

Pronto para tentar construir seu próprio assistente de pesquisa? Aqui está um guia detalhado para colocar open-deep-research em funcionamento.

Pré-requisitos:

Python: Você precisará do Python instalado em seu sistema (geralmente Python 3.7+).
Git: Necessário para clonar o repositório.
Chaves de API: Isto é crucial. A ferramenta precisará de chaves de API para:
Uma API de Motor de Busca: Para realizar pesquisas na web programaticamente. Exemplos incluem SearchApi, Serper, ou potencialmente outros dependendo da configuração do projeto. Você precisará se inscrever em um desses serviços e obter uma chave de API.
Uma API LLM: É provável que a chave da API da OpenAI para acessar modelos GPT (como GPT-3.5 ou GPT-4) seja necessária para a etapa de síntese. Você precisará de uma conta OpenAI com acesso à API.
(Verifique o README do open-deep-research para as APIs e chaves necessárias específicas).
Linha de Comando / Terminal: Você estará executando comandos em seu terminal ou prompt de comando.

Passo 1: Clone o Repositório

Primeiro, abra o seu terminal e navegue até o diretório onde deseja armazenar o projeto. Em seguida, clone o repositório do GitHub:

git clone <https://github.com/btahir/open-deep-research.git>

Agora, mude para o diretório do projeto recém-criado:

cd open-deep-research

Passo 2: Configure um Ambiente Virtual (Recomendado)

É uma boa prática usar um ambiente virtual para gerenciar dependências do projeto separadamente.

No macOS/Linux:

python3 -m venv venv
source venv/bin/activate

No Windows:

python -m venv venv
.\\venv\\Scripts\\activate

Seu prompt de terminal deve indicar agora que você está no ambiente (venv).

Passo 3: Instale as Dependências

O projeto deve incluir um arquivo requirements.txt listando todas as bibliotecas Python necessárias. Instale-as usando pip:

pip install -r requirements.txt

Este comando irá baixar e instalar bibliotecas como openai, requests, potencialmente beautifulsoup4 ou similares para scraping, e bibliotecas para a API de busca específica usada.

Passo 4: Configure as Chaves de API

Esta é a etapa de configuração mais crítica. Você precisa fornecer as chaves de API que obteve nos pré-requisitos. Projetos de código aberto normalmente lidam com chaves através de variáveis de ambiente ou de um arquivo .env. Consulte o arquivo README do open-deep-research cuidadosamente para os nomes exatos das variáveis de ambiente necessárias.

Comumente, você pode precisar definir variáveis como:

OPENAI_API_KEY
SEARCHAPI_API_KEY (ou SERPER_API_KEY, GOOGLE_API_KEY, etc., dependendo do serviço de busca utilizado)

Você pode definir as variáveis de ambiente diretamente em seu terminal (estas são temporárias para a sessão atual):

No macOS/Linux:

export OPENAI_API_KEY='sua_chave_api_openai_aqui'
export SEARCHAPI_API_KEY='sua_chave_api_busca_aqui'

No Windows (Prompt de Comando):

set OPENAI_API_KEY=sua_chave_api_openai_aqui
set SEARCHAPI_API_KEY=sua_chave_api_busca_aqui

No Windows (PowerShell):

$env:OPENAI_API_KEY="sua_chave_api_openai_aqui"$env:SEARCHAPI_API_KEY="sua_chave_api_busca_aqui"

Alternativamente, o projeto pode suportar um arquivo .env. Se sim, crie um arquivo chamado .env no diretório raiz do projeto e adicione as chaves assim:

OPENAI_API_KEY=sua_chave_api_openai_aqui
SEARCHAPI_API_KEY=sua_chave_api_busca_aqui

Bibliotecas como python-dotenv (se listadas em requirements.txt) carregarão automaticamente essas variáveis quando o script for executado. Novamente, verifique a documentação do projeto para o método correto e nomes das variáveis.

Passo 5: Execute a Ferramenta de Pesquisa

Com o ambiente configurado, dependências instaladas e chaves de API configuradas, você pode agora executar o script principal. O comando exato dependerá de como o projeto está estruturado. Procure por um script Python principal (por exemplo, main.py, research.py, ou similar).

O comando pode parecer algo assim ( verifique o README para o comando e argumentos exatos!):

python main.py --query "Impacto da adoção de energia renovável nas tendências globais de emissões de CO2"

Ou talvez:

python research_agent.py "Avanços mais recentes em tecnologia de baterias de estado sólido para veículos elétricos"

O script irá então:

Receber sua consulta.
Usar a chave da API de busca para encontrar URLs relevantes.
Raspar conteúdo dessas URLs.
Usar a chave da API da OpenAI para processar e sintetizar o conteúdo.
Gerar uma saída.

Passo 6: Revise a Saída

A ferramenta provavelmente levará algum tempo para ser executada, dependendo da complexidade da consulta, do número de fontes analisadas e da velocidade das APIs. Uma vez finalizado, verifique a saída. Isso pode ser:

Imprimido diretamente no console do seu terminal.
Salvo como um arquivo de texto ou arquivo Markdown no diretório do projeto (por exemplo, research_report.txt ou report.md).

Revise o relatório gerado em busca de relevância, coerência e precisão.

Personalização e Considerações

Escolha do LLM: Embora provavelmente padrão com a OpenAI, verifique se o projeto permite configurar diferentes LLMs (talvez modelos de código aberto rodando localmente via Ollama ou LM Studio, embora isso exija mudanças de código se não estiver integrado).
Fornecedor de Busca: Você pode ser capaz de trocar o provedor de API de busca, se necessário.
Engenharia de Prompt: Você poderia potencialmente modificar os prompts usados para instruir o LLM durante a fase de síntese para ajustar o estilo ou foco da saída.
Custo: Lembre-se de que usar APIs (especialmente os modelos mais poderosos da OpenAI e, potencialmente, APIs de busca) incorre em custos com base no uso. Monitore suas despesas.
Confiabilidade: Ferramentas de código aberto como esta podem ser menos robustas do que produtos comerciais. Websites mudam, raspagem pode falhar e saídas de LLM podem variar. Espere precisar depurar potenciais problemas.
Complexidade: Configurar isso requer mais esforço técnico do que usar um produto SaaS polido como o Claude.

Conclusão

Embora ferramentas de IA comerciais como Claude ofereçam capacidades de pesquisa impressionantes e integradas, projetos de código aberto como btahir/open-deep-research demonstram que funcionalidades similares podem ser construídas e executadas de forma independente. Ao seguir os passos acima, você pode configurar seu próprio agente de pesquisa automatizado, proporcionando uma ferramenta poderosa para aprofundar-se em vários tópicos, combinada com a transparência e o potencial de personalização que o código aberto oferece. Lembre-se de sempre consultar a documentação específica do projeto (README.md) para obter as instruções mais precisas e atualizadas. Boa pesquisa!

💡

botão

Apresentando open-deep-research: Seu Ponto de Partida de Código Aberto

Guia Passo a Passo para Executar open-deep-research

Personalização e Considerações

Conclusão

Apresentando `open-deep-research`: Seu Ponto de Partida de Código Aberto

Guia Passo a Passo para Executar `open-deep-research`