DeepSeek R1을 사용하여 오픈 소스 ChatGPT 운영자 대안을 만드는 방법

오픈 소스 대형 언어 모델(LLMs)의 등장은 OpenAI의 ChatGPT 운영자와 같은 독점 솔루션과 경쟁할 수 있는 AI 기반 도구를 만드는 것을 그 어느 때보다 쉽게 만들었습니다. 이러한 오픈 소스 모델 중에서 DeepSeek R1은 강력한 추론 능력, 무료 접근성 및 적응성으로 두드러집니다. DeepSeek R1을 Browser Use와 같은 도구와 결합하면 프리미엄 구독에 수백 달러를 쓰지 않고도 ChatGPT 운영자의 강력한 완전 오픈 소스 대안을 구축할 수 있습니다.

이 문서는 웹 자동화, 추론 및 자연어 상호작용을 포함한 복잡한 작업을 수행할 수 있는 AI 에이전트를 만들기 위해 DeepSeek R1과 Browser Use 설정 과정을 안내합니다. 초보자든 경험이 많은 개발자든 이 단계별 가이드가 시작하는 데 도움이 될 것입니다.

ChatGPT 운영자란 무엇이며 오픈 소스 대안이 필요한 이유는 무엇인가요?

ChatGPT 운영자는 사용자가 추론, 웹 자동화 및 다단계 문제 해결과 같은 복잡한 작업을 수행할 수 있는 고급 AI 에이전트를 생성할 수 있도록 하는 OpenAI의 프리미엄 기능입니다.

ChatGPT 운영자는 월 $200의 비용이 듭니다, 이는 개인, 소규모 비즈니스 또는 예산이 제한된 조직에 접근하기 어려울 수 있습니다.

4. Booking a one-way flight from Zurich to Vienna using the Booking integration

This one required a bit of back and forth, with ChatGPT Operator pinging me and asking for my flight preference and having me take control of entering payment details pic.twitter.com/XZiqUsQgVh
— Rowan Cheung (@rowancheung) January 23, 2025

위 비디오에서 ChatGPT 운영자가 비행기 티켓을 예약하고 있었습니다

오픈 소스 대안이 필요한 이유

ChatGPT 운영자는 강력하지만 오픈 소스 대안을 매력적으로 만드는 몇 가지 제한 사항이 있습니다:

비용: 월 $200의 구독료는 많은 사용자에게 부담이 될 수 있습니다.
데이터 프라이버시: 독점 API를 사용하면 외부 서버에 데이터를 전송해야 하며, 이는 개인정보 보호 정책 또는 규제 요구 사항을 준수하지 않을 수 있습니다.
제한된 사용자 정의: 독점 솔루션은 종종 미세 조정 또는 작업별 최적화를 제한하므로 특수한 사용 사례에 맞게 조정하는 데 한계가 있습니다.

DeepSeek R1과 Browser Use와 같은 오픈 소스 도구를 선택함으로써 이러한 문제를 극복하고 여러 가지 이점을 누릴 수 있습니다:

비용 절감: DeepSeek R1과 Browser Use는 모두 완전히 무료이며 오픈 소스이므로 구독료가 없습니다.
완전한 제어: 도구를 로컬 또는 자체 서버에서 호스팅하면 완전한 데이터 프라이버시와 보안이 보장됩니다.
사용자 정의 가능성: 특정 작업에 맞게 모델을 미세 조정하고 다른 도구와 통합하며 시스템을 고유한 요구 사항에 맞게 수정할 수 있습니다.

오픈 소스 접근 방식은 독점 플랫폼에 대한 의존도를 줄일 뿐만 아니라, 비용과 데이터에 대한 통제를 유지하면서 필요에 맞게 조정된 솔루션을 구축할 수 있는 권한을 부여합니다.

💡

Postman에 지치셨나요? 보다 저렴하고 더 나은 모든 기능이 있는 Postman 대안을 찾고 계신가요?

전체 사이클을 거쳐 API 테스트를 수행하는 Apidog를 확인해 보세요. API 디자인부터 API 문서화까지, 여러분의 개발 팀의 생산성을 높여줍니다!

button

주요 구성 요소: DeepSeek R1 및 Browser Use

DeepSeek R1

DeepSeek R1은 추론 작업에 최적화된 오픈 소스 LLM입니다. 체인 오브 씽크 문제 해결, 코드 지원 및 자연어 이해에서 뛰어난 성능을 발휘합니다. 여러 크기로 제공되며(예: 1.5B, 7B 매개변수) 다양한 하드웨어 요구 사항에 맞게 조정할 수 있습니다.

Browser Use

Browser Use는 AI 에이전트가 웹 스크래핑, 양식 작성 및 자동 탐색과 같은 브라우저 기반 작업을 수행할 수 있게 해주는 오픈 소스 도구입니다. 사용자 친화적인 인터페이스를 제공하며 DeepSeek R1과 같은 LLM과 통합하여 기능을 향상시킬 수 있습니다.

1단계: 환경 설정

하드웨어 요구 사항

DeepSeek R1의 작은 버전(예: 1.5B 매개변수)의 경우 CPU 또는 중간 범위 GPU(8GB VRAM)가 충분합니다.
더 큰 버전은 고급 GPU(예: NVIDIA A100 또는 RTX 4090)가 필요합니다.

운영 체제

설정이 용이하도록 Linux 또는 macOS를 권장합니다. Windows 사용자는 WSL(Windows Subsystem for Linux)를 사용할 수 있습니다.

Python 환경

종속성을 분리하기 위해 Python 가상 환경을 만듭니다:

python -m venv venv
source venv/bin/activate  # Linux/macOS에서
# Windows에서는:
# venv\Scripts\activate

필요한 라이브러리를 설치합니다:

pip install torch torchvision transformers sentencepiece

2단계: API로 DeepSeek 실행 또는 로컬에서 Ollama로 실행

DeepSeek API 사용법

DeepSeek API와 상호작용하려면 다음 업데이트된 단계를 따르세요:

API 키 얻기:

DeepSeek 플랫폼에 등록하고 "API 키" 섹션에서 API 키를 생성합니다. 이 키는 다시 표시되지 않으므로 안전하게 저장해 두세요.

첫 번째 API 호출 만들기:
DeepSeek API는 OpenAI의 API 형식과 호환되므로 기존 OpenAI SDK 또는 소프트웨어와 쉽게 통합할 수 있습니다. 아래는 Python 구현의 예입니다:

from openai import OpenAI

client = OpenAI(api_key="<Your_DeepSeek_API_Key>", base_url="https://api.deepseek.com")

response = client.chat.completions.create(
    model="deepseek-reasoner",  # DeepSeek-R1에는 'deepseek-reasoner' 사용
    messages=[
        {"role": "system", "content": "당신은 유용한 도우미입니다."},
        {"role": "user", "content": "양자 얽힘에 대해 설명해 주세요."}
    ],
    stream=False  # 스트리밍 응답을 원할 경우 True로 설정
)

print(response.choices[0].message.content)

cURL 예제:
cURL을 선호할 경우 요청하는 방법은 다음과 같습니다:

curl https://api.deepseek.com/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <Your_DeepSeek_API_Key>" \
-d '{
    "model": "deepseek-reasoner",
    "messages": [
        {"role": "system", "content": "당신은 유용한 도우미입니다."},
        {"role": "user", "content": "프랑스의 수도는 어디인가요?"}
    ],
    "stream": false
}'

모델 선택:

model="deepseek-reasoner"를 DeepSeek-R1에 대해 명시하세요.
일반 채팅 작업을 위해서는 model="deepseek-chat"를 사용하세요.

base_url은 OpenAI 호환 구성에 대해 https://api.deepseek.com/v1로 설정될 수 있지만, /v1 경로는 모델 버전과 관련이 없습니다.

로컬에서 Ollama로 DeepSeek 실행

Ollama는 DeepSeek-R1과 같은 대형 언어 모델을 로컬 머신에서 쉽게 실행할 수 있도록 합니다. 다음은 올바르게 설정하고 사용하는 방법입니다:

Ollama 설치:

공식 웹사이트에서 Ollama를 다운로드하여 설치합니다.

원하는 모델 다운로드:
다음 명령어를 사용하여 특정 버전의 DeepSeek-R1을 다운로드합니다:

# 7B 모델(기본값)의 경우:
ollama pull deepseek-r1:7b

# 더 작은 1.5B 모델의 경우:
ollama pull deepseek-r1:1.5b

# 70B와 같은 더 큰 모델의 경우:
ollama pull deepseek-r1:70b

모델 로컬 실행:
다운로드 후 다음을 사용하여 모델을 실행합니다:

ollama run deepseek-r1:7b

이렇게 하면 모델과 직접 상호작용할 수 있는 대화형 세션이 시작됩니다.

모델 변형:
DeepSeek는 다양한 사용 사례에 최적화된 Qwen 및 Llama 아키텍처를 기반으로 여러 증류 버전을 제공합니다:

DeepSeek-R1-Distill-Qwen-7B:

ollama run deepseek-r1:7b-qwen-distill

DeepSeek-R1-Distill-Llama-70B:

ollama run deepseek-r1:70b-llama-distill

하드웨어 고려 사항:

1.5B 또는 7B와 같은 작은 모델은 소비자급 GPU 또는 CPU에서 실행할 수 있습니다.
더 큰 모델(예: 70B)는 상당한 VRAM이 있는 고급 GPU가 필요합니다(예: NVIDIA A100 또는 RTX 4090).

API를 통한 대화형 채팅:
Ollama는 로컬에서 실행되는 모델을 응용 프로그램에 통합할 수 있는 API를 제공합니다:

curl http://localhost:11434/api/chat -d '{
    "model": "deepseek-r1:7b",
    "messages": [
        {"role": "user", "content": "별에 대한 짧은 시를 작성하세요."}
    ]
}'

3단계: Browser Use 설치

Browser Use는 AI 에이전트가 웹 브라우저와 상호작용할 수 있게 해줍니다. 다음 단계를 따르세요:

설치

GitHub에서 Browser Use 저장소를 클론합니다:

git clone https://github.com/browser-use/browser-use.git
cd browser-use
pip install -r requirements.txt

구성

Browser Use WebUI를 설정합니다:

python webui.py

브라우저에서 WebUI를 열어 에이전트 설정을 구성합니다. 다음을 지정할 수 있습니다:

LLM 모델(예: DeepSeek R1)
브라우저 설정(예: 창 크기)

4단계: DeepSeek R1과 Browser Use 통합

두 도구를 통합하여 기능적인 AI 에이전트를 만들려면:

에이전트 구성

Browser Use에서 에이전트 설정을 수정하여 DeepSeek R1과 연결합니다:

{
  "model": "deepseek-r1",
  "base_url": "http://localhost:5000",
  "browser_settings": {
    "window_height": 1080,
    "window_width": 1920,
    "keep_browser_open": true
  }
}

에이전트 실행

DeepSeek R1과 Browser Use를 모두 시작합니다:

# DeepSeek R1 API 서버 시작
python -m deepseek.api_server

# Browser Use WebUI 시작
python webui.py

두 서비스가 모두 실행되면 에이전트는 양식 작성, 데이터 스크래핑 또는 웹사이트 탐색과 같은 작업을 자율적으로 수행할 수 있습니다.

5단계: 더 나은 결과를 위한 프롬프트 엔지니어링

AI 에이전트의 성능을 최적화하기 위해 프롬프트 엔지니어링 기법을 사용합니다. 예를 들어:

일반 프롬프트 템플릿

<instructions>
당신은 Browser Use를 사용하여 웹 작업을 자동화하는 AI 도우미입니다.
다음 단계에 따르세요:
1. [웹사이트]로 이동합니다.
2. [특정 작업]을 수행합니다.
3. 구조화된 형식으로 결과를 반환합니다.
</instructions>
<example>
https://example.com으로 이동하여 모든 하이퍼링크를 추출합니다.
</example>

이 구조는 명확성을 보장하고 작업 실행 정확성을 높입니다.

다음은 실행하여 시도해 볼 수 있는 데모입니다:

uv pip install gradio

python examples/gradio_demo.py

예시 1.

프롬프트: Google Docs에서 아빠에게 모든 것에 감사하는 편지를 작성하고 문서를 PDF로 저장합니다.

예시 2.

프롬프트: kayak.com에서 2024년 12월 25일부터 2025년 2월 2일까지 취리히에서 베이징까지의 항공편을 찾습니다.

예시 3.

프롬프트: 내 이력서를 읽고 ML 직업을 찾아 파일에 저장한 후, 필요하면 나에게 물어보면서 새로운 탭에서 지원하기 시작합니다.

0:00/1×

결론

DeepSeek R1과 Browser Use를 통합하면 무료, 오픈 소스이며 매우 사용자 정의 가능한 완전한 기능의 ChatGPT 운영자 대안을 구축할 수 있습니다. 이 설정은 비용을 절감할 뿐만 아니라 데이터 프라이버시 및 시스템 동작에 대한 완전한 제어를 제공합니다.

웹 작업을 자동화하든, 대화형 에이전트를 구축하든, Retrieval-Augmented Generation과 같은 고급 AI 기능을 실험하든, 이 가이드는 시작하는 데 필요한 모든 것을 제공합니다. 오픈 소스의 힘을 받아들이고 오늘날 지능형 도우미를 만들어 보세요!

💡

button