오픈 소스 대형 언어 모델(LLMs)의 등장은 OpenAI의 ChatGPT 운영자와 같은 독점 솔루션과 경쟁할 수 있는 AI 기반 도구를 만드는 것을 그 어느 때보다 쉽게 만들었습니다. 이러한 오픈 소스 모델 중에서 DeepSeek R1은 강력한 추론 능력, 무료 접근성 및 적응성으로 두드러집니다. DeepSeek R1을 Browser Use와 같은 도구와 결합하면 프리미엄 구독에 수백 달러를 쓰지 않고도 ChatGPT 운영자의 강력한 완전 오픈 소스 대안을 구축할 수 있습니다.
이 문서는 웹 자동화, 추론 및 자연어 상호작용을 포함한 복잡한 작업을 수행할 수 있는 AI 에이전트를 만들기 위해 DeepSeek R1과 Browser Use 설정 과정을 안내합니다. 초보자든 경험이 많은 개발자든 이 단계별 가이드가 시작하는 데 도움이 될 것입니다.
ChatGPT 운영자란 무엇이며 오픈 소스 대안이 필요한 이유는 무엇인가요?
ChatGPT 운영자는 사용자가 추론, 웹 자동화 및 다단계 문제 해결과 같은 복잡한 작업을 수행할 수 있는 고급 AI 에이전트를 생성할 수 있도록 하는 OpenAI의 프리미엄 기능입니다.
ChatGPT 운영자는 월 $200의 비용이 듭니다, 이는 개인, 소규모 비즈니스 또는 예산이 제한된 조직에 접근하기 어려울 수 있습니다.
4. Booking a one-way flight from Zurich to Vienna using the Booking integration
— Rowan Cheung (@rowancheung) January 23, 2025
This one required a bit of back and forth, with ChatGPT Operator pinging me and asking for my flight preference and having me take control of entering payment details pic.twitter.com/XZiqUsQgVh
위 비디오에서 ChatGPT 운영자가 비행기 티켓을 예약하고 있었습니다
오픈 소스 대안이 필요한 이유
ChatGPT 운영자는 강력하지만 오픈 소스 대안을 매력적으로 만드는 몇 가지 제한 사항이 있습니다:
- 비용: 월 $200의 구독료는 많은 사용자에게 부담이 될 수 있습니다.
- 데이터 프라이버시: 독점 API를 사용하면 외부 서버에 데이터를 전송해야 하며, 이는 개인정보 보호 정책 또는 규제 요구 사항을 준수하지 않을 수 있습니다.
- 제한된 사용자 정의: 독점 솔루션은 종종 미세 조정 또는 작업별 최적화를 제한하므로 특수한 사용 사례에 맞게 조정하는 데 한계가 있습니다.
DeepSeek R1과 Browser Use와 같은 오픈 소스 도구를 선택함으로써 이러한 문제를 극복하고 여러 가지 이점을 누릴 수 있습니다:
- 비용 절감: DeepSeek R1과 Browser Use는 모두 완전히 무료이며 오픈 소스이므로 구독료가 없습니다.
- 완전한 제어: 도구를 로컬 또는 자체 서버에서 호스팅하면 완전한 데이터 프라이버시와 보안이 보장됩니다.
- 사용자 정의 가능성: 특정 작업에 맞게 모델을 미세 조정하고 다른 도구와 통합하며 시스템을 고유한 요구 사항에 맞게 수정할 수 있습니다.
오픈 소스 접근 방식은 독점 플랫폼에 대한 의존도를 줄일 뿐만 아니라, 비용과 데이터에 대한 통제를 유지하면서 필요에 맞게 조정된 솔루션을 구축할 수 있는 권한을 부여합니다.
전체 사이클을 거쳐 API 테스트를 수행하는 Apidog를 확인해 보세요. API 디자인부터 API 문서화까지, 여러분의 개발 팀의 생산성을 높여줍니다!

주요 구성 요소: DeepSeek R1 및 Browser Use
DeepSeek R1
DeepSeek R1은 추론 작업에 최적화된 오픈 소스 LLM입니다. 체인 오브 씽크 문제 해결, 코드 지원 및 자연어 이해에서 뛰어난 성능을 발휘합니다. 여러 크기로 제공되며(예: 1.5B, 7B 매개변수) 다양한 하드웨어 요구 사항에 맞게 조정할 수 있습니다.
Browser Use
Browser Use는 AI 에이전트가 웹 스크래핑, 양식 작성 및 자동 탐색과 같은 브라우저 기반 작업을 수행할 수 있게 해주는 오픈 소스 도구입니다. 사용자 친화적인 인터페이스를 제공하며 DeepSeek R1과 같은 LLM과 통합하여 기능을 향상시킬 수 있습니다.
1단계: 환경 설정
하드웨어 요구 사항
- DeepSeek R1의 작은 버전(예: 1.5B 매개변수)의 경우 CPU 또는 중간 범위 GPU(8GB VRAM)가 충분합니다.
- 더 큰 버전은 고급 GPU(예: NVIDIA A100 또는 RTX 4090)가 필요합니다.
운영 체제
- 설정이 용이하도록 Linux 또는 macOS를 권장합니다. Windows 사용자는 WSL(Windows Subsystem for Linux)를 사용할 수 있습니다.
Python 환경
종속성을 분리하기 위해 Python 가상 환경을 만듭니다:
python -m venv venv
source venv/bin/activate # Linux/macOS에서
# Windows에서는:
# venv\Scripts\activate
필요한 라이브러리를 설치합니다:
pip install torch torchvision transformers sentencepiece
2단계: API로 DeepSeek 실행 또는 로컬에서 Ollama로 실행
DeepSeek API 사용법
DeepSeek API와 상호작용하려면 다음 업데이트된 단계를 따르세요:
API 키 얻기:
- DeepSeek 플랫폼에 등록하고 "API 키" 섹션에서 API 키를 생성합니다. 이 키는 다시 표시되지 않으므로 안전하게 저장해 두세요.
첫 번째 API 호출 만들기:
DeepSeek API는 OpenAI의 API 형식과 호환되므로 기존 OpenAI SDK 또는 소프트웨어와 쉽게 통합할 수 있습니다. 아래는 Python 구현의 예입니다:
from openai import OpenAI
client = OpenAI(api_key="<Your_DeepSeek_API_Key>", base_url="https://api.deepseek.com")
response = client.chat.completions.create(
model="deepseek-reasoner", # DeepSeek-R1에는 'deepseek-reasoner' 사용
messages=[
{"role": "system", "content": "당신은 유용한 도우미입니다."},
{"role": "user", "content": "양자 얽힘에 대해 설명해 주세요."}
],
stream=False # 스트리밍 응답을 원할 경우 True로 설정
)
print(response.choices[0].message.content)
cURL 예제:
cURL을 선호할 경우 요청하는 방법은 다음과 같습니다:
curl https://api.deepseek.com/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <Your_DeepSeek_API_Key>" \
-d '{
"model": "deepseek-reasoner",
"messages": [
{"role": "system", "content": "당신은 유용한 도우미입니다."},
{"role": "user", "content": "프랑스의 수도는 어디인가요?"}
],
"stream": false
}'
모델 선택:
model="deepseek-reasoner"
를 DeepSeek-R1에 대해 명시하세요.- 일반 채팅 작업을 위해서는
model="deepseek-chat"
를 사용하세요.
base_url
은 OpenAI 호환 구성에 대해 https://api.deepseek.com/v1
로 설정될 수 있지만, /v1
경로는 모델 버전과 관련이 없습니다.
로컬에서 Ollama로 DeepSeek 실행
Ollama는 DeepSeek-R1과 같은 대형 언어 모델을 로컬 머신에서 쉽게 실행할 수 있도록 합니다. 다음은 올바르게 설정하고 사용하는 방법입니다:
Ollama 설치:
- 공식 웹사이트에서 Ollama를 다운로드하여 설치합니다.
원하는 모델 다운로드:
다음 명령어를 사용하여 특정 버전의 DeepSeek-R1을 다운로드합니다:
# 7B 모델(기본값)의 경우:
ollama pull deepseek-r1:7b
# 더 작은 1.5B 모델의 경우:
ollama pull deepseek-r1:1.5b
# 70B와 같은 더 큰 모델의 경우:
ollama pull deepseek-r1:70b
모델 로컬 실행:
다운로드 후 다음을 사용하여 모델을 실행합니다:
ollama run deepseek-r1:7b
이렇게 하면 모델과 직접 상호작용할 수 있는 대화형 세션이 시작됩니다.
모델 변형:
DeepSeek는 다양한 사용 사례에 최적화된 Qwen 및 Llama 아키텍처를 기반으로 여러 증류 버전을 제공합니다:
DeepSeek-R1-Distill-Qwen-7B:
ollama run deepseek-r1:7b-qwen-distill
DeepSeek-R1-Distill-Llama-70B:
ollama run deepseek-r1:70b-llama-distill
하드웨어 고려 사항:
- 1.5B 또는 7B와 같은 작은 모델은 소비자급 GPU 또는 CPU에서 실행할 수 있습니다.
- 더 큰 모델(예: 70B)는 상당한 VRAM이 있는 고급 GPU가 필요합니다(예: NVIDIA A100 또는 RTX 4090).
API를 통한 대화형 채팅:
Ollama는 로컬에서 실행되는 모델을 응용 프로그램에 통합할 수 있는 API를 제공합니다:
curl http://localhost:11434/api/chat -d '{
"model": "deepseek-r1:7b",
"messages": [
{"role": "user", "content": "별에 대한 짧은 시를 작성하세요."}
]
}'
3단계: Browser Use 설치

Browser Use는 AI 에이전트가 웹 브라우저와 상호작용할 수 있게 해줍니다. 다음 단계를 따르세요:
설치
GitHub에서 Browser Use 저장소를 클론합니다:
git clone https://github.com/browser-use/browser-use.git
cd browser-use
pip install -r requirements.txt
구성
Browser Use WebUI를 설정합니다:
python webui.py
브라우저에서 WebUI를 열어 에이전트 설정을 구성합니다. 다음을 지정할 수 있습니다:
- LLM 모델(예: DeepSeek R1)
- 브라우저 설정(예: 창 크기)
4단계: DeepSeek R1과 Browser Use 통합
두 도구를 통합하여 기능적인 AI 에이전트를 만들려면:
에이전트 구성
Browser Use에서 에이전트 설정을 수정하여 DeepSeek R1과 연결합니다:
{
"model": "deepseek-r1",
"base_url": "http://localhost:5000",
"browser_settings": {
"window_height": 1080,
"window_width": 1920,
"keep_browser_open": true
}
}
에이전트 실행
DeepSeek R1과 Browser Use를 모두 시작합니다:
# DeepSeek R1 API 서버 시작
python -m deepseek.api_server
# Browser Use WebUI 시작
python webui.py
두 서비스가 모두 실행되면 에이전트는 양식 작성, 데이터 스크래핑 또는 웹사이트 탐색과 같은 작업을 자율적으로 수행할 수 있습니다.
5단계: 더 나은 결과를 위한 프롬프트 엔지니어링
AI 에이전트의 성능을 최적화하기 위해 프롬프트 엔지니어링 기법을 사용합니다. 예를 들어:
일반 프롬프트 템플릿
<instructions>
당신은 Browser Use를 사용하여 웹 작업을 자동화하는 AI 도우미입니다.
다음 단계에 따르세요:
1. [웹사이트]로 이동합니다.
2. [특정 작업]을 수행합니다.
3. 구조화된 형식으로 결과를 반환합니다.
</instructions>
<example>
https://example.com으로 이동하여 모든 하이퍼링크를 추출합니다.
</example>
이 구조는 명확성을 보장하고 작업 실행 정확성을 높입니다.
다음은 실행하여 시도해 볼 수 있는 데모입니다:
uv pip install gradio
python examples/gradio_demo.py
예시 1.
프롬프트: Google Docs에서 아빠에게 모든 것에 감사하는 편지를 작성하고 문서를 PDF로 저장합니다.

예시 2.
프롬프트: kayak.com에서 2024년 12월 25일부터 2025년 2월 2일까지 취리히에서 베이징까지의 항공편을 찾습니다.

예시 3.
프롬프트: 내 이력서를 읽고 ML 직업을 찾아 파일에 저장한 후, 필요하면 나에게 물어보면서 새로운 탭에서 지원하기 시작합니다.
0:00/1×
결론
DeepSeek R1과 Browser Use를 통합하면 무료, 오픈 소스이며 매우 사용자 정의 가능한 완전한 기능의 ChatGPT 운영자 대안을 구축할 수 있습니다. 이 설정은 비용을 절감할 뿐만 아니라 데이터 프라이버시 및 시스템 동작에 대한 완전한 제어를 제공합니다.
웹 작업을 자동화하든, 대화형 에이전트를 구축하든, Retrieval-Augmented Generation과 같은 고급 AI 기능을 실험하든, 이 가이드는 시작하는 데 필요한 모든 것을 제공합니다. 오픈 소스의 힘을 받아들이고 오늘날 지능형 도우미를 만들어 보세요!
전체 사이클을 거쳐 API 테스트를 수행하는 Apidog를 확인해 보세요. API 디자인부터 API 문서화까지, 여러분의 개발 팀의 생산성을 높여줍니다!
