Cách sử dụng DeepSeek R1 để xây dựng một giải pháp thay thế ChatGPT mã nguồn mở

中村 拓也

中村 拓也

26 tháng 1 2025

Cách sử dụng DeepSeek R1 để xây dựng một giải pháp thay thế ChatGPT mã nguồn mở

Sự phát triển của các mô hình ngôn ngữ lớn mã nguồn mở (LLMs) đã giúp việc tạo ra các công cụ AI trở nên dễ dàng hơn bao giờ hết, cạnh tranh với những giải pháp độc quyền như ChatGPT Operator của OpenAI. Trong số các mô hình mã nguồn mở này, DeepSeek R1 nổi bật nhờ khả năng lập luận mạnh mẽ, khả năng truy cập miễn phí và tính linh hoạt. Bằng cách kết hợp DeepSeek R1 với các công cụ như Browser Use, bạn có thể xây dựng một giải pháp hoàn toàn mã nguồn mở để thay thế ChatGPT Operator mà không cần chi hàng trăm đô la cho các gói đăng ký cao cấp.

Bài viết này sẽ hướng dẫn bạn qua quá trình thiết lập DeepSeek R1 và Browser Use để tạo ra một đại lý AI có khả năng thực hiện các nhiệm vụ phức tạp, bao gồm tự động hóa web, lập luận và tương tác bằng ngôn ngữ tự nhiên. Dù bạn là một người mới bắt đầu hay một nhà phát triển có kinh nghiệm, hướng dẫn từng bước này sẽ giúp bạn bắt đầu.


ChatGPT Operator là gì và Tại sao bạn cần một Giải pháp Mã nguồn Mở?

ChatGPT Operator là một tính năng cao cấp được cung cấp bởi OpenAI cho phép người dùng tạo ra các đại lý AI tiên tiến có khả năng thực hiện các nhiệm vụ phức tạp như lập luận, tự động hóa web và giải quyết vấn đề theo nhiều bước.

ChatGPT Operator có giá $200 mỗi tháng, khiến nó trở nên kém khả thi cho các cá nhân, doanh nghiệp nhỏ hoặc tổ chức có ngân sách hạn chế.

ChatGPT Operator đã đặt vé máy bay trong video trên

Tại sao bạn cần một Giải pháp Mã nguồn Mở

Mặc dù ChatGPT Operator rất mạnh mẽ, nhưng nó có một số hạn chế khiến một giải pháp mã nguồn mở trở nên hấp dẫn:

Bằng cách chọn các công cụ mã nguồn mở như DeepSeek R1Browser Use, bạn có thể vượt qua những thách thức này và mở khóa nhiều lợi ích:

Một cách tiếp cận mã nguồn mở không chỉ giảm sự phụ thuộc vào các nền tảng độc quyền mà còn giúp bạn xây dựng một giải pháp phù hợp với nhu cầu của mình trong khi vẫn giữ quyền kiểm soát về chi phí và dữ liệu.

💡
Mệt mỏi vì Postman? Muốn tìm một Giải pháp Thay thế Postman Rẻ hơn, Tốt hơn, với đầy đủ tính năng?

Bạn phải tham khảo Apidog, công cụ Kiểm tra API Tất cả trong một giúp bạn đi qua toàn bộ chu trình, từ thiết kế API đến tài liệu API, và tăng tốc độ làm việc của nhóm phát triển của bạn!
button

Các Thành Phần Chìa Khóa: DeepSeek R1 và Browser Use

DeepSeek R1

DeepSeek R1 là một LLM mã nguồn mở được tối ưu hóa cho các nhiệm vụ lập luận. Nó xuất sắc trong việc giải quyết vấn đề theo chuỗi tư duy, hỗ trợ lập trình và hiểu ngôn ngữ tự nhiên. Nó có sẵn với nhiều kích thước (ví dụ: 1.5B, 7B tham số), giúp nó thích ứng với các khả năng phần cứng khác nhau.

Browser Use

Browser Use là một công cụ mã nguồn mở cho phép các đại lý AI thực hiện các nhiệm vụ dựa trên trình duyệt như thu thập dữ liệu trên web, điền biểu mẫu và điều hướng tự động. Nó cung cấp một giao diện thân thiện với người dùng và có thể được tích hợp với các LLM như DeepSeek R1 để nâng cao chức năng.


Bước 1: Thiết lập Môi trường của bạn

Các yêu cầu về phần cứng

Hệ điều hành

Môi trường Python

Tạo một môi trường ảo Python để cách ly các phụ thuộc:

python -m venv venv
source venv/bin/activate  # Trên Linux/macOS
# Trên Windows:
# venv\Scripts\activate

Cài đặt các thư viện cần thiết:

pip install torch torchvision transformers sentencepiece

Bước 2: Chạy DeepSeek với API hoặc Tại chỗ với Ollama

Cách sử dụng API DeepSeek

Để tương tác với API DeepSeek, hãy làm theo các bước cập nhật sau:

Nhận một API Key:

Thực hiện cuộc gọi API đầu tiên của bạn:
API DeepSeek tương thích với định dạng API của OpenAI, giúp dễ dàng tích hợp với các SDK hoặc phần mềm OpenAI hiện có. Dưới đây là ví dụ về một triển khai Python:

from openai import OpenAI

client = OpenAI(api_key="<Your_DeepSeek_API_Key>", base_url="https://api.deepseek.com")

response = client.chat.completions.create(
    model="deepseek-reasoner",  # Sử dụng 'deepseek-reasoner' cho DeepSeek-R1
    messages=[
        {"role": "system", "content": "Bạn là một trợ lý hữu ích."},
        {"role": "user", "content": "Giải thích về sự ràng buộc lượng tử."}
    ],
    stream=False  # Đặt là True nếu bạn muốn nhận phản hồi theo luồng
)

print(response.choices[0].message.content)

Ví dụ cURL:
Nếu bạn thích sử dụng cURL, dưới đây là cách bạn có thể thực hiện một yêu cầu:

curl https://api.deepseek.com/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <Your_DeepSeek_API_Key>" \
-d '{
    "model": "deepseek-reasoner",
    "messages": [
        {"role": "system", "content": "Bạn là một trợ lý hữu ích."},
        {"role": "user", "content": "Thủ đô của Pháp là gì?"}
    ],
    "stream": false
}'

Chọn mô hình:

base_url cũng có thể được đặt thành https://api.deepseek.com/v1 cho các cấu hình tương thích với OpenAI, mặc dù đường dẫn /v1 không liên quan đến các phiên bản mô hình.


Chạy DeepSeek Tại chỗ với Ollama

Ollama đơn giản hóa việc chạy các mô hình ngôn ngữ lớn như DeepSeek-R1 trên máy tính của bạn. Dưới đây là cách thiết lập và sử dụng nó một cách chính xác:

Cài đặt Ollama:

Kéo Mô hình mong muốn:
Sử dụng các lệnh sau để tải về các phiên bản cụ thể của DeepSeek-R1:

# Đối với mô hình 7B (mặc định):
ollama pull deepseek-r1:7b

# Đối với mô hình nhỏ hơn 1.5B:
ollama pull deepseek-r1:1.5b

# Đối với các mô hình lớn hơn như 70B:
ollama pull deepseek-r1:70b

Chạy mô hình tại chỗ:
Sau khi tải về, chạy mô hình bằng:

ollama run deepseek-r1:7b

Điều này sẽ bắt đầu một phiên tương tác nơi bạn có thể tương tác trực tiếp với mô hình.

Các Biến thể Mô hình:
DeepSeek cung cấp một số phiên bản chưng cất dựa trên kiến trúc Qwen và Llama, được tối ưu hóa cho các trường hợp sử dụng khác nhau:

DeepSeek-R1-Distill-Qwen-7B:

ollama run deepseek-r1:7b-qwen-distill

DeepSeek-R1-Distill-Llama-70B:

ollama run deepseek-r1:70b-llama-distill

Các lưu ý về phần cứng:

Trò chuyện tương tác qua API:
Ollama cung cấp một API để tích hợp các mô hình đang chạy tại chỗ vào ứng dụng của bạn:

curl http://localhost:11434/api/chat -d '{
    "model": "deepseek-r1:7b",
    "messages": [
        {"role": "user", "content": "Viết một bài thơ ngắn về các vì sao."}
    ]
}'

Bước 3: Cài đặt Browser Use

Browser Use cho phép đại lý AI của bạn tương tác với các trình duyệt web. Hãy làm theo các bước sau:

Cài đặt

Nhân bản kho lưu trữ Browser Use từ GitHub:

git clone https://github.com/browser-use/browser-use.git
cd browser-use
pip install -r requirements.txt

Cấu hình

Thiết lập WebUI của Browser Use:

python webui.py

Mở WebUI trong trình duyệt của bạn để cấu hình các cài đặt của đại lý. Bạn có thể xác định:


Bước 4: Kết hợp DeepSeek R1 và Browser Use

Để tạo ra một đại lý AI chức năng tích hợp cả hai công cụ:

Cấu hình Đại lý

Sửa đổi cài đặt đại lý trong Browser Use để kết nối nó với DeepSeek R1:

{
  "model": "deepseek-r1",
  "base_url": "http://localhost:5000",
  "browser_settings": {
    "window_height": 1080,
    "window_width": 1920,
    "keep_browser_open": true
  }
}

Chạy Đại lý

Bắt đầu cả DeepSeek R1 và Browser Use:

# Bắt đầu máy chủ API DeepSeek R1
python -m deepseek.api_server

# Bắt đầu WebUI Browser Use
python webui.py

Trong khi cả hai dịch vụ đều đang chạy, đại lý có thể thực hiện các nhiệm vụ như điền biểu mẫu, thu thập dữ liệu hoặc điều hướng các trang web một cách tự động.


Bước 5: Kỹ thuật Tạo Prompt để có Kết quả Tốt hơn

Để tối ưu hóa hiệu suất của đại lý AI của bạn, hãy sử dụng các kỹ thuật tạo prompt. Ví dụ:

Mẫu Prompt Chung

<instructions>
Bạn là một trợ lý AI được giao nhiệm vụ tự động hóa các nhiệm vụ web sử dụng Browser Use.
Hãy làm theo các bước sau:
1. Điều hướng đến [trang web].
2. Thực hiện [nhiệm vụ cụ thể].
3. Trả về kết quả dưới định dạng có cấu trúc.
</instructions>
<example>
Điều hướng đến https://example.com và trích xuất tất cả các liên kết.
</example>

Cấu trúc này đảm bảo sự rõ ràng và cải thiện độ chính xác thực hiện nhiệm vụ.

Dưới đây là một số demo mà bạn có thể thử nghiệm bằng cách chạy:

uv pip install gradio

python examples/gradio_demo.py

Ví dụ 1.

Prompt: Viết một bức thư trong Google Docs gửi cho bố tôi, cảm ơn ông vì tất cả, và lưu tài liệu dưới dạng PDF.

Ví dụ 2.

Prompt: Tìm chuyến bay trên kayak.com từ Zurich đến Bắc Kinh từ 25.12.2024 đến 02.02.2025.

Ví dụ 3.

Prompt: Đọc CV của tôi & tìm kiếm việc làm trong lĩnh vực ML, lưu chúng vào một tệp và sau đó bắt đầu nộp đơn cho chúng trong các tab mới, nếu cần giúp đỡ, hãy hỏi tôi.'

0:00/1×


Kết luận

Bằng cách kết hợp DeepSeek R1 với Browser Use, bạn có thể xây dựng một giải pháp thay thế ChatGPT Operator hoàn toàn chức năng, miễn phí, mã nguồn mở và có độ tùy chỉnh cao. Cấu hình này không chỉ tiết kiệm chi phí mà còn cho phép bạn kiểm soát hoàn toàn về quyền riêng tư dữ liệu và hành vi hệ thống.

Dù bạn đang tự động hóa các nhiệm vụ web, xây dựng các đại lý hội thoại, hay thử nghiệm với các tính năng AI tiên tiến như Tạo dữ liệu gia tăng thông tin, hướng dẫn này cung cấp mọi thứ bạn cần để bắt đầu. Hãy đón nhận sức mạnh của mã nguồn mở và tạo trợ lý thông minh của riêng bạn ngay hôm nay!

💡
Mệt mỏi vì Postman? Muốn tìm một Giải pháp Thay thế Postman Rẻ hơn, Tốt hơn, với đầy đủ tính năng?

Bạn phải tham khảo Apidog, công cụ Kiểm tra API Tất cả trong một giúp bạn đi qua toàn bộ chu trình, từ thiết kế API đến tài liệu API, và tăng tốc độ làm việc của nhóm phát triển của bạn!
button

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API