Apidog

Nền tảng phát triển API hợp tác tất cả trong một

Thiết kế API

Tài liệu API

Gỡ lỗi API

Giả lập API

Kiểm thử API tự động

Cách sử dụng DeepSeek R1 để xây dựng một giải pháp thay thế ChatGPT mã nguồn mở

中村 拓也

中村 拓也

Updated on tháng 1 26, 2025

Sự phát triển của các mô hình ngôn ngữ lớn mã nguồn mở (LLMs) đã giúp việc tạo ra các công cụ AI trở nên dễ dàng hơn bao giờ hết, cạnh tranh với những giải pháp độc quyền như ChatGPT Operator của OpenAI. Trong số các mô hình mã nguồn mở này, DeepSeek R1 nổi bật nhờ khả năng lập luận mạnh mẽ, khả năng truy cập miễn phí và tính linh hoạt. Bằng cách kết hợp DeepSeek R1 với các công cụ như Browser Use, bạn có thể xây dựng một giải pháp hoàn toàn mã nguồn mở để thay thế ChatGPT Operator mà không cần chi hàng trăm đô la cho các gói đăng ký cao cấp.

Bài viết này sẽ hướng dẫn bạn qua quá trình thiết lập DeepSeek R1 và Browser Use để tạo ra một đại lý AI có khả năng thực hiện các nhiệm vụ phức tạp, bao gồm tự động hóa web, lập luận và tương tác bằng ngôn ngữ tự nhiên. Dù bạn là một người mới bắt đầu hay một nhà phát triển có kinh nghiệm, hướng dẫn từng bước này sẽ giúp bạn bắt đầu.


ChatGPT Operator là gì và Tại sao bạn cần một Giải pháp Mã nguồn Mở?

ChatGPT Operator là một tính năng cao cấp được cung cấp bởi OpenAI cho phép người dùng tạo ra các đại lý AI tiên tiến có khả năng thực hiện các nhiệm vụ phức tạp như lập luận, tự động hóa web và giải quyết vấn đề theo nhiều bước.

ChatGPT Operator có giá $200 mỗi tháng, khiến nó trở nên kém khả thi cho các cá nhân, doanh nghiệp nhỏ hoặc tổ chức có ngân sách hạn chế.

ChatGPT Operator đã đặt vé máy bay trong video trên

Tại sao bạn cần một Giải pháp Mã nguồn Mở

Mặc dù ChatGPT Operator rất mạnh mẽ, nhưng nó có một số hạn chế khiến một giải pháp mã nguồn mở trở nên hấp dẫn:

  • Chi phí: Phí đăng ký $200/tháng có thể là một gánh nặng đối với nhiều người dùng.
  • Bảo mật dữ liệu: Việc sử dụng API độc quyền yêu cầu gửi dữ liệu đến các máy chủ bên ngoài, có thể không tuân thủ chính sách bảo mật hoặc yêu cầu quy định.
  • Tùy chỉnh hạn chế: Các giải pháp độc quyền thường hạn chế khả năng tinh chỉnh hoặc tối ưu hóa cho các nhiệm vụ cụ thể, giới hạn sự thích ứng của chúng cho các trường hợp sử dụng chuyên biệt.

Bằng cách chọn các công cụ mã nguồn mở như DeepSeek R1Browser Use, bạn có thể vượt qua những thách thức này và mở khóa nhiều lợi ích:

  • Tiết kiệm chi phí: Cả DeepSeek R1 và Browser Use đều hoàn toàn miễn phí và mã nguồn mở, loại bỏ các khoản phí đăng ký.
  • Kiểm soát hoàn toàn: Lưu trữ các công cụ trên máy tính cá nhân hoặc trên máy chủ của bạn đảm bảo bảo mật và quyền riêng tư dữ liệu hoàn toàn.
  • Tùy chỉnh: Bạn có thể tinh chỉnh mô hình cho các nhiệm vụ cụ thể, tích hợp với các công cụ khác và thay đổi hệ thống để đáp ứng các yêu cầu độc đáo của bạn.

Một cách tiếp cận mã nguồn mở không chỉ giảm sự phụ thuộc vào các nền tảng độc quyền mà còn giúp bạn xây dựng một giải pháp phù hợp với nhu cầu của mình trong khi vẫn giữ quyền kiểm soát về chi phí và dữ liệu.

💡
Mệt mỏi vì Postman? Muốn tìm một Giải pháp Thay thế Postman Rẻ hơn, Tốt hơn, với đầy đủ tính năng?

Bạn phải tham khảo Apidog, công cụ Kiểm tra API Tất cả trong một giúp bạn đi qua toàn bộ chu trình, từ thiết kế API đến tài liệu API, và tăng tốc độ làm việc của nhóm phát triển của bạn!
button

Các Thành Phần Chìa Khóa: DeepSeek R1 và Browser Use

DeepSeek R1

DeepSeek R1 là một LLM mã nguồn mở được tối ưu hóa cho các nhiệm vụ lập luận. Nó xuất sắc trong việc giải quyết vấn đề theo chuỗi tư duy, hỗ trợ lập trình và hiểu ngôn ngữ tự nhiên. Nó có sẵn với nhiều kích thước (ví dụ: 1.5B, 7B tham số), giúp nó thích ứng với các khả năng phần cứng khác nhau.

Browser Use

Browser Use là một công cụ mã nguồn mở cho phép các đại lý AI thực hiện các nhiệm vụ dựa trên trình duyệt như thu thập dữ liệu trên web, điền biểu mẫu và điều hướng tự động. Nó cung cấp một giao diện thân thiện với người dùng và có thể được tích hợp với các LLM như DeepSeek R1 để nâng cao chức năng.


Bước 1: Thiết lập Môi trường của bạn

Các yêu cầu về phần cứng

  • Đối với các phiên bản nhỏ hơn của DeepSeek R1 (ví dụ: 1.5B tham số), CPU hoặc GPU tầm trung (8GB VRAM) là đủ.
  • Các phiên bản lớn hơn yêu cầu GPU cao cấp (ví dụ: NVIDIA A100 hoặc RTX 4090).

Hệ điều hành

  • Linux hoặc macOS được khuyên dùng để dễ thiết lập. Người dùng Windows có thể sử dụng WSL (Windows Subsystem for Linux).

Môi trường Python

Tạo một môi trường ảo Python để cách ly các phụ thuộc:

python -m venv venv
source venv/bin/activate  # Trên Linux/macOS
# Trên Windows:
# venv\Scripts\activate

Cài đặt các thư viện cần thiết:

pip install torch torchvision transformers sentencepiece

Bước 2: Chạy DeepSeek với API hoặc Tại chỗ với Ollama

Cách sử dụng API DeepSeek

Để tương tác với API DeepSeek, hãy làm theo các bước cập nhật sau:

Nhận một API Key:

  • Đăng ký trên nền tảng DeepSeek và tạo một API key từ phần "API Keys". Lưu khóa này cẩn thận vì nó sẽ không được hiển thị lại.

Thực hiện cuộc gọi API đầu tiên của bạn:
API DeepSeek tương thích với định dạng API của OpenAI, giúp dễ dàng tích hợp với các SDK hoặc phần mềm OpenAI hiện có. Dưới đây là ví dụ về một triển khai Python:

from openai import OpenAI

client = OpenAI(api_key="<Your_DeepSeek_API_Key>", base_url="https://api.deepseek.com")

response = client.chat.completions.create(
    model="deepseek-reasoner",  # Sử dụng 'deepseek-reasoner' cho DeepSeek-R1
    messages=[
        {"role": "system", "content": "Bạn là một trợ lý hữu ích."},
        {"role": "user", "content": "Giải thích về sự ràng buộc lượng tử."}
    ],
    stream=False  # Đặt là True nếu bạn muốn nhận phản hồi theo luồng
)

print(response.choices[0].message.content)

Ví dụ cURL:
Nếu bạn thích sử dụng cURL, dưới đây là cách bạn có thể thực hiện một yêu cầu:

curl https://api.deepseek.com/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <Your_DeepSeek_API_Key>" \
-d '{
    "model": "deepseek-reasoner",
    "messages": [
        {"role": "system", "content": "Bạn là một trợ lý hữu ích."},
        {"role": "user", "content": "Thủ đô của Pháp là gì?"}
    ],
    "stream": false
}'

Chọn mô hình:

  • Xác định model="deepseek-reasoner" cho DeepSeek-R1.
  • Sử dụng model="deepseek-chat" cho các nhiệm vụ trò chuyện chung.

base_url cũng có thể được đặt thành https://api.deepseek.com/v1 cho các cấu hình tương thích với OpenAI, mặc dù đường dẫn /v1 không liên quan đến các phiên bản mô hình.


Chạy DeepSeek Tại chỗ với Ollama

Ollama đơn giản hóa việc chạy các mô hình ngôn ngữ lớn như DeepSeek-R1 trên máy tính của bạn. Dưới đây là cách thiết lập và sử dụng nó một cách chính xác:

Cài đặt Ollama:

  • Tải xuống và cài đặt Ollama từ trang web chính thức của nó.

Kéo Mô hình mong muốn:
Sử dụng các lệnh sau để tải về các phiên bản cụ thể của DeepSeek-R1:

# Đối với mô hình 7B (mặc định):
ollama pull deepseek-r1:7b

# Đối với mô hình nhỏ hơn 1.5B:
ollama pull deepseek-r1:1.5b

# Đối với các mô hình lớn hơn như 70B:
ollama pull deepseek-r1:70b

Chạy mô hình tại chỗ:
Sau khi tải về, chạy mô hình bằng:

ollama run deepseek-r1:7b

Điều này sẽ bắt đầu một phiên tương tác nơi bạn có thể tương tác trực tiếp với mô hình.

Các Biến thể Mô hình:
DeepSeek cung cấp một số phiên bản chưng cất dựa trên kiến trúc Qwen và Llama, được tối ưu hóa cho các trường hợp sử dụng khác nhau:

DeepSeek-R1-Distill-Qwen-7B:

ollama run deepseek-r1:7b-qwen-distill

DeepSeek-R1-Distill-Llama-70B:

ollama run deepseek-r1:70b-llama-distill

Các lưu ý về phần cứng:

  • Các mô hình nhỏ hơn như 1.5B hoặc 7B có thể chạy trên GPU tầm trung hoặc thậm chí CPU.
  • Các mô hình lớn hơn (ví dụ: 70B) yêu cầu GPU cao cấp với VRAM đáng kể (ví dụ: NVIDIA A100 hoặc RTX 4090).

Trò chuyện tương tác qua API:
Ollama cung cấp một API để tích hợp các mô hình đang chạy tại chỗ vào ứng dụng của bạn:

curl http://localhost:11434/api/chat -d '{
    "model": "deepseek-r1:7b",
    "messages": [
        {"role": "user", "content": "Viết một bài thơ ngắn về các vì sao."}
    ]
}'

Bước 3: Cài đặt Browser Use

Browser Use cho phép đại lý AI của bạn tương tác với các trình duyệt web. Hãy làm theo các bước sau:

Cài đặt

Nhân bản kho lưu trữ Browser Use từ GitHub:

git clone https://github.com/browser-use/browser-use.git
cd browser-use
pip install -r requirements.txt

Cấu hình

Thiết lập WebUI của Browser Use:

python webui.py

Mở WebUI trong trình duyệt của bạn để cấu hình các cài đặt của đại lý. Bạn có thể xác định:

  • Mô hình LLM (ví dụ: DeepSeek R1)
  • Cài đặt trình duyệt (ví dụ: kích thước cửa sổ)

Bước 4: Kết hợp DeepSeek R1 và Browser Use

Để tạo ra một đại lý AI chức năng tích hợp cả hai công cụ:

Cấu hình Đại lý

Sửa đổi cài đặt đại lý trong Browser Use để kết nối nó với DeepSeek R1:

{
  "model": "deepseek-r1",
  "base_url": "http://localhost:5000",
  "browser_settings": {
    "window_height": 1080,
    "window_width": 1920,
    "keep_browser_open": true
  }
}

Chạy Đại lý

Bắt đầu cả DeepSeek R1 và Browser Use:

# Bắt đầu máy chủ API DeepSeek R1
python -m deepseek.api_server

# Bắt đầu WebUI Browser Use
python webui.py

Trong khi cả hai dịch vụ đều đang chạy, đại lý có thể thực hiện các nhiệm vụ như điền biểu mẫu, thu thập dữ liệu hoặc điều hướng các trang web một cách tự động.


Bước 5: Kỹ thuật Tạo Prompt để có Kết quả Tốt hơn

Để tối ưu hóa hiệu suất của đại lý AI của bạn, hãy sử dụng các kỹ thuật tạo prompt. Ví dụ:

Mẫu Prompt Chung

<instructions>
Bạn là một trợ lý AI được giao nhiệm vụ tự động hóa các nhiệm vụ web sử dụng Browser Use.
Hãy làm theo các bước sau:
1. Điều hướng đến [trang web].
2. Thực hiện [nhiệm vụ cụ thể].
3. Trả về kết quả dưới định dạng có cấu trúc.
</instructions>
<example>
Điều hướng đến https://example.com và trích xuất tất cả các liên kết.
</example>

Cấu trúc này đảm bảo sự rõ ràng và cải thiện độ chính xác thực hiện nhiệm vụ.

Dưới đây là một số demo mà bạn có thể thử nghiệm bằng cách chạy:

uv pip install gradio

python examples/gradio_demo.py

Ví dụ 1.

Prompt: Viết một bức thư trong Google Docs gửi cho bố tôi, cảm ơn ông vì tất cả, và lưu tài liệu dưới dạng PDF.

Ví dụ 2.

Prompt: Tìm chuyến bay trên kayak.com từ Zurich đến Bắc Kinh từ 25.12.2024 đến 02.02.2025.

Ví dụ 3.

Prompt: Đọc CV của tôi & tìm kiếm việc làm trong lĩnh vực ML, lưu chúng vào một tệp và sau đó bắt đầu nộp đơn cho chúng trong các tab mới, nếu cần giúp đỡ, hãy hỏi tôi.'

0:00/1×


Kết luận

Bằng cách kết hợp DeepSeek R1 với Browser Use, bạn có thể xây dựng một giải pháp thay thế ChatGPT Operator hoàn toàn chức năng, miễn phí, mã nguồn mở và có độ tùy chỉnh cao. Cấu hình này không chỉ tiết kiệm chi phí mà còn cho phép bạn kiểm soát hoàn toàn về quyền riêng tư dữ liệu và hành vi hệ thống.

Dù bạn đang tự động hóa các nhiệm vụ web, xây dựng các đại lý hội thoại, hay thử nghiệm với các tính năng AI tiên tiến như Tạo dữ liệu gia tăng thông tin, hướng dẫn này cung cấp mọi thứ bạn cần để bắt đầu. Hãy đón nhận sức mạnh của mã nguồn mở và tạo trợ lý thông minh của riêng bạn ngay hôm nay!

💡
Mệt mỏi vì Postman? Muốn tìm một Giải pháp Thay thế Postman Rẻ hơn, Tốt hơn, với đầy đủ tính năng?

Bạn phải tham khảo Apidog, công cụ Kiểm tra API Tất cả trong một giúp bạn đi qua toàn bộ chu trình, từ thiết kế API đến tài liệu API, và tăng tốc độ làm việc của nhóm phát triển của bạn!
button