Cách chạy Deepseek V3 0323 cục bộ với MLX

Giới thiệu

Các máy tính Mac sử dụng Apple Silicon đã thay đổi việc triển khai mô hình AI địa phương, mang lại sức mạnh tính toán chưa từng có trong phần cứng dành cho người tiêu dùng. Với sự ra mắt của Deepseek V3 0323, một mô hình ngôn ngữ lớn mạnh mẽ (LLM), người dùng Mac hiện có thể chạy các mô hình AI tinh vi tại chỗ bằng cách sử dụng MLX, khung học máy của Apple được tối ưu hóa đặc biệt cho Apple Silicon. Hướng dẫn toàn diện này sẽ dẫn bạn qua toàn bộ quy trình thiết lập và chạy Deepseek V3 0323 trên Mac của bạn, bao gồm các chỉ số hiệu suất và so sánh với các mô hình hàng đầu khác như Claude Sonnet 3.7.

💡

Đối với các nhà phát triển đang tìm kiếm cách tối ưu hóa phát triển và thử nghiệm API của bạn, Apidog cung cấp một nền tảng toàn diện cho thiết kế, thử nghiệm và tài liệu API. Apidog mang lại tự động hóa cho phát triển API, giúp bạn làm việc nhanh hơn và hiệu quả hơn.

nút

Deepseek V3 0323 là gì?

Hiệu suất Deepseek V3 0323 so với Deepseek V3

Deepseek V3 0323 là một phần của gia đình mô hình Deepseek V3, một loạt các mô hình ngôn ngữ lớn tiên tiến được phát triển bởi phòng thí nghiệm AI Trung Quốc DeepSeek. Mô hình này đại diện cho khả năng AI tiên tiến với hiệu suất mạnh mẽ trên nhiều tác vụ ngôn ngữ khác nhau, tạo mã, suy luận và sáng tạo nội dung. "0323" trong tên mô hình chỉ ra ngày phát hành của nó (23 tháng 3), theo cách đặt tên của DeepSeek bằng cách kết hợp ngày phát hành vào tên mô hình.

Các mô hình mới nhất trong gia đình Deepseek V3 có sức mạnh rất ấn tượng và đã được phát hành dưới giấy phép MIT, làm cho chúng hoàn toàn mã nguồn mở và có sẵn cho cả sử dụng cá nhân và thương mại. Điều này đánh dấu một bước chuyển biến lớn từ các phiên bản trước có các hạn chế giấy phép tùy chỉnh.

Thống kê và hiệu suất Deepseek V3 0304

Gia đình mô hình Deepseek V3 đã cho thấy kết quả thống kê ấn tượng trên nhiều chỉ tiêu khác nhau. Nhìn cụ thể vào Deepseek V3 0304 (phiên bản trước của 0323), dữ liệu hiệu suất cho thấy nó đạt hoặc vượt qua nhiều đối thủ thương mại.

Kết quả thống kê chính

Theo các thử nghiệm độc lập và thông tin từ Paul Gauthier, Deepseek V3 đạt 55% trên chuẩn đánh giá polyglot aider, cải thiện đáng kể so với các phiên bản trước. Điều này đưa nó trở thành mô hình không tư duy/suy luận đứng thứ hai, chỉ sau Claude Sonnet 3.7.

Về hiệu suất thực tế, các mô hình Deepseek V3 thể hiện:

Khả năng suy luận mạnh mẽ: Hiệu suất xuất sắc trên các vấn đề phức tạp đòi hỏi tư duy nhiều bước
Xuất sắc trong tạo mã: Đặc biệt mạnh trong các tác vụ lập trình polyglot
Tuân thủ hướng dẫn: Tuân thủ cao với các hướng dẫn cụ thể
Giữ ngữ cảnh: Sử dụng hiệu quả ngữ cảnh đã cung cấp để có phản hồi chính xác
Độ chính xác của tri thức: Thông tin thực tế đáng tin cậy với ít ảo giác

Deepseek V3 so với Claude 3.7 Sonnet so với Claude 3.7 Sonnet Thinking so với o3-mini

Khi so sánh Deepseek V3 0304 với Claude Sonnet 3.7:

Trong khi Claude Sonnet 3.7 nổi trội hơn ở một số chỉ tiêu thống kê, khả năng chạy của Deepseek V3 trên phần cứng tiêu dùng với MLX đại diện cho một lợi thế đáng kể cho những người dùng ưu tiên quyền riêng tư, truy cập ngoại tuyến và hiệu quả chi phí.

Có, bạn có thể chạy Deepseek V3 0324 trên Mac Studio với MLX

Deep Seek V3 0324 mới trong chế độ 4-bit chạy tại > 20 toks/sec trên M3 Ultra 512GB với mlx-lm! pic.twitter.com/wFVrFCxGS6 24 tháng 3, 2025

Chạy Deepseek V3 trên máy tính của bạn với MLX mang lại một số lợi ích chính:

Quyền riêng tư: Dữ liệu của bạn không bao giờ rời khỏi thiết bị của bạn, đảm bảo quyền riêng tư hoàn toàn
Không có chi phí API: Tránh phải trả tiền cho việc sử dụng API và giới hạn token
Toàn quyền kiểm soát: Tùy chỉnh cài đặt và tinh chỉnh theo nhu cầu
Không phụ thuộc internet: Sử dụng mô hình ngoại tuyến
Độ trễ thấp: Trải nghiệm thời gian phản hồi nhanh hơn mà không có độ trễ mạng
Tối ưu hóa cho Apple Silicon: MLX được thiết kế đặc biệt để tận dụng Neural Engine trong các chip M-series

Yêu cầu phần cứng để chạy Deepseek V3 0323 tại chỗ

Trước khi bắt đầu, hãy đảm bảo rằng Mac của bạn đáp ứng các yêu cầu tối thiểu này:

Mac sử dụng Apple Silicon (chuỗi M1, M2, M3 hoặc M4)
Tối thiểu 16GB RAM (khuyến nghị 32GB)
Ít nhất 700GB không gian lưu trữ trống (mô hình đầy đủ khoảng 641GB, mặc dù các phiên bản lượng tử yêu cầu ít hơn)

Để có hiệu suất tối ưu khi chạy mô hình đầy đủ:

64GB+ RAM
Chip M2 Ultra, M3 Ultra hoặc M4

Hiệu suất thay đổi đáng kể dựa trên thông số kỹ thuật của Mac của bạn. Theo nhà phát triển MLX Awni Hannun, Deepseek V3 mới nhất có thể chạy với tốc độ vượt quá 20 token mỗi giây trên một chiếc Mac Studio M3 Ultra 512GB sử dụng lượng tử 4-bit.

Hướng dẫn từng bước để chạy Deepseek V3 0323 tại chỗ

Bước 1: Thiết lập môi trường của bạn

Đầu tiên, hãy thiết lập một môi trường ảo Python để giữ cho các gói phụ thuộc của chúng ta có tổ chức:

# Tạo một thư mục mới cho dự án của bạn
mkdir deepseek-mlx
cd deepseek-mlx

# Tạo một môi trường ảo
python3 -m venv env

# Kích hoạt môi trường
source env/bin/activate

Bước 2: Cài đặt các gói cần thiết

MLX và MLX-LM là các gói cốt lõi cần thiết để chạy Deepseek V3 với MLX:

# Cài đặt MLX và MLX-LM
pip install mlx mlx-lm

# Tùy chọn: Cài đặt PyTorch nightly (ngăn chặn cảnh báo)
pip install --pre torch --index-url <https://download.pytorch.org/whl/nightly/cpu>

Bước 3: Cài đặt công cụ dòng lệnh LLM

Công cụ dòng lệnh llm giúp đơn giản hóa việc làm việc với các mô hình ngôn ngữ. Hãy cài đặt nó cùng với plugin MLX:

pip install llm
pip install llm-mlx

Bước 4: Tải xuống mô hình Deepseek V3 0323

Có hai cách để tải xuống mô hình:

Tùy chọn A: Phiên bản tiêu chuẩn (Chất lượng đầy đủ)

# Tải xuống mô hình đầy đủ (cần không gian đĩa đáng kể)
llm mlx download-model deepseek-ai/DeepSeek-V3-0323

Tùy chọn B: Phiên bản lượng tử (Kích thước nhỏ hơn, chất lượng hơi thấp hơn)

# Tải xuống mô hình lượng tử 4-bit (khuyến nghị cho hầu hết người dùng)
llm mlx download-model mlx-community/DeepSeek-V3-0323-4bit

Việc tải xuống sẽ mất một thời gian tùy thuộc vào tốc độ kết nối internet của bạn. Mô hình lượng tử 4-bit giảm đáng kể yêu cầu lưu trữ xuống khoảng 350GB trong khi vẫn duy trì hầu hết các hiệu suất.

Bước 5: Thử nghiệm mô hình

Ngay sau khi mô hình được tải xuống, bạn có thể kiểm tra nó với một lời nhắc đơn giản:

# Thử nghiệm với một lời nhắc cơ bản
llm chat -m mlx-community/DeepSeek-V3-0323-4bit

Điều này sẽ bắt đầu một phiên trò chuyện tương tác với mô hình Deepseek V3 0323. Bây giờ bạn có thể nhập các lời nhắc của mình và tương tác với mô hình.

Bước 6: Chạy như một máy chủ API địa phương

Để sử dụng linh hoạt hơn, bạn có thể chạy Deepseek V3 0323 như một máy chủ API địa phương:

# Khởi động máy chủ
python -m mlx_lm.server --model mlx-community/DeepSeek-V3-0323-4bit --port 8080

Máy chủ sẽ khởi động trên localhost:8080, cung cấp một điểm cuối API tương thích với OpenAI tại http://localhost:8080/v1/chat/completions.

Bước 7: Tương tác với API

Tạo một tập tin Python đơn giản để tương tác với máy chủ API địa phương của bạn:

import requests
import json

def chat_with_model(prompt):
    url = "<http://localhost:8080/v1/chat/completions>"
    headers = {"Content-Type": "application/json"}
    data = {
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.7,
        "max_tokens": 500
    }

    response = requests.post(url, headers=headers, json=data)
    return response.json()["choices"][0]["message"]["content"]

# Thử nghiệm với API
response = chat_with_model("Giải thích về máy tính lượng tử bằng từ ngữ đơn giản")
print(response)

Mẹo tối ưu hóa hiệu suất

Để có hiệu suất tốt nhất từ Deepseek V3 trên Mac của bạn:

Đóng các ứng dụng khác: Giảm thiểu các quy trình nền để giải phóng bộ nhớ
Điều chỉnh cửa sổ ngữ cảnh: Các cửa sổ ngữ cảnh nhỏ hơn sẽ sử dụng ít bộ nhớ hơn
Lượng tử hóa: Sử dụng lượng tử 4-bit cho hiệu suất tốt hơn trên các máy tính có thông số kỹ thuật thấp hơn
Thông gió: Đảm bảo thông gió đúng cho Mac của bạn trong quá trình sử dụng kéo dài
Tinh chỉnh thông số: Thử nghiệm với các cài đặt nhiệt độ và top_p cho các trường hợp sử dụng khác nhau

Tinh chỉnh Deepseek V3

Đối với các ứng dụng chuyên biệt, bạn có thể muốn tinh chỉnh Deepseek V3 trên dữ liệu của riêng mình:

# Cài đặt các gói phụ thuộc cho việc tinh chỉnh
pip install datasets peft trl

# Chạy kịch bản tinh chỉnh (ví dụ)
python fine_tune_mlx.py \\\\
  --model mlx-community/DeepSeek-V3-0323-4bit \\\\
  --dataset your_dataset.json \\\\
  --output-dir fine_tuned_model \\\\
  --epochs 3

Nhúng mô hình vào các ứng dụng

Để tích hợp Deepseek V3 vào các ứng dụng của bạn, bạn có thể sử dụng máy chủ API hoặc giao diện trực tiếp với MLX:

from mlx_lm import load, generate

# Tải mô hình
model, tokenizer = load("mlx-community/DeepSeek-V3-0323-4bit")

# Tạo văn bản
prompt = "Giải thích lý thuyết tương đối"
tokens = tokenizer.encode(prompt)
generation = generate(model, tokens, temp=0.7, max_tokens=500)

# In kết quả
print(tokenizer.decode(generation))

Các vấn đề thường gặp và khắc phục sự cố

Lỗi hết bộ nhớ: Hãy thử sử dụng lượng tử hóa mạnh hơn hoặc giảm cửa sổ ngữ cảnh của bạn
Tốc độ tạo chậm: Đóng các ứng dụng nền và đảm bảo thông gió đúng
Thất bại trong cài đặt: Đảm bảo rằng bạn đang sử dụng Python 3.9+ và đã cập nhật pip
Lỗi tải mô hình: Kiểm tra xem bạn có đủ không gian đĩa và đã tải mô hình đúng cách
Vấn đề kết nối API: Xác minh rằng máy chủ đang chạy và cổng không bị sử dụng bởi một ứng dụng khác

Kết luận

Chạy Deepseek V3 0323 tại chỗ trên Mac của bạn với MLX cung cấp một giải pháp AI mạnh mẽ, tập trung vào quyền riêng tư mà không có các ràng buộc của các dịch vụ dựa trên API. Với hiệu suất benchmarks gần đạt được của các mô hình thương mại hàng đầu như Claude Sonnet 3.7, Deepseek V3 đại diện cho một thành tựu ấn tượng trong AI mã nguồn mở.

Sự kết hợp giữa hiệu suất tính toán của Apple Silicon và tối ưu hóa của MLX cho các chip này làm cho việc triển khai tại chỗ ngày càng thực tế, ngay cả với các mô hình lớn trước đây yêu cầu cơ sở hạ tầng đám mây. Khi các công nghệ này tiếp tục phát triển, khoảng cách giữa AI chạy tại chỗ và AI dựa trên đám mây sẽ tiếp tục thu hẹp, trao quyền cho người dùng với nhiều quyền kiểm soát, quyền riêng tư và tính linh hoạt hơn trong các ứng dụng AI của họ.

Dù bạn là nhà phát triển muốn tích hợp khả năng AI vào các ứng dụng của mình, nhà nghiên cứu khám phá khả năng của mô hình, hay chỉ là một người yêu thích muốn trải nghiệm AI tiên tiến, việc chạy Deepseek V3 0323 tại chỗ với MLX mang lại một con đường thú vị và dễ tiếp cận.

💡

nút