Hướng Dẫn Chạy DeepSeek V4 Tại Nhà

Ashley Innocent

Ashley Innocent

24 tháng 4 2026

Hướng Dẫn Chạy DeepSeek V4 Tại Nhà

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

DeepSeek V4 ra mắt vào ngày 23 tháng 4 năm 2026 với trọng số (weights) được cấp phép MIT trên Hugging Face. Việc lựa chọn giấy phép duy nhất này đã thay đổi cách tính toán cho bất kỳ đội nhóm nào muốn sử dụng AI tiên tiến trên phần cứng của riêng họ. V4-Flash (tổng cộng 284B, 13B hoạt động) có thể chạy trên một cặp H100 ở chế độ FP8. V4-Pro (tổng cộng 1.6T, 49B hoạt động) cần một cụm nhưng chạy cạnh tranh với GPT-5.5 và Claude Opus 4.6 về mã hóa và suy luận. Hướng dẫn này là hướng dẫn triển khai cục bộ. Nó bao gồm các yêu cầu về phần cứng, các tùy chọn lượng tử hóa, thiết lập vLLM và SGLang, cấu hình sử dụng công cụ, và quy trình làm việc thử nghiệm trong Apidog để xác thực máy chủ cục bộ trước khi bạn trỏ lưu lượng truy cập sản xuất vào đó. nút Để biết tổng quan về sản phẩm, xem DeepSeek V4 là gì. Để biết đường dẫn API được lưu trữ, xem cách sử dụng API DeepSeek V4. Để so sánh chi phí, xem giá API DeepSeek V4.

TL;DR (Tóm tắt)

Ai nên tự lưu trữ

Tự lưu trữ V4 là lựa chọn đúng đắn cho ba loại đội nhóm.

  1. Ràng buộc bởi quy định. Công việc trong lĩnh vực y tế, tài chính, pháp lý, hoặc quốc phòng nơi dữ liệu không thể rời khỏi mạng. Giấy phép MIT mã nguồn mở có nghĩa là không có thỏa thuận sử dụng, không có luồng dữ liệu xuyên biên giới.
  2. Khối lượng công việc ổn định lớn. Với tỷ lệ cache-miss, API V4-Pro có giá 1.74 đô la / triệu token đầu vào và 3.48 đô la / triệu token đầu ra. Đối với khối lượng công việc trên khoảng 200 tỷ token mỗi tháng, phần cứng chuyên dụng bắt đầu vượt trội so với kinh tế trả phí theo token.
  3. Tinh chỉnh và nghiên cứu. Các checkpoint Base tồn tại đặc biệt cho việc tiền đào tạo tiếp tục và thích ứng theo miền. Giấy phép MIT bao gồm việc phân phối lại mô hình thu được cho mục đích thương mại.

Ai không nên tự lưu trữ: những người tạo mẫu, đội nhóm không có kinh nghiệm vận hành GPU, và bất kỳ ai có khối lượng công việc nằm trong giới hạn 200 đô la/tháng sử dụng API được lưu trữ. Chi phí vận hành sẽ nhanh chóng vượt quá khoản tiết kiệm chi phí ở quy mô nhỏ.

Yêu cầu phần cứng

DeepSeek V4 sử dụng độ chính xác hỗn hợp FP4 + FP8 nguyên bản. Điều đó có nghĩa là phép toán bộ nhớ thân thiện hơn so với tính toán số lượng tham số đơn giản.

Biến thể Tổng số tham số Tham số hoạt động VRAM FP8 VRAM INT4 Số card tối thiểu
V4-Flash 284B 13B ~500GB ~140GB 2 × H100 80GB (FP8) hoặc 1 × H100 (INT4)
V4-Pro 1.6T 49B ~2.4TB ~700GB 16 × H100 80GB (FP8) hoặc 8 × H100 (INT4)

Một vài điều làm rõ:

Bước 1: Tải xuống trọng số (weights)

Các kho lưu trữ chính thức:

Cài đặt CLI và tải xuống:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Dành ~500GB ổ đĩa cho V4-Flash và vài terabyte cho V4-Pro. ModelScope (modelscope.cn) phản chiếu cùng các checkpoint và thường nhanh hơn cho người dùng ở Trung Quốc.

Bước 2: Chọn một công cụ phục vụ (serving engine)

Hai công cụ quan trọng: vLLM và SGLang.

Cả hai đều hỗ trợ V4 ngay lập tức kể từ các phiên bản được phát hành trong tuần này.

Bước 3: Phục vụ V4-Flash với vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

Các cờ đáng chú ý:

Khi máy chủ đã hoạt động, bất kỳ ứng dụng khách nào tương thích OpenAI đều hoạt động với http://localhost:8000/v1.

Bước 4: Phục vụ V4-Pro với vLLM

V4-Pro cần một cụm. Định dạng lệnh không thay đổi, chỉ có sự song song.

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

Ngữ cảnh bị giảm xuống 512K ở đây để vừa vặn thoải mái trên một máy 16-H100; đẩy nó trở lại 1M nếu VRAM cho phép. Song song hóa đường ống (pipeline parallelism) cộng với song song hóa tensor (tensor parallelism) là hình dạng phổ biến cho việc triển khai đa nút.

Bước 5: Phục vụ với SGLang (lựa chọn thay thế sử dụng công cụ)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

SGLang cung cấp cùng giao diện tương thích OpenAI tại http://localhost:30000/v1. DSL lang của nó cung cấp các nguyên thủy gọi hàm và chế độ JSON sạch hơn so với hướng dẫn JSON-schema của vLLM.

Bước 6: Lượng tử hóa cho một máy GPU đơn

Lượng tử hóa INT4 chạy V4-Flash trên một card 80GB duy nhất với chất lượng giảm có thể đo lường được nhưng nhỏ. Hai con đường.

AWQ (khuyến nghị)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# Làm theo công thức lượng tử hóa GPTQ; mẫu tương tự như AWQ.

Phục vụ checkpoint đã lượng tử hóa với vLLM bằng cách truyền --quantization awq hoặc --quantization gptq khi khởi chạy.

Bước 7: Kiểm tra với Apidog

Đừng gửi lưu lượng truy cập sản xuất vào một máy chủ cục bộ mới. Hãy xác thực nó trước.

Cách chạy cục bộ DeepSeek V4 trên các máy chủ vLLM hoặc SGLang
  1. Tải xuống Apidog.
  2. Tạo một bộ sưu tập trỏ vào http://localhost:8000/v1/chat/completions.
  3. Dán cùng một lời nhắc kiểm tra mà bạn sử dụng với API được lưu trữ. So sánh các phản hồi cạnh nhau.
  4. Truy cập điểm cuối với kiểm tra ngữ cảnh 500K-token để xác nhận bộ đệm KV hoạt động tốt.
  5. Chạy quy trình gọi công cụ từ đầu đến cuối trước khi bạn kết nối vòng lặp agent.

Bộ sưu tập chính xác mà bạn sử dụng với API DeepSeek V4 được lưu trữ hoạt động với một máy chủ cục bộ chỉ với một thay đổi URL cơ sở; đó là lợi ích của các điểm cuối tương thích OpenAI.

Khả năng quan sát và giám sát

Bốn chỉ số cần theo dõi ngay từ ngày đầu:

  1. Số token mỗi giây. Cả lời nhắc và tạo. vLLM hiển thị chúng trên /metrics ở định dạng Prometheus.
  2. Tỷ lệ sử dụng GPU. nvidia-smi hoặc DCGM. Duy trì dưới 70% thường có nghĩa là kích thước batch của bạn không đúng.
  3. Tỷ lệ cache-hit của KV. Với --enable-prefix-caching, vLLM báo cáo điều này; tỷ lệ hit giảm cho thấy sự thay đổi lời nhắc đang làm giảm thông lượng.
  4. Độ trễ yêu cầu p50/p95/p99. Sử dụng theo dõi tiêu chuẩn; p99 tăng trong khi p50 ổn định có nghĩa là một hình dạng yêu cầu đang làm tắc nghẽn hàng đợi.

Gửi cả bốn chỉ số này đến Grafana hoặc bất kỳ ngăn xếp quan sát nào bạn đang chạy.

Tinh chỉnh các checkpoint V4 Base

Các checkpoint Base tồn tại để tiếp tục tiền đào tạo và SFT. Quy trình tiêu chuẩn:

pip install "torch>=2.6" transformers accelerate peft trl

# SFT tiêu chuẩn với LoRA trên V4-Flash-Base
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

Tinh chỉnh toàn bộ tham số trên V4-Pro là một nhiệm vụ nghiên cứu nghiêm túc. Bộ điều hợp LoRA trên V4-Flash-Base là giới hạn thực tế đối với hầu hết các đội nhóm; mang lại nhiều lợi ích về chất lượng, với một phần nhỏ chi phí tính toán.

Những lỗi thường gặp

  1. OOM khi khởi động. Thường là do --max-model-len được đặt cao hơn VRAM cho phép hoặc --tensor-parallel-size được đặt quá thấp. Giảm một nửa ngữ cảnh hoặc tăng gấp đôi độ song song.
  2. Yêu cầu đầu tiên chậm. vLLM biên dịch kernel một cách lười biếng. Lần gọi đầu tiên cho mỗi hình dạng luôn chậm; khởi động bằng một yêu cầu giả.
  3. Lỗi phân tích cú pháp sử dụng công cụ. Sơ đồ mã hóa DeepSeek hơi khác so với OpenAI. Ghim SDK của bạn vào một phiên bản hỗ trợ V4 rõ ràng.
  4. Lỗi FP8 trên các card cũ hơn. A100 không hỗ trợ FP8 nguyên bản. Sử dụng BF16 trên bất kỳ thứ gì trước Hopper; mong đợi VRAM tăng gấp đôi.

Khi tự lưu trữ mang lại lợi ích

Tính toán hòa vốn sơ bộ, dựa trên giá API DeepSeek V4 được lưu trữ:

Điểm hòa vốn cho V4-Flash nằm ở khoảng 100B token/tháng với các kết hợp sản xuất. Dưới mức đó, API được lưu trữ rẻ hơn và chi phí vận hành không đáng.

Câu hỏi thường gặp

Tôi có thể chạy V4-Flash trên một A100 duy nhất không?Với lượng tử hóa nặng và ngữ cảnh ngắn hơn, có, nhưng chậm. INT4 trên A100 80GB chạy 5 đến 15 token/giây. H100 là nơi kiến trúc thực sự muốn chạy.

V4 có hỗ trợ tinh chỉnh LoRA không?Có. Sử dụng các checkpoint Base và các đường ống TRL hoặc Axolotl tiêu chuẩn. Định tuyến MoE không làm thay đổi phép toán LoRA.

Máy chủ cục bộ có tương thích OpenAI không?Có. Cả vLLM và SGLang đều cung cấp /v1/chat/completions/v1/completions với hình dạng yêu cầu của OpenAI. Hướng dẫn API được lưu trữ hoạt động không thay đổi đối với localhost.

Làm cách nào để bật chế độ suy nghĩ cục bộ?Truyền thinking_mode: "thinking" hoặc "thinking_max" vào phần thân yêu cầu. vLLM và SGLang chuyển tiếp cờ này đến mô hình.

Tôi có thể phát trực tiếp từ máy chủ V4 cục bộ không?Có. Đặt stream: true chính xác như bạn làm với OpenAI hoặc API DeepSeek được lưu trữ.

Cách rẻ nhất để thử nghiệm trước khi mua phần cứng là gì?Thuê một H100 duy nhất trên RunPod hoặc Lambda trong vài giờ, chạy V4-Flash ở INT4 và đo thông lượng so với các lời nhắc thực tế của bạn. Một bài kiểm tra từ 10 đến 30 đô la sẽ trả lời câu hỏi về phần cứng nhanh hơn một tuần lập kế hoạch.

nút

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API