DeepSeek V4 ra mắt vào ngày 23 tháng 4 năm 2026 với trọng số (weights) được cấp phép MIT trên Hugging Face. Việc lựa chọn giấy phép duy nhất này đã thay đổi cách tính toán cho bất kỳ đội nhóm nào muốn sử dụng AI tiên tiến trên phần cứng của riêng họ. V4-Flash (tổng cộng 284B, 13B hoạt động) có thể chạy trên một cặp H100 ở chế độ FP8. V4-Pro (tổng cộng 1.6T, 49B hoạt động) cần một cụm nhưng chạy cạnh tranh với GPT-5.5 và Claude Opus 4.6 về mã hóa và suy luận. Hướng dẫn này là hướng dẫn triển khai cục bộ. Nó bao gồm các yêu cầu về phần cứng, các tùy chọn lượng tử hóa, thiết lập vLLM và SGLang, cấu hình sử dụng công cụ, và quy trình làm việc thử nghiệm trong Apidog để xác thực máy chủ cục bộ trước khi bạn trỏ lưu lượng truy cập sản xuất vào đó. nút Để biết tổng quan về sản phẩm, xem DeepSeek V4 là gì. Để biết đường dẫn API được lưu trữ, xem cách sử dụng API DeepSeek V4. Để so sánh chi phí, xem giá API DeepSeek V4.
TL;DR (Tóm tắt)
- V4-Flash chạy trên 2 × H100 80GB ở FP8, hoặc 1 × H100 ở INT4. Trọng số khoảng ~500GB ở FP8.
- V4-Pro cần 16+ H100 ở FP8 cho thông lượng sản xuất; không phải mô hình dành cho laptop.
- vLLM là con đường nhanh nhất để có một máy chủ tương thích OpenAI.
vllm>=0.9.0bổ sung hỗ trợ V4. - SGLang là lựa chọn thay thế cho các đội nhóm muốn các tính năng sử dụng công cụ và đầu ra có cấu trúc tốt hơn.
- Lượng tử hóa sang AWQ INT4 hoặc GPTQ INT4 giúp V4-Flash vừa vặn trên một card 80GB duy nhất với chất lượng giảm ~5%.
- Sử dụng Apidog để trỏ vào
http://localhost:8000/v1và tái sử dụng bộ sưu tập chính xác mà bạn sử dụng với API được lưu trữ.
Ai nên tự lưu trữ
Tự lưu trữ V4 là lựa chọn đúng đắn cho ba loại đội nhóm.
- Ràng buộc bởi quy định. Công việc trong lĩnh vực y tế, tài chính, pháp lý, hoặc quốc phòng nơi dữ liệu không thể rời khỏi mạng. Giấy phép MIT mã nguồn mở có nghĩa là không có thỏa thuận sử dụng, không có luồng dữ liệu xuyên biên giới.
- Khối lượng công việc ổn định lớn. Với tỷ lệ cache-miss, API V4-Pro có giá 1.74 đô la / triệu token đầu vào và 3.48 đô la / triệu token đầu ra. Đối với khối lượng công việc trên khoảng 200 tỷ token mỗi tháng, phần cứng chuyên dụng bắt đầu vượt trội so với kinh tế trả phí theo token.
- Tinh chỉnh và nghiên cứu. Các checkpoint Base tồn tại đặc biệt cho việc tiền đào tạo tiếp tục và thích ứng theo miền. Giấy phép MIT bao gồm việc phân phối lại mô hình thu được cho mục đích thương mại.
Ai không nên tự lưu trữ: những người tạo mẫu, đội nhóm không có kinh nghiệm vận hành GPU, và bất kỳ ai có khối lượng công việc nằm trong giới hạn 200 đô la/tháng sử dụng API được lưu trữ. Chi phí vận hành sẽ nhanh chóng vượt quá khoản tiết kiệm chi phí ở quy mô nhỏ.
Yêu cầu phần cứng
DeepSeek V4 sử dụng độ chính xác hỗn hợp FP4 + FP8 nguyên bản. Điều đó có nghĩa là phép toán bộ nhớ thân thiện hơn so với tính toán số lượng tham số đơn giản.
| Biến thể | Tổng số tham số | Tham số hoạt động | VRAM FP8 | VRAM INT4 | Số card tối thiểu |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | ~500GB | ~140GB | 2 × H100 80GB (FP8) hoặc 1 × H100 (INT4) |
| V4-Pro | 1.6T | 49B | ~2.4TB | ~700GB | 16 × H100 80GB (FP8) hoặc 8 × H100 (INT4) |
Một vài điều làm rõ:
- Bộ nhớ MoE là tổng, không phải hoạt động. Bạn cần đủ VRAM cho tất cả các chuyên gia (experts), mặc dù chỉ một phần nhỏ được kích hoạt trên mỗi token. Con số "hoạt động" 13B chỉ phản ánh chi phí tính toán trên mỗi token, không phải bộ nhớ.
- H200 và MI300X thay thế dễ dàng. 141GB hoặc 192GB trên mỗi card có nghĩa là ít card hơn cho cùng một mô hình.
- GPU tiêu dùng không phù hợp. Ngay cả V4-Flash ở INT4 cũng không chạy trên RTX 5090 24GB.
- Apple Silicon: M3 Max và M4 Max với bộ nhớ hợp nhất 128GB có thể chạy V4-Flash với lượng tử hóa nặng, nhưng chậm. Đó là một thiết bị phát triển, không phải mục tiêu triển khai.
Bước 1: Tải xuống trọng số (weights)
Các kho lưu trữ chính thức:
deepseek-ai/DeepSeek-V4-Flashdeepseek-ai/DeepSeek-V4-Prodeepseek-ai/DeepSeek-V4-Flash-BasevàDeepSeek-V4-Pro-Baseđể tinh chỉnh.
Cài đặt CLI và tải xuống:
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
Dành ~500GB ổ đĩa cho V4-Flash và vài terabyte cho V4-Pro. ModelScope (modelscope.cn) phản chiếu cùng các checkpoint và thường nhanh hơn cho người dùng ở Trung Quốc.
Bước 2: Chọn một công cụ phục vụ (serving engine)
Hai công cụ quan trọng: vLLM và SGLang.
- vLLM. Thông lượng tốt nhất, giao diện tương thích OpenAI sạch nhất, cộng đồng lớn nhất. Lựa chọn mặc định.
- SGLang. Các nguyên thủy sử dụng công cụ tốt hơn, đầu ra có cấu trúc, và một số lợi ích về ngữ cảnh dài. Chọn cái này nếu khối lượng công việc của bạn phụ thuộc nhiều vào việc gọi hàm.
Cả hai đều hỗ trợ V4 ngay lập tức kể từ các phiên bản được phát hành trong tuần này.
Bước 3: Phục vụ V4-Flash với vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
Các cờ đáng chú ý:
--tensor-parallel-size 2chia mô hình trên 2 H100. Tăng lên cho nhiều card hơn.--max-model-len 1048576cho phép cửa sổ ngữ cảnh 1M-token đầy đủ. Giảm xuống 131072 nếu bạn không cần; ngữ cảnh ngắn hơn giải phóng VRAM.--enable-prefix-cachingphản ánh giá dựa trên cache-hit của API được lưu trữ cục bộ. Hiệu ứng tương tự: các tiền tố lặp lại chạy nhanh hơn nhiều.--dtype autotôn trọng độ chính xác hỗn hợp FP8 của V4.
Khi máy chủ đã hoạt động, bất kỳ ứng dụng khách nào tương thích OpenAI đều hoạt động với http://localhost:8000/v1.
Bước 4: Phục vụ V4-Pro với vLLM
V4-Pro cần một cụm. Định dạng lệnh không thay đổi, chỉ có sự song song.
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
Ngữ cảnh bị giảm xuống 512K ở đây để vừa vặn thoải mái trên một máy 16-H100; đẩy nó trở lại 1M nếu VRAM cho phép. Song song hóa đường ống (pipeline parallelism) cộng với song song hóa tensor (tensor parallelism) là hình dạng phổ biến cho việc triển khai đa nút.
Bước 5: Phục vụ với SGLang (lựa chọn thay thế sử dụng công cụ)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
SGLang cung cấp cùng giao diện tương thích OpenAI tại http://localhost:30000/v1. DSL lang của nó cung cấp các nguyên thủy gọi hàm và chế độ JSON sạch hơn so với hướng dẫn JSON-schema của vLLM.
Bước 6: Lượng tử hóa cho một máy GPU đơn
Lượng tử hóa INT4 chạy V4-Flash trên một card 80GB duy nhất với chất lượng giảm có thể đo lường được nhưng nhỏ. Hai con đường.
AWQ (khuyến nghị)
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ
pip install auto-gptq
# Làm theo công thức lượng tử hóa GPTQ; mẫu tương tự như AWQ.
Phục vụ checkpoint đã lượng tử hóa với vLLM bằng cách truyền --quantization awq hoặc --quantization gptq khi khởi chạy.
Bước 7: Kiểm tra với Apidog
Đừng gửi lưu lượng truy cập sản xuất vào một máy chủ cục bộ mới. Hãy xác thực nó trước.

- Tải xuống Apidog.
- Tạo một bộ sưu tập trỏ vào
http://localhost:8000/v1/chat/completions. - Dán cùng một lời nhắc kiểm tra mà bạn sử dụng với API được lưu trữ. So sánh các phản hồi cạnh nhau.
- Truy cập điểm cuối với kiểm tra ngữ cảnh 500K-token để xác nhận bộ đệm KV hoạt động tốt.
- Chạy quy trình gọi công cụ từ đầu đến cuối trước khi bạn kết nối vòng lặp agent.
Bộ sưu tập chính xác mà bạn sử dụng với API DeepSeek V4 được lưu trữ hoạt động với một máy chủ cục bộ chỉ với một thay đổi URL cơ sở; đó là lợi ích của các điểm cuối tương thích OpenAI.
Khả năng quan sát và giám sát
Bốn chỉ số cần theo dõi ngay từ ngày đầu:
- Số token mỗi giây. Cả lời nhắc và tạo. vLLM hiển thị chúng trên
/metricsở định dạng Prometheus. - Tỷ lệ sử dụng GPU.
nvidia-smihoặc DCGM. Duy trì dưới 70% thường có nghĩa là kích thước batch của bạn không đúng. - Tỷ lệ cache-hit của KV. Với
--enable-prefix-caching, vLLM báo cáo điều này; tỷ lệ hit giảm cho thấy sự thay đổi lời nhắc đang làm giảm thông lượng. - Độ trễ yêu cầu p50/p95/p99. Sử dụng theo dõi tiêu chuẩn; p99 tăng trong khi p50 ổn định có nghĩa là một hình dạng yêu cầu đang làm tắc nghẽn hàng đợi.
Gửi cả bốn chỉ số này đến Grafana hoặc bất kỳ ngăn xếp quan sát nào bạn đang chạy.
Tinh chỉnh các checkpoint V4 Base
Các checkpoint Base tồn tại để tiếp tục tiền đào tạo và SFT. Quy trình tiêu chuẩn:
pip install "torch>=2.6" transformers accelerate peft trl
# SFT tiêu chuẩn với LoRA trên V4-Flash-Base
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
Tinh chỉnh toàn bộ tham số trên V4-Pro là một nhiệm vụ nghiên cứu nghiêm túc. Bộ điều hợp LoRA trên V4-Flash-Base là giới hạn thực tế đối với hầu hết các đội nhóm; mang lại nhiều lợi ích về chất lượng, với một phần nhỏ chi phí tính toán.
Những lỗi thường gặp
- OOM khi khởi động. Thường là do
--max-model-lenđược đặt cao hơn VRAM cho phép hoặc--tensor-parallel-sizeđược đặt quá thấp. Giảm một nửa ngữ cảnh hoặc tăng gấp đôi độ song song. - Yêu cầu đầu tiên chậm. vLLM biên dịch kernel một cách lười biếng. Lần gọi đầu tiên cho mỗi hình dạng luôn chậm; khởi động bằng một yêu cầu giả.
- Lỗi phân tích cú pháp sử dụng công cụ. Sơ đồ mã hóa DeepSeek hơi khác so với OpenAI. Ghim SDK của bạn vào một phiên bản hỗ trợ V4 rõ ràng.
- Lỗi FP8 trên các card cũ hơn. A100 không hỗ trợ FP8 nguyên bản. Sử dụng BF16 trên bất kỳ thứ gì trước Hopper; mong đợi VRAM tăng gấp đôi.
Khi tự lưu trữ mang lại lợi ích
Tính toán hòa vốn sơ bộ, dựa trên giá API DeepSeek V4 được lưu trữ:
- V4-Flash với 200B token đầu vào/tháng + 20B token đầu ra/tháng: ~33.6K đô la trên API được lưu trữ. Một máy 8 × H100 thuê khoảng ~20K đô la/tháng. Tự lưu trữ chiến thắng khoảng ~40%.
- V4-Pro với 500B đầu vào + 50B đầu ra mỗi tháng: ~1.04M đô la trên API được lưu trữ. Một cụm 16 × H100 thuê khoảng ~35K đô la/tháng. Tự lưu trữ chiến thắng hơn 95%.
Điểm hòa vốn cho V4-Flash nằm ở khoảng 100B token/tháng với các kết hợp sản xuất. Dưới mức đó, API được lưu trữ rẻ hơn và chi phí vận hành không đáng.
Câu hỏi thường gặp
Tôi có thể chạy V4-Flash trên một A100 duy nhất không?Với lượng tử hóa nặng và ngữ cảnh ngắn hơn, có, nhưng chậm. INT4 trên A100 80GB chạy 5 đến 15 token/giây. H100 là nơi kiến trúc thực sự muốn chạy.
V4 có hỗ trợ tinh chỉnh LoRA không?Có. Sử dụng các checkpoint Base và các đường ống TRL hoặc Axolotl tiêu chuẩn. Định tuyến MoE không làm thay đổi phép toán LoRA.
Máy chủ cục bộ có tương thích OpenAI không?Có. Cả vLLM và SGLang đều cung cấp /v1/chat/completions và /v1/completions với hình dạng yêu cầu của OpenAI. Hướng dẫn API được lưu trữ hoạt động không thay đổi đối với localhost.
Làm cách nào để bật chế độ suy nghĩ cục bộ?Truyền thinking_mode: "thinking" hoặc "thinking_max" vào phần thân yêu cầu. vLLM và SGLang chuyển tiếp cờ này đến mô hình.
Tôi có thể phát trực tiếp từ máy chủ V4 cục bộ không?Có. Đặt stream: true chính xác như bạn làm với OpenAI hoặc API DeepSeek được lưu trữ.
Cách rẻ nhất để thử nghiệm trước khi mua phần cứng là gì?Thuê một H100 duy nhất trên RunPod hoặc Lambda trong vài giờ, chạy V4-Flash ở INT4 và đo thông lượng so với các lời nhắc thực tế của bạn. Một bài kiểm tra từ 10 đến 30 đô la sẽ trả lời câu hỏi về phần cứng nhanh hơn một tuần lập kế hoạch.
nút
