2026년 4월 23일, MIT 라이선스가 적용된 DeepSeek V4 가중치가 Hugging Face에 공개되었습니다. 이 단일 라이선스 선택은 자체 하드웨어에서 최첨단 AI를 원하는 모든 팀의 계산 방식을 바꿉니다. V4-Flash (총 284B, 활성 13B)는 FP8에서 H100 2대에 적합합니다. V4-Pro (총 1.6T, 활성 49B)는 클러스터가 필요하지만, 코드 및 추론에서 GPT-5.5 및 Claude Opus 4.6과 경쟁력 있게 작동합니다.
이 가이드는 로컬 배포 가이드입니다. 하드웨어 요구 사항, 양자화 옵션, vLLM 및 SGLang 설정, 도구 사용 구성, 그리고 프로덕션 트래픽을 연결하기 전에 로컬 서버를 검증하는 Apidog의 테스트 워크플로를 다룹니다.
버튼
제품 개요는 DeepSeek V4란 무엇인가를 참조하세요. 호스팅된 API 경로는 DeepSeek V4 API 사용 방법을 참조하세요. 비용 비교는 DeepSeek V4 API 가격을 참조하세요.
요약
- V4-Flash는 FP8에서 2 × H100 80GB 또는 INT4에서 1 × H100에서 실행됩니다. 가중치는 FP8에서 약 500GB입니다.
- V4-Pro는 프로덕션 처리량을 위해 FP8에서 16개 이상의 H100이 필요합니다. 노트북 모델이 아닙니다.
- vLLM은 OpenAI 호환 서버로 가는 가장 빠른 경로입니다.
vllm>=0.9.0은 V4 지원을 추가합니다. - SGLang은 더 나은 도구 사용 및 구조화된 출력 기능을 원하는 팀을 위한 대안입니다.
- AWQ INT4 또는 GPTQ INT4로 양자화하면 V4-Flash를 단일 80GB 카드에서 약 5%의 품질 손실로 실행할 수 있습니다.
- Apidog를 사용하여
http://localhost:8000/v1를 가리키고 호스팅된 API에 사용하는 것과 동일한 컬렉션을 재사용하십시오.
자가 호스팅을 해야 하는 경우
V4 자가 호스팅은 세 가지 유형의 팀에게 적합합니다.
- 규제 준수. 데이터가 네트워크를 벗어날 수 없는 건강, 금융, 법률 또는 국방 관련 작업. 오픈 가중치 MIT 라이선스는 사용 계약이나 국경 간 데이터 흐름이 없음을 의미합니다.
- 크고 안정적인 워크로드. 캐시 미스율에서 V4-Pro API는 백만 입력 토큰당 $1.74, 백만 출력 토큰당 $3.48의 비용이 듭니다. 월 약 2천억 토큰 이상의 워크로드의 경우, 전용 하드웨어가 토큰당 지불 경제성보다 우수하기 시작합니다.
- 미세 조정 및 연구. 기본 체크포인트는 지속적인 사전 학습 및 도메인 적응을 위해 특별히 존재합니다. MIT 라이선스는 결과 모델의 상업적 재배포를 포함합니다.
자가 호스팅을 하지 말아야 하는 경우: 프로토타입 개발자, GPU 운영 경험이 없는 팀, 그리고 월 $200 미만의 호스팅 API 사용으로 워크로드를 처리할 수 있는 모든 사람. 소규모에서는 운영 오버헤드가 비용 절감 효과를 빠르게 잠식합니다.
하드웨어 요구 사항
DeepSeek V4는 FP4 + FP8 혼합 정밀도를 기본으로 사용합니다. 이는 메모리 계산이 순진한 매개변수 수 계산보다 더 유연하다는 것을 의미합니다.
| 변형 | 총 매개변수 | 활성 매개변수 | FP8 VRAM | INT4 VRAM | 최소 카드 |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | ~500GB | ~140GB | 2 × H100 80GB (FP8) 또는 1 × H100 (INT4) |
| V4-Pro | 1.6T | 49B | ~2.4TB | ~700GB | 16 × H100 80GB (FP8) 또는 8 × H100 (INT4) |
몇 가지 설명:
- MoE 메모리는 활성이 아닌 총량입니다. 토큰당 일부만 작동하더라도 모든 전문가를 위한 충분한 VRAM이 필요합니다. 13B "활성" 수치는 토큰당 계산 비용만 반영하며 메모리는 반영하지 않습니다.
- H200 및 MI300X는 깔끔하게 교체됩니다. 카드당 141GB 또는 192GB는 동일한 모델에 더 적은 카드가 필요하다는 것을 의미합니다.
- 소비자 GPU는 적합하지 않습니다. INT4의 V4-Flash도 24GB RTX 5090에서 실행되지 않습니다.
- Apple Silicon: 128GB 통합 메모리를 갖춘 M3 Max 및 M4 Max는 높은 양자화에서 V4-Flash를 느리게 실행할 수 있습니다. 이는 개발 상자용 장난감이며 배포 대상이 아닙니다.
1단계: 가중치 다운로드
공식 저장소:
deepseek-ai/DeepSeek-V4-Flashdeepseek-ai/DeepSeek-V4-Pro- 미세 조정을 위한
deepseek-ai/DeepSeek-V4-Flash-Base및DeepSeek-V4-Pro-Base.
CLI를 설치하고 가져오기:
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
V4-Flash용으로 약 500GB, V4-Pro용으로 여러 테라바이트의 디스크 공간을 확보하십시오. ModelScope (modelscope.cn)는 동일한 체크포인트를 미러링하며, 중국 사용자에게는 일반적으로 더 빠릅니다.
2단계: 서빙 엔진 선택
중요한 엔진은 두 가지입니다: vLLM과 SGLang.
- vLLM. 최고의 처리량, 가장 깔끔한 OpenAI 호환 인터페이스, 가장 큰 커뮤니티. 기본 선택입니다.
- SGLang. 더 나은 도구 사용 기본 요소, 구조화된 출력, 긴 컨텍스트에서 일부 이점. 워크로드가 함수 호출에 크게 의존하는 경우 이를 선택하십시오.
이번 주에 출시된 버전부터 두 엔진 모두 V4를 기본적으로 지원합니다.
3단계: vLLM으로 V4-Flash 서빙
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
알아두면 좋은 플래그:
--tensor-parallel-size 2는 2개의 H100에 걸쳐 모델을 분할합니다. 더 많은 카드를 사용하려면 값을 높이십시오.--max-model-len 1048576은 전체 1M 토큰 컨텍스트 창을 활성화합니다. 필요하지 않은 경우 131072로 줄이십시오. 컨텍스트가 짧으면 VRAM을 절약할 수 있습니다.--enable-prefix-caching은 호스팅된 API의 캐시 히트 가격 책정을 로컬에서 미러링합니다. 동일한 효과: 반복되는 접두사가 훨씬 빠르게 실행됩니다.--dtype auto는 V4의 FP8 혼합 정밀도를 따릅니다.
서버가 실행되면 모든 OpenAI 호환 클라이언트가 http://localhost:8000/v1에 대해 작동합니다.
4단계: vLLM으로 V4-Pro 서빙
V4-Pro는 클러스터가 필요합니다. 명령어 형식은 변경되지 않고 병렬 처리만 변경됩니다.
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
여기서는 16개 H100 상자에 편안하게 맞도록 컨텍스트가 512K로 줄었습니다. VRAM이 허용하는 경우 1M으로 다시 늘리십시오. 파이프라인 병렬 처리와 텐서 병렬 처리는 노드 간 배포에 대한 일반적인 형태입니다.
5단계: SGLang으로 서빙 (도구 사용 대안)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
SGLang은 http://localhost:30000/v1에서 동일한 OpenAI 호환 인터페이스를 노출합니다. SGLang의 lang DSL은 vLLM의 JSON 스키마 가이드보다 더 깔끔한 함수 호출 및 JSON 모드 기본 요소를 제공합니다.
6단계: 단일 GPU 상자를 위한 양자화
INT4 양자화는 V4-Flash를 단일 80GB 카드에서 측정 가능하지만 작은 품질 저하로 실행합니다. 두 가지 방법이 있습니다.
AWQ (권장)
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ
pip install auto-gptq
# GPTQ 양자화 레시피를 따릅니다. AWQ와 유사한 패턴입니다.
시작 시 --quantization awq 또는 --quantization gptq를 전달하여 양자화된 체크포인트를 vLLM으로 서빙하십시오.
7단계: Apidog로 테스트
새로 설치한 로컬 서버에 프로덕션 트래픽을 보내지 마십시오. 먼저 검증하십시오.

- Apidog를 다운로드하십시오.
http://localhost:8000/v1/chat/completions을 가리키는 컬렉션을 생성하십시오.- 호스팅된 API에 사용하는 것과 동일한 테스트 프롬프트를 붙여넣으십시오. 응답을 나란히 비교하십시오.
- 500K 토큰 컨텍스트 테스트로 엔드포인트를 호출하여 KV 캐시가 유지되는지 확인하십시오.
- 에이전트 루프를 연결하기 전에 도구 호출 흐름을 처음부터 끝까지 실행하십시오.
호스팅된 DeepSeek V4 API에 사용하는 것과 동일한 컬렉션은 기본 URL 하나만 변경하면 로컬 서버에 대해 작동합니다. 이것이 OpenAI 호환 엔드포인트의 장점입니다.
관측 가능성 및 모니터링
첫날부터 추적해야 할 네 가지 지표:
- 초당 토큰 수. 프롬프트 및 생성 모두. vLLM은 Prometheus 형식으로
/metrics에서 이를 노출합니다. - GPU 활용률.
nvidia-smi또는 DCGM. 지속적으로 70% 미만이면 일반적으로 배치 크기가 잘못되었음을 의미합니다. - KV 캐시 히트율.
--enable-prefix-caching을 사용하면 vLLM이 이를 보고합니다. 히트율 하락은 처리량을 저하시키는 프롬프트 변동을 나타냅니다. - 요청 지연 시간 p50/p95/p99. 표준 트레이싱을 사용하십시오. p50은 안정적이지만 p99가 상승하면 하나의 요청 형태가 큐를 정체시키고 있음을 의미합니다.
이 네 가지 모두를 Grafana 또는 이미 실행 중인 관측 가능성 스택으로 보내십시오.
V4 기본 체크포인트 미세 조정
기본 체크포인트는 지속적인 사전 학습 및 SFT를 위해 존재합니다. 표준 파이프라인:
pip install "torch>=2.6" transformers accelerate peft trl
# Standard SFT with LoRA on V4-Flash-Base
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
V4-Pro에 대한 전체 매개변수 미세 조정은 심각한 연구 과제입니다. V4-Flash-Base의 LoRA 어댑터는 대부분의 팀에게 현실적인 상한선입니다. 충분한 품질 향상과 계산량의 일부만 필요합니다.
일반적인 문제점
- 시작 시 OOM(메모리 부족). 일반적으로
--max-model-len이 VRAM 허용치보다 높게 설정되거나--tensor-parallel-size가 너무 낮게 설정된 경우입니다. 컨텍스트를 절반으로 줄이거나 병렬 처리를 두 배로 늘리십시오. - 느린 첫 번째 요청. vLLM은 커널을 지연 컴파일합니다. 모양당 첫 번째 호출은 항상 느립니다. 더미 요청으로 워밍업하십시오.
- 도구 사용 구문 분석 오류. DeepSeek 인코딩 스키마는 OpenAI의 것과 약간 다릅니다. V4를 명시적으로 지원하는 버전으로 SDK를 고정하십시오.
- 오래된 카드에서 FP8 오류. A100은 FP8을 기본적으로 지원하지 않습니다. Hopper 이전의 모든 것에는 BF16을 사용하십시오. 대략 2배의 VRAM을 예상하십시오.
자가 호스팅이 이득이 되는 시점
호스팅된 DeepSeek V4 가격을 기반으로 한 대략적인 손익분기점 계산:
- 월 2000억 입력 토큰 + 월 200억 출력 토큰을 사용하는 V4-Flash: 호스팅된 API에서 약 $33.6K. 8 × H100 박스는 월 약 $20K에 임대됩니다. 자가 호스팅이 약 40% 더 이득입니다.
- 월 5000억 입력 토큰 + 월 500억 출력 토큰을 사용하는 V4-Pro: 호스팅된 API에서 약 $1.04M. 16 × H100 클러스터는 월 약 $35K에 임대됩니다. 자가 호스팅이 95% 이상 더 이득입니다.
V4-Flash의 손익분기점은 프로덕션 혼합에서 월 약 1000억 토큰에 있습니다. 그 이하에서는 호스팅된 API가 더 저렴하며 운영 오버헤드는 가치가 없습니다.
자주 묻는 질문
- 단일 A100에서 V4-Flash를 실행할 수 있습니까? 높은 양자화와 짧은 컨텍스트에서는 가능하지만 느립니다. 80GB A100의 INT4는 5~15 tok/s로 실행됩니다. H100이 아키텍처가 실제로 실행되기를 원하는 곳입니다.
- V4는 LoRA 미세 조정을 지원합니까? 예. 기본 체크포인트와 표준 TRL 또는 Axolotl 파이프라인을 사용하십시오. MoE 라우팅은 LoRA 계산을 변경하지 않습니다.
- 로컬 서버는 OpenAI와 호환됩니까? 예. vLLM과 SGLang 모두 OpenAI 요청 형식으로
/v1/chat/completions및/v1/completions를 노출합니다. 호스팅된 API 가이드는 localhost에 대해 변경 없이 작동합니다. - 로컬에서 사고 모드를 활성화하는 방법은 무엇입니까? 요청 본문에
thinking_mode: "thinking"또는"thinking_max"를 전달하십시오. vLLM과 SGLang은 이 플래그를 모델로 전달합니다. - 로컬 V4 서버에서 스트리밍할 수 있습니까? 예. OpenAI 또는 호스팅된 DeepSeek API에 대해 하는 것과 똑같이
stream: true를 설정하십시오. - 하드웨어를 구매하기 전에 실험할 수 있는 가장 저렴한 방법은 무엇입니까? RunPod 또는 Lambda에서 단일 H100을 몇 시간 동안 빌려 INT4에서 V4-Flash를 실행하고 실제 프롬프트에 대한 처리량을 측정하십시오. $10~$30의 테스트는 일주일의 계획보다 하드웨어 질문에 더 빨리 답해줍니다.
버튼
