DeepSeek V4 로컬 실행 방법

Ashley Innocent

Ashley Innocent

24 April 2026

DeepSeek V4 로컬 실행 방법

Apidog 엔터프라이즈

온프레미스 배포

SSO & RBAC

SOC 2 준수

Apidog Enterprise 살펴보기

2026년 4월 23일, MIT 라이선스가 적용된 DeepSeek V4 가중치가 Hugging Face에 공개되었습니다. 이 단일 라이선스 선택은 자체 하드웨어에서 최첨단 AI를 원하는 모든 팀의 계산 방식을 바꿉니다. V4-Flash (총 284B, 활성 13B)는 FP8에서 H100 2대에 적합합니다. V4-Pro (총 1.6T, 활성 49B)는 클러스터가 필요하지만, 코드 및 추론에서 GPT-5.5 및 Claude Opus 4.6과 경쟁력 있게 작동합니다.

이 가이드는 로컬 배포 가이드입니다. 하드웨어 요구 사항, 양자화 옵션, vLLM 및 SGLang 설정, 도구 사용 구성, 그리고 프로덕션 트래픽을 연결하기 전에 로컬 서버를 검증하는 Apidog의 테스트 워크플로를 다룹니다.

버튼

제품 개요는 DeepSeek V4란 무엇인가를 참조하세요. 호스팅된 API 경로는 DeepSeek V4 API 사용 방법을 참조하세요. 비용 비교는 DeepSeek V4 API 가격을 참조하세요.

요약

자가 호스팅을 해야 하는 경우

V4 자가 호스팅은 세 가지 유형의 팀에게 적합합니다.

  1. 규제 준수. 데이터가 네트워크를 벗어날 수 없는 건강, 금융, 법률 또는 국방 관련 작업. 오픈 가중치 MIT 라이선스는 사용 계약이나 국경 간 데이터 흐름이 없음을 의미합니다.
  2. 크고 안정적인 워크로드. 캐시 미스율에서 V4-Pro API는 백만 입력 토큰당 $1.74, 백만 출력 토큰당 $3.48의 비용이 듭니다. 월 약 2천억 토큰 이상의 워크로드의 경우, 전용 하드웨어가 토큰당 지불 경제성보다 우수하기 시작합니다.
  3. 미세 조정 및 연구. 기본 체크포인트는 지속적인 사전 학습 및 도메인 적응을 위해 특별히 존재합니다. MIT 라이선스는 결과 모델의 상업적 재배포를 포함합니다.

자가 호스팅을 하지 말아야 하는 경우: 프로토타입 개발자, GPU 운영 경험이 없는 팀, 그리고 월 $200 미만의 호스팅 API 사용으로 워크로드를 처리할 수 있는 모든 사람. 소규모에서는 운영 오버헤드가 비용 절감 효과를 빠르게 잠식합니다.

하드웨어 요구 사항

DeepSeek V4는 FP4 + FP8 혼합 정밀도를 기본으로 사용합니다. 이는 메모리 계산이 순진한 매개변수 수 계산보다 더 유연하다는 것을 의미합니다.

변형 총 매개변수 활성 매개변수 FP8 VRAM INT4 VRAM 최소 카드
V4-Flash 284B 13B ~500GB ~140GB 2 × H100 80GB (FP8) 또는 1 × H100 (INT4)
V4-Pro 1.6T 49B ~2.4TB ~700GB 16 × H100 80GB (FP8) 또는 8 × H100 (INT4)

몇 가지 설명:

1단계: 가중치 다운로드

공식 저장소:

CLI를 설치하고 가져오기:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

V4-Flash용으로 약 500GB, V4-Pro용으로 여러 테라바이트의 디스크 공간을 확보하십시오. ModelScope (modelscope.cn)는 동일한 체크포인트를 미러링하며, 중국 사용자에게는 일반적으로 더 빠릅니다.

2단계: 서빙 엔진 선택

중요한 엔진은 두 가지입니다: vLLM과 SGLang.

이번 주에 출시된 버전부터 두 엔진 모두 V4를 기본적으로 지원합니다.

3단계: vLLM으로 V4-Flash 서빙

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

알아두면 좋은 플래그:

서버가 실행되면 모든 OpenAI 호환 클라이언트가 http://localhost:8000/v1에 대해 작동합니다.

4단계: vLLM으로 V4-Pro 서빙

V4-Pro는 클러스터가 필요합니다. 명령어 형식은 변경되지 않고 병렬 처리만 변경됩니다.

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

여기서는 16개 H100 상자에 편안하게 맞도록 컨텍스트가 512K로 줄었습니다. VRAM이 허용하는 경우 1M으로 다시 늘리십시오. 파이프라인 병렬 처리와 텐서 병렬 처리는 노드 간 배포에 대한 일반적인 형태입니다.

5단계: SGLang으로 서빙 (도구 사용 대안)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

SGLang은 http://localhost:30000/v1에서 동일한 OpenAI 호환 인터페이스를 노출합니다. SGLang의 lang DSL은 vLLM의 JSON 스키마 가이드보다 더 깔끔한 함수 호출 및 JSON 모드 기본 요소를 제공합니다.

6단계: 단일 GPU 상자를 위한 양자화

INT4 양자화는 V4-Flash를 단일 80GB 카드에서 측정 가능하지만 작은 품질 저하로 실행합니다. 두 가지 방법이 있습니다.

AWQ (권장)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# GPTQ 양자화 레시피를 따릅니다. AWQ와 유사한 패턴입니다.

시작 시 --quantization awq 또는 --quantization gptq를 전달하여 양자화된 체크포인트를 vLLM으로 서빙하십시오.

7단계: Apidog로 테스트

새로 설치한 로컬 서버에 프로덕션 트래픽을 보내지 마십시오. 먼저 검증하십시오.

  1. Apidog를 다운로드하십시오.
  2. http://localhost:8000/v1/chat/completions을 가리키는 컬렉션을 생성하십시오.
  3. 호스팅된 API에 사용하는 것과 동일한 테스트 프롬프트를 붙여넣으십시오. 응답을 나란히 비교하십시오.
  4. 500K 토큰 컨텍스트 테스트로 엔드포인트를 호출하여 KV 캐시가 유지되는지 확인하십시오.
  5. 에이전트 루프를 연결하기 전에 도구 호출 흐름을 처음부터 끝까지 실행하십시오.

호스팅된 DeepSeek V4 API에 사용하는 것과 동일한 컬렉션은 기본 URL 하나만 변경하면 로컬 서버에 대해 작동합니다. 이것이 OpenAI 호환 엔드포인트의 장점입니다.

관측 가능성 및 모니터링

첫날부터 추적해야 할 네 가지 지표:

  1. 초당 토큰 수. 프롬프트 및 생성 모두. vLLM은 Prometheus 형식으로 /metrics에서 이를 노출합니다.
  2. GPU 활용률. nvidia-smi 또는 DCGM. 지속적으로 70% 미만이면 일반적으로 배치 크기가 잘못되었음을 의미합니다.
  3. KV 캐시 히트율. --enable-prefix-caching을 사용하면 vLLM이 이를 보고합니다. 히트율 하락은 처리량을 저하시키는 프롬프트 변동을 나타냅니다.
  4. 요청 지연 시간 p50/p95/p99. 표준 트레이싱을 사용하십시오. p50은 안정적이지만 p99가 상승하면 하나의 요청 형태가 큐를 정체시키고 있음을 의미합니다.

이 네 가지 모두를 Grafana 또는 이미 실행 중인 관측 가능성 스택으로 보내십시오.

V4 기본 체크포인트 미세 조정

기본 체크포인트는 지속적인 사전 학습 및 SFT를 위해 존재합니다. 표준 파이프라인:

pip install "torch>=2.6" transformers accelerate peft trl

# Standard SFT with LoRA on V4-Flash-Base
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

V4-Pro에 대한 전체 매개변수 미세 조정은 심각한 연구 과제입니다. V4-Flash-Base의 LoRA 어댑터는 대부분의 팀에게 현실적인 상한선입니다. 충분한 품질 향상과 계산량의 일부만 필요합니다.

일반적인 문제점

  1. 시작 시 OOM(메모리 부족). 일반적으로 --max-model-len이 VRAM 허용치보다 높게 설정되거나 --tensor-parallel-size가 너무 낮게 설정된 경우입니다. 컨텍스트를 절반으로 줄이거나 병렬 처리를 두 배로 늘리십시오.
  2. 느린 첫 번째 요청. vLLM은 커널을 지연 컴파일합니다. 모양당 첫 번째 호출은 항상 느립니다. 더미 요청으로 워밍업하십시오.
  3. 도구 사용 구문 분석 오류. DeepSeek 인코딩 스키마는 OpenAI의 것과 약간 다릅니다. V4를 명시적으로 지원하는 버전으로 SDK를 고정하십시오.
  4. 오래된 카드에서 FP8 오류. A100은 FP8을 기본적으로 지원하지 않습니다. Hopper 이전의 모든 것에는 BF16을 사용하십시오. 대략 2배의 VRAM을 예상하십시오.

자가 호스팅이 이득이 되는 시점

호스팅된 DeepSeek V4 가격을 기반으로 한 대략적인 손익분기점 계산:

V4-Flash의 손익분기점은 프로덕션 혼합에서 월 약 1000억 토큰에 있습니다. 그 이하에서는 호스팅된 API가 더 저렴하며 운영 오버헤드는 가치가 없습니다.

자주 묻는 질문

버튼

Apidog에서 API 설계-첫 번째 연습

API를 더 쉽게 구축하고 사용하는 방법을 발견하세요