DeepSeek V4 사용법: 웹 채팅, API 및 자체 호스팅 방법

DeepSeek V4는 2026년 4월 23일에 4개의 체크포인트, 라이브 API, 그리고 Hugging Face에 MIT 라이선스로 공개된 가중치와 함께 출시되었습니다. 이러한 조합은 이를 사용하는 단 하나의 "정답"이 없음을 의미합니다. 최적의 경로는 즉각적인 접근, 프로덕션 API 호출 또는 온프레미스 배포 중 무엇을 원하는지에 따라 달라집니다. 이 가이드는 세 가지 모두에 대한 장단점, 주의할 점, 그리고 재사용할 수 있는 프로덕션용 프롬프트 워크플로우를 안내합니다.

제품 수준의 개요만 원한다면 먼저 DeepSeek V4란 무엇인가를 읽어보세요. 순수한 API 사용법을 보려면 DeepSeek V4 API 가이드를 참조하세요. 무비용 경로를 보려면 DeepSeek V4를 무료로 사용하는 방법을 참조하세요. 실제 요청을 테스트할 준비가 되었다면 Apidog를 사용하여 컬렉션을 미리 빌드하세요.

버튼

요약 (TL;DR)

가장 빠른 경로: chat.deepseek.com. 무료 웹 채팅, V4-Pro 기본, 세 가지 추론 모드.
프로덕션 경로: 모델 ID deepseek-v4-pro 또는 deepseek-v4-flash를 사용하는 https://api.deepseek.com/v1/chat/completions.
자체 호스팅 경로: Hugging Face에서 가중치를 가져오고, 저장소의 /inference 스크립트를 실행합니다.
라우팅 및 분류에는 Non-Think를, 코드 및 분석에는 Think High를, 비용보다 정확성이 중요할 때만 Think Max를 선택하십시오.
DeepSeek의 샘플링 권장 사항: temperature=1.0, top_p=1.0. 이를 다시 생각할 필요는 없습니다.
API 클라이언트로 Apidog를 사용하십시오. OpenAI 호환 형식은 저장된 하나의 요청으로 DeepSeek, OpenAI 및 Anthropic에서 재생할 수 있음을 의미합니다.

워크로드에 적합한 경로 선택

네 가지 현실적인 경로가 존재합니다. 각 경로는 서로 다른 강점을 가집니다.

경로	비용	설정 시간	최적 사용처
chat.deepseek.com	무료	30초	빠른 테스트, 즉석 작업
DeepSeek API	토큰당 요금 부과	5분	프로덕션, 에이전트, 배치 작업
자체 호스팅 V4-Flash	하드웨어 비용만	몇 시간	온프레미스 규정 준수, 오프라인 추론
자체 호스팅 V4-Pro	클러스터 비용만	하루	연구, 사용자 정의 파인튜닝
OpenRouter / 애그리게이터	토큰당 요금 부과	2분	다중 공급자 폴백

경로 1: 웹 채팅에서 V4 사용하기

V4에 대한 의견을 형성하는 가장 빠른 방법은 공식 채팅 인터페이스를 이용하는 것입니다.

chat.deepseek.com으로 이동합니다.
이메일, Google 또는 WeChat으로 로그인합니다.
V4-Pro는 기본 모델입니다. 작성기 상단의 토글은 Non-Think, Think High, Think Max 간에 전환됩니다.
입력을 시작합니다.

웹 채팅은 파일 업로드, 웹 검색, 그리고 1M 토큰 전체 컨텍스트를 지원합니다. 계정 수준에서 속도 제한이 적용되며, 과도한 사용은 응답을 느리게 만들 수 있지만 완전히 차단되는 경우는 드뭅니다.

웹 UI에 적합한 작업: 진단을 위해 오류 추적을 붙여넣기, 요약을 위해 200페이지 PDF 업로드, GPT-5.5 또는 Claude를 통해 실행하는 동일한 프롬프트에 대한 벤치마킹. 적합하지 않은 작업: 자동화하거나 재생하고 싶은 모든 것.

경로 2: DeepSeek API 사용하기

이것은 대부분의 팀이 선택하게 될 경로입니다. API는 라이브 상태이며, 요청 형식은 OpenAI와 호환되고, 모델 ID는 2026년 7월 deepseek-chat 지원 중단 이후에도 DeepSeek이 유지할 ID와 동일합니다.

키 얻기

platform.deepseek.com에서 가입합니다.
결제 방법을 추가합니다. 최소 충전 금액은 2달러입니다.
API Keys에서 API 키를 생성하고 한 번 복사해 두십시오. 이 비밀 키는 다시 볼 수 없습니다.

모든 클라이언트가 키를 사용할 수 있도록 내보냅니다:

export DEEPSEEK_API_KEY="sk-..."

최소 유효 요청

DeepSeek은 두 가지 기본 URL을 제공합니다. OpenAI 호환 인터페이스를 기본으로 사용하는 것이 좋습니다.

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
    ],
    "thinking_mode": "thinking"
  }'

더 저렴한 변형을 원하면 deepseek-v4-pro 대신 deepseek-v4-flash로 바꾸세요. 빠른 경로를 원하면 thinking 대신 non-thinking으로 바꾸세요.

Python 클라이언트

공식 openai SDK는 단일 기본 URL 재정의로 작동합니다. 이것이 OpenAI 호환 엔드포인트의 조용한 장점입니다. LangChain, LlamaIndex 및 DSPy를 포함한 모든 래퍼 라이브러리가 변경 없이 작동합니다.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a concise senior engineer."},
        {"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Node 클라이언트

Node에서도 동일한 패턴:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

전체 엔드포인트 세부 정보, 매개변수 테이블 및 오류 처리는 DeepSeek V4 API 가이드에 있습니다.

경로 3: Apidog로 반복 작업하기

Curl은 한 번의 호출에는 괜찮습니다. 그 이후에는 매번 다시 실행할 때마다 크레딧이 낭비되고 터미널이 복잡해집니다. Apidog는 두 가지 문제를 모두 해결합니다.

버튼

Mac, Windows 또는 Linux용 Apidog를 다운로드합니다.
새 API 프로젝트를 생성하고, https://api.deepseek.com/v1/chat/completions을 가리키는 POST 요청을 추가합니다.
헤더로 Authorization: Bearer {{DEEPSEEK_API_KEY}}를 추가하고, 요청 본문이 아닌 환경 변수에 키를 저장합니다.
첫 번째 JSON 본문을 붙여넣고 저장합니다. 여기에서 모든 조정은 한 번의 클릭으로 재생할 수 있습니다.
내장된 응답 뷰어를 사용하여 동일한 프롬프트에서 Non-Think와 Think Max 실행 간의 추론 추적을 비교합니다.

동일한 컬렉션에 OpenAI GPT-5.5 요청, Claude 요청 및 DeepSeek V4 요청을 나란히 보관할 수 있습니다. 이를 통해 공급자 간 A/B 테스트가 사소해지며, 청구 내역을 한 창에서 볼 수 있습니다. 다른 AI API와 Apidog를 이미 사용 중인 팀의 경우, 워크플로우가 일대일로 매핑됩니다. 저장된 GPT-5.5 API 컬렉션은 기본 URL 한 번의 변경으로 V4 컬렉션이 됩니다.

경로 4: V4-Flash 자체 호스팅하기

규정 준수, 에어 갭 요구 사항 또는 단위 경제성 때문에 호스팅된 API 사용이 어렵다면, MIT 라이선스는 이 경로를 전적으로 소유할 수 있음을 의미합니다.

하드웨어

V4-Flash (13B 활성, 284B 전체): FP8에서 H100 / H200 / MI300X 카드 2~4개가 필요합니다. INT4로 양자화하면, 타이트한 배치로 단일 80GB 카드에 맞습니다.
V4-Pro (49B 활성, 1.6T 전체): 진정한 클러스터 영역입니다. 프로덕션 추론을 위한 현실적인 최소 사양은 H100 16~32개입니다.

가중치 가져오기

# CLI를 한 번 설치합니다.
pip install -U "huggingface_hub[cli]"

# 저장소가 제한되어 있다면 로그인합니다 (V4는 공개되었지만, 로그인은 속도 제한에 도움이 됩니다).
huggingface-cli login

# V4-Flash를 가져옵니다.
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

다운로드에는 시간이 다소 걸릴 수 있습니다. V4-Flash는 FP8에서 약 500GB이며, V4-Pro는 수 테라바이트 범위입니다.

추론 실행

모델 저장소의 /inference 폴더에는 참조 코드가 있습니다. 빠른 테스트를 위해 vLLM과 SGLang은 출시 후 하루 이내에 V4 지원 브랜치를 게시했습니다.

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

vLLM이 실행되면, 모든 OpenAI 호환 클라이언트를 http://localhost:8000/v1로 지정하십시오. 동일한 Apidog 컬렉션을 사용하되, 기본 URL만 다르게 설정합니다.

V4에 효과적으로 프롬프트하기

V4는 GPT-5.5 또는 Claude와는 다른 방식으로 프롬프트에 응답합니다. 효과적인 세 가지 패턴입니다.

원하는 추론 모드를 명시적으로 요청하십시오. 작업에 맞춰 thinking_mode를 설정하십시오. 모델이 스스로 선택하도록 의존하지 마십시오.
시스템 프롬프트를 페르소나에 사용하고, 작업 형태에는 사용하지 마십시오. V4-Pro는 톤과 제약 조건에 대한 시스템 프롬프트를 잘 따르지만, 전체 작업 사양을 시스템 메시지에 밀어넣으려고 하면 신뢰성이 떨어집니다. 작업을 사용자 메시지에 넣으십시오.
코드 작업에 테스트 하니스를 제공하십시오. 93.5 LiveCodeBench 점수는 명확한 테스트 케이스를 사용한 평가에서 나왔습니다. 귀하의 코드 작업도 동일한 이점을 얻을 것입니다. 실패하는 테스트를 붙여넣으면, "X를 수행하는 함수"를 요청하는 것보다 모델이 더 자주 통과하는 코드를 작성할 것입니다.

긴 컨텍스트 작업(수십만 토큰)의 경우, 가장 관련성 높은 자료를 입력 창의 위쪽과 아래쪽에 가깝게 유지하십시오. V4의 하이브리드 어텐션은 효율적이지만, 최신성 및 초두 효과 편향이 여전히 나타납니다.

비용 관리

V4의 낮은 토큰 가격에도 불구하고, 폭주하는 에이전트는 예산을 빠르게 소진할 수 있습니다. 세 가지 안전 장치:

V4-Flash를 기본으로 사용하십시오. V4-Pro는 중요하다고 판단되는 품질 차이를 측정했을 때만 사용하십시오.
Non-Think를 기본으로 사용하십시오. 어려운 작업에는 Think High로 확장하고, 정확성이 중요한 작업에는 Think Max를 남겨두십시오.
max_tokens를 제한하십시오. 1M 컨텍스트는 상한선이지 목표가 아닙니다. 대부분의 답변은 2,000개의 출력 토큰에 맞습니다.

Apidog 내에서 DEEPSEEK_API_KEY에 대한 환경 범위 변수를 설정하여 테스트 실행이 프로덕션과 별도의 청구 계정에 도달하도록 하십시오. Apidog는 또한 모든 응답에 대한 토큰 수를 기록하므로, 길이가 길어진 프롬프트를 발견하는 가장 간단한 방법입니다.

DeepSeek V3 또는 다른 모델에서 마이그레이션

대부분의 팀을 위한 세 가지 마이그레이션 경로:

deepseek-chat / deepseek-reasoner에서: 모델 ID를 deepseek-v4-pro 또는 deepseek-v4-flash로 교체하십시오. 이전 ID는 2026년 7월 24일에 지원이 중단됩니다. 그 전에 이 마이그레이션을 수행하십시오.
OpenAI GPT-5.x에서: 기본 URL을 https://api.deepseek.com/v1으로 변경하고, 모델 ID를 변경하며, 나머지는 그대로 둡니다. 병렬 요청 형태에 대한 일치하는 GPT-5.5 API 가이드를 참조하십시오.
Anthropic Claude에서: Anthropic 메시지 형식을 유지하려면 https://api.deepseek.com/anthropic을 가리키거나, OpenAI 형식으로 재구성하여 주 엔드포인트를 사용하십시오.

자주 묻는 질문 (FAQ)

V4를 사용하려면 유료 계정이 필요한가요? 웹 채팅은 무료입니다. API는 충전이 필요하지만, 최소 금액은 2달러입니다. 무비용 경로에 대해서는 DeepSeek V4를 무료로 사용하는 방법을 참조하십시오.
어떤 변형을 기본으로 사용해야 하나요? Non-Think 모드의 V4-Flash로 시작하십시오. 품질을 측정하십시오. 효과가 있을 때만 상위 모드로 전환하십시오.
내 MacBook에서 V4를 실행할 수 있나요? V4-Flash는 128GB 통합 메모리를 갖춘 M3 Max 또는 M4 Max에서 강력한 양자화를 통해 느리게 실행될 것입니다. V4-Pro는 실행되지 않습니다. 노트북 수준의 실험을 위해서는 API 또는 웹 채팅을 이용하십시오.
V4는 도구 사용 및 함수 호출을 지원하나요? 네. OpenAI 호환 엔드포인트는 표준 tools 배열을 허용하며, 응답은 동일한 형태의 tool_calls를 반환합니다. Anthropic 형식 엔드포인트는 네이티브 Anthropic 도구 사용 스키마를 사용합니다.
응답을 스트리밍하려면 어떻게 해야 하나요? 요청 본문에 stream: true를 설정하십시오. 응답은 표준 OpenAI 호환 SSE 스트림이며, OpenAI 스트리밍을 처리하는 모든 라이브러리는 변경 없이 작동합니다.
속도 제한이 있나요? 호스팅된 API는 api-docs.deepseek.com에서 계층별 제한을 게시합니다. 자체 호스팅 V4는 하드웨어 사양을 제외하고 요청당 제한이 없습니다.