DeepSeek V4 사용법: 웹 채팅, API 및 자체 호스팅 방법

Ashley Innocent

Ashley Innocent

24 April 2026

DeepSeek V4 사용법: 웹 채팅, API 및 자체 호스팅 방법

DeepSeek V4는 2026년 4월 23일에 4개의 체크포인트, 라이브 API, 그리고 Hugging Face에 MIT 라이선스로 공개된 가중치와 함께 출시되었습니다. 이러한 조합은 이를 사용하는 단 하나의 "정답"이 없음을 의미합니다. 최적의 경로는 즉각적인 접근, 프로덕션 API 호출 또는 온프레미스 배포 중 무엇을 원하는지에 따라 달라집니다. 이 가이드는 세 가지 모두에 대한 장단점, 주의할 점, 그리고 재사용할 수 있는 프로덕션용 프롬프트 워크플로우를 안내합니다.

제품 수준의 개요만 원한다면 먼저 DeepSeek V4란 무엇인가를 읽어보세요. 순수한 API 사용법을 보려면 DeepSeek V4 API 가이드를 참조하세요. 무비용 경로를 보려면 DeepSeek V4를 무료로 사용하는 방법을 참조하세요. 실제 요청을 테스트할 준비가 되었다면 Apidog를 사용하여 컬렉션을 미리 빌드하세요.

버튼

요약 (TL;DR)

워크로드에 적합한 경로 선택

네 가지 현실적인 경로가 존재합니다. 각 경로는 서로 다른 강점을 가집니다.

경로 비용 설정 시간 최적 사용처
chat.deepseek.com 무료 30초 빠른 테스트, 즉석 작업
DeepSeek API 토큰당 요금 부과 5분 프로덕션, 에이전트, 배치 작업
자체 호스팅 V4-Flash 하드웨어 비용만 몇 시간 온프레미스 규정 준수, 오프라인 추론
자체 호스팅 V4-Pro 클러스터 비용만 하루 연구, 사용자 정의 파인튜닝
OpenRouter / 애그리게이터 토큰당 요금 부과 2분 다중 공급자 폴백

경로 1: 웹 채팅에서 V4 사용하기

V4에 대한 의견을 형성하는 가장 빠른 방법은 공식 채팅 인터페이스를 이용하는 것입니다.

  1. chat.deepseek.com으로 이동합니다.
  2. 이메일, Google 또는 WeChat으로 로그인합니다.
  3. V4-Pro는 기본 모델입니다. 작성기 상단의 토글은 Non-Think, Think High, Think Max 간에 전환됩니다.
  4. 입력을 시작합니다.

웹 채팅은 파일 업로드, 웹 검색, 그리고 1M 토큰 전체 컨텍스트를 지원합니다. 계정 수준에서 속도 제한이 적용되며, 과도한 사용은 응답을 느리게 만들 수 있지만 완전히 차단되는 경우는 드뭅니다.

웹 UI에 적합한 작업: 진단을 위해 오류 추적을 붙여넣기, 요약을 위해 200페이지 PDF 업로드, GPT-5.5 또는 Claude를 통해 실행하는 동일한 프롬프트에 대한 벤치마킹. 적합하지 않은 작업: 자동화하거나 재생하고 싶은 모든 것.

경로 2: DeepSeek API 사용하기

이것은 대부분의 팀이 선택하게 될 경로입니다. API는 라이브 상태이며, 요청 형식은 OpenAI와 호환되고, 모델 ID는 2026년 7월 deepseek-chat 지원 중단 이후에도 DeepSeek이 유지할 ID와 동일합니다.

키 얻기

  1. platform.deepseek.com에서 가입합니다.
  2. 결제 방법을 추가합니다. 최소 충전 금액은 2달러입니다.
  3. API Keys에서 API 키를 생성하고 한 번 복사해 두십시오. 이 비밀 키는 다시 볼 수 없습니다.

모든 클라이언트가 키를 사용할 수 있도록 내보냅니다:

export DEEPSEEK_API_KEY="sk-..."

최소 유효 요청

DeepSeek은 두 가지 기본 URL을 제공합니다. OpenAI 호환 인터페이스를 기본으로 사용하는 것이 좋습니다.

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
    ],
    "thinking_mode": "thinking"
  }'

더 저렴한 변형을 원하면 deepseek-v4-pro 대신 deepseek-v4-flash로 바꾸세요. 빠른 경로를 원하면 thinking 대신 non-thinking으로 바꾸세요.

Python 클라이언트

공식 openai SDK는 단일 기본 URL 재정의로 작동합니다. 이것이 OpenAI 호환 엔드포인트의 조용한 장점입니다. LangChain, LlamaIndex 및 DSPy를 포함한 모든 래퍼 라이브러리가 변경 없이 작동합니다.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a concise senior engineer."},
        {"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Node 클라이언트

Node에서도 동일한 패턴:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

전체 엔드포인트 세부 정보, 매개변수 테이블 및 오류 처리는 DeepSeek V4 API 가이드에 있습니다.

경로 3: Apidog로 반복 작업하기

Curl은 한 번의 호출에는 괜찮습니다. 그 이후에는 매번 다시 실행할 때마다 크레딧이 낭비되고 터미널이 복잡해집니다. Apidog는 두 가지 문제를 모두 해결합니다.

버튼
  1. Mac, Windows 또는 Linux용 Apidog를 다운로드합니다.
  2. 새 API 프로젝트를 생성하고, https://api.deepseek.com/v1/chat/completions을 가리키는 POST 요청을 추가합니다.
  3. 헤더로 Authorization: Bearer {{DEEPSEEK_API_KEY}}를 추가하고, 요청 본문이 아닌 환경 변수에 키를 저장합니다.
  4. 첫 번째 JSON 본문을 붙여넣고 저장합니다. 여기에서 모든 조정은 한 번의 클릭으로 재생할 수 있습니다.
  5. 내장된 응답 뷰어를 사용하여 동일한 프롬프트에서 Non-Think와 Think Max 실행 간의 추론 추적을 비교합니다.

동일한 컬렉션에 OpenAI GPT-5.5 요청, Claude 요청 및 DeepSeek V4 요청을 나란히 보관할 수 있습니다. 이를 통해 공급자 간 A/B 테스트가 사소해지며, 청구 내역을 한 창에서 볼 수 있습니다. 다른 AI API와 Apidog를 이미 사용 중인 팀의 경우, 워크플로우가 일대일로 매핑됩니다. 저장된 GPT-5.5 API 컬렉션은 기본 URL 한 번의 변경으로 V4 컬렉션이 됩니다.

경로 4: V4-Flash 자체 호스팅하기

규정 준수, 에어 갭 요구 사항 또는 단위 경제성 때문에 호스팅된 API 사용이 어렵다면, MIT 라이선스는 이 경로를 전적으로 소유할 수 있음을 의미합니다.

하드웨어

가중치 가져오기

# CLI를 한 번 설치합니다.
pip install -U "huggingface_hub[cli]"

# 저장소가 제한되어 있다면 로그인합니다 (V4는 공개되었지만, 로그인은 속도 제한에 도움이 됩니다).
huggingface-cli login

# V4-Flash를 가져옵니다.
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

다운로드에는 시간이 다소 걸릴 수 있습니다. V4-Flash는 FP8에서 약 500GB이며, V4-Pro는 수 테라바이트 범위입니다.

추론 실행

모델 저장소의 /inference 폴더에는 참조 코드가 있습니다. 빠른 테스트를 위해 vLLM과 SGLang은 출시 후 하루 이내에 V4 지원 브랜치를 게시했습니다.

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

vLLM이 실행되면, 모든 OpenAI 호환 클라이언트를 http://localhost:8000/v1로 지정하십시오. 동일한 Apidog 컬렉션을 사용하되, 기본 URL만 다르게 설정합니다.

V4에 효과적으로 프롬프트하기

V4는 GPT-5.5 또는 Claude와는 다른 방식으로 프롬프트에 응답합니다. 효과적인 세 가지 패턴입니다.

  1. 원하는 추론 모드를 명시적으로 요청하십시오. 작업에 맞춰 thinking_mode를 설정하십시오. 모델이 스스로 선택하도록 의존하지 마십시오.
  2. 시스템 프롬프트를 페르소나에 사용하고, 작업 형태에는 사용하지 마십시오. V4-Pro는 톤과 제약 조건에 대한 시스템 프롬프트를 잘 따르지만, 전체 작업 사양을 시스템 메시지에 밀어넣으려고 하면 신뢰성이 떨어집니다. 작업을 사용자 메시지에 넣으십시오.
  3. 코드 작업에 테스트 하니스를 제공하십시오. 93.5 LiveCodeBench 점수는 명확한 테스트 케이스를 사용한 평가에서 나왔습니다. 귀하의 코드 작업도 동일한 이점을 얻을 것입니다. 실패하는 테스트를 붙여넣으면, "X를 수행하는 함수"를 요청하는 것보다 모델이 더 자주 통과하는 코드를 작성할 것입니다.

긴 컨텍스트 작업(수십만 토큰)의 경우, 가장 관련성 높은 자료를 입력 창의 위쪽과 아래쪽에 가깝게 유지하십시오. V4의 하이브리드 어텐션은 효율적이지만, 최신성 및 초두 효과 편향이 여전히 나타납니다.

비용 관리

V4의 낮은 토큰 가격에도 불구하고, 폭주하는 에이전트는 예산을 빠르게 소진할 수 있습니다. 세 가지 안전 장치:

Apidog 내에서 DEEPSEEK_API_KEY에 대한 환경 범위 변수를 설정하여 테스트 실행이 프로덕션과 별도의 청구 계정에 도달하도록 하십시오. Apidog는 또한 모든 응답에 대한 토큰 수를 기록하므로, 길이가 길어진 프롬프트를 발견하는 가장 간단한 방법입니다.

DeepSeek V3 또는 다른 모델에서 마이그레이션

대부분의 팀을 위한 세 가지 마이그레이션 경로:

자주 묻는 질문 (FAQ)

Apidog에서 API 설계-첫 번째 연습

API를 더 쉽게 구축하고 사용하는 방법을 발견하세요