Hướng Dẫn Sử Dụng DeepSeek V4: Web Chat, API và Tự Lưu Trữ

DeepSeek V4 được phát hành vào ngày 23 tháng 4 năm 2026 với bốn điểm kiểm soát (checkpoint), một API trực tiếp và trọng số được cấp phép MIT trên Hugging Face. Sự kết hợp đó có nghĩa là không có một “cách đúng” duy nhất để sử dụng nó; con đường tốt nhất phụ thuộc vào việc bạn muốn truy cập ngay lập tức, gọi API sản xuất hay triển khai tại chỗ. Hướng dẫn này sẽ đi sâu vào cả ba, với những đánh đổi, những cạm bẫy và quy trình làm việc gợi ý sẵn sàng cho sản xuất mà bạn có thể tái sử dụng.

Nếu bạn chỉ muốn tổng quan về sản phẩm, hãy đọc DeepSeek V4 là gì trước. Để xem hướng dẫn chi tiết về API, hãy xem hướng dẫn API DeepSeek V4. Đối với con đường không tốn phí, hãy xem cách sử dụng DeepSeek V4 miễn phí. Khi bạn sẵn sàng kiểm tra các yêu cầu thực tế, hãy tải Apidog và xây dựng trước bộ sưu tập.

nút

TL;DR (Tóm tắt)

Đường dẫn nhanh nhất: chat.deepseek.com. Trò chuyện web miễn phí, mặc định V4-Pro, ba chế độ suy luận.
Đường dẫn sản xuất: https://api.deepseek.com/v1/chat/completions với ID mô hình deepseek-v4-pro hoặc deepseek-v4-flash.
Đường dẫn tự host: kéo trọng số từ Hugging Face, chạy các script /inference trong kho lưu trữ.
Chọn **Non-Think** (Không suy luận) cho định tuyến và phân loại, **Think High** (Suy luận cao) cho mã và phân tích, **Think Max** (Suy luận tối đa) chỉ khi độ chính xác quan trọng hơn chi phí.
Khuyến nghị lấy mẫu từ DeepSeek: temperature=1.0, top_p=1.0. Đừng đoán già đoán non về nó.
Sử dụng Apidog làm client API; định dạng tương thích OpenAI có nghĩa là một yêu cầu đã lưu có thể phát lại trên DeepSeek, OpenAI và Anthropic.

Chọn đường dẫn phù hợp cho khối lượng công việc của bạn

Có bốn đường dẫn thực tế. Mỗi đường dẫn đều có ưu điểm riêng.

Đường dẫn	Chi phí	Thời gian thiết lập	Tốt nhất cho
chat.deepseek.com	Miễn phí	30 giây	Kiểm tra nhanh, công việc tạm thời
API DeepSeek	Thanh toán theo token	5 phút	Sản xuất, tác nhân, công việc hàng loạt
V4-Flash tự host	Chỉ chi phí phần cứng	Vài giờ	Tuân thủ tại chỗ, suy luận ngoại tuyến
V4-Pro tự host	Chỉ chi phí cụm	Một ngày	Nghiên cứu, tinh chỉnh tùy chỉnh
OpenRouter / trình tổng hợp	Thanh toán theo token	2 phút	Dự phòng nhiều nhà cung cấp

Đường dẫn 1: Sử dụng V4 trong trò chuyện web

Cách nhanh nhất để hình thành đánh giá về V4 là thông qua giao diện trò chuyện chính thức.

Truy cập chat.deepseek.com.
Đăng nhập bằng email, Google hoặc WeChat.
V4-Pro là mô hình mặc định. Nút chuyển đổi ở đầu trình soạn thảo cho phép chuyển đổi giữa Non-Think, Think High và Think Max.
Bắt đầu gõ.

Trò chuyện web hỗ trợ tải lên tệp, tìm kiếm web và ngữ cảnh 1 triệu token đầy đủ. Giới hạn tỷ lệ áp dụng ở cấp tài khoản; sử dụng nhiều có thể làm chậm phản hồi nhưng hiếm khi chặn hoàn toàn.

Các tác vụ tốt cho giao diện web: dán dấu vết lỗi để chẩn đoán, tải lên tệp PDF 200 trang để tóm tắt, so sánh hiệu suất với cùng một lời nhắc bạn chạy qua GPT-5.5 hoặc Claude. Các tác vụ không tốt: bất cứ thứ gì bạn muốn tự động hóa hoặc phát lại.

Đường dẫn 2: Sử dụng API DeepSeek

Đây là con đường mà hầu hết các nhóm sẽ lựa chọn. API đang hoạt động, định dạng yêu cầu tương thích với OpenAI và các ID mô hình là những ID mà DeepSeek sẽ giữ lại sau ngày 24 tháng 7 năm 2026, khi deepseek-chat bị ngừng sử dụng.

Lấy khóa API

Đăng ký tại platform.deepseek.com.
Thêm phương thức thanh toán. Nạp tiền bắt đầu từ 2 đô la.
Tạo khóa API trong mục **API Keys** và sao chép một lần; bạn sẽ không thấy khóa bí mật đó nữa.

Xuất khóa để mọi client có thể nhận nó:

export DEEPSEEK_API_KEY="sk-..."

Yêu cầu tối thiểu khả thi

DeepSeek cung cấp hai URL cơ sở. Giao diện tương thích với OpenAI là giao diện nên dùng mặc định.

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
    ],
    "thinking_mode": "thinking"
  }'

Thay thế deepseek-v4-pro bằng deepseek-v4-flash nếu bạn muốn biến thể rẻ hơn. Thay thế thinking bằng non-thinking nếu bạn muốn đường dẫn nhanh.

Client Python

SDK openai chính thức hoạt động với một lần ghi đè URL cơ sở duy nhất. Đó là lợi thế thầm lặng của các điểm cuối tương thích OpenAI; mọi thư viện bao bọc, bao gồm LangChain, LlamaIndex và DSPy, đều hoạt động mà không cần sửa đổi.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a concise senior engineer."},
        {"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Client Node

Mẫu tương tự trên Node:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

Chi tiết điểm cuối đầy đủ, bảng tham số và xử lý lỗi có trong hướng dẫn API DeepSeek V4.

Đường dẫn 3: Lặp lại với Apidog

Curl tốt cho một lần gọi. Sau đó, mỗi lần chạy lại đều lãng phí tín dụng và làm lộn xộn terminal của bạn. Apidog giải quyết cả hai vấn đề này.

nút

Tải Apidog cho Mac, Windows hoặc Linux.
Tạo một dự án API mới, thêm yêu cầu POST trỏ đến https://api.deepseek.com/v1/chat/completions.
Thêm Authorization: Bearer {{DEEPSEEK_API_KEY}} làm tiêu đề và lưu khóa trong biến môi trường, không phải trong phần thân yêu cầu.
Dán phần thân JSON đầu tiên của bạn và lưu. Mọi điều chỉnh từ đây chỉ cần một cú nhấp chuột để chạy lại.
Sử dụng trình xem phản hồi tích hợp để so sánh các dấu vết suy luận giữa các lần chạy Non-Think và Think Max trên cùng một lời nhắc.

Cùng một bộ sưu tập có thể chứa yêu cầu OpenAI GPT-5.5, yêu cầu Claude và yêu cầu DeepSeek V4 cạnh nhau. Điều đó giúp việc kiểm thử A/B giữa các nhà cung cấp trở nên đơn giản và giữ cho hóa đơn của bạn hiển thị trong một cửa sổ. Đối với các nhóm đã sử dụng Apidog với các API AI khác, quy trình làm việc ánh xạ một-một; bộ sưu tập API GPT-5.5 đã lưu sẽ trở thành bộ sưu tập V4 chỉ với một thay đổi URL cơ sở duy nhất.

Đường dẫn 4: Tự host V4-Flash

Nếu các yêu cầu về tuân thủ, khoảng cách không khí hoặc kinh tế đơn vị khiến bạn không thể sử dụng các API được host, thì giấy phép MIT có nghĩa là bạn hoàn toàn sở hữu con đường này.

Phần cứng

V4-Flash (13B hoạt động, tổng cộng 284B): 2 đến 4 card H100 / H200 / MI300X ở FP8. Được lượng tử hóa thành INT4, nó vừa vặn trên một card 80GB duy nhất với các lô chặt chẽ.
V4-Pro (49B hoạt động, tổng cộng 1.6T): là lãnh thổ cụm thực sự. 16 đến 32 H100 là mức sàn thực tế cho suy luận sản xuất.

Lấy trọng số

# Cài đặt CLI một lần
pip install -U "huggingface_hub[cli]"

# Đăng nhập nếu kho lưu trữ bị giới hạn (V4 công khai, nhưng đăng nhập giúp với giới hạn tỷ lệ)
huggingface-cli login

# Tải V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Hãy chuẩn bị rằng việc tải xuống sẽ mất một thời gian. V4-Flash nặng khoảng 500GB ở FP8; V4-Pro nằm trong khoảng vài terabyte.

Chạy suy luận

Thư mục /inference trong kho lưu trữ mô hình có mã tham chiếu. Để kiểm tra nhanh, vLLM và SGLang đã phát hành các nhánh hỗ trợ V4 trong vòng một ngày kể từ khi ra mắt.

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

Khi vLLM đã hoạt động, hãy trỏ bất kỳ client tương thích OpenAI nào đến http://localhost:8000/v1. Cùng một bộ sưu tập Apidog, nhưng URL cơ sở khác.

Thúc đẩy V4 hiệu quả

V4 phản hồi các lời nhắc khác với GPT-5.5 hoặc Claude. Ba mẫu hoạt động hiệu quả.

**Yêu cầu chế độ suy luận bạn muốn một cách rõ ràng.** Đặt thinking_mode để phù hợp với tác vụ. Đừng dựa vào mô hình để tự chọn.
**Sử dụng lời nhắc hệ thống cho tính cách, không phải hình dạng tác vụ.** V4-Pro tuân thủ tốt các lời nhắc hệ thống về giọng điệu và giới hạn; nó kém tin cậy hơn khi bạn cố gắng nhồi nhét toàn bộ thông số tác vụ vào thông báo hệ thống. Hãy đặt tác vụ vào thông báo người dùng.
**Cung cấp cho các tác vụ mã một bộ kiểm thử.** Điểm 93.5 trên LiveCodeBench đến từ các đánh giá với các trường hợp kiểm thử rõ ràng. Các tác vụ mã của bạn cũng sẽ được hưởng lợi từ điều này; dán kiểm thử thất bại và mô hình sẽ viết mã để làm cho nó vượt qua thường xuyên hơn so với việc bạn chỉ yêu cầu “một hàm làm X.”

Đối với công việc có ngữ cảnh dài (hàng trăm nghìn token), hãy giữ tài liệu liên quan nhất gần đầu và cuối cửa sổ nhập liệu. Cơ chế chú ý lai của V4 hiệu quả, nhưng các lỗi thiên vị về tính gần đây và ưu tiên vẫn xuất hiện.

Kiểm soát chi phí

Ngay cả với giá token thấp của V4, một tác nhân mất kiểm soát có thể đốt cháy ngân sách nhanh chóng. Ba rào cản bảo vệ:

**Mặc định dùng V4-Flash.** Chỉ sử dụng V4-Pro khi bạn đã đo lường được sự khác biệt về chất lượng đáng kể.
**Mặc định dùng Non-Think.** Nâng cấp lên Think High cho các tác vụ khó; dành Think Max cho các công việc đòi hỏi độ chính xác cao.
**Giới hạn max_tokens.** Ngữ cảnh 1M là giới hạn trên, không phải mục tiêu. Hầu hết các câu trả lời nằm trong 2.000 token đầu ra.

Trong Apidog, hãy đặt các biến có phạm vi môi trường cho DEEPSEEK_API_KEY để các lần chạy thử nghiệm sử dụng tài khoản thanh toán riêng biệt với sản xuất. Apidog cũng ghi lại số lượng token trên mỗi phản hồi, đây là cách đơn giản nhất để phát hiện một lời nhắc đã trở nên quá dài.

Di chuyển từ DeepSeek V3 hoặc các mô hình khác

Ba đường dẫn di chuyển bao gồm hầu hết các nhóm:

**Từ deepseek-chat / deepseek-reasoner:** thay đổi ID mô hình thành deepseek-v4-pro hoặc deepseek-v4-flash. Các ID cũ sẽ bị ngừng hỗ trợ vào ngày 24 tháng 7 năm 2026. Hãy thực hiện việc di chuyển này trước thời điểm đó.
**Từ OpenAI GPT-5.x:** thay đổi URL cơ sở thành https://api.deepseek.com/v1, thay đổi ID mô hình, giữ nguyên mọi thứ khác. Xem hướng dẫn API GPT-5.5 tương ứng để biết định dạng yêu cầu song song.
**Từ Anthropic Claude:** trỏ đến https://api.deepseek.com/anthropic để giữ định dạng tin nhắn Anthropic, hoặc định hình lại thành định dạng OpenAI và sử dụng điểm cuối chính.

Câu hỏi thường gặp

**Tôi có cần tài khoản trả phí để sử dụng V4 không?** Trò chuyện web miễn phí. API yêu cầu nạp tiền, nhưng tối thiểu là 2 đô la. Xem cách sử dụng DeepSeek V4 miễn phí để biết các đường dẫn không tốn phí.
**Tôi nên mặc định dùng biến thể nào?** Bắt đầu với V4-Flash ở chế độ Non-Think. Đo lường chất lượng. Chỉ nâng cấp khi nó mang lại lợi ích.
**Tôi có thể chạy V4 trên MacBook của mình không?** V4-Flash sẽ chạy trên M3 Max hoặc M4 Max với 128GB bộ nhớ thống nhất ở mức lượng tử hóa cao, nhưng chậm. V4-Pro thì không. Để thử nghiệm trên laptop, hãy dùng API hoặc trò chuyện web.
**V4 có hỗ trợ sử dụng công cụ và gọi hàm không?** Có. Điểm cuối tương thích OpenAI chấp nhận mảng tools tiêu chuẩn; các phản hồi mang tool_calls trở lại với cùng định dạng. Điểm cuối định dạng Anthropic sử dụng lược đồ sử dụng công cụ Anthropic gốc.
**Làm cách nào để truyền tải phản hồi?** Đặt stream: true trong phần thân yêu cầu. Phản hồi là một luồng SSE tiêu chuẩn tương thích OpenAI; bất kỳ thư viện nào xử lý truyền tải OpenAI đều hoạt động mà không cần thay đổi.
**Có giới hạn tỷ lệ không?** API được host công bố giới hạn theo cấp trên api-docs.deepseek.com. V4 tự host không có giới hạn mỗi yêu cầu nào ngoài phần cứng của bạn.