Hướng Dẫn Sử Dụng DeepSeek V4: Web Chat, API và Tự Lưu Trữ

Ashley Innocent

Ashley Innocent

24 tháng 4 2026

Hướng Dẫn Sử Dụng DeepSeek V4: Web Chat, API và Tự Lưu Trữ

DeepSeek V4 được phát hành vào ngày 23 tháng 4 năm 2026 với bốn điểm kiểm soát (checkpoint), một API trực tiếp và trọng số được cấp phép MIT trên Hugging Face. Sự kết hợp đó có nghĩa là không có một “cách đúng” duy nhất để sử dụng nó; con đường tốt nhất phụ thuộc vào việc bạn muốn truy cập ngay lập tức, gọi API sản xuất hay triển khai tại chỗ. Hướng dẫn này sẽ đi sâu vào cả ba, với những đánh đổi, những cạm bẫy và quy trình làm việc gợi ý sẵn sàng cho sản xuất mà bạn có thể tái sử dụng.

Nếu bạn chỉ muốn tổng quan về sản phẩm, hãy đọc DeepSeek V4 là gì trước. Để xem hướng dẫn chi tiết về API, hãy xem hướng dẫn API DeepSeek V4. Đối với con đường không tốn phí, hãy xem cách sử dụng DeepSeek V4 miễn phí. Khi bạn sẵn sàng kiểm tra các yêu cầu thực tế, hãy tải Apidog và xây dựng trước bộ sưu tập.

nút

TL;DR (Tóm tắt)

Chọn đường dẫn phù hợp cho khối lượng công việc của bạn

Có bốn đường dẫn thực tế. Mỗi đường dẫn đều có ưu điểm riêng.

Đường dẫn Chi phí Thời gian thiết lập Tốt nhất cho
chat.deepseek.com Miễn phí 30 giây Kiểm tra nhanh, công việc tạm thời
API DeepSeek Thanh toán theo token 5 phút Sản xuất, tác nhân, công việc hàng loạt
V4-Flash tự host Chỉ chi phí phần cứng Vài giờ Tuân thủ tại chỗ, suy luận ngoại tuyến
V4-Pro tự host Chỉ chi phí cụm Một ngày Nghiên cứu, tinh chỉnh tùy chỉnh
OpenRouter / trình tổng hợp Thanh toán theo token 2 phút Dự phòng nhiều nhà cung cấp

Đường dẫn 1: Sử dụng V4 trong trò chuyện web

Cách nhanh nhất để hình thành đánh giá về V4 là thông qua giao diện trò chuyện chính thức.

  1. Truy cập chat.deepseek.com.
  2. Đăng nhập bằng email, Google hoặc WeChat.
  3. V4-Pro là mô hình mặc định. Nút chuyển đổi ở đầu trình soạn thảo cho phép chuyển đổi giữa Non-Think, Think High và Think Max.
  4. Bắt đầu gõ.

Trò chuyện web hỗ trợ tải lên tệp, tìm kiếm web và ngữ cảnh 1 triệu token đầy đủ. Giới hạn tỷ lệ áp dụng ở cấp tài khoản; sử dụng nhiều có thể làm chậm phản hồi nhưng hiếm khi chặn hoàn toàn.

Các tác vụ tốt cho giao diện web: dán dấu vết lỗi để chẩn đoán, tải lên tệp PDF 200 trang để tóm tắt, so sánh hiệu suất với cùng một lời nhắc bạn chạy qua GPT-5.5 hoặc Claude. Các tác vụ không tốt: bất cứ thứ gì bạn muốn tự động hóa hoặc phát lại.

Đường dẫn 2: Sử dụng API DeepSeek

Đây là con đường mà hầu hết các nhóm sẽ lựa chọn. API đang hoạt động, định dạng yêu cầu tương thích với OpenAI và các ID mô hình là những ID mà DeepSeek sẽ giữ lại sau ngày 24 tháng 7 năm 2026, khi deepseek-chat bị ngừng sử dụng.

Lấy khóa API

  1. Đăng ký tại platform.deepseek.com.
  2. Thêm phương thức thanh toán. Nạp tiền bắt đầu từ 2 đô la.
  3. Tạo khóa API trong mục **API Keys** và sao chép một lần; bạn sẽ không thấy khóa bí mật đó nữa.

Xuất khóa để mọi client có thể nhận nó:

export DEEPSEEK_API_KEY="sk-..."

Yêu cầu tối thiểu khả thi

DeepSeek cung cấp hai URL cơ sở. Giao diện tương thích với OpenAI là giao diện nên dùng mặc định.

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
    ],
    "thinking_mode": "thinking"
  }'

Thay thế deepseek-v4-pro bằng deepseek-v4-flash nếu bạn muốn biến thể rẻ hơn. Thay thế thinking bằng non-thinking nếu bạn muốn đường dẫn nhanh.

Client Python

SDK openai chính thức hoạt động với một lần ghi đè URL cơ sở duy nhất. Đó là lợi thế thầm lặng của các điểm cuối tương thích OpenAI; mọi thư viện bao bọc, bao gồm LangChain, LlamaIndex và DSPy, đều hoạt động mà không cần sửa đổi.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a concise senior engineer."},
        {"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Client Node

Mẫu tương tự trên Node:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

Chi tiết điểm cuối đầy đủ, bảng tham số và xử lý lỗi có trong hướng dẫn API DeepSeek V4.

Đường dẫn 3: Lặp lại với Apidog

Curl tốt cho một lần gọi. Sau đó, mỗi lần chạy lại đều lãng phí tín dụng và làm lộn xộn terminal của bạn. Apidog giải quyết cả hai vấn đề này.

nút

  1. Tải Apidog cho Mac, Windows hoặc Linux.
  2. Tạo một dự án API mới, thêm yêu cầu POST trỏ đến https://api.deepseek.com/v1/chat/completions.
  3. Thêm Authorization: Bearer {{DEEPSEEK_API_KEY}} làm tiêu đề và lưu khóa trong biến môi trường, không phải trong phần thân yêu cầu.
  4. Dán phần thân JSON đầu tiên của bạn và lưu. Mọi điều chỉnh từ đây chỉ cần một cú nhấp chuột để chạy lại.
  5. Sử dụng trình xem phản hồi tích hợp để so sánh các dấu vết suy luận giữa các lần chạy Non-Think và Think Max trên cùng một lời nhắc.

Cùng một bộ sưu tập có thể chứa yêu cầu OpenAI GPT-5.5, yêu cầu Claude và yêu cầu DeepSeek V4 cạnh nhau. Điều đó giúp việc kiểm thử A/B giữa các nhà cung cấp trở nên đơn giản và giữ cho hóa đơn của bạn hiển thị trong một cửa sổ. Đối với các nhóm đã sử dụng Apidog với các API AI khác, quy trình làm việc ánh xạ một-một; bộ sưu tập API GPT-5.5 đã lưu sẽ trở thành bộ sưu tập V4 chỉ với một thay đổi URL cơ sở duy nhất.

Đường dẫn 4: Tự host V4-Flash

Nếu các yêu cầu về tuân thủ, khoảng cách không khí hoặc kinh tế đơn vị khiến bạn không thể sử dụng các API được host, thì giấy phép MIT có nghĩa là bạn hoàn toàn sở hữu con đường này.

Phần cứng

Lấy trọng số

# Cài đặt CLI một lần
pip install -U "huggingface_hub[cli]"

# Đăng nhập nếu kho lưu trữ bị giới hạn (V4 công khai, nhưng đăng nhập giúp với giới hạn tỷ lệ)
huggingface-cli login

# Tải V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Hãy chuẩn bị rằng việc tải xuống sẽ mất một thời gian. V4-Flash nặng khoảng 500GB ở FP8; V4-Pro nằm trong khoảng vài terabyte.

Chạy suy luận

Thư mục /inference trong kho lưu trữ mô hình có mã tham chiếu. Để kiểm tra nhanh, vLLM và SGLang đã phát hành các nhánh hỗ trợ V4 trong vòng một ngày kể từ khi ra mắt.

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

Khi vLLM đã hoạt động, hãy trỏ bất kỳ client tương thích OpenAI nào đến http://localhost:8000/v1. Cùng một bộ sưu tập Apidog, nhưng URL cơ sở khác.

Thúc đẩy V4 hiệu quả

V4 phản hồi các lời nhắc khác với GPT-5.5 hoặc Claude. Ba mẫu hoạt động hiệu quả.

  1. **Yêu cầu chế độ suy luận bạn muốn một cách rõ ràng.** Đặt thinking_mode để phù hợp với tác vụ. Đừng dựa vào mô hình để tự chọn.
  2. **Sử dụng lời nhắc hệ thống cho tính cách, không phải hình dạng tác vụ.** V4-Pro tuân thủ tốt các lời nhắc hệ thống về giọng điệu và giới hạn; nó kém tin cậy hơn khi bạn cố gắng nhồi nhét toàn bộ thông số tác vụ vào thông báo hệ thống. Hãy đặt tác vụ vào thông báo người dùng.
  3. **Cung cấp cho các tác vụ mã một bộ kiểm thử.** Điểm 93.5 trên LiveCodeBench đến từ các đánh giá với các trường hợp kiểm thử rõ ràng. Các tác vụ mã của bạn cũng sẽ được hưởng lợi từ điều này; dán kiểm thử thất bại và mô hình sẽ viết mã để làm cho nó vượt qua thường xuyên hơn so với việc bạn chỉ yêu cầu “một hàm làm X.”

Đối với công việc có ngữ cảnh dài (hàng trăm nghìn token), hãy giữ tài liệu liên quan nhất gần đầu và cuối cửa sổ nhập liệu. Cơ chế chú ý lai của V4 hiệu quả, nhưng các lỗi thiên vị về tính gần đây và ưu tiên vẫn xuất hiện.

Kiểm soát chi phí

Ngay cả với giá token thấp của V4, một tác nhân mất kiểm soát có thể đốt cháy ngân sách nhanh chóng. Ba rào cản bảo vệ:

Trong Apidog, hãy đặt các biến có phạm vi môi trường cho DEEPSEEK_API_KEY để các lần chạy thử nghiệm sử dụng tài khoản thanh toán riêng biệt với sản xuất. Apidog cũng ghi lại số lượng token trên mỗi phản hồi, đây là cách đơn giản nhất để phát hiện một lời nhắc đã trở nên quá dài.

Di chuyển từ DeepSeek V3 hoặc các mô hình khác

Ba đường dẫn di chuyển bao gồm hầu hết các nhóm:

Câu hỏi thường gặp

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API