Cách Sử Dụng DeepSeek V4 Miễn Phí

Ashley Innocent

Ashley Innocent

24 tháng 4 2026

Cách Sử Dụng DeepSeek V4 Miễn Phí

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

DeepSeek V4 ra mắt vào ngày 23 tháng 4 năm 2026, và không giống như hầu hết các lần ra mắt tiên phong, các tùy chọn miễn phí là có thật. Trò chuyện web chính thức chạy V4-Pro mà không cần thẻ tín dụng. Các trọng số (weights) được cấp phép MIT và có thể tải xuống ngay hôm nay. Các trình tổng hợp như OpenRouter và Chutes thường cung cấp các tầng miễn phí trong vòng vài ngày sau khi DeepSeek ra mắt. Tóm lại, bạn có thể chạy các tác vụ V4 nghiêm túc mà không tốn một xu nào trước khi bạn quyết định có nên nạp tiền vào tài khoản hay không.

Hướng dẫn này sẽ trình bày chi tiết mọi phương pháp miễn phí mà chúng tôi có thể xác minh, phương pháp nào phù hợp với trường hợp sử dụng nào và cách thiết lập một bộ sưu tập sẵn sàng cho sản xuất trong Apidog để việc chuyển sang thanh toán có phí diễn ra suôn sẻ khi mức sử dụng tăng lên.

nút

Để có cái nhìn tổng quan về sản phẩm, hãy xem DeepSeek V4 là gì. Để xem hướng dẫn đầy đủ về API, hãy xem cách sử dụng API DeepSeek V4.

Tóm tắt

ảnh

Phương pháp 1: chat.deepseek.com (phương pháp miễn phí mặc định)

Phương pháp miễn phí nhanh nhất và đáng tin cậy nhất là giao diện trò chuyện chính thức. V4-Pro là mô hình mặc định; nút chuyển đổi ở trên cùng của trình soạn thảo chuyển đổi giữa các chế độ lập luận Non-Think, Think High và Think Max.

ảnh

Thiết lập

  1. Mở chat.deepseek.com.
  2. Đăng nhập bằng email, Google hoặc WeChat.
  3. Xác nhận mô hình đang hoạt động là V4-Pro.
  4. Bắt đầu nhập.

Những gì bạn nhận được

Các giới hạn trông như thế nào

DeepSeek không công bố số lượng tin nhắn giới hạn cứng mỗi ngày; tầng miễn phí bị giảm tốc độ nhẹ khi tải cao. Việc sử dụng nhiều có thể làm chậm phản hồi hoặc xếp hàng yêu cầu nhưng hiếm khi bị chặn cứng. Nếu bạn bắt đầu thấy giới hạn tốc độ liên tục, đó là tín hiệu để giảm tần suất hoặc chuyển sang API.

Các tác vụ tốt cho giao diện web: kiểm tra xem V4 có đánh bại Claude trên lời nhắc khó nhất của bạn không, dán một tệp tarball repo để xem xét kiến trúc, chạy Think Max với một hợp đồng mà bạn sẽ phải trả tiền luật sư để đọc. Các tác vụ không tốt: bất cứ thứ gì cần tự động hóa hoặc khả năng tái tạo.

Phương pháp 2: Tự lưu trữ V4-Flash trên GPU của riêng bạn

V4-Flash là biến thể được cấp phép MIT mà hầu hết mọi người có thể tự lưu trữ một cách thực tế. Với tổng cộng 284B và 13B hoạt động, một hộp đa H100 chạy nó ở FP8 với thông lượng nghiêm túc, và lượng tử hóa INT4 có thể đưa nó vào một card 80GB duy nhất.

Chi phí ở đây là phần cứng, không phải cấp phép. Nếu bạn đã có dung lượng GPU, đây là phương pháp miễn phí bền vững nhất; nó không thể bị giới hạn tốc độ, ngừng hỗ trợ hoặc bị rút lại.

Tải trọng số

pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash

Dự kiến khoảng 500GB ở FP8. Hãy dự trữ dung lượng đĩa.

Phục vụ với vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto \
  --port 8000

Khi nó hoạt động, hãy trỏ bất kỳ máy khách tương thích OpenAI nào đến http://localhost:8000/v1. Điểm cuối này chấp nhận cùng một định dạng yêu cầu như API DeepSeek trả phí; Apidog coi nó như một URL cơ sở khác và tất cả các bộ sưu tập đã lưu của bạn hoạt động mà không cần chỉnh sửa.

Kiểm tra thực tế phần cứng

Biến thể Số card tối thiểu (FP8) Số card tối thiểu (INT4) Thông lượng thực tế
V4-Flash 2 × H100 80GB 1 × H100 80GB 50 đến 150 tok/s
V4-Pro 16 × H100 80GB 8 × H100 80GB phụ thuộc cụm

Nếu bạn không có card đang rảnh rỗi, thì việc sử dụng API thường có lợi hơn so với thuê GPU theo giờ. Phương pháp tự lưu trữ chủ yếu dành cho các nhóm có năng lực hiện có hoặc các yêu cầu tuân thủ nghiêm ngặt.

Phương pháp 3: Tầng miễn phí của OpenRouter

OpenRouter là một cổng cấp yêu cầu tổng hợp các mô hình mã nguồn mở và đóng đằng sau một API duy nhất. Nền tảng này thường xuyên mở các tầng miễn phí trên các bản phát hành DeepSeek mới, và mô hình này đã được duy trì cho V3, V3.1 và V3.2.

ảnh

Thiết lập

  1. Đăng ký tại openrouter.ai.
  2. Tạo khóa API.
  3. Kiểm tra danh mục mô hình để tìm deepseek/deepseek-v4-pro hoặc deepseek/deepseek-v4-flash; các biến thể miễn phí thường có hậu tố :free.
  4. Gọi nó bằng SDK tương thích OpenAI.
from openai import OpenAI

client = OpenAI(
    api_key=OPENROUTER_KEY,
    base_url="https://openrouter.ai/api/v1",
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash:free",
    messages=[{"role": "user", "content": "Write a Python CLI for semver bumping."}],
)

print(response.choices[0].message.content)

Giới hạn

Các tầng miễn phí trên OpenRouter thường giới hạn ở vài trăm yêu cầu mỗi ngày cho mỗi khóa và giảm ưu tiên khi có tải. Hoàn hảo cho việc tạo mẫu thử nghiệm, không đáng tin cậy cho sản xuất.

Phương pháp 4: Nhà cung cấp suy luận Hugging Face

Hugging Face cung cấp một bề mặt suy luận được lưu trữ, hiển thị các điểm kiểm tra V4 ngay sau khi phát hành. Giới hạn tốc độ chặt chẽ và độ trễ thay đổi, nhưng việc gọi là miễn phí.

from huggingface_hub import InferenceClient

client = InferenceClient(model="deepseek-ai/DeepSeek-V4-Flash")

response = client.chat_completion(
    messages=[{"role": "user", "content": "Summarize the V4 technical report in 5 bullets."}],
    max_tokens=512,
)

print(response.choices[0].message.content)

Token HF là miễn phí. Để sử dụng nhiều hơn, hãy nâng cấp lên tài khoản Pro; giới hạn tốc độ sẽ nới lỏng nhưng chi phí vẫn thấp hơn đáng kể so với API chính thức cho các tác vụ tương đương.

Phương pháp 5: Tín dụng dùng thử trên Colab, Kaggle, RunPod và Lambda

Mọi nhà cung cấp dịch vụ thuê GPU lớn đều cung cấp tín dụng dùng thử. Nếu sử dụng tốt, chúng có thể chi trả cho các thử nghiệm V4-Flash một lần mà không cần tốn tiền thật.

Không có phương pháp nào trong số này là đường dẫn miễn phí dài hạn. Chúng hoạt động tốt cho một thử nghiệm có giới hạn và không gì hơn.

Xây dựng bộ sưu tập Apidog không phụ thuộc nhà cung cấp

Lợi ích thực tế của nhiều phương pháp miễn phí này là bạn có thể kiểm tra cùng một lời nhắc trên tất cả chúng mà không cần lặp lại công việc. Quy trình làm việc:

  1. Tải xuống Apidog.
  2. Tạo một bộ sưu tập với bốn môi trường: chat (giữ chỗ), deepseek (https://api.deepseek.com/v1), openrouter (https://openrouter.ai/api/v1), self-hosted (http://localhost:8000/v1).
  3. Lưu một yêu cầu POST duy nhất tới {{BASE_URL}}/chat/completions.
  4. Lưu khóa của mỗi nhà cung cấp dưới dạng biến bí mật để phần thân yêu cầu giống hệt nhau trên các môi trường.
  5. Chuyển đổi môi trường để A/B cùng một lời nhắc trên mọi backend.

Đây là cùng một mẫu được sử dụng cho bộ sưu tập tầng miễn phí GPT-5.5; một công cụ, mọi nhà cung cấp, không có công việc trùng lặp.

Bạn nên chọn phương pháp miễn phí nào?

Bốn nguyên tắc chung bao gồm hầu hết các quyết định.

Khi nào nên ngừng sử dụng miễn phí

Ba dấu hiệu cho thấy bạn đã vượt quá tầng miễn phí.

  1. Bạn bị giới hạn tốc độ hơn một lần mỗi ngày. Điều đó có nghĩa là khối lượng công việc đủ lớn để xứng đáng có một ngân sách.
  2. Bạn cần SLA (Thỏa thuận mức dịch vụ). Các tầng miễn phí không có chúng. API chính thức thì có.
  3. Bạn cần ghi nhật ký, kiểm toán hoặc vượt qua kiểm tra tuân thủ. API trả phí trả về các bản ghi thanh toán rõ ràng; hầu hết các tầng miễn phí của các trình tổng hợp thì không.

Khi bất kỳ điều nào trong số đó xảy ra, hãy chuyển sang API chính thức. Mức nạp tiền tối thiểu là $2 và giá mỗi token là thấp nhất trong tầng tiên phong.

Câu hỏi thường gặp

chat.deepseek.com có thực sự miễn phí không?Có. Không cần thẻ tín dụng, không có thời gian dùng thử. Dịch vụ bị giảm tốc độ nhẹ nhưng không bị chặn bởi tường phí.

Tôi có cần tài khoản Hugging Face để tải trọng số không?Về mặt kỹ thuật là không, kho lưu trữ là công khai. Về mặt thực tế là có; tài khoản đã đăng nhập mang lại cho bạn giới hạn tốc độ tốt hơn khi tải xuống.

Phương pháp miễn phí nào chạy V4-Pro thực sự?chat.deepseek.com chạy V4-Pro đầy đủ. Các tầng miễn phí của OpenRouter thường hỗ trợ V4-Flash. Nếu bạn cần đầu ra V4-Pro và không muốn trả tiền, trò chuyện web là con đường đáng tin cậy.

Tôi có thể đặt một tầng miễn phí đằng sau một sản phẩm không?Không một cách có trách nhiệm. Các tầng miễn phí bị giới hạn tốc độ, thay đổi điều khoản và đôi khi biến mất. Nếu bạn đang cung cấp V4 cho khách hàng, hãy sử dụng API trả phí hoặc tự lưu trữ.

Việc tự lưu trữ có thực sự miễn phí không?Giấy phép là miễn phí. Phần cứng thì không. Nếu bạn đã sở hữu dung lượng GPU, chi phí cận biên là điện. Nếu bạn thuê, tính toán thường không có lợi bằng API trả phí.

Apidog có tầng miễn phí để thử nghiệm không?Bản thân Apidog là miễn phí để sử dụng cho thiết kế và thử nghiệm API; nó chỉ tốn tín dụng khi bạn truy cập các API trả phí thông qua nó. Vì vậy, có, bạn có thể kết hợp không gian làm việc Apidog miễn phí với chat.deepseek.com hoặc OpenRouter để có một quy trình làm việc hoàn toàn miễn phí.

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API