DeepSeek V4 ra mắt vào ngày 23 tháng 4 năm 2026, và không giống như hầu hết các lần ra mắt tiên phong, các tùy chọn miễn phí là có thật. Trò chuyện web chính thức chạy V4-Pro mà không cần thẻ tín dụng. Các trọng số (weights) được cấp phép MIT và có thể tải xuống ngay hôm nay. Các trình tổng hợp như OpenRouter và Chutes thường cung cấp các tầng miễn phí trong vòng vài ngày sau khi DeepSeek ra mắt. Tóm lại, bạn có thể chạy các tác vụ V4 nghiêm túc mà không tốn một xu nào trước khi bạn quyết định có nên nạp tiền vào tài khoản hay không.
Hướng dẫn này sẽ trình bày chi tiết mọi phương pháp miễn phí mà chúng tôi có thể xác minh, phương pháp nào phù hợp với trường hợp sử dụng nào và cách thiết lập một bộ sưu tập sẵn sàng cho sản xuất trong Apidog để việc chuyển sang thanh toán có phí diễn ra suôn sẻ khi mức sử dụng tăng lên.
Để có cái nhìn tổng quan về sản phẩm, hãy xem DeepSeek V4 là gì. Để xem hướng dẫn đầy đủ về API, hãy xem cách sử dụng API DeepSeek V4.
Tóm tắt
- chat.deepseek.com — trò chuyện web miễn phí trên V4-Pro với các tùy chọn Think High và Think Max. Không cần thẻ. Hoạt động ngay hôm nay.
- Trọng số Hugging Face + GPU của riêng bạn — Giấy phép MIT, V4-Flash chạy trên 2 đến 4 H100, V4-Pro cần một cụm.
- Các tầng miễn phí của OpenRouter và Chutes — các cổng của bên thứ ba thường cung cấp hạn ngạch miễn phí cho các mô hình DeepSeek trong vòng một tuần kể từ khi ra mắt.
- Nhà cung cấp suy luận Hugging Face — một điểm cuối dùng chung, có giới hạn tốc độ, cung cấp V4 cho các thử nghiệm ban đầu.
- Tín dụng dùng thử của Kaggle, Colab và RunPod — tính toán miễn phí cho các lần chạy một lần khi bạn muốn thử nghiệm tự lưu trữ.
- Mọi phương pháp miễn phí đều có giới hạn sử dụng. Đối với các tác vụ sản xuất, hãy chuyển sang thanh toán có phí trước khi đạt đến giới hạn.

Phương pháp 1: chat.deepseek.com (phương pháp miễn phí mặc định)
Phương pháp miễn phí nhanh nhất và đáng tin cậy nhất là giao diện trò chuyện chính thức. V4-Pro là mô hình mặc định; nút chuyển đổi ở trên cùng của trình soạn thảo chuyển đổi giữa các chế độ lập luận Non-Think, Think High và Think Max.

Thiết lập
- Mở chat.deepseek.com.
- Đăng nhập bằng email, Google hoặc WeChat.
- Xác nhận mô hình đang hoạt động là V4-Pro.
- Bắt đầu nhập.
Những gì bạn nhận được
- Cửa sổ ngữ cảnh 1M token đầy đủ.
- Tải tệp lên cho PDF, hình ảnh và gói mã.
- Tìm kiếm web theo yêu cầu.
- Tất cả ba chế độ lập luận, bao gồm Think Max.
- Lịch sử trò chuyện và thư mục.
Các giới hạn trông như thế nào
DeepSeek không công bố số lượng tin nhắn giới hạn cứng mỗi ngày; tầng miễn phí bị giảm tốc độ nhẹ khi tải cao. Việc sử dụng nhiều có thể làm chậm phản hồi hoặc xếp hàng yêu cầu nhưng hiếm khi bị chặn cứng. Nếu bạn bắt đầu thấy giới hạn tốc độ liên tục, đó là tín hiệu để giảm tần suất hoặc chuyển sang API.
Các tác vụ tốt cho giao diện web: kiểm tra xem V4 có đánh bại Claude trên lời nhắc khó nhất của bạn không, dán một tệp tarball repo để xem xét kiến trúc, chạy Think Max với một hợp đồng mà bạn sẽ phải trả tiền luật sư để đọc. Các tác vụ không tốt: bất cứ thứ gì cần tự động hóa hoặc khả năng tái tạo.
Phương pháp 2: Tự lưu trữ V4-Flash trên GPU của riêng bạn
V4-Flash là biến thể được cấp phép MIT mà hầu hết mọi người có thể tự lưu trữ một cách thực tế. Với tổng cộng 284B và 13B hoạt động, một hộp đa H100 chạy nó ở FP8 với thông lượng nghiêm túc, và lượng tử hóa INT4 có thể đưa nó vào một card 80GB duy nhất.
Chi phí ở đây là phần cứng, không phải cấp phép. Nếu bạn đã có dung lượng GPU, đây là phương pháp miễn phí bền vững nhất; nó không thể bị giới hạn tốc độ, ngừng hỗ trợ hoặc bị rút lại.
Tải trọng số
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash
Dự kiến khoảng 500GB ở FP8. Hãy dự trữ dung lượng đĩa.
Phục vụ với vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto \
--port 8000
Khi nó hoạt động, hãy trỏ bất kỳ máy khách tương thích OpenAI nào đến http://localhost:8000/v1. Điểm cuối này chấp nhận cùng một định dạng yêu cầu như API DeepSeek trả phí; Apidog coi nó như một URL cơ sở khác và tất cả các bộ sưu tập đã lưu của bạn hoạt động mà không cần chỉnh sửa.
Kiểm tra thực tế phần cứng
| Biến thể | Số card tối thiểu (FP8) | Số card tối thiểu (INT4) | Thông lượng thực tế |
|---|---|---|---|
| V4-Flash | 2 × H100 80GB | 1 × H100 80GB | 50 đến 150 tok/s |
| V4-Pro | 16 × H100 80GB | 8 × H100 80GB | phụ thuộc cụm |
Nếu bạn không có card đang rảnh rỗi, thì việc sử dụng API thường có lợi hơn so với thuê GPU theo giờ. Phương pháp tự lưu trữ chủ yếu dành cho các nhóm có năng lực hiện có hoặc các yêu cầu tuân thủ nghiêm ngặt.
Phương pháp 3: Tầng miễn phí của OpenRouter
OpenRouter là một cổng cấp yêu cầu tổng hợp các mô hình mã nguồn mở và đóng đằng sau một API duy nhất. Nền tảng này thường xuyên mở các tầng miễn phí trên các bản phát hành DeepSeek mới, và mô hình này đã được duy trì cho V3, V3.1 và V3.2.

Thiết lập
- Đăng ký tại openrouter.ai.
- Tạo khóa API.
- Kiểm tra danh mục mô hình để tìm
deepseek/deepseek-v4-prohoặcdeepseek/deepseek-v4-flash; các biến thể miễn phí thường có hậu tố:free. - Gọi nó bằng SDK tương thích OpenAI.
from openai import OpenAI
client = OpenAI(
api_key=OPENROUTER_KEY,
base_url="https://openrouter.ai/api/v1",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash:free",
messages=[{"role": "user", "content": "Write a Python CLI for semver bumping."}],
)
print(response.choices[0].message.content)
Giới hạn
Các tầng miễn phí trên OpenRouter thường giới hạn ở vài trăm yêu cầu mỗi ngày cho mỗi khóa và giảm ưu tiên khi có tải. Hoàn hảo cho việc tạo mẫu thử nghiệm, không đáng tin cậy cho sản xuất.
Phương pháp 4: Nhà cung cấp suy luận Hugging Face
Hugging Face cung cấp một bề mặt suy luận được lưu trữ, hiển thị các điểm kiểm tra V4 ngay sau khi phát hành. Giới hạn tốc độ chặt chẽ và độ trễ thay đổi, nhưng việc gọi là miễn phí.
from huggingface_hub import InferenceClient
client = InferenceClient(model="deepseek-ai/DeepSeek-V4-Flash")
response = client.chat_completion(
messages=[{"role": "user", "content": "Summarize the V4 technical report in 5 bullets."}],
max_tokens=512,
)
print(response.choices[0].message.content)
Token HF là miễn phí. Để sử dụng nhiều hơn, hãy nâng cấp lên tài khoản Pro; giới hạn tốc độ sẽ nới lỏng nhưng chi phí vẫn thấp hơn đáng kể so với API chính thức cho các tác vụ tương đương.
Phương pháp 5: Tín dụng dùng thử trên Colab, Kaggle, RunPod và Lambda
Mọi nhà cung cấp dịch vụ thuê GPU lớn đều cung cấp tín dụng dùng thử. Nếu sử dụng tốt, chúng có thể chi trả cho các thử nghiệm V4-Flash một lần mà không cần tốn tiền thật.
- Google Colab. Tầng T4 miễn phí quá nhỏ đối với V4. Colab Pro+ cung cấp 500 đơn vị tính toán mỗi tháng, đủ cho một vài thử nghiệm V4-Flash trên A100.
- Kaggle. Giờ GPU miễn phí hàng tuần trên T4 và P100. Quá nhỏ đối với V4-Pro, đôi khi đủ cho các thử nghiệm V4-Flash đã được lượng tử hóa.
- RunPod. Tín dụng dùng thử $10 đủ cho vài giờ trên H100. Đủ để khởi động vLLM, chạy một bộ thử nghiệm benchmark và tắt nó đi.
- Lambda. Các chương trình khuyến mãi giờ miễn phí không thường xuyên trên H100 và H200; hãy theo dõi trang đăng ký để biết các ưu đãi đang hoạt động.
Không có phương pháp nào trong số này là đường dẫn miễn phí dài hạn. Chúng hoạt động tốt cho một thử nghiệm có giới hạn và không gì hơn.
Xây dựng bộ sưu tập Apidog không phụ thuộc nhà cung cấp
Lợi ích thực tế của nhiều phương pháp miễn phí này là bạn có thể kiểm tra cùng một lời nhắc trên tất cả chúng mà không cần lặp lại công việc. Quy trình làm việc:
- Tải xuống Apidog.
- Tạo một bộ sưu tập với bốn môi trường:
chat(giữ chỗ),deepseek(https://api.deepseek.com/v1),openrouter(https://openrouter.ai/api/v1),self-hosted(http://localhost:8000/v1). - Lưu một yêu cầu POST duy nhất tới
{{BASE_URL}}/chat/completions. - Lưu khóa của mỗi nhà cung cấp dưới dạng biến bí mật để phần thân yêu cầu giống hệt nhau trên các môi trường.
- Chuyển đổi môi trường để A/B cùng một lời nhắc trên mọi backend.
Đây là cùng một mẫu được sử dụng cho bộ sưu tập tầng miễn phí GPT-5.5; một công cụ, mọi nhà cung cấp, không có công việc trùng lặp.
Bạn nên chọn phương pháp miễn phí nào?
Bốn nguyên tắc chung bao gồm hầu hết các quyết định.
- Tôi muốn hình thành ý kiến trong năm phút. Sử dụng chat.deepseek.com.
- Tôi muốn tạo mẫu một sản phẩm. Sử dụng tầng miễn phí của OpenRouter cho đến khi bạn đạt đến giới hạn, sau đó nạp tiền vào DeepSeek.
- Tôi có GPU và câu chuyện tuân thủ. Tự lưu trữ V4-Flash trên vLLM.
- Tôi cần sử dụng miễn phí dài hạn. Không có điều đó. Mọi tầng miễn phí được lưu trữ đều có giới hạn ở đâu đó. Kết hợp chat.deepseek.com cho công việc tương tác với một khoản nạp tiền nhỏ có trả phí cho tự động hóa.
Khi nào nên ngừng sử dụng miễn phí
Ba dấu hiệu cho thấy bạn đã vượt quá tầng miễn phí.
- Bạn bị giới hạn tốc độ hơn một lần mỗi ngày. Điều đó có nghĩa là khối lượng công việc đủ lớn để xứng đáng có một ngân sách.
- Bạn cần SLA (Thỏa thuận mức dịch vụ). Các tầng miễn phí không có chúng. API chính thức thì có.
- Bạn cần ghi nhật ký, kiểm toán hoặc vượt qua kiểm tra tuân thủ. API trả phí trả về các bản ghi thanh toán rõ ràng; hầu hết các tầng miễn phí của các trình tổng hợp thì không.
Khi bất kỳ điều nào trong số đó xảy ra, hãy chuyển sang API chính thức. Mức nạp tiền tối thiểu là $2 và giá mỗi token là thấp nhất trong tầng tiên phong.
Câu hỏi thường gặp
chat.deepseek.com có thực sự miễn phí không?Có. Không cần thẻ tín dụng, không có thời gian dùng thử. Dịch vụ bị giảm tốc độ nhẹ nhưng không bị chặn bởi tường phí.
Tôi có cần tài khoản Hugging Face để tải trọng số không?Về mặt kỹ thuật là không, kho lưu trữ là công khai. Về mặt thực tế là có; tài khoản đã đăng nhập mang lại cho bạn giới hạn tốc độ tốt hơn khi tải xuống.
Phương pháp miễn phí nào chạy V4-Pro thực sự?chat.deepseek.com chạy V4-Pro đầy đủ. Các tầng miễn phí của OpenRouter thường hỗ trợ V4-Flash. Nếu bạn cần đầu ra V4-Pro và không muốn trả tiền, trò chuyện web là con đường đáng tin cậy.
Tôi có thể đặt một tầng miễn phí đằng sau một sản phẩm không?Không một cách có trách nhiệm. Các tầng miễn phí bị giới hạn tốc độ, thay đổi điều khoản và đôi khi biến mất. Nếu bạn đang cung cấp V4 cho khách hàng, hãy sử dụng API trả phí hoặc tự lưu trữ.
Việc tự lưu trữ có thực sự miễn phí không?Giấy phép là miễn phí. Phần cứng thì không. Nếu bạn đã sở hữu dung lượng GPU, chi phí cận biên là điện. Nếu bạn thuê, tính toán thường không có lợi bằng API trả phí.
Apidog có tầng miễn phí để thử nghiệm không?Bản thân Apidog là miễn phí để sử dụng cho thiết kế và thử nghiệm API; nó chỉ tốn tín dụng khi bạn truy cập các API trả phí thông qua nó. Vì vậy, có, bạn có thể kết hợp không gian làm việc Apidog miễn phí với chat.deepseek.com hoặc OpenRouter để có một quy trình làm việc hoàn toàn miễn phí.
