Hướng Dẫn Sử Dụng API DeepSeek-V3.2 và DeepSeek-V3.2-Speciale

Ashley Innocent

Ashley Innocent

1 tháng 12 2025

Hướng Dẫn Sử Dụng API DeepSeek-V3.2 và DeepSeek-V3.2-Speciale

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

DeepSeek tiếp tục phát triển các mô hình ngôn ngữ lớn với các bản phát hành ưu tiên khả năng suy luận và hiệu quả. Các kỹ sư và nhà nghiên cứu hiện có thể truy cập DeepSeek-V3.2 và DeepSeek-V3.2-Speciale, những mô hình xuất sắc trong việc giải quyết vấn đề phức tạp và quy trình làm việc dựa trên tác nhân (agentic workflows). Các công cụ này tích hợp liền mạch vào các ứng dụng, nhưng các nhà phát triển thường gặp thách thức trong việc thiết lập, xác thực và tối ưu hóa. Bài viết này cung cấp hướng dẫn kỹ thuật từng bước để tận dụng hiệu quả các mô hình này.

💡
Để đơn giản hóa việc kiểm thử và tài liệu API, hãy cân nhắc sử dụng Apidog, một nền tảng mạnh mẽ cho việc phát triển và cộng tác API. Tải Apidog miễn phí ngay hôm nay và sắp xếp hợp lý các thử nghiệm API DeepSeek-V3.2 và DeepSeek-V3.2-Speciale của bạn ngay từ đầu.
button

Tìm hiểu DeepSeek-V3.2: Nền tảng mã nguồn mở cho khả năng suy luận nâng cao

Các nhà phát triển xây dựng các hệ thống AI mạnh mẽ dựa trên các mô hình mã nguồn mở vì chúng mang lại sự minh bạch, khả năng tùy chỉnh và cải tiến dựa trên cộng đồng. DeepSeek-V3.2 là phiên bản kế nhiệm chính thức của biến thể thử nghiệm V3.2-Exp, mà DeepSeek đã phát hành trước đó để kiểm tra các cơ chế chú ý thưa (sparse attention). Mô hình này kích hoạt 37 tỷ tham số trong tổng số 671 tỷ tham số trong kiến trúc Mixture-of-Experts (MoE) của nó, được huấn luyện trên 14.8 nghìn tỷ token chất lượng cao. Quy mô như vậy cho phép DeepSeek-V3.2 xử lý các tác vụ đa dạng, từ tạo ngôn ngữ tự nhiên đến các chứng minh toán học phức tạp.

Điểm đổi mới cốt lõi của mô hình nằm ở DeepSeek Sparse Attention (DSA), một cơ chế tinh chỉnh giúp giảm chi phí tính toán trong quá trình suy luận, đặc biệt đối với các ngữ cảnh dài lên đến 128.000 token. Các kỹ sư đánh giá cao điều này vì nó duy trì chất lượng đầu ra đồng thời giảm độ trễ—điều rất quan trọng đối với các ứng dụng thời gian thực như chatbot hoặc trợ lý mã hóa. Hơn nữa, DeepSeek-V3.2 tích hợp các chế độ "suy nghĩ" (thinking modes), trong đó mô hình tạo ra các bước suy luận trung gian trước khi đưa ra kết quả cuối cùng, giúp tăng cường độ chính xác trên các bài kiểm tra như AIME 2025 và HMMT 2025.

Truy cập phiên bản mã nguồn mở trên Hugging Face tại deepseek-ai/DeepSeek-V3.2. Các nhà phát triển tải xuống trọng số (weights) và cấu hình trực tiếp, cho phép triển khai cục bộ trên các cụm GPU. Ví dụ, sử dụng thư viện Transformers để tải mô hình:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "deepseek-ai/DeepSeek-V3.2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

prompt = "Solve this equation: x^2 + 3x - 4 = 0"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=200, do_sample=False)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

Đoạn mã này khởi tạo mô hình với độ chính xác bfloat16 để đạt hiệu quả trên các GPU NVIDIA hiện đại. Tuy nhiên, việc chạy cục bộ đòi hỏi phần cứng đáng kể—khuyến nghị ít nhất 8x GPU A100 để đạt độ chính xác đầy đủ. Do đó, nhiều đội chọn các phiên bản lượng tử hóa thông qua các thư viện như bitsandbytes để chạy được trên phần cứng thông thường.

Các điểm chuẩn nhấn mạnh sức mạnh của DeepSeek-V3.2. Trong các tác vụ suy luận, nó đạt 93.1% trên AIME 2025 (pass@1), vượt qua 90.2% của GPT-5-High. Đối với khả năng tác nhân, nó giải quyết 2.537 vấn đề trên SWE-Bench Verified, vượt trội so với 2.536 của Claude-4.5-Sonnet. Các số liệu này định vị DeepSeek-V3.2 là một "công cụ hàng ngày" cân bằng cho môi trường sản xuất, nơi tốc độ suy luận quan trọng ngang với trí thông minh thô.

Hơn nữa, mô hình hỗ trợ các phần mở rộng đa phương thức trong các bản cập nhật tương lai, nhưng các bản phát hành hiện tại tập trung vào suy luận dựa trên văn bản. Các kỹ sư tinh chỉnh nó trên các bộ dữ liệu chuyên biệt bằng cách sử dụng các bộ chuyển đổi LoRA, giữ nguyên các khả năng cơ bản trong khi thích ứng với các lĩnh vực ngách như phân tích pháp lý hoặc mô phỏng khoa học. Kết quả là, quyền truy cập mã nguồn mở thúc đẩy việc tạo mẫu nhanh chóng mà không bị ràng buộc bởi nhà cung cấp.

Khám phá DeepSeek-V3.2-Speciale: Tối ưu hóa cho hiệu suất suy luận đỉnh cao

Trong khi DeepSeek-V3.2 cung cấp tiện ích rộng rãi, DeepSeek-V3.2-Speciale nhắm đến các tình huống đòi hỏi độ sâu nhận thức tối đa. Biến thể này đẩy ranh giới suy luận, cạnh tranh với Gemini-3.0-Pro trong các cuộc thi cấp cao. Nó đạt kết quả huy chương vàng trong IMO 2025, CMO, ICPC World Finals và IOI 2025—những thành tích đòi hỏi chuỗi logic tinh tế và khả năng giải quyết vấn đề sáng tạo.

DeepSeek-V3.2-Speciale được xây dựng trên cùng nền tảng MoE nhưng tích hợp các giai đoạn học tăng cường từ phản hồi của con người (RLHF) được nâng cao, nhấn mạnh các hành vi tác nhân. Không giống như mô hình cơ bản, nó tạo ra các quá trình tư duy nội bộ dài hơn, tiêu thụ nhiều token hơn nhưng mang lại độ chính xác vượt trội trong các tác vụ như sử dụng công cụ trong môi trường đa bước. Ví dụ, nó tổng hợp dữ liệu huấn luyện trên hơn 1.800 thế giới mô phỏng và hơn 85.000 hướng dẫn, cho phép xử lý mạnh mẽ các kịch bản chưa từng thấy.

Xem thẻ mô hình trên Hugging Face tại deepseek-ai/DeepSeek-V3.2-Speciale. Việc tải xuống theo quy trình tương tự:

model_name = "deepseek-ai/DeepSeek-V3.2-Speciale"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)

prompt = "Prove that the sum of angles in a triangle is 180 degrees."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=500, temperature=0.1)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

Lưu ý cờ trust_remote_code=True, vì Speciale sử dụng các triển khai chú ý tùy chỉnh. Thiết lập này đòi hỏi nhiều VRAM hơn nữa—lên đến 1TB cho suy luận chưa lượng tử hóa—khiến nó lý tưởng cho các phòng thí nghiệm nghiên cứu hơn là các thiết bị biên.

Dữ liệu hiệu suất làm nổi bật ưu thế của nó. Biểu đồ điểm chuẩn được cung cấp minh họa DeepSeek-V3.2-Speciale (thanh màu xanh) dẫn đầu về khả năng suy luận: 99.0% trên HMMT 2025 (pass@1) so với 97.5% của GPT-5-High, và độ chính xác 84.8% trên Codeforces (rating) so với 84.7% của Claude-4.5-Sonnet. Trong các lĩnh vực tác nhân, nó vượt trội ở Terminal-Bench v0.2 (độ chính xác 84.3%) và Tool-Use (pass@1), thường với biên độ nhỏ nhưng tích lũy trong các hoạt động chuỗi. Tuy nhiên, việc sử dụng token cao hơn—lên đến 50% so với V3.2—đòi hỏi kỹ thuật prompt cẩn thận để kiểm soát chi phí.

Vì Speciale thiếu khả năng sử dụng công cụ nguyên bản trong bản phát hành đầu tiên, các nhà phát triển kết nối nó với các API bên ngoài để tạo tác nhân lai. Cách tiếp cận này tỏa sáng trong các đánh giá, nơi nó vượt trội so với các đối thủ trên hơn 85.000 điểm chuẩn hướng dẫn. Nhìn chung, DeepSeek-V3.2-Speciale phù hợp cho các ứng dụng rủi ro cao, chẳng hạn như chứng minh định lý tự động hoặc mô phỏng kế hoạch chiến lược.

Chuyển đổi từ mã nguồn mở sang API: Tại sao quyền truy cập được lưu trữ lại quan trọng

Việc triển khai cục bộ mang lại sự kiểm soát, nhưng mở rộng quy mô lại phát sinh các phức tạp như cung cấp và bảo trì phần cứng. Các nhà phát triển chuyển sang sử dụng API để truy cập tức thì, mô hình kinh tế trả tiền theo mức sử dụng và cơ sở hạ tầng được quản lý. DeepSeek cung cấp các điểm cuối được lưu trữ cho cả V3.2 và V3.2-Speciale, đảm bảo khả năng tương thích với các giao diện kiểu OpenAI. Sự thay đổi này đẩy nhanh quá trình tạo mẫu, vì các đội ngũ bỏ qua các rào cản thiết lập và tập trung vào tích hợp.

Hơn nữa, quyền truy cập API mở khóa các tính năng cấp doanh nghiệp, như giới hạn tốc độ (rate limiting) và bộ nhớ đệm (caching), giúp tối ưu hóa cho khối lượng công việc sản xuất. Chẳng hạn, các lần truy cập bộ nhớ đệm giúp cắt giảm đáng kể chi phí đầu vào, làm cho các truy vấn lặp lại trở nên kinh tế. Kết quả là, các công ty khởi nghiệp và doanh nghiệp áp dụng các điểm cuối này cho các triển khai nhạy cảm về chi phí.

Truy cập API DeepSeek: Thiết lập từng bước

Các kỹ sư truy cập API DeepSeek thông qua nền tảng chính thức. Đầu tiên, tạo một tài khoản và tạo một khóa API trong phần "API Keys". Khóa này xác thực các yêu cầu thông qua tiêu đề Authorization: Bearer YOUR_API_KEY.

URL cơ sở là https://api.deepseek.com/v1. Đối với DeepSeek-V3.2, sử dụng định danh mô hình deepseek-v3.2. DeepSeek-V3.2-Speciale hoạt động trên một điểm cuối tạm thời: https://api.deepseek.com/v3.2_speciale_expires_on_20251215, có sẵn cho đến 15 tháng 12 năm 2025, 15:59 UTC. Sau ngày này, nó sẽ được hợp nhất vào các dịch vụ tiêu chuẩn.

Cài đặt OpenAI SDK để đơn giản hóa:

pip install openai

Sau đó, cấu hình một client:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.deepseek.com/v1"
)

Gửi yêu cầu hoàn thành cho DeepSeek-V3.2:

response = client.chat.completions.create(
    model="deepseek-v3.2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant focused on reasoning."},
        {"role": "user", "content": "Explain quantum entanglement in simple terms."}
    ],
    max_tokens=300,
    temperature=0.7
)
print(response.choices[0].message.content)

Đối với DeepSeek-V3.2-Speciale, điều chỉnh base_url và model:

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"
)
response = client.chat.completions.create(
    model="deepseek-v3.2-speciale",
    messages=[{"role": "user", "content": "Solve: Integrate e^x sin(x) dx."}],
    max_tokens=500
)

Các lệnh gọi này trả về phản hồi JSON với số liệu thống kê sử dụng, bao gồm các token prompt và completion. Xử lý lỗi thông qua các khối try-except, kiểm tra giới hạn tốc độ (ví dụ: 10.000 RPM cho V3.2).

Ngoài ra, hãy bật chế độ suy nghĩ bằng cách thêm /thinking vào tên mô hình, ví dụ: deepseek-v3.2/thinking. Điều này kích hoạt suy luận từng bước, lý tưởng để gỡ lỗi các truy vấn phức tạp.

Giá API: Mở rộng quy mô hiệu quả về chi phí cho DeepSeek-V3.2 và Speciale

Biểu giá tạo thành nền tảng cho việc sử dụng API, và DeepSeek cấu trúc nó minh bạch theo mỗi triệu token. Cả hai mô hình đều tuân theo cùng một mức giá, được tính dựa trên đầu vào (truy cập/bỏ qua bộ nhớ đệm) và đầu ra. Các lần truy cập bộ nhớ đệm áp dụng cho các tiền tố lặp lại trong các phiên, giảm chi phí cho các quy trình làm việc lặp đi lặp lại.

Những con số này thể hiện mức giảm hơn 50% so với các phiên bản trước, giúp DeepSeek cạnh tranh với các API độc quyền. Ví dụ, việc tạo ra phản hồi 1.000 token từ một prompt 500 token (bỏ qua bộ nhớ đệm) chỉ tốn khoảng 0,00035 USD—không đáng kể đối với hầu hết các trường hợp sử dụng. Các doanh nghiệp đàm phán các gói tùy chỉnh cho khối lượng lớn hơn, nhưng mô hình trả tiền theo mức sử dụng phù hợp với các nhà phát triển.

Do đó, các đội dự báo chi phí bằng cách sử dụng công cụ ước tính token trong bảng điều khiển DeepSeek. Hãy tính đến việc Speciale tiêu thụ token cao hơn; một truy vấn đòi hỏi suy luận nhiều có thể làm tăng gấp đôi chi phí nhưng tăng gấp bốn lần độ chính xác trên các điểm chuẩn như Tau² (29.0% pass@1 cho Speciale so với 25.1% cho V3.2).

Tích hợp với Apidog: Kiểm thử và tài liệu API hiệu quả

Các nhà phát triển sắp xếp hợp lý quy trình làm việc với các công cụ như Apidog, công cụ này thiết kế, kiểm thử và lập tài liệu API mà không cần viết mã. Nhập khóa API DeepSeek của bạn vào các biến môi trường của Apidog, sau đó tạo một bộ sưu tập yêu cầu mới cho các điểm cuối V3.2 và Speciale.

Xây dựng yêu cầu POST tới /chat/completions:

Chạy các bài kiểm thử trong giao diện của Apidog, công cụ này tự động tạo phản hồi và xác nhận. Ví dụ, xác thực rằng đầu ra của Speciale vượt quá 200 token trên các prompt toán học. Hơn nữa, Apidog xuất thông số kỹ thuật OpenAPI, tạo điều kiện thuận lợi cho việc chuyển giao công việc giữa các đội.

Việc tích hợp này giúp giảm thời gian gỡ lỗi tới 40%, vì các khác biệt trực quan làm nổi bật sự không nhất quán. Các đội cũng có thể mô phỏng phản hồi để phát triển ngoại tuyến, đảm bảo tính mạnh mẽ trước khi triển khai trực tiếp.

Các Kỹ thuật Nâng cao: Sử dụng công cụ và Quy trình làm việc dựa trên Tác nhân

DeepSeek-V3.2 giới thiệu khả năng suy nghĩ trong việc sử dụng công cụ, kết hợp suy luận nội bộ với các lệnh gọi bên ngoài. Chỉ định công cụ trong payload API:

tools = [
    {
        "type": "function",
        "function": {
            "name": "calculator",
            "description": "Perform basic math",
            "parameters": {
                "type": "object",
                "properties": {"expression": {"type": "string"}}
            }
        }
    }
]

response = client.chat.completions.create(
    model="deepseek-v3.2",
    messages=[{"role": "user", "content": "What is 15% of 250?"}],
    tools=tools,
    tool_choice="auto"
)

Mô hình suy luận từng bước, sau đó gọi công cụ nếu cần. Speciale, hiện không có công cụ, hoạt động tốt như một oracle suy luận trong các chuỗi đa mô hình.

Đối với các tác nhân, điều phối thông qua LangChain: gói các lệnh gọi DeepSeek trong các tác nhân định tuyến tác vụ một cách linh hoạt. Thiết lập này giải quyết 73.1% các vấn đề của SWE-Bench Verified, theo các điểm chuẩn.

Các Thực hành Tốt nhất cho Triển khai Sản xuất

Tối ưu hóa các prompt bằng các mẫu chuỗi suy nghĩ để tận dụng chế độ suy nghĩ. Giám sát việc sử dụng token thông qua siêu dữ liệu API, triển khai các phương án dự phòng cho giới hạn ngân sách. Mở rộng quy mô với các client bất đồng bộ trong Python cho các ứng dụng thông lượng cao.

Bảo mật đòi hỏi việc xoay vòng khóa và danh sách trắng IP. Cuối cùng, đánh giá lặp đi lặp lại dựa trên các điểm chuẩn như trong báo cáo kỹ thuật, điều chỉnh các siêu tham số cho phù hợp với lĩnh vực.

Kết luận: Khai thác sức mạnh của DeepSeek ngay hôm nay

DeepSeek-V3.2 và DeepSeek-V3.2-Speciale định nghĩa lại khả năng suy luận AI dễ tiếp cận. Từ tính linh hoạt của mã nguồn mở đến hiệu quả API, các mô hình này trao quyền cho các nhà phát triển xây dựng các tác nhân thông minh hơn. Bắt đầu với các thử nghiệm cục bộ, di chuyển sang các điểm cuối được lưu trữ và tích hợp Apidog để kiểm thử liền mạch. Khi các điểm chuẩn phát triển, quỹ đạo của DeepSeek hứa hẹn mang lại những khả năng thậm chí còn lớn hơn—đặt dự án của bạn ở vị trí tiên phong.

button

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API