Hướng Dẫn Sử Dụng API MiniMax M3 Chi Tiết

Cách sử dụng API MiniMax M3: lấy khóa, thực hiện cuộc gọi đầu tiên, bật tắt suy nghĩ, xử lý ngữ cảnh 1 triệu token và kiểm tra các yêu cầu trong Apidog.

Ashley Innocent

Ashley Innocent

1 tháng 6 2026

Hướng Dẫn Sử Dụng API MiniMax M3 Chi Tiết

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

MiniMax M3 là một mô hình lập luận và mã hóa tiên phong với cửa sổ ngữ cảnh lên tới 1.000.000 token. Con số đó là điểm nhấn chính. Bạn có thể cung cấp cho nó toàn bộ kho lưu trữ, nhật ký của một tuần hoặc một tài liệu thiết kế dài và yêu cầu nó lập luận trên tất cả nội dung đó chỉ trong một lần gọi. Nếu bạn muốn tìm hiểu nền tảng về mô hình này là gì và vị trí của nó, hãy đọc MiniMax M3 là gì trước.

Hướng dẫn này là phiên bản thực hành. Bạn sẽ nhận được khóa API, gửi yêu cầu đầu tiên của mình theo ba cách khác nhau và kiểm tra từng bước trong Apidog để bạn có thể xem yêu cầu và phản hồi thô trước khi tích hợp bất cứ thứ gì vào mã của riêng mình. Tải xuống Apidog nếu bạn muốn làm theo.

Tài liệu tham khảo chính thức nằm tại tài liệu API của MiniMax. Hãy mở nó trong một tab.

Những gì bạn cần

Bạn không cần cài đặt thêm bất kỳ thứ gì cho các ví dụ curl. Đối với các ví dụ SDK, bạn sẽ cần Python 3.8+ hoặc Node 18+.

Bước 1: Lấy khóa API của bạn

Đăng nhập tại platform.minimax.io, mở phần khóa API trong tài khoản của bạn và tạo khóa mới. MiniMax phát hành hai loại thông tin đăng nhập, và sự khác biệt là quan trọng:

Chọn loại phù hợp với cách bạn muốn thanh toán. Sao chép khóa một lần và lưu trữ nó. Bạn sẽ không nhìn thấy nó lần nữa.

Không bao giờ dán khóa trực tiếp vào mã nguồn. Thay vào đó, hãy xuất nó dưới dạng biến môi trường:

export MINIMAX_API_KEY="your-key-here"

Điều này giúp giữ bí mật khỏi lịch sử git của bạn và khỏi bất kỳ tệp nào bạn có thể chia sẻ. Nếu bạn cũng làm việc với khóa API bên trong trình soạn thảo của mình, các quy tắc vệ sinh tương tự cũng được áp dụng ở đó. Chúng tôi đã đề cập đến các rò rỉ phổ biến trong bảo mật khóa API của tiện ích mở rộng VS Code.

Bước 2: Gửi yêu cầu đầu tiên của bạn

URL cơ sở là https://api.minimax.io/v1 và chat nằm tại POST https://api.minimax.io/v1/chat/completions. Xác thực là một bearer token: Authorization: Bearer $MINIMAX_API_KEY. Chuỗi ID mô hình là MiniMax-M3.

Đây là cuộc gọi hữu ích nhỏ nhất với curl. Nhiệm vụ là một nhiệm vụ thực tế, yêu cầu mô hình tái cấu trúc một hàm:

curl https://api.minimax.io/v1/chat/completions \
 -H "Authorization: Bearer $MINIMAX_API_KEY" \
 -H "Content-Type: application/json" \
 -d '{"model":"MiniMax-M3","messages":[{"role":"user","content":"Refactor this function to be async."}]}'

Bạn có ba cách để gọi M3. MiniMax khuyến nghị sử dụng Anthropic SDK, nhưng OpenAI SDK và HTTP thô đều hoạt động với cùng một endpoint. Hãy sử dụng bất cứ thứ gì ngăn xếp của bạn đã hỗ trợ.

Đây là OpenAI SDK trong Python. Thay đổi duy nhất so với thiết lập OpenAI thông thường là base_url:

from openai import OpenAI

client = OpenAI(
 base_url="https://api.minimax.io/v1",
 api_key="YOUR_API_KEY",
)

response = client.chat.completions.create(
 model="MiniMax-M3",
 messages=[
 {"role": "user", "content": "Refactor this function to be async."}
 ],
)

print(response.choices[0].message.content)

Và ý tưởng tương tự trong Node, một lần nữa chỉ là thay đổi lại URL cơ sở:

import OpenAI from "openai";

const client = new OpenAI({
 baseURL: "https://api.minimax.io/v1",
 apiKey: process.env.MINIMAX_API_KEY,
});

const response = await client.chat.completions.create({
 model: "MiniMax-M3",
 messages: [
 { role: "user", content: "Refactor this function to be async." },
 ],
});

console.log(response.choices[0].message.content);

Nếu bạn đã sử dụng API Qwen 3.7, thì mẫu này sẽ quen thuộc. Hầu hết các mô hình tiên phong hiện nay đều cung cấp giao diện tương thích với OpenAI, do đó chi phí chuyển đổi chỉ là một dòng. Tài liệu OpenAI Python SDKtài liệu Anthropic SDK bao gồm đầy đủ các tùy chọn client.

Bước 3: Kiểm tra và xem xét trong Apidog

Trước khi bạn nhúng lệnh gọi này vào một ứng dụng, hãy gửi thủ công và đọc phản hồi thô. Đó là lúc Apidog phát huy vai trò của mình trong chu trình.

  1. Tạo một yêu cầu HTTP mới và đặt phương thức là POST với URL https://api.minimax.io/v1/chat/completions.
  2. Mở bảng điều khiển Environments và thêm một biến có tên MINIMAX_API_KEY với khóa của bạn làm giá trị. Lưu trữ nó dưới dạng biến môi trường để nó không bao giờ nằm trong phần thân yêu cầu hoặc trong bộ sưu tập chia sẻ của bạn.
  3. Trong tiêu đề yêu cầu, thêm Authorization với giá trị Bearer {{MINIMAX_API_KEY}}. Apidog sẽ thay thế biến này tại thời điểm gửi.
  4. Đặt phần thân thành JSON thô và dán cùng một tải trọng từ ví dụ curl.
  5. Nhấn Send và theo dõi bảng phản hồi.
[Ảnh chụp màn hình: yêu cầu và phản hồi MiniMax-M3 trong Apidog]

Việc lưu trữ token dưới dạng biến môi trường có nghĩa là bạn có thể chia sẻ yêu cầu với đồng đội mà không làm lộ bí mật, và bạn có thể thay đổi khóa (trả theo mức sử dụng so với thuê bao) bằng cách thay đổi một biến. Khi bạn bật tính năng stream sau này, Apidog sẽ hiển thị các sự kiện được gửi từ máy chủ khi chúng đến, giúp bạn xác nhận định dạng luồng trước khi viết bất kỳ mã phân tích nào. Việc kiểm tra phản hồi thủ công giúp phát hiện sớm các bất ngờ về schema, đó là toàn bộ mục đích của việc kiểm tra một endpoint trước khi bạn tin tưởng nó.

Bước 4: Bật/tắt chế độ suy luận

M3 là một mô hình suy luận. Theo mặc định, nó trả về một câu trả lời cuối cùng. Bạn cũng có thể yêu cầu nó tiết lộ các bước suy luận trung gian, điều này hữu ích khi bạn muốn gỡ lỗi lý do tại sao nó đưa ra một kết luận hoặc đưa suy luận đó vào một bước xem xét.

Với OpenAI SDK, hãy truyền reasoning_split thông qua extra_body:

from openai import OpenAI

client = OpenAI(
 base_url="https://api.minimax.io/v1",
 api_key="YOUR_API_KEY",
)

response = client.chat.completions.create(
 model="MiniMax-M3",
 messages=[
 {"role": "user", "content": "Refactor this function to be async."}
 ],
 extra_body={"reasoning_split": True},
)

print(response.choices[0].message.reasoning_details[0]["text"]) # the thinking
print(response.choices[0].message.content) # the final answer

Khi reasoning_split được bật, văn bản suy luận sẽ được trả về tại response.choices[0].message.reasoning_details[0]["text"] và câu trả lời cuối cùng vẫn ở response.choices[0].message.content. Giữ hai phần này riêng biệt trong giao diện người dùng của bạn. Hiển thị câu trả lời cho người dùng và giữ lại phần suy luận cho nhật ký hoặc quá trình xác minh.

Bật chế độ suy luận cho các vấn đề khó: tái cấu trúc nhiều bước, tìm lỗi phức tạp, bất cứ điều gì bạn muốn kiểm tra chuỗi. Tắt nó đi đối với các cuộc gọi đơn giản, nhạy cảm với độ trễ, nơi các token suy luận bổ sung tốn thời gian và tiền bạc mà bạn không cần phải chi tiêu.

Bước 5: Làm việc với ngữ cảnh 1M token

Cửa sổ ngữ cảnh lớn là lý do để sử dụng M3. Bạn có thể dán toàn bộ tệp nhật ký và đặt một câu hỏi duy nhất trên tất cả nội dung đó:

with open("production-2026-05-30.log") as f:
 log_text = f.read()

response = client.chat.completions.create(
 model="MiniMax-M3",
 messages=[
 {
 "role": "user",
 "content": f"Find the root cause of the 502 spike at 14:20 UTC.\n\n{log_text}",
 }
 ],
)

Một điểm cần lưu ý về thanh toán. MiniMax tính phí theo mức tiêu chuẩn cho các cuộc gọi với đầu vào từ 512K token trở xuống, và một mức phí cao hơn cho ngữ cảnh dài khi đầu vào vượt quá 512K token. Vì vậy, bước nhảy từ một lời nhắc 400K token lên 600K token không phải là tuyến tính. Nó vượt qua một ngưỡng giá.

Bài học thực tế: đừng đưa một triệu token vào ngữ cảnh một cách vô tội vạ. Hãy gửi phần cần thiết cho mô hình. Nếu bạn đang xâu chuỗi nhiều cuộc gọi trong một agent, việc cắt giảm ngữ cảnh cho mỗi cuộc gọi là một trong những đòn bẩy lớn nhất để giảm hóa đơn của bạn. Chúng tôi sẽ đi sâu hơn về vấn đề đó trong bài viết cách giảm chi phí token của agent.

Bước 6: Gọi công cụ và đầu vào đa phương thức

M3 xử lý việc gọi công cụ và đầu vào đa phương thức, vì vậy nó có thể điều khiển các agent và đọc hình ảnh, không chỉ văn bản.

Đối với việc gọi công cụ, bạn khai báo các công cụ mà mô hình được phép gọi, sau đó xử lý cuộc gọi mà nó trả về:

tools = [
 {
 "type": "function",
 "function": {
 "name": "run_tests",
 "description": "Run the test suite for a given module path.",
 "parameters": {
 "type": "object",
 "properties": {
 "module": {"type": "string"},
 },
 "required": ["module"],
 },
 },
 }
]

response = client.chat.completions.create(
 model="MiniMax-M3",
 messages=[
 {"role": "user", "content": "Fix the failing test in auth/session.py and confirm it passes."}
 ],
 tools=tools,
)

Khi mô hình quyết định gọi một công cụ, phản hồi sẽ chứa một mảng tool_calls. Mã của bạn chạy hàm, thêm kết quả dưới dạng tin nhắn tool và gọi lại API để mô hình có thể tiếp tục. Việc thực hiện đúng "bắt tay" này là nơi hầu hết các lỗi của agent xuất hiện. Các mẫu kết nối và chế độ lỗi đáng để đọc trước khi bạn triển khai: kết nối công cụ quy trình làm việc của agent.

Apidog cũng hữu ích ở đây. Bạn có thể phát lại toàn bộ cuộc trao đổi đa lượt (yêu cầu ban đầu, phản hồi gọi công cụ, kết quả công cụ của bạn, theo dõi) dưới dạng các yêu cầu đã lưu riêng biệt, để bạn có thể xác minh từng bước từ đầu đến cuối thay vì đoán trong thời gian chạy của agent.

Đối với đầu vào đa phương thức, bạn truyền nội dung hình ảnh trong cùng một mảng tin nhắn, cùng với lời nhắc văn bản của bạn, theo định dạng content-parts tiêu chuẩn. Kiểm tra tài liệu tham khảo API để biết tên trường chính xác, vì những tên này thay đổi nhanh hơn các endpoint văn bản.

Giá cả và các gói

Hai cơ chế riêng biệt kiểm soát số tiền bạn trả và tốc độ phục vụ bạn.

Các gói token đặt ngân sách tín dụng của bạn. Các gói thuê bao bao gồm Plus với $20, Max với $50 và Ultra với $120, mỗi gói bao gồm một lượng tín dụng token lớn hơn được sử dụng bởi Khóa Đăng ký của bạn. Trả theo mức sử dụng sẽ tính phí một Khóa API thông thường vào số dư của bạn.

Các cấp dịch vụ đặt ưu tiên lập lịch. Có hai cấp: standard (mặc định) và priority. Standard phù hợp với hầu hết các khối lượng công việc. Priority dành cho lưu lượng nhạy cảm với độ trễ hoặc ràng buộc bởi SLA mà không thể chờ đợi trong hàng đợi phía sau những người khác.

Ghép nối điều đó với mức giá tiêu chuẩn so với mức giá ngữ cảnh dài từ Bước 5, và chi phí thực tế của bạn phụ thuộc vào kích thước đầu vào, gói và cấp độ dịch vụ. Để biết số liệu hiện tại trên mỗi token, hãy kiểm tra trang giá và mô hình của MiniMaxtài liệu API, vì các mức giá được công bố có thể thay đổi.

Câu hỏi thường gặp

Có cách nào miễn phí để dùng thử M3 không? Có. Bạn có thể kiểm tra mô hình mà không cần cam kết với gói nào, và có một vài cách không tốn phí. Chúng tôi đã tổng hợp chúng trong bài viết cách sử dụng MiniMax M3 miễn phí.

Những SDK nào hoạt động với API? Ba lựa chọn: HTTP thô, Anthropic SDK và OpenAI SDK. MiniMax khuyến nghị Anthropic SDK, nhưng cả ba đều truy cập cùng một endpoint https://api.minimax.io/v1/chat/completions. Đối với các client của OpenAI và Anthropic, bạn chỉ cần thay đổi base_url để trỏ đến MiniMax.

Làm cách nào để stream phản hồi? Thêm "stream": true vào phần thân yêu cầu của bạn. API trả về các sự kiện được gửi từ máy chủ (server-sent events), và cả hai SDK đều cung cấp một iterator mà bạn lặp qua để đọc các đoạn dữ liệu khi chúng đến. Hãy kiểm tra luồng trong Apidog trước để bạn có thể thấy định dạng sự kiện trước khi phân tích cú pháp.

Giới hạn tốc độ là gì? Các giới hạn phụ thuộc vào cấp độ tài khoản của bạn và liệu bạn đang sử dụng dịch vụ standard hay priority. Nếu bạn gặp lỗi 429, hãy tạm dừng và thử lại, hoặc chuyển lưu lượng truy cập nhạy cảm với độ trễ sang cấp độ ưu tiên. Các số liệu hiện tại có trên bảng điều khiển tài khoản và tài liệu API của bạn.

Ngưỡng 512K ảnh hưởng đến hóa đơn của tôi như thế nào? Các cuộc gọi với đầu vào từ 512K token trở xuống sẽ được tính phí theo mức tiêu chuẩn. Sau 512K token đầu vào, mức phí cao hơn cho ngữ cảnh dài sẽ được áp dụng. Cắt bớt lời nhắc của bạn để chỉ chứa các token mà mô hình thực sự cần, đặc biệt là trong các vòng lặp agent nơi chi phí tích lũy qua các cuộc gọi.

Tôi có thể tự host các trọng số thay vì gọi API không? API được host là con đường mà hướng dẫn này đề cập, và đó là cách nhanh nhất để bắt đầu. Việc tự host phụ thuộc vào những gì MiniMax công bố cho M3 tại bất kỳ thời điểm nào, vì vậy hãy kiểm tra trang mô hình để biết tình trạng trọng số và giấy phép hiện tại.

Tóm tắt

Bây giờ bạn đã có mọi thứ để gọi MiniMax M3: khóa API được lưu trữ dưới dạng biến môi trường, các yêu cầu curl, Python và Node hoạt động, công tắc bật/tắt suy luận, ngưỡng thanh toán 512K và cơ chế gọi công cụ. Cách nhanh nhất để nắm vững nó là tự chạy một cuộc gọi thực tế. Đưa endpoint vào Apidog, lưu trữ bearer token của bạn dưới dạng biến môi trường, gửi lời nhắc tái cấu trúc và đọc phản hồi. Một khi bạn đã thấy định dạng thô, việc tích hợp nó vào mã của bạn chỉ mất vài phút.

nút

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API