Giá API Xiaomi MiMo V2.5 đã giảm xuống mức cố định 1 USD cho mỗi triệu token đầu vào và 3 USD cho mỗi triệu token đầu ra vào ngày 27 tháng 5 năm 2026, và nhóm đã quyết định duy trì mức giá mới này vĩnh viễn. Gói ngữ cảnh dài cũ, nơi các lời nhắc vượt quá 256K token phải chịu một hệ số nhân cao trên mức giá cơ bản, đã không còn nữa. Giờ đây chỉ còn một mức giá duy nhất, bất kể độ dài ngữ cảnh. Đối với hầu hết các tác vụ, tiêu đề chính là một câu: MiMo V2.5 là một trong ba mô hình ngữ cảnh 1M rẻ nhất đang được sản xuất, và nó sẽ duy trì như vậy.
Tóm tắt
- Giá cố định của Xiaomi MiMo V2.5 kể từ ngày 27 tháng 5 năm 2026: 1,00 USD đầu vào, 3,00 USD đầu ra, 0,20 USD cho mỗi triệu token được lưu vào bộ nhớ cache, với cửa sổ ngữ cảnh 1M token.
- Tuyên bố "giảm giá tới 99%" là có thật đối với gói ngữ cảnh dài. Biểu giá trước đây tăng mạnh sau 256K token đầu vào. Mức giá cố định mới loại bỏ hệ số nhân.
- Khách hàng Gói Token nhận được tăng hạn mức từ 5 đến 8 lần và hoàn trả toàn bộ số tín dụng đã sử dụng trong thời gian hiệu lực.
- Việc cắt giảm là vĩnh viễn, không phải khuyến mãi. Thông báo chính thức của Xiaomi cho biết "thay đổi vĩnh viễn toàn bộ hệ thống định giá mô hình."
- Bối cảnh: Xiaomi là phòng thí nghiệm Trung Quốc thứ hai thực hiện cắt giảm giá vĩnh viễn cho gói tiên tiến trong tuần này. DeepSeek đã giảm giá V4-Pro vĩnh viễn xuống còn 1/4 giá niêm yết ba ngày trước đó.
Những thay đổi vào ngày 27 tháng 5 năm 2026
Thông báo cập nhật giá chính thức của Xiaomi đưa ra ba thay đổi. Cả ba đều có hiệu lực vào lúc 00:00 giờ Bắc Kinh ngày 27 tháng 5, tức 16:00 UTC ngày 26 tháng 5.

1. Giá cố định trên tất cả các cửa sổ ngữ cảnh. Biểu giá MiMo V2.5 cũ sử dụng các mức giá theo bậc: giá cơ bản cho lời nhắc lên đến 32K token đầu vào, hệ số nhân cho dải từ 32K đến 256K, và mức giá cao hơn nữa cho trên 256K. Biểu giá mới có một số duy nhất cho mỗi loại token. Các ứng dụng ngữ cảnh dài không còn phải trả phí ngữ cảnh dài nữa.
2. Vĩnh viễn, không phải khuyến mãi. Thông báo sử dụng cụm từ "Giảm giá Vĩnh viễn" hai lần và "thay đổi vĩnh viễn toàn bộ hệ thống định giá mô hình" một lần. Không có ngày hết hạn. Không có điều khoản hoàn nguyên. Hãy coi đây là giá niêm yết mới.
3. Đặt lại phần thưởng Gói Token. Nếu bạn đang sử dụng Gói Token (hệ thống hạn mức trả trước của Xiaomi), số dư tín dụng của bạn đã được tăng từ 5 đến 8 lần và mọi tín dụng bạn đã sử dụng trong thời gian hiệu lực đã được hoàn lại. Bản thân thời gian hiệu lực không được gia hạn, vì vậy các gói hiện có đã nhận được một khoản tiền bất ngờ nhưng không có thêm thời gian.

Tuyên bố "giảm giá tới 99%" áp dụng cụ thể cho dải ngữ cảnh dài. Giá trước đây cho 256K+ token đầu vào cao đến mức việc làm phẳng nó xuống còn 1 USD/M tạo ra mức giảm hơn 90%. Đối với các tác vụ thuộc gói cơ bản, mức giảm nhỏ hơn nhưng vẫn đáng kể.
Bảng giá cố định mới
Giá mỗi 1 triệu token, USD, có hiệu lực ngay lập tức và vĩnh viễn:
| Mô hình | Đầu vào | Đầu ra | Đã lưu cache | Ngữ cảnh |
|---|---|---|---|---|
| MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M token |
| MiMo V2 Flash | ~$0.10 | ~$0.40 | $0.02 | 256K token |
Một vài chi tiết bảng không thể hiện rõ ràng:
- Tỷ lệ cache (0,20 USD/M cho V2.5 Pro) gấp 5 lần tỷ lệ đầu vào. Đó là một tỷ lệ kém hơn so với tỷ lệ 120:1 của DeepSeek giữa input-miss và input-hit. Cache của Xiaomi vẫn hữu ích cho các lời nhắc hệ thống lặp lại, nhưng khoản tiết kiệm nhỏ hơn về mặt tuyệt đối.
- Cửa sổ ngữ cảnh 1M là phần mà hầu hết các bài viết ít đề cập. Hầu hết các mô hình tiên tiến được lưu trữ tại Hoa Kỳ giới hạn ở 200K đến 400K. MiMo V2.5 Pro xử lý toàn bộ tài liệu.
- Thông báo có đề cập nhưng không liệt kê chi tiết các biến thể V2.5 Omni và TTS. Hãy kiểm tra riêng những biến thể đó trên nền tảng.
Để biết giá V2-Pro cũ làm điểm tham chiếu, hãy xem hướng dẫn định giá MiMo V2-Pro & Omni hiện có của chúng tôi.
MiMo V2.5 mang lại gì ngoài mức giá rẻ hơn
Thông báo ngày 27 tháng 5 là một sự kiện về giá, nhưng bản thân V2.5 cũng là một bản nâng cấp đáng kể so với V2-Pro ra mắt vào tháng 4. Ba thay đổi đáng chú ý:
- Ngữ cảnh thực tế dài hơn. V2.5 Pro duy trì cửa sổ lý thuyết 1M token, nhưng Xiaomi đã cải thiện chất lượng truy xuất trong dải từ 200K đến 800K nơi hầu hết các mô hình ngữ cảnh dài bị suy giảm. Độ chính xác kiểu "kim trong đống rơm" duy trì trên 95% đến 800K token.
- Tuân thủ định dạng gọi công cụ tốt hơn. V2-Pro có các vấn đề đã biết với các lệnh gọi công cụ song song trả về JSON bị lỗi trong phản hồi luồng. V2.5 giảm các lỗi đó, mặc dù không phải về 0. Dù sao thì vẫn nên có kế hoạch xác thực lược đồ JSON.
- Tập dữ liệu huấn luyện được làm mới. V2.5 được huấn luyện với dữ liệu đến hết quý 1 năm 2026. Các trích dẫn và thời điểm cắt dữ liệu rơi vào khoảng ba tháng trước V2-Pro.
Không có điều nào trong số này là các điểm chuẩn hàng đầu, nhưng chúng là những thay đổi xuất hiện trong các triển khai sản xuất thực tế. Kết hợp mức giá rẻ hơn với cửa sổ ngữ cảnh đáng tin cậy dài hơn, bạn có một lựa chọn chưa từng tồn tại cho công việc tài liệu dài nghiêm túc trước ngày 27 tháng 5.
MiMo V2.5 so với các đối thủ khác
So sánh thú vị không phải là với phiên bản V2.5 cũ. Mà là so sánh với các tùy chọn API cấp tiên tiến khác ra mắt vào tháng 5 năm 2026:
| Mô hình | Đầu vào ($/MTok) | Đầu ra ($/MTok) | Ngữ cảnh |
|---|---|---|---|
| Xiaomi MiMo V2.5 Pro | $1.00 | $3.00 | 1M |
| DeepSeek V4-Pro | $0.435 | $0.87 | 128K |
| GPT-5.5 | $5.00 | $30.00 | 200K |
| Claude Opus 4.7 | $3.00 | $15.00 | 200K |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 1M |
Ba điểm chính:
- DeepSeek V4-Pro vẫn rẻ hơn MiMo V2.5 trên cơ sở mỗi token. Rẻ hơn khoảng 2,3 lần về đầu vào và 3,5 lần về đầu ra. Nếu chi phí thô mỗi token là tiêu chí duy nhất của bạn, DeepSeek thắng.
- MiMo V2.5 thắng ở các tác vụ ngữ cảnh 1M. Gemini 3.5 Flash là lựa chọn ngữ cảnh 1M duy nhất khác trong bảng, và nó đắt hơn 1,5 lần về đầu vào và 3 lần về đầu ra.
- MiMo V2.5 rẻ hơn 5 lần so với GPT-5.5 về đầu vào và rẻ hơn 10 lần về đầu ra, với hiệu suất điểm chuẩn tương đương theo Artificial Analysis.
Để so sánh về DeepSeek, hãy xem DeepSeek V4-Pro Giảm giá 75% Vĩnh viễn. Hai bài viết này là những bài đọc bổ sung. Cả hai đều đề cập đến việc cắt giảm giá vĩnh viễn cấp tiên tiến trong tuần này từ các phòng thí nghiệm Trung Quốc.
Ba tác vụ, ba hóa đơn mới
Ba trường hợp cụ thể sử dụng mức giá cố định mới:
1. RAG tài liệu dài trên các tệp PDF doanh nghiệp. 50.000 truy vấn/ngày, ngữ cảnh 800K token mỗi truy vấn, câu trả lời 1K token. Gói ngữ cảnh dài MiMo V2.5 cũ (tỷ lệ hiệu dụng ước tính 50 USD/M): khoảng 60.000 USD/tháng. Mức giá cố định mới: khoảng 1.225 USD/tháng. Tiết kiệm: 58.775 USD/tháng.
2. Đại lý đánh giá mã. 5.000 yêu cầu kéo/ngày, ngữ cảnh kho chứa 30K token, đầu ra bình luận 2K token. Hóa đơn hàng tháng GPT-5.5 cũ: khoảng 5.250 USD. MiMo V2.5 mới: khoảng 510 USD. Tiết kiệm: 4.740 USD/tháng.
3. Chatbot hỗ trợ khách hàng. 200.000 lượt/ngày, lời nhắc hệ thống 4K token, phản hồi 300 token. Hóa đơn hàng tháng Claude Opus 4.7 cũ: khoảng 11.250 USD. MiMo V2.5 mới: khoảng 805 USD. Tiết kiệm: 10.445 USD/tháng.
Tác vụ số 1 là nơi MiMo V2.5 tách biệt với phần còn lại. Các tác vụ ngữ cảnh dài đã từng quá đắt đỏ trên mọi API tiên tiến trước khi có đợt cắt giảm này. Giờ thì không còn nữa. Các tài liệu tương tự mà trước đây phải gửi đến các công cụ tóm tắt và quy trình phân đoạn giờ đây có thể được đưa trực tiếp vào mô hình, mà không cần phải thực hiện các thao tác cân bằng ngân sách token.
Một ghi chú ngắn về lượt truy cập bộ nhớ cache
Tỷ lệ đầu vào được lưu cache 0,20 USD/M rẻ hơn 5 lần so với tỷ lệ input-miss 1,00 USD. Đó là một mức chiết khấu cache nhỏ hơn so với tỷ lệ 120:1 của DeepSeek, nhưng nó vẫn có ý nghĩa đối với bất kỳ tác nhân nào tái sử dụng một lời nhắc hệ thống ổn định.
Một ví dụ minh họa. Giả sử trợ lý của bạn sử dụng lời nhắc hệ thống 6.000 token và xử lý 80.000 lượt trò chuyện mỗi ngày, với tin nhắn người dùng trung bình là 250 token đầu vào và phản hồi trung bình là 600 token đầu ra:
- Không có lượt truy cập cache: 80.000 lượt × 6.250 đầu vào × 1,00 USD / 1.000.000 = 500 USD mỗi ngày chỉ riêng cho đầu vào.
- Với 60% lượt truy cập cache trên tiền tố lời nhắc hệ thống: 80.000 × (250 × 1,00 USD + 6.000 × (0,6 × 0,20 USD + 0,4 × 1,00 USD)) / 1.000.000 = khoảng 271 USD mỗi ngày. Giảm 46%.
Đó không phải là mức cache 88% mà DeepSeek mang lại, nhưng với một tác vụ có chi phí đầu vào 500 USD/ngày, giảm một nửa là một khoản tiền đáng kể. Hãy ghim lời nhắc hệ thống, sắp xếp ngữ cảnh truy xuất một cách ổn định và không chèn dấu thời gian theo yêu cầu vào tiền tố. Các quy tắc tương tự giúp đạt được lượt truy cập cache ở mọi nơi khác cũng áp dụng ở đây.
Khi nào MiMo V2.5 là lựa chọn phù hợp, khi nào không
Mức giá mới biến MiMo V2.5 thành lựa chọn mặc định cho hai loại tác vụ và là lựa chọn kém cho một loại.
Lựa chọn đúng:
- RAG tài liệu dài, tác nhân dựa trên mã, tái cấu trúc toàn bộ kho chứa. Bất cứ thứ gì phù hợp tự nhiên với ngữ cảnh >200K token. Mức giá cố định cộng với cửa sổ 1M là không có đối thủ trong phân khúc giá rẻ.
- Xử lý tài liệu khối lượng lớn. Giá cả dễ dự đoán và tỷ lệ cache (0,20 USD/M) cho phép bạn xử lý hàng loạt các tiền tố giống hệt nhau một cách rẻ tiền. Xem Cách lưu cache lời nhắc giúp tăng hiệu suất LLM và giảm chi phí để biết cơ chế cache giữa các nhà cung cấp.
Lựa chọn kém:
- Trò chuyện tương tác nhạy cảm về độ trễ. MiMo V2.5 Pro không phải là mô hình trả về token đầu tiên nhanh nhất. Đối với tính năng gõ trước, tự động hoàn thành hoặc trò chuyện dưới một giây, DeepSeek V4-Flash hoặc Gemini 3.5 Flash có cấu hình độ trễ tốt hơn với chi phí tương tự.
Lưu ý:
- Vị trí dữ liệu. Các cuộc gọi được định tuyến qua cơ sở hạ tầng của Xiaomi tại Trung Quốc. Cuộc trò chuyện mua sắm tương tự như DeepSeek.
- Độ tin cậy. API bên thứ nhất của Xiaomi có lịch sử hoạt động ngắn hơn so với các mô hình tiên tiến được lưu trữ tại Hoa Kỳ. Đối với sản xuất được hỗ trợ bởi SLA, hãy định tuyến qua OpenRouter hoặc một trình tổng hợp khác.
- Bình đẳng gọi hàm. Tương thích với OpenAI ở cấp độ lược đồ, với các trường hợp ngoại lệ xung quanh các đối số công cụ được truyền trực tiếp và các lệnh gọi công cụ song song. Hãy kiểm tra trước khi bạn triển khai.
Để biết bối cảnh ra mắt V2-Pro đã tạo tiền đề cho V2.5, hãy xem Xiaomi Vừa Ra Mắt Mô Hình AI Riêng, Và Nó Miễn Phí Trên OpenRouter. Để tham gia gói miễn phí, chương trình 100T token miễn phí Xiaomi MiMo Orbit bao gồm điều kiện và cách đăng ký.
Kiểm tra MiMo V2.5 với Apidog
Khả năng tương thích OpenAI của nền tảng là tốt, nhưng chưa hoàn hảo. Hãy xác minh tích hợp của bạn trước khi chuyển sang lưu lượng sản xuất.

Apidog cho phép bạn gửi yêu cầu Hoàn thành trò chuyện (Chat Completions) tới https://platform.xiaomimimo.com/v1 bằng khóa API MiMo của bạn, sau đó:
- Ghi lại các phản hồi "vàng" từ V2.5 Pro và phát lại chúng trên mỗi lần thay đổi lời nhắc để phát hiện sự sai lệch trước khi người dùng gặp phải.
- Xác thực các định dạng
tool_callsbằng các xác nhận JSON Schema. Các đối số hàm được truyền trực tiếp là nơi các vấn đề về khả năng tương thích OpenAI thường xuất hiện. - Chạy so sánh song song với mô hình hiện tại của bạn (GPT-5.5, Claude, DeepSeek V4-Pro) với cùng một lô đầu vào bằng cách sử dụng các kịch bản kiểm thử của Apidog.
Tải xuống Apidog, nhập lược đồ Hoàn thành trò chuyện OpenAI, thay đổi URL cơ sở và bạn sẽ có một bộ công cụ kiểm thử V2.5 hoạt động trong vòng chưa đầy mười phút. Quy trình làm việc tương tự mà chúng tôi đã khuyến nghị trong Cách sử dụng API DeepSeek V4.
Cuộc chiến giá LLM năm 2026 đang diễn ra như thế nào
MiMo V2.5 là đợt cắt giảm vĩnh viễn cấp tiên tiến thứ hai từ một phòng thí nghiệm Trung Quốc chỉ trong một tuần. DeepSeek đã giảm giá V4-Pro vĩnh viễn xuống còn 1/4 giá niêm yết vào ngày 22 tháng 5. Kimi K2 đã cắt giảm giá sớm hơn vào Quý 1. OpenAI O3 đã giảm 80% vào tháng 2. Rõ ràng là có một xu hướng:
- Các phòng thí nghiệm Trung Quốc đang cạnh tranh về giá. Những đợt cắt giảm này không phải là dấu hiệu khuyến mãi. Chúng mang tính cơ cấu.
- Các phòng thí nghiệm Hoa Kỳ đang cạnh tranh về khả năng và gói giải pháp. OpenAI và Anthropic đang giữ giá các gói cao cấp của họ và tung ra các tính năng (chế độ tư duy, máy chủ MCP, quy trình làm việc tác tử) để biện minh cho mức phí cao cấp.
- Khoảng cách điểm chuẩn đủ nhỏ để hầu hết các tác vụ nên kiểm tra lại. Các điểm chuẩn công khai đặt MiMo V2.5 trong phạm vi phần trăm một chữ số so với GPT-5.5 trên hầu hết các tác vụ mã hóa và suy luận theo Artificial Analysis.
Để biết thêm về bức tranh này:
- DeepSeek V4-Pro giảm giá vĩnh viễn đề cập đến động thái tương tự của phòng thí nghiệm Trung Quốc.
- Giá API Kimi K2 xem xét đợt cắt giảm lớn thứ ba của Trung Quốc trong năm 2026.
- OpenAI O3 giảm giá đề cập đến phản ứng của Hoa Kỳ vào tháng 2.
- Chi phí API Gemini 3.0 vạch ra chiến lược phân cấp của Google.
- Phân tích chi phí API Claude đầy đủ xem xét vị trí của Opus, Sonnet và Haiku. MiMo-7B nằm ở một phân khúc khác; xem điểm chuẩn MiMo-7B-RL cho dòng sản phẩm mô hình nhỏ hơn của Xiaomi.
Điều này ảnh hưởng đến việc xây dựng của bạn như thế nào
Việc cắt giảm giá MiMo V2.5 không phải là một chiêu trò tiếp thị. Đó là một sự định giá lại mang tính cấu trúc của gói ngữ cảnh 1M, và việc cắt giảm là vĩnh viễn. Nếu bạn đã trì hoãn các tác vụ RAG tài liệu dài, các tác nhân mã hóa trên toàn kho chứa, hoặc bất kỳ tác vụ nào yêu cầu ngữ cảnh >200K token vì lý do chi phí, thì ngân sách bạn đã định giá quý trước có thể đã đánh giá quá cao nhu cầu của quý này gấp nhiều lần.
Ba bước tiếp theo cụ thể:
- Lấy ba tác vụ hàng đầu của bạn theo khối lượng token và tính lại chi phí của chúng theo mức giá cố định mới. Những tác vụ chạy ngữ cảnh dài sẽ làm bạn ngạc nhiên.
- Chạy đánh giá 100 mẫu so với V2.5 Pro và mô hình hiện tại của bạn với các lời nhắc giống hệt nhau. Hầu hết các nhóm đều thấy rằng dải chất lượng có thể chấp nhận được đối với 70% đến 85% lưu lượng truy cập.
- Thiết lập bộ kiểm thử hồi quy Apidog để lần cắt giảm giá tiếp theo, và chắc chắn sẽ có, chỉ mất vài giờ để đánh giá thay vì vài tuần.
Mức giá sàn đã thay đổi một lần nữa. Hãy xây dựng phù hợp.
