샤오미 MiMo V2.5 API 요금은 2026년 5월 27일에 인풋 토큰 백만 개당 1달러, 아웃풋 토큰 백만 개당 3달러로 인하되었으며, 팀은 이 새로운 요율을 영구화했습니다. 기존의 롱-컨텍스트 티어(256K 토큰을 초과하는 프롬프트에 기본 요율에 대한 가파른 승수가 적용되던)는 사라졌습니다. 이제 컨텍스트 길이에 관계없이 단일 요금이 적용됩니다. 대부분의 워크로드에서 핵심 내용은 한 문장으로 요약됩니다: MiMo V2.5는 현재 서비스 중인 1M-컨텍스트 모델 중 가장 저렴한 세 가지 모델 중 하나이며, 이 상태를 유지합니다.
TL;DR
- 2026년 5월 27일 기준 샤오미 MiMo V2.5 영구 요금: 백만 토큰당 인풋 1.00달러, 아웃풋 3.00달러, 캐시 0.20달러, 1M-토큰 컨텍스트 윈도우.
- “최대 99% 할인” 주장은 롱-컨텍스트 티어에서 실현됩니다. 이전 요금 체계는 256K 인풋 토큰을 넘어서면 요금이 급격히 상승했습니다. 새로운 고정 요율은 승수를 없앱니다.
- 토큰 플랜 고객은 할당량이 5배에서 8배 증가했으며, 유효 기간 내에 사용된 크레딧이 전액 초기화되었습니다.
- 할인폭은 영구적이며, 프로모션이 아닙니다. 샤오미의 공식 공지에는 “전체 모델 요금 시스템을 영구적으로 개선한다”고 명시되어 있습니다.
- 배경: 샤오미는 이번 주에 영구적인 최첨단(frontier-tier) 모델 가격 인하를 단행한 두 번째 중국 연구소입니다. DeepSeek은 사흘 전 V4-Pro를 정가 대비 1/4 가격으로 영구화했습니다.
2026년 5월 27일에 변경된 사항
샤오미의 공식 가격 업데이트 공지는 세 가지 변경 사항을 설명합니다. 세 가지 모두 베이징 시간 5월 27일 00:00(UTC 5월 26일 16:00)에 발효되었습니다.

1. 컨텍스트 윈도우 전반에 걸친 고정 요금. 이전 MiMo V2.5 요금 체계는 계층별 요율을 사용했습니다: 최대 32K 인풋 토큰에 대한 기본 요금, 32K에서 256K 구간에 대한 승수, 그리고 256K 이상에 대한 훨씬 가파른 요율. 새로운 요금 체계는 토큰 유형별로 하나의 숫자를 가집니다. 롱-컨텍스트 애플리케이션은 더 이상 롱-컨텍스트 비용을 지불하지 않습니다.
2. 영구적이며 프로모션이 아님. 공지에는 "영구 가격 인하"라는 문구가 두 번, "전체 모델 요금 시스템을 영구적으로 개선한다"는 문구가 한 번 사용되었습니다. 만료일이 없습니다. 철회 조항도 없습니다. 새로운 정가로 간주하십시오.
3. 토큰 플랜 보상 초기화. 토큰 플랜(샤오미의 선불 할당량 시스템)을 사용하는 경우, 크레딧 잔액이 5배에서 8배 증가했으며, 유효 기간 내에 이미 사용한 모든 크레딧이 환불되었습니다. 유효 기간 자체는 연장되지 않았으므로, 기존 플랜은 예산 상의 이득을 얻었지만 기간은 늘어나지 않았습니다.

"최대 99% 할인"이라는 헤드라인 주장은 특히 롱-컨텍스트 구간에 적용됩니다. 256K+ 인풋 토큰에 대한 이전 가격은 백만 토큰당 1달러로 평준화하면 90% 이상의 할인이 되는 수준이었습니다. 기본 티어에 해당하는 워크로드의 경우 할인폭은 더 작지만 여전히 상당합니다.
새로운 영구 요금표
백만 토큰당 가격(USD), 즉시 효력 발생 및 영구적:
| 모델 | 인풋 | 아웃풋 | 캐시 | 컨텍스트 |
|---|---|---|---|---|
| MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M 토큰 |
| MiMo V2 Flash | ~$0.10 | ~$0.40 | $0.02 | 256K 토큰 |
표에 명확하게 나와 있지 않은 몇 가지 세부 사항:
- 캐시 요율(V2.5 Pro의 경우 백만 토큰당 0.20달러)은 인풋 요율의 5배입니다. 이는 DeepSeek의 인풋-미스 대 인풋-히트 비율 120:1보다 나쁜 비율입니다. 샤오미의 캐시는 반복되는 시스템 프롬프트에 여전히 유용하지만, 절약 효과는 절대적인 면에서 더 작습니다.
- 1M 컨텍스트 윈도우는 대부분의 기사에서 저평가하는 부분입니다. 대부분의 미국 호스팅 최첨단 모델은 200K에서 400K로 제한됩니다. MiMo V2.5 Pro는 전체 문서를 처리합니다.
- 공지에는 V2.5 Omni 및 TTS 변형이 언급되어 있지만 항목별로 분류되어 있지 않습니다. 해당 플랫폼에서 별도로 확인하십시오.
참고 자료로 구형 V2-Pro 가격은 저희의 상시 MiMo V2-Pro & Omni 가격 안내를 참조하십시오.
MiMo V2.5가 더 저렴한 가격 외에 가져오는 것
5월 27일 발표는 가격 관련 이벤트였지만, V2.5 자체도 4월에 출시된 V2-Pro에 비해 의미 있는 업그레이드입니다. 주목할 만한 세 가지 변화:
- 더 긴 실용적 컨텍스트. V2.5 Pro는 1M-토큰 이론적 윈도우를 유지하지만, 샤오미는 대부분의 롱-컨텍스트 모델이 저하되는 200K에서 800K 구간에서 검색 품질을 강화했습니다. "건초 더미에서 바늘 찾기(Needle-in-haystack)" 정확도는 800K 토큰까지 95% 이상을 유지합니다.
- 더 나은 툴 호출 형식 준수. V2-Pro는 스트리밍 응답 내에서 잘못된 JSON을 반환하는 병렬 툴 호출과 관련된 알려진 문제가 있었습니다. V2.5는 이러한 실패를 줄였지만, 완전히 없애지는 못했습니다. 어쨌든 JSON 스키마 유효성 검사를 계획하십시오.
- 새로워진 훈련 코퍼스. V2.5는 2026년 1분기까지의 데이터로 훈련되었습니다. 인용 및 지식 차단 시점은 V2-Pro보다 약 3개월 앞서 있습니다.
이 중 어느 것도 헤드라인을 장식할 만한 벤치마크는 아니지만, 실제 프로덕션 배포에서 나타나는 변화들입니다. 더 저렴한 가격과 더 길고 안정적인 컨텍스트 윈도우를 결합하면 5월 27일 이전에는 심각한 장문 문서 작업에 존재하지 않던 옵션이 생겨납니다.
MiMo V2.5가 다른 경쟁 모델들과 어떻게 비교되는가
흥미로운 비교는 V2.5의 이전 버전이 아닙니다. 2026년 5월에 출시되는 다른 최첨단(frontier-tier) API 옵션들과의 비교입니다:
| 모델 | 인풋 ($/MTok) | 아웃풋 ($/MTok) | 컨텍스트 |
|---|---|---|---|
| 샤오미 MiMo V2.5 Pro | $1.00 | $3.00 | 1M |
| DeepSeek V4-Pro | $0.435 | $0.87 | 128K |
| GPT-5.5 | $5.00 | $30.00 | 200K |
| Claude Opus 4.7 | $3.00 | $15.00 | 200K |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 1M |
세 가지 요약:
- DeepSeek V4-Pro는 토큰당 가격 기준으로 여전히 MiMo V2.5보다 저렴합니다. 인풋에서 약 2.3배, 아웃풋에서 3.5배 저렴합니다. 순수 토큰당 비용이 유일한 측정 기준이라면 DeepSeek이 우승합니다.
- MiMo V2.5는 1M-컨텍스트 워크로드에서 우승합니다. Gemini 3.5 Flash만이 표에서 유일한 다른 1M-컨텍스트 옵션이며, 인풋에서 1.5배, 아웃풋에서 3배 더 비쌉니다.
- Artificial Analysis에 따르면, MiMo V2.5는 인풋에서 GPT-5.5보다 5배, 아웃풋에서 10배 저렴하며, 벤치마크 성능은 유사합니다.
이 비교의 DeepSeek 측면은 DeepSeek V4-Pro 75% 가격 인하 영구화를 참조하십시오. 두 기사는 상호 보완적인 읽기 자료입니다. 둘 다 이번 주 중국 연구소들의 영구적인 최첨단(frontier-tier) 가격 인하를 다룹니다.
세 가지 워크로드, 세 가지 새로운 청구서
새로운 영구 요율을 사용한 세 가지 구체적인 사례:
1. 기업 PDF에 대한 장문 문서 RAG. 일 50,000개 쿼리, 쿼리당 800K-토큰 컨텍스트, 1K-토큰 응답. 구형 MiMo V2.5 롱-컨텍스트 티어(추정 유효 요율 백만 토큰당 50달러): 월 약 60,000달러. 새로운 고정 요율: 월 약 1,225달러. 절감액: 월 58,775달러.
2. 코드 검토 에이전트. 일 5,000개 풀 리퀘스트, 30K-토큰 저장소 컨텍스트, 2K-토큰 코멘트 아웃풋. 구형 GPT-5.5 월별 청구서: 약 5,250달러. 새로운 MiMo V2.5: 약 510달러. 절감액: 월 4,740달러.
3. 고객 지원 챗봇. 일 200,000회 상호작용, 4K-토큰 시스템 프롬프트, 300-토큰 응답. 구형 Claude Opus 4.7 월별 청구서: 약 11,250달러. 새로운 MiMo V2.5: 약 805달러. 절감액: 월 10,445달러.
워크로드 #1은 MiMo V2.5가 다른 모델들과 차별화되는 부분입니다. 이번 인하 전에는 모든 최첨단 API에서 롱-컨텍스트 작업이 너무 비쌌습니다. 이제는 그렇지 않습니다. 과거에 요약기나 청킹 파이프라인으로 보내졌던 동일한 문서들이 이제는 토큰 예산 조작 없이 모델 전체로 전송될 수 있습니다.
캐시 적중에 대한 간략한 참고 사항
캐시된 인풋 요율 백만 토큰당 0.20달러는 캐시 미스 요율 1.00달러보다 5배 저렴합니다. 이는 DeepSeek의 120:1 비율보다는 작은 캐시 할인율이지만, 안정적인 시스템 프롬프트를 재사용하는 모든 에이전트에게는 여전히 의미가 있습니다.
예시를 들어보겠습니다. 어시스턴트가 6,000-토큰 시스템 프롬프트를 사용하고 하루에 80,000회의 채팅을 처리하며, 평균 사용자 메시지가 250 인풋 토큰이고 평균 응답이 600 아웃풋 토큰이라고 가정해 봅시다:
- 캐시 적중이 없을 경우: 80,000회 × 6,250 인풋 × $1.00 / 1,000,000 = 하루 인풋에만 500달러.
- 시스템 프롬프트 접두사에 대한 60% 캐시 적중 시: 80,000 × (250 × $1.00 + 6,000 × (0.6 × $0.20 + 0.4 × $1.00)) / 1,000,000 = 하루 약 271달러. 46% 절감.
이는 DeepSeek 캐싱이 제공하는 88%는 아니지만, 인풋에 하루 500달러가 드는 워크로드에서 절반 할인은 상당한 금액입니다. 시스템 프롬프트를 고정하고, 검색된 컨텍스트를 안정적으로 정렬하며, 요청당 타임스탬프를 접두사에 주입하지 마십시오. 다른 곳에서 캐시 적중을 얻는 것과 동일한 규칙이 여기에도 적용됩니다.
MiMo V2.5가 적절한 경우와 그렇지 않은 경우
새로운 가격 책정으로 MiMo V2.5는 두 가지 워크로드 클래스에서 기본 선택이 되며, 한 가지 워크로드에서는 부적절한 선택이 됩니다.
적절한 경우:
- 장문 문서 RAG, 코드 기반 에이전트, 저장소 전체 리팩토링. 200K 토큰 이상의 컨텍스트에 자연스럽게 들어맞는 모든 것. 저렴한 티어에서는 고정 가격과 1M 윈도우가 타의 추종을 불허합니다.
- 대용량 문서 처리. 가격 예측 가능하며 캐시 요율(백만 토큰당 0.20달러)을 통해 동일한 접두사를 저렴하게 일괄 처리할 수 있습니다. 캐시 메커니즘은 프롬프트 캐싱이 LLM 성능을 향상시키고 비용을 절감하는 방법을 참조하십시오.
부적절한 경우:
- 지연 시간에 민감한 대화형 채팅. MiMo V2.5 Pro는 가장 빠른 첫 토큰 모델이 아닙니다. 자동 완성, 자동 제안 또는 1초 미만 채팅의 경우 DeepSeek V4-Flash 또는 Gemini 3.5 Flash가 유사한 비용으로 더 나은 지연 시간 프로파일을 제공합니다.
주의사항:
- 데이터 보존. 호출은 중국에 있는 샤오미의 인프라를 통해 라우팅됩니다. DeepSeek과 동일한 조달 논의가 필요합니다.
- 신뢰성. 샤오미의 자체 API는 미국 호스팅 최첨단 모델보다 운영 이력이 짧습니다. SLA(서비스 수준 계약)가 보장되는 프로덕션의 경우 OpenRouter 또는 다른 애그리게이터를 통해 라우팅하십시오.
- 함수 호출 동등성. 스키마 수준에서 OpenAI 호환이지만, 스트리밍 툴 인수 및 병렬 툴 호출 주변에 엣지 케이스가 있습니다. 배포 전에 테스트하십시오.
V2.5의 배경이 되는 V2-Pro 출시 컨텍스트는 샤오미, 자체 AI 모델 출시, OpenRouter에서 무료 제공을 참조하십시오. 무료 티어 온램프는 샤오미 MiMo Orbit 무료 100T 토큰 프로그램에서 자격 요건 및 가입 방법을 다룹니다.
Apidog로 MiMo V2.5 테스트하기
플랫폼의 OpenAI 호환성은 우수하지만 완벽하지는 않습니다. 프로덕션 트래픽을 전환하기 전에 통합을 확인하십시오.

Apidog를 사용하면 MiMo API 키로 https://platform.xiaomimimo.com/v1에 Chat Completions 요청을 보낸 다음:
- V2.5 Pro에서 골든 응답을 기록하고 모든 프롬프트 변경 시 재생하여 사용자에게 도달하기 전에 드리프트를 파악합니다.
- JSON 스키마 어설션을 사용하여
tool_calls형태를 검증합니다. 스트리밍 함수 인수는 OpenAI 호환성 균열이 나타나는 경향이 있는 부분입니다. - Apidog의 테스트 시나리오를 사용하여 동일한 입력 배치로 현재 모델(GPT-5.5, Claude, DeepSeek V4-Pro)과 나란히 비교 실행합니다.
Apidog를 다운로드하고, OpenAI Chat Completion 스키마를 가져오고, 기본 URL을 변경하면 10분 이내에 작동하는 V2.5 테스트 하니스를 구축할 수 있습니다. DeepSeek V4 API 사용 방법에서 권장했던 것과 동일한 워크플로입니다.
2026년 LLM 가격 전쟁의 양상
MiMo V2.5는 일주일 만에 중국 연구소에서 발표된 두 번째 영구적인 최첨단(frontier-tier) 가격 인하입니다. DeepSeek은 5월 22일에 V4-Pro를 정가 대비 1/4 가격으로 영구화했습니다. Kimi K2는 1분기 초에 인하했습니다. OpenAI O3는 2월에 80% 인하했습니다. 패턴은 명확합니다:
- 중국 연구소들은 가격 경쟁을 벌이고 있습니다. 이러한 인하는 프로모션 표시가 아닙니다. 구조적인 변화입니다.
- 미국 연구소들은 기능과 번들링 경쟁을 벌이고 있습니다. OpenAI와 Anthropic은 플래그십 티어 가격을 유지하고 있으며, 프리미엄을 정당화하기 위해 기능(사고 모드, MCP 서버, 에이전트 워크플로)을 출시하고 있습니다.
- 벤치마크 격차가 충분히 작아서 대부분의 워크로드에서 재테스트해야 합니다. Artificial Analysis에 따르면, 공개 벤치마크에서 MiMo V2.5는 대부분의 코딩 및 추론 작업에서 GPT-5.5와 한 자릿수 퍼센트 포인트 내에 있습니다.
이 그림의 나머지 부분에 대해:
- DeepSeek V4-Pro 영구 가격 인하는 비교 가능한 중국 연구소의 움직임을 다룹니다.
- Kimi K2 API 가격은 2026년 세 번째 주요 중국 가격 인하를 설명합니다.
- OpenAI O3 가격 인하는 2월의 미국 대응을 다룹니다.
- Gemini 3.0 API 비용은 Google의 티어 전략을 보여줍니다.
- 전체 Claude API 비용 분석은 Opus, Sonnet, Haiku가 어디에 속하는지 설명합니다. MiMo-7B는 다른 틈새 시장에 속합니다. 샤오미 라인업의 소형 모델 측면은 MiMo-7B-RL 벤치마크를 참조하십시오.
이것이 당신의 빌드에 미치는 영향
MiMo V2.5의 인하는 마케팅 전략이 아닙니다. 1M-컨텍스트 티어의 구조적인 재조정이며, 이 인하는 영구적입니다. 만약 비용 문제로 장문 문서 RAG, 저장소 전체 코드 에이전트, 또는 200K 토큰 이상의 컨텍스트가 필요한 워크로드를 미루고 있었다면, 지난 분기에 책정한 예산은 이번 분기의 필요를 한 자릿수 이상으로 과대평가했을 것입니다.
세 가지 구체적인 다음 단계:
- 토큰 볼륨별 상위 세 가지 워크로드를 가져와 새로운 고정 요율로 재비용을 계산하십시오. 롱 컨텍스트를 사용하는 워크로드에서 놀라운 결과를 얻을 수 있을 것입니다.
- 동일한 프롬프트로 V2.5 Pro와 현재 모델에 대해 100개 샘플 평가를 실행하십시오. 대부분의 팀은 트래픽의 70%에서 85%에 대해 품질 범위가 허용 가능하다고 판단할 것입니다.
- Apidog 회귀 테스트 스위트를 연결하여 다음 가격 인하(반드시 있을 것입니다)를 평가하는 데 몇 주가 아닌 몇 시간이 걸리도록 하십시오.
가격 하한선이 다시 움직였습니다. 이에 맞춰 구축하십시오.
