中国のラボは2026年前半にLLM APIの価格を6回引き下げ、そのうち3回は恒久的なものとされました。DeepSeek V4-Proは現在、出力トークン100万あたり0.87ドルです。Xiaomi MiMo V2.5は、長文コンテキストの料金層を3ドル出力に一本化しました。AlibabaのQwen3 Maxは3.90ドルで提供されています。MoonshotのKimi K2.6はキャッシュヒット価格を0.07ドルに抑えています。ZhipuのGLM-5は出力3.20ドルです。以下に、2026年5月時点の中国トップ5のフロンティアAPIの完全な価格内訳と、機能に関する注記、そしてお客様のワークロードに最適なAPIを選べるようにするための購入者マトリックスを掲載しています。
要約
- トークンあたり最安値(出力): DeepSeek V4-Pro、0.87ドル/MTok。GPT-5.5の約34分の1の価格。
- 100万コンテキストで最安値: Xiaomi MiMo V2.5 Pro、出力3ドル/MTok、入力長に関わらず一律。
- 一般的なプロダクションにおける価格と品質のバランスが最も良い: Alibaba Qwen3 Max、出力3.90ドル/MTok、262Kコンテキスト。
- キャッシュヒットの最低価格(長いシステムプロンプト): Moonshot Kimi K2.6、キャッシュ時0.07ドル/MTok。
- 推論負荷の高いワークロード: Zhipu GLM-5、出力3.20ドル/MTok、200Kコンテキスト、構造化された思考連鎖で最強。
- 5つのラボすべてが価格競争をしています。3社(DeepSeek、MiMo、Kimi)は2026年の価格改定を恒久的なものとしています。
2026年中国LLM価格競争の展開
この傾向は2025年第4四半期に始まり、2026年第2四半期に加速しました。おおまかなタイムラインは以下の通りです。
- 2025年第4四半期: DeepSeek V3.2が入力0.28ドル/MTokでリリースされ、米国の最先端モデルの価格を桁違いに下回りました。Kimi K2.6がこれに続き、段階的なコンテキスト認識型価格設定と業界最低水準のキャッシュヒット率0.07ドル/MTokを導入しました。
- 2026年3月: XiaomiがMiMo V2-ProをOpenRouterで発表。競争力のある価格だが段階的な料金体系でした。
- 2026年4月: DeepSeek V4が75%のプロモーション割引付きでリリース。割引は5月31日までの予定でした。
- 2026年5月22日: DeepSeekが75%割引の恒久化を発表。V4-Proは入力0.435ドル/出力0.87ドルのままで無期限に提供されます。詳細はこちらにあります。
- 2026年5月27日: XiaomiがMiMo V2.5の価格を1ドル/3ドルで恒久化し、長文コンテキストの乗数を廃止しました。MiMoの値下げに関する詳細はこちら。
これらの値下げは無作為ではありません。各ラボは特定の競争上のギャップを狙っています。DeepSeekはトークンあたりの純粋なコストを追求しています。MiMoは、他のモデルでは高価になりがちな長文コンテキストのワークロードを狙っています。QwenとGLMは中価格帯を維持し、代わりに機能で競争しています。Kimiはキャッシュヒットの最低価格を通じて、エージェントやコーディングのワークフローで競争しています。
一目でわかる:2026年5月の中国LLM APIトップ5
| モデル | 入力 ($/MTok) | 出力 ($/MTok) | キャッシュヒット | コンテキスト | 最適な用途 |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | $0.435 | $0.87 | $0.003625 | 128K | トークンあたり最安値、コーディング |
| Xiaomi MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M | 長文RAG、リポジトリエージェント |
| Alibaba Qwen3 Max | $0.78 | $3.90 | $0.156 | 262K | プロダクションのバランス |
| Moonshot Kimi K2.6 | $0.16–$2.00 (段階的) | ~$2.50 | $0.07 | 128K | 長いシステムプロンプト、コーディングエージェント |
| Zhipu GLM-5 | $1.00 | $3.20 | (プロバイダー定義) | 200K | 構造化推論 |
この表から読み取れるいくつかの詳細点:
- DeepSeekとMiMoは固定料金です。 このグループの他のすべてのラボは、何らかの段階的な料金設定またはコンテキスト乗数を使用しています。固定料金は生産能力計画を予測可能にします。段階的な料金設定は、長文コンテキストの月には予期せぬ出費につながることがあります。
- キャッシュヒット率は大きく異なります。 Kimi K2.6の0.07ドルとDeepSeek V4-Proの0.003625ドルは2つの例外です。安定したシステムプロンプトを持つエージェントの場合、キャッシュミス時の定価ではなく、これらのレートをベンチマークすべきです。メカニズムについては、弊社のプロンプトキャッシング詳細記事をご覧ください。
- コンテキストウィンドウは大きく分かれます。 MiMo V2.5だけが安価な層で100万トークンを提供します。このグループで次に大きいのはQwen3 Maxの262Kです。ワークロードが30万トークンを超える場合、MiMoは選択肢ではなく必須となります。
以下に、各モデルの価格、機能、および得意なワークロードに関するセクションを設けています。
DeepSeek:トークンあたり最安値
モデル: V4-Pro(入力0.435ドル / 出力0.87ドル / キャッシュヒット0.003625ドル、128Kコンテキスト)、V4-Flash(0.14ドル / 0.28ドル)。
DeepSeekのV4-Proは、中国の最先端モデルの価格帯の最低ラインです。5月22日の恒久的な値下げにより、出力トークンは0.87ドル/MTokとなり、GPT-5.5の約34分の1、Claude Opus 4.7の約17分の1となりました。キャッシュヒット時の0.003625ドル/MTokは、主要なラボの第一者提供レートの中で最も低いです。DeepSeekの公式料金ページで確認されています。
V4-Proが優れている点:
- トークン予算の70%以上を出力に費やす、出力重視のワークロード(コード生成、エージェントチェーン、コンテンツツール)。
- 安定した5Kから10Kトークンのシステムプロンプトを持つあらゆるもの。キャッシュヒットにより、実質的な入力コストがほぼゼロになります。
- GPT-5.5と比較して、ベンチマークの3〜7ポイントの差を許容できる、コスト重視のプロダクション。
適さない点:
- 長文ドキュメントのワークロード(128K以上のコンテキスト)。MiMo V2.5は、トークンあたりのレートが高くても、DeepSeekではプロンプトが収まらないため、絶対的な意味でより安価な選択肢です。
- レイテンシが重要なリアルタイムチャット。V4-Proは、思考型モデルであり、初回トークンまでの時間が600〜900ミリ秒です。
詳細な情報はこちら:DeepSeek V4-Proの恒久的な値下げ、DeepSeek V4とは、DeepSeek V4 APIの使い方。
Xiaomi MiMo:100万コンテキストで最安の選択肢
モデル: MiMo V2.5 Pro(入力1.00ドル / 出力3.00ドル / キャッシュ0.20ドル、100万コンテキスト)、MiMo V2 Flash(約0.10ドル / 約0.40ドル、256Kコンテキスト)。
Xiaomiの5月27日の恒久的な値下げにより、MiMo V2.5の価格設定はコンテキストウィンドウ全体で一律化されました。以前の長文コンテキスト層は、256K入力トークンを超える場合に高額な乗数を課していましたが、廃止されました。新しい価格設定では、5Kトークンを送るか950Kトークンを送るかに関わらず、同じ1ドル/3ドルのレートが適用されます。公式の価格更新通知では、この値下げは「恒久的」とされています。
V2.5 Proが優れている点:
- 長文ドキュメントRAG、リポジトリ全体のコード分析、複数ドキュメントの要約、30万から100万トークンのコンテキストに収まるあらゆるワークロード。
- 絶対的な最低価格よりも価格予測可能性が重要となる、大量のドキュメント処理。
適さない点:
- 短いプロンプトのチャット。V2.5 Proは、DeepSeekが処理できるあらゆるコンテキスト長において、DeepSeek V4-Proよりも高価です。
- レイテンシが重要なワークロード。1秒未満の応答時間が必要な場合、より高速な中国製モデルが存在します。
100万コンテキストウィンドウと競争力のあるキャッシュレートにより、MiMoは市場で構造的にユニークな位置を占めています。DeepSeekがコンテキストを128K以上に拡張するか、AlibabaがQwenの価格設定を均一化するまで、MiMoは「安価で長い」領域を独占します。
詳細な情報はこちら:2026年にXiaomi MiMo V2.5を使用するのにかかる費用、MiMo V2-Pro & Omniの価格設定、Xiaomi MiMo Orbitの無料100Tトークンプログラム。
Alibaba Qwen:プロダクションの主力
モデル: Qwen3 Max(入力0.78ドル / 出力3.90ドル / キャッシュ0.156ドル、262Kコンテキスト)。新しいQwen 3.7 Maxは入力2.50ドル/MTok、100万コンテキストで現在早期展開中です。価格はpricepertokenのQwen3 Maxシートで確認済みです。
Qwen3 MaxはAlibabaのフラッグシップであり、国際的なプロダクションで最も導入されている中国製モデルです。競争力はありますが、最低価格水準ではありません。DeepSeek V4-Proと比較して、入力で1.8倍、出力で4.5倍の価格です。このプレミアムは、最も広範なツールエコシステム(Anthropicプロトコル互換、OpenAI互換、Alibaba Cloudエンタープライズホスティング)と、ほとんどのエンタープライズドキュメントワークロードを処理する262Kのコンテキストウィンドウに対して支払われます。
Qwen3 Maxが優れている点:
- 多言語プロダクション。Qwenのトレーニングコーパスは中国語とアジア言語に大きく偏っており、このグループの中で英語以外の言語で最も強力なパフォーマンスを発揮します。
- 企業コンプライアンスシナリオ。AlibabaのエンタープライズSLAとクラウドリージョンオプションは、中国のどのラボよりも成熟しています。
- 20万から26.2万コンテキストを必要とするが、MiMoのプレミアム品質帯の正当化を必要としないワークロード。
適さない点:
- コスト重視の出力負荷の高いワークロード。出力3.90ドル/MTokでは、DeepSeekのレートの4.5倍を支払うことになります。ワークロードがDeepSeekの品質で許容できるなら、切り替えるべきです。
詳細な情報はこちら:Qwen 3 vs OpenAI & DeepSeek:API開発者向けの詳細な技術比較。
Moonshot Kimi:コーディングのスペシャリスト
モデル: Kimi K2.6、コンテキスト段階別入力価格設定(8K、32K、64K、128Kのバンドで0.16ドルから2.00ドル/MTok)、キャッシュヒット最低価格0.07ドル/MTok、中間バンドでの出力レートは約2.50ドル/MTok。
Kimi K2.6はキャッシュヒットのチャンピオンです。ヒット時の0.07ドル/MTokというレートは、主要なラボの第一者提供価格の中で最も低いです。Kimiの強力なツール呼び出しと長時間実行エージェントのサポートと組み合わせることで、K2.6は、多くのターンで同じ充実したシステムプロンプトを再利用するワークフローで優位に立ちます。例えば、コーディングエージェント、安定したペルソナプロンプトを持つカスタマーサポートチャットボット、安定したコンテキストブロックを持つ検索パイプラインなどです。
K2.6が優れている点:
- コーディングエージェント(Claude Codeスタイルのワークフロー)。強力なツール呼び出しフォーマット準拠と最低限のキャッシュヒット価格により、繰り返されるコンテキストパターンがほぼ無料になります。
- システムプロンプトと少数ショットの例が安定している、長時間実行のチャットセッション。
適さない点:
- リクエストごとにプレフィックスが変化するバースト的で多様なワークロード。段階的な入力価格設定のため、コンテキスト長の予期せぬ変化が請求額を急増させる可能性があります。
- 予測可能な予算編成。32K、64K、128K入力トークンでの段階的移行は、同じクエリタイプでも、長い日には短い日の4倍のコストがかかる可能性があることを意味します。
詳細な情報はこちら:2026年、Kimi K2 APIの価格設定は開発者にとって本当に注目に値するのか?。
Zhipu GLM:推論の挑戦者
モデル: GLM-5(入力1.00ドル / 出力3.20ドル、200Kコンテキスト)、GLM-5.1(0.98ドル / 3.08ドル、200Kコンテキスト)。価格はZ.AIの公式料金概要で確認済みです。
ZhipuのGLM-5はGLM-4.7から30%の価格上昇でリリースされました(底値競争の市場における逆行的な動き)が、その後GLM-5.1をわずかな割引でリリースしました。この価格設定は、Zhipuの立ち位置を反映しています。つまり、最も安価ではありませんが、構造化された推論と思考連鎖タスクにおいて最も強力です。
GLM-5が優れている点:
- 数学、形式推論、構造化された思考連鎖タスク。GLM-5は、中国の最先端モデルの中でも複数のGPQAクラスのベンチマークで首位を維持しています。
- 誤った回答のコストに対して限界費用が小さいワークロード(財務分析、法的要約、科学的推論)。
- 明確な推論トレースから恩恵を受ける多段階エージェントワークフロー。
適さない点:
- コスト重視のアプリケーション。GLM-5は、入力と出力を合わせたこのグループで最も高価なオプションです。純粋なコストを最適化するなら、他を検討してください。
- 強力な推論が報われないワークロード。単なるコンテンツ生成や要約の場合、GLMのプレミアムは価値がありません。
詳細な情報はこちら:GLM-5 vs DeepSeek V3 vs GPT-5:速度、コスト、実用的な開発者比較、GLM-5.1 vs Claude, GPT, Gemini, DeepSeek。
ワークロードごとの最安値:購入者マトリックス
5つの一般的なプロダクションワークロードにおいて、どのモデルが優れているかを以下に示します。
| ワークロード | 勝者 | 理由 |
|---|---|---|
| コード生成(出力重視) | DeepSeek V4-Pro | 出力0.87ドル/MTokは無敵 |
| 長文RAG(30万以上のコンテキスト) | Xiaomi MiMo V2.5 Pro | 100万コンテキストで唯一固定価格の選択肢 |
| 安定したシステムプロンプトを持つコーディングエージェント | Kimi K2.6 | キャッシュヒット最低価格0.07ドル/MTok |
| 多言語カスタマーサポート | Alibaba Qwen3 Max | 英語以外の言語で最強のパフォーマンス |
| 数学、形式推論、構造化分析 | Zhipu GLM-5 | 思考連鎖の品質が最高 |
注目すべき3つの複合パターン:
- 2モデルルーティング。 多くのプロダクションチームは、トラフィックの70〜85%をDeepSeek V4-Proにルーティングし、残りのサブモデルをハードテールに置いています。これにより大きなコスト削減が可能となり、ほとんどのワークロードで品質への影響は小さいです。
- 長文コンテキストのセグメンテーション。 ワークロードが短いコンテキストと長いコンテキストに分かれる場合、短いものはDeepSeekに、長いものはMiMoにルーティングします。統一請求の煩わしさはありますが、コストアービトラージは無視できないほど大きいです。
- キャッシュプレフィックスの統合。 どのモデルを選択しても、システムプロンプトを監査してください。キャッシュヒットは、どのモデルに切り替えても有効な、安価な勝利です。
品質とベンチマークに関する注記
価格はモデルが仕事をこなせないなら無意味なので、品質に関する注記です。
Artificial Analysisによると、この比較における5つのモデルは、ほとんどの公開ベンチマークで互いに5〜10パーセントポイントの範囲内に集約されています。興味深いテール部分の差異は以下の通りです。
- DeepSeek V4-Pro: コーディング(SWE-bench Proで約55%)と推論(GPQAで約90%)に強い。長期的エージェントタスクではGPT-5.5にわずかな差があります。
- MiMo V2.5 Pro: 長文コンテキスト検索に強く(80万で95%以上の精度)、コーディングは中程度。
- Qwen3 Max: 英語以外の言語で最高のパフォーマンス、強力な一般的なプロダクション品質。
- Kimi K2.6: ツール呼び出しフォーマットへの準拠が最も強力、特に並列ツール呼び出しにおいて。
- GLM-5: このグループで最高の思考連鎖推論品質。
導入する前に、独自の100サンプル評価を実行してください。公開ベンチマークは方向性を示すのに役立ちますが、重要なのはあなたのトラフィックにおけるギャップです。
Apidogですべての5モデルをテストする
マルチモデルプロダクション展開には、マルチモデルテストハーネスが必要です。Apidogは、これら5つの中国製APIすべてがOpenAI Chat Completionsリクエストボディを受け入れるため(わずかな互換性の癖はありますが)、1つのワークスペースからこれらすべてを処理できます。ワークフローは次のとおりです。

- Apidogでプロバイダーごとに1つの環境を作成します:
api.deepseek.com、platform.xiaomimimo.com、Alibaba Cloud Model Studio、Moonshotのapi.moonshot.cn、およびZhipuのopen.bigmodel.cn。 - OpenAI Chat Completionスキーマを一度インポートします。環境ごとにベースURLを切り替えます。
- 同じテストシナリオをワンクリックですべての5モデルで実行します。応答、スコア、レイテンシを比較します。
- 各プロバイダー固有のストリーミングフォーマットの癖を捉えるために、
tool_calls形状に対するJSONスキーマ検証を構築します。
Apidogをダウンロードし、テストケースをインポートすれば、15分以内に機能する5モデル比較が手に入ります。これは各モデルの詳細記事でも推奨しているワークフローです:DeepSeek V4-Proの恒久的な値下げ、MiMo V2.5のコスト、Kimi K2の価格設定。
価格競争の今後の行方
価格の最低ラインは5月に2回変動しました。第3四半期が終わるまでに、さらに2回の動きがある可能性が高いです。
- Qwenの対応。 Alibabaが最初に値下げすることは稀ですが、数週間以内に追随するのが常です。7月までにQwen3 Maxの改訂またはQwen 3.8の発表を予想してください。
- GLMの対応。 ZhipuがGLM-5で30%の価格上昇を行ったことは、ますます逆行的な動きに見えます。構造的な値下げを伴うGLM-5.2が登場する可能性はあります。
- Kimiの構造的簡素化。 段階的なコンテキスト価格設定は時代遅れになりつつあります。MoonshotはK2.6をMiMoの構造に合わせて平坦化するかもしれません。
それに応じて構築してください。次の3つのステップ:
- 上記の購入者マトリックスに対して、上位3つのワークロードを監査してください。今週、移行テストのために1つ選択してください。
- キャッシュプレフィックスを固定してください。これは、どのモデルに落ち着いても有効な勝利です。
- 5つのプロバイダーすべてを指すApidog回帰テストスイートを構築し、次回の値下げの評価に数週間ではなく数時間で済むようにしてください。
価格の最低ラインはまだ下がり続けています。次の展開に備えてスタックを配置してください。
