Baiduは2026年5月9日にERNIE 5.1をリリースしました。その主要な数字は見過ごせません。ERNIE 5.0の総パラメータの約3分の1のMixture-of-Expertsモデルであり、Arena Searchリーダーボードで**世界第4位**、中国モデルの中で1,223点のスコアで1位を獲得しました。
これは、BaiduがGemini 3.1 ProやDeepSeek-V4-Proに対して、中国語タスクだけでなく、エージェント的なツール使用、長文のクリエイティブライティング、推論能力で公然と競争するERNIEファミリーの最初のバージョンです。Apidogを使って開発していて、700億パラメータのフットプリントなしにエージェントスタックに組み込める中国の最先端モデルを待っていたなら、このリリースは注意深く検討する価値があります。
このガイドでは、ERNIE 5.1とは何か、内部で何が変わったのか、DeepSeek-V4-ProおよびGemini 3.1 Proとのベンチマーク比較、そしてすでに本番環境でDeepSeek V4やKimi K2.6を使用している場合のモデルの適合性について解説します。
要約: ERNIE 5.1を1パラグラフで
ERNIE 5.1は、比較可能なフロンティアモデルの事前学習コストの約6%で学習されたテキスト専用のMoEモデルです。総パラメータ数はERNIE 5.0の約3分の1で、フォワードパスあたりのアクティブパラメータは約半分です。Arena Searchリーダーボードでは1,223点(世界4位、中国1位)を獲得し、τ³-benchおよびSpreadsheetBench-VerifiedエージェントベンチマークではDeepSeek-V4-Proを上回り、ツール使用時のAIME26で99.6点を達成しました。アクセスはERNIEチャットUI、Baidu AI StudioのERNIE 5.1 Playground、およびQianfan APIを通じて利用可能です。

このリリースが重要な理由
3つの点が際立っていますが、そのどれも「Baiduが別のモデルを出荷した」というだけではありません。
1. コストパフォーマンス。 比較可能なモデルの約6%のコストでの事前学習は、業界全体の価格設定の期待を再定義する数字です。BaiduがこれをQianfanを通じて、フロンティアのクローズドモデルが請求する価格のごく一部で提供できるなら、下流のAPI価格もそれに追随するでしょう。
2. MoE設計の3軸にわたる柔軟性。 ほとんどのMoEモデルは幅(どのエキスパートが発火するか)と、時には深さ(レイヤースキップ)にわたってルーティングします。Baiduは、ERNIE 5.1が**深さ、幅、疎性**に同時にわたってルーティングすると主張しており、これによりエージェント的なツール使用スコアを損なうことなくモデルを縮小しました。これは、標準的なGShardスタイルのMoEよりもDeepSeek-V3.xの設計哲学に近いものです。
3. エージェント機能が主役であり、補足ではない。 ERNIE 5.0は知識とクリエイティブライティングのモデルとして位置づけられていました。ERNIE 5.1は「世界のトップモデルと同等のエージェント機能」を明示的に宣伝し、ツール呼び出しデモ用に調整されたBaidu AI Studioのプレイグラウンドが付属しています。これは戦略的な転換です。

ベンチマークの比較
以下は、Baiduが公開した内容を、最も近い公開比較対象と対比させたものです。
| ベンチマーク | ERNIE 5.1 | テスト内容 | 最も近い競合製品 |
|---|---|---|---|
| Arena Search リーダーボード | 1,223 (世界4位, 中国1位) | 人間評価による検索対応QA | Gemini 3.1 Pro, GPT-5.x |
| τ³-bench | DeepSeek-V4-Proを上回る | エージェント的なツール使用、多ターン | DeepSeek-V4-Pro |
| SpreadsheetBench-Verified | DeepSeek-V4-Proを上回る | 実世界の表計算タスク | DeepSeek-V4-Pro |
| AIME26 (ツール使用時) | 99.6 | コードインタープリタによる競技数学 | GPT-5.x, Gemini 3.1 Pro |
| GPQA | 「主要なクローズドソースに匹敵」 | 大学院レベルの科学QA | Claude Sonnet 4.6 |
| MMLU-Pro | 「主要なクローズドソースに匹敵」 | 幅広い知識 | 全てのフロンティアモデル |
いくつか正直な注意点があります。Arenaのスコアはプロンプトの組み合わせと投票者プールに依存し、中国語に偏ったプロンプトがここで有利に働く可能性があります。AIME26のツール使用時のスコアもツールによって強化されたものです。純粋な推論によるAIMEの数値は公開されていません。クリエイティブライティングについては、Gemini 3.1 Proに「匹敵する」ではなく、「近づいている」と表現されています。
そうは言っても、τ³-benchとSpreadsheetBenchの結果は注目に値します。どちらもエージェント的であり、外部によって維持されており、歴史的に不正が困難でした。
アーキテクチャについて分かっていること
BaiduはDeepSeekがV3シリーズの論文で開示した内容よりも少ない情報を開示していますが、リリース投稿および関連投稿で確認できる内容は以下のとおりです。
- 総パラメータ数: ERNIE 5.0の約3分の1
- トークンあたりのアクティブパラメータ数: ERNIE 5.0の約半分
- ルーティング: 深さ、幅、疎性に対して柔軟(3軸MoE)
- 事前学習コスト: 「比較可能なモデル」の約6%
- モダリティ: リリース時はテキストのみ(視覚、音声なし)
- 言語: 中国語版と英語版が利用可能
コンテキスト長、正確なパラメータ数、および学習トークン予算は開示されていません。以前にGLM 5.1のような中国のMoEモデルで開発したことがある場合、同様の開発者インターフェースを期待できます。

ERNIE 5.1でまだできないこと
後で困らないように、あらかじめ指摘しておく価値があります。
- 画像入力なし。 ERNIE 5.1はテキスト専用です。マルチモーダルなBaiduワークフローには、依然としてERNIE-VLまたは外部のビジョンモデルが必要です。
- 音声入力・出力なし。 ネイティブな音声機能やリアルタイム音声はありません。
- 公開されたコンテキストウィンドウなし。 Baiduが数値を確定するまで、長文ドキュメントのユースケースは慎重に扱う必要があります。
- HuggingFaceの重みなし。 これはホスト型専用モデルです。オンプレミスが重要であれば、代わりにローカルのDeepSeek V4またはローカルLLMを検討することになります。
ERNIE 5.1と中国のフロンティアモデルとの比較
すでにDeepSeek、Kimi、GLM、Qwenの中から選んでいる場合、以下の簡単なメンタルモデルを参考にしてください。
ERNIE 5.1を選ぶべき時: 中国語または英語で強力なエージェント的なツール使用と検索強化された回答が必要で、かつ中国のクラウドサイドで最も安価な料金体系を求める場合。
DeepSeek V4を選ぶべき時: オープンウェイト、オンプレミス展開、またはツールなしで難しい数学における最も強力な純粋推論スコアが必要な場合。
Kimi K2.6を選ぶべき時: ドキュメント量の多いワークフローで長いコンテキストウィンドウが必要な場合。
GLM 5.1を選ぶべき時: バランスの取れた汎用モデルが必要で、すでにスタックにZ.aiまたはZhipuがある場合。
これは厳密なランキングではありません。あなたのワークロードにどのトレードオフが合致するか、という話です。導入する前に、50プロンプトのサンプルでご自身の評価を実行してください。
今すぐERNIE 5.1を試すには
3つの方法があります(摩擦の少ない順):
- ernie.baidu.com: 一般消費者向けチャットUI。無料、APIキー不要、中国リージョン。クリエイティブライティングや推論の試用版として最適です。
- Baidu AI Studio ERNIE 5.1 Playground: ツール呼び出しデモが事前に組み込まれたホスト型プレイグラウンド。API作業に本格的に取り組む前のエージェント実験に適しています。
- Qianfan API: 開発者向けエンドポイント。OpenAI互換のリクエスト形式、Bearerトークン認証。詳細なハンズオンウォークスルーは、関連投稿ERNIE 5.1 APIの使用方法にあります。
複数の中国モデルプロバイダーを並行して評価している場合、Apidogは、一時的なスクリプトを書くことなく、キーを管理し、プロバイダーごとのリクエストボディを保存し、応答を並べて比較する最もクリーンな方法です。
価格と展開
Baiduは、ERNIE 5.1がリリース後数週間のうちに**10以上のクリエイティブ制作プラットフォーム**に展開されると発表しました。Qianfanでのトークンごとの公開価格はリリース投稿には記載されていませんでしたが、事前学習コストが約6%という主張とBaiduの過去のQianfan料金表に基づくと、ERNIE 4.5 Turboと同等以下の入力価格が予想されます。社内で数値を提示する前に、必ず最新のQianfanコンソールを確認してください。
開発者はERNIE 5.1についてどう考えるべきか
スタックへの導入を検討している場合に役立つ、3つの具体的な推奨事項です。
1. 公開ベンチマークではなく、あなた自身の独自エージェント評価で実行してください。 τ³-benchは良い指標ですが、それはあなたのワークロードではありません。実際のツール使用パターンを反映する20〜50ケースの評価を構築し、ERNIE 5.1と現在のモデルを比較してください。APIとしてのLLMテストでは、Apidogを使ったその方法が解説されています。
2. このモデルを中国のクラウドへの賭けと見なしてください。 Qianfanは中国でホストされています。データレジデンシー規則で「中華人民共和国のインフラストラクチャは不可」となっている場合、ベンチマークに関係なく、これは選択肢になりません。
3. 価格発表に注目してください。 事前学習コストが約6%という主張は、このリリースで最も興味深い数字です。Baiduがそのコスト削減をAPIに反映させれば、中国モデル全体の価格下限が下がり、DeepSeek、Zhipu、Moonshotも対応を迫られるでしょう。
よくある質問
ERNIE 5.1はオープンソースですか? いいえ。ERNIE 5.1は、BaiduのチャットUI、Baidu AI Studio、およびQianfan APIを通じてアクセスできるホスト型専用モデルです。執筆時点では、HuggingFaceに公開されている重みはありません。
ERNIE 5.1は画像または視覚入力をサポートしていますか? いいえ。ERNIE 5.1はリリース時にはテキスト専用です。BaiduのERNIE-VLファミリーが視覚タスクを処理します。単一のマルチモーダル中国モデルが必要な場合は、代わりにQwen 3.5 Omniをご覧ください。
コンテキスト長はどのくらいですか? Baiduはリリース投稿で特定のコンテキストウィンドウの数値を公開していません。確認されるまでは、長文ドキュメントのワークフローは防御的に設計し、入力をチャンク化してください。
中国外からERNIE 5.1を使用できますか? チャットUIとQianfan APIはほとんどの地域からアクセス可能ですが、レイテンシとアカウント認証は異なります。一部のエンタープライズ機能では、依然として中国本土の電話番号または事業許可が必要です。関連ガイドERNIE 5.1 APIの使用方法でアクセスフローについて詳しく説明しています。
ERNIE 5.1はDeepSeek-V4-Proより優れていますか? τ³-benchとSpreadsheetBench-Verifiedでは、Baiduは「はい」と述べています。オープンウェイトアクセスについては「いいえ」です。ツールを使用しない純粋な推論の数学ベンチマークでは、公開された数値からは明確な答えは得られません。正直なところ、両者はわずかに異なる展開モデルを対象としています。
開発を始める準備はできましたか? Apidogをダウンロードし、Qianfan OpenAPI仕様をインポートして、ERNIE 5.1を現在のモデルと並行して1つのワークスペースでテストしてください。
