Baidu đã phát hành ERNIE 5.1 vào ngày 9 tháng 5 năm 2026, và con số tiêu đề thật khó bỏ qua: một mô hình Mixture-of-Experts (MoE) với khoảng một phần ba tổng số tham số của ERNIE 5.0, đạt vị trí thứ 4 toàn cầu trên bảng xếp hạng Arena Search và đứng đầu trong số các mô hình Trung Quốc với số điểm 1.223.
Đây là phiên bản đầu tiên của dòng ERNIE mà Baidu công khai cạnh tranh về việc sử dụng công cụ đại lý, viết sáng tạo dạng dài và khả năng suy luận với Gemini 3.1 Pro và DeepSeek-V4-Pro, không còn chỉ giới hạn ở các tác vụ tiếng Trung. Nếu bạn xây dựng bằng Apidog và đã chờ đợi một mô hình tiên phong của Trung Quốc mà bạn có thể tích hợp vào một ngăn xếp tác nhân mà không cần đến dấu chân 70 tỷ tham số, thì bản phát hành này rất đáng để xem xét kỹ lưỡng.
Hướng dẫn này sẽ giải thích ERNIE 5.1 là gì, những thay đổi bên trong, cách các điểm chuẩn so sánh với DeepSeek-V4-Pro và Gemini 3.1 Pro, và vị trí của mô hình nếu bạn đã sử dụng DeepSeek V4 hoặc Kimi K2.6 trong sản xuất.
TL;DR: ERNIE 5.1 trong một đoạn
ERNIE 5.1 là một mô hình MoE chỉ văn bản, được đào tạo với chi phí tiền huấn luyện chỉ khoảng 6% so với các mô hình tiên phong tương đương. Tổng số tham số khoảng một phần ba của ERNIE 5.0, và các tham số hoạt động trên mỗi lượt truyền tiến khoảng một nửa. Nó đạt 1.223 điểm trên bảng xếp hạng Arena Search (thứ 4 toàn cầu, thứ 1 tại Trung Quốc), vượt trội hơn DeepSeek-V4-Pro trên các điểm chuẩn tác nhân τ³-bench và SpreadsheetBench-Verified, và đạt 99.6 trên AIME26 khi sử dụng công cụ. Truy cập trực tiếp qua giao diện trò chuyện ERNIE, ERNIE 5.1 Playground của Baidu AI Studio và API Qianfan.

Tại sao bản phát hành này quan trọng
Có ba điều nổi bật, và không điều nào trong số đó là "Baidu lại phát hành một mô hình khác".
1. Tỷ lệ chi phí-chất lượng. Một lần tiền huấn luyện với chi phí chỉ khoảng 6% so với các mô hình tương đương là một con số thiết lập lại kỳ vọng về giá trên toàn ngành. Nếu Baidu có thể cung cấp dịch vụ này thông qua Qianfan với một phần nhỏ chi phí so với các mô hình tiên phong đóng, giá API hạ nguồn sẽ theo sau.
2. Thiết kế MoE linh hoạt trên ba trục. Hầu hết các mô hình MoE định tuyến theo chiều rộng (chuyên gia nào được kích hoạt) và đôi khi theo chiều sâu (bỏ qua lớp). Baidu tuyên bố ERNIE 5.1 định tuyến đồng thời theo chiều sâu, chiều rộng và độ thưa thớt, đây là cách họ thu nhỏ mô hình mà không làm mất điểm sử dụng công cụ tác nhân. Điều này gần với triết lý thiết kế trong DeepSeek-V3.x hơn là một MoE kiểu GShard thông thường.
3. Khả năng tác nhân là tiêu đề chính, không phải là chú thích. ERNIE 5.0 được định vị là một mô hình kiến thức và viết sáng tạo. ERNIE 5.1 công khai quảng bá "khả năng tác nhân ngang bằng với các mô hình hàng đầu thế giới" và đi kèm với một sân chơi Baidu AI Studio được điều chỉnh cho các bản demo gọi công cụ. Đây là một sự thay đổi chiến lược.

Các điểm chuẩn, so sánh cạnh nhau
Đây là những gì Baidu đã công bố, so sánh với các điểm tham chiếu công khai gần nhất.
| Điểm chuẩn | ERNIE 5.1 | Kiểm tra gì | Đối thủ cạnh tranh gần nhất |
|---|---|---|---|
| Bảng xếp hạng Arena Search | 1,223 (thứ 4 toàn cầu, thứ 1 CN) | QA có nhận thức tìm kiếm do con người đánh giá | Gemini 3.1 Pro, GPT-5.x |
| τ³-bench | Vượt trội hơn DeepSeek-V4-Pro | Sử dụng công cụ tác nhân, đa lượt | DeepSeek-V4-Pro |
| SpreadsheetBench-Verified | Vượt trội hơn DeepSeek-V4-Pro | Các tác vụ bảng tính thực tế | DeepSeek-V4-Pro |
| AIME26 (có công cụ) | 99.6 | Thi toán với trình thông dịch mã | GPT-5.x, Gemini 3.1 Pro |
| GPQA | "Tiếp cận các nguồn đóng hàng đầu" | QA khoa học cấp độ sau đại học | Claude Sonnet 4.6 |
| MMLU-Pro | "Tiếp cận các nguồn đóng hàng đầu" | Kiến thức rộng | Tất cả các mô hình tiên phong |
Một vài lưu ý thành thật. Điểm Arena phụ thuộc vào hỗn hợp câu lệnh và nhóm người bình chọn, và các câu lệnh nghiêng về tiếng Trung có thể hữu ích ở đây. Điểm AIME26 có công cụ cũng được tăng cường công cụ; một con số AIME suy luận thuần túy không được tiết lộ. Viết sáng tạo được mô tả là "tiếp cận Gemini 3.1 Pro" chứ không phải ngang bằng.
Tuy nhiên, kết quả τ³-bench và SpreadsheetBench là những điểm đáng chú ý. Cả hai đều mang tính tác nhân, cả hai đều được duy trì bên ngoài, và cả hai trong lịch sử đều khó bị thao túng.
Những gì chúng ta biết về kiến trúc
Baidu tiết lộ ít hơn DeepSeek về các bài báo dòng V3 của họ, nhưng đây là những gì bài đăng phát hành và các bài đăng liên quan xác nhận:
- Tổng số tham số: khoảng một phần ba của ERNIE 5.0
- Tham số hoạt động trên mỗi token: khoảng một nửa của ERNIE 5.0
- Định tuyến: linh hoạt theo chiều sâu, chiều rộng và độ thưa thớt (một MoE ba trục)
- Chi phí tiền huấn luyện: ~6% của "các mô hình tương đương"
- Phương thức: chỉ văn bản khi ra mắt (không thị giác, không âm thanh)
- Ngôn ngữ: có sẵn phiên bản tiếng Trung và tiếng Anh
Độ dài ngữ cảnh, số lượng tham số chính xác và ngân sách token đào tạo không được tiết lộ. Nếu bạn đã xây dựng với các mô hình MoE Trung Quốc như GLM 5.1 trước đây, hãy kỳ vọng một không gian phát triển tương tự.

Những gì bạn chưa thể làm với ERNIE 5.1
Đáng để lưu ý để bạn không thiết kế dựa vào nó và gặp rắc rối sau này.
- Không có đầu vào hình ảnh. ERNIE 5.1 chỉ xử lý văn bản. Đối với các quy trình làm việc đa phương thức của Baidu, bạn vẫn cần ERNIE-VL hoặc một mô hình thị giác bên ngoài.
- Không có đầu vào hoặc đầu ra âm thanh. Không có giọng nói tự nhiên, không có giọng nói thời gian thực.
- Không có cửa sổ ngữ cảnh được công bố. Cho đến khi Baidu xác nhận con số, hãy xử lý cẩn thận các trường hợp sử dụng tài liệu dài.
- Không có trọng số HuggingFace. Đây là một mô hình chỉ được lưu trữ. Nếu việc chạy tại chỗ là quan trọng, bạn sẽ xem xét DeepSeek V4 cục bộ hoặc một LLM cục bộ thay thế.
ERNIE 5.1 so sánh với các mô hình tiên phong của Trung Quốc như thế nào
Nếu bạn đang lựa chọn giữa DeepSeek, Kimi, GLM và Qwen, đây là mô hình tư duy nhanh chóng.
Chọn ERNIE 5.1 khi bạn cần khả năng sử dụng công cụ tác nhân mạnh mẽ cùng với các câu trả lời được tăng cường tìm kiếm bằng tiếng Trung hoặc tiếng Anh, và bạn muốn đường cong giá rẻ nhất ở phía đám mây Trung Quốc.
Chọn DeepSeek V4 khi bạn cần trọng số mở, triển khai tại chỗ, hoặc điểm suy luận thuần túy mạnh nhất về toán khó mà không cần công cụ.
Chọn Kimi K2.6 khi bạn cần cửa sổ ngữ cảnh dài cho các quy trình làm việc nặng về tài liệu.
Chọn GLM 5.1 khi bạn cần một mô hình tổng quát cân bằng và bạn đã có Z.ai hoặc Zhipu trong ngăn xếp của mình.
Đây không phải là một bảng xếp hạng nghiêm ngặt; nó nói về sự đánh đổi nào phù hợp với khối lượng công việc của bạn. Hãy tự chạy các đánh giá của riêng bạn trên một lát cắt 50 câu lệnh trước khi cam kết.
Nơi để thử ERNIE 5.1 ngay hôm nay
Ba con đường, theo thứ tự độ phức tạp:
- ernie.baidu.com: giao diện trò chuyện dành cho người dùng. Miễn phí, không cần khóa API, khu vực Trung Quốc. Tốt nhất để thử nghiệm khả năng viết sáng tạo và suy luận.
- Sân chơi ERNIE 5.1 của Baidu AI Studio: một sân chơi được lưu trữ với các bản demo gọi công cụ được cài đặt sẵn. Tốt cho các thử nghiệm tác nhân trước khi bạn cam kết với công việc API.
- API Qianfan: điểm cuối dành cho nhà phát triển. Định dạng yêu cầu tương thích OpenAI, xác thực bằng mã thông báo Bearer. Hướng dẫn chi tiết có trong bài viết đi kèm của chúng tôi Cách sử dụng API ERNIE 5.1.
Nếu bạn đang đánh giá song song nhiều nhà cung cấp mô hình Trung Quốc, Apidog là cách sạch nhất để quản lý khóa, lưu trữ nội dung yêu cầu cho từng nhà cung cấp và so sánh các phản hồi cạnh nhau mà không cần viết các tập lệnh dùng một lần.
Giá cả và triển khai
Baidu thông báo rằng ERNIE 5.1 sẽ được triển khai trên hơn 10 nền tảng sản xuất sáng tạo trong những tuần sau khi ra mắt. Giá công khai cho mỗi token trên Qianfan không có trong bài đăng phát hành; dựa trên tuyên bố chi phí tiền huấn luyện khoảng 6% và bảng giá Qianfan lịch sử của Baidu, hãy kỳ vọng giá đầu vào nằm trong cùng dải với ERNIE 4.5 Turbo hoặc thấp hơn. Luôn kiểm tra bảng điều khiển Qianfan trực tiếp trước khi đưa ra các con số nội bộ.
Các nhà phát triển nên nghĩ gì về ERNIE 5.1
Ba khuyến nghị cụ thể nếu bạn đang quyết định có nên tích hợp nó vào ngăn xếp của mình hay không.
1. Chạy nó với đánh giá tác nhân của riêng bạn, không phải điểm chuẩn công khai. τ³-bench là một tín hiệu tốt nhưng không phải là khối lượng công việc của bạn. Xây dựng một đánh giá 20–50 trường hợp phản ánh các mẫu sử dụng công cụ thực tế của bạn, sau đó so sánh ERNIE 5.1 với mô hình hiện tại của bạn. Kiểm tra LLM dưới dạng API hướng dẫn một cách để thực hiện điều này với Apidog.
2. Coi mô hình như một đặt cược vào đám mây Trung Quốc. Qianfan được lưu trữ tại Trung Quốc. Nếu các quy tắc lưu trữ dữ liệu của bạn nói "không có cơ sở hạ tầng PRC", thì đây là một lựa chọn không khả thi bất kể các điểm chuẩn.
3. Chú ý thông báo giá. Tuyên bố chi phí tiền huấn luyện khoảng 6% là con số thú vị nhất trong bản phát hành. Nếu Baidu chuyển điều đó sang API, toàn bộ mức giá sàn của các mô hình Trung Quốc sẽ giảm xuống, buộc DeepSeek, Zhipu và Moonshot phải phản ứng.
Các câu hỏi thường gặp
ERNIE 5.1 có phải là mã nguồn mở không? Không. ERNIE 5.1 là một mô hình chỉ được lưu trữ, có thể truy cập thông qua giao diện trò chuyện của Baidu, Baidu AI Studio và API Qianfan. Không có trọng số công khai nào trên HuggingFace vào thời điểm viết bài.
ERNIE 5.1 có hỗ trợ đầu vào hình ảnh hoặc thị giác không? Không. ERNIE 5.1 chỉ xử lý văn bản khi ra mắt. Dòng ERNIE-VL của Baidu xử lý các tác vụ thị giác. Nếu bạn cần một mô hình đa phương thức Trung Quốc duy nhất, hãy xem xét Qwen 3.5 Omni thay thế.
Độ dài ngữ cảnh là bao nhiêu? Baidu không công bố con số cửa sổ ngữ cảnh cụ thể trong bài đăng phát hành. Cho đến khi họ xác nhận, hãy thiết kế các quy trình làm việc với tài liệu dài một cách phòng ngừa và chia nhỏ đầu vào.
Tôi có thể sử dụng ERNIE 5.1 từ bên ngoài Trung Quốc không? Giao diện trò chuyện và API Qianfan có thể truy cập từ hầu hết các khu vực, nhưng độ trễ và xác minh tài khoản khác nhau. Một số tính năng doanh nghiệp vẫn yêu cầu số điện thoại di động hoặc giấy phép kinh doanh ở đại lục. Hướng dẫn đi kèm Cách sử dụng API ERNIE 5.1 bao gồm chi tiết quy trình truy cập.
ERNIE 5.1 có tốt hơn DeepSeek-V4-Pro không? Trên τ³-bench và SpreadsheetBench-Verified, Baidu nói là có. Về quyền truy cập trọng số mở, là không. Trên các điểm chuẩn toán học suy luận thuần túy mà không sử dụng công cụ, các con số công khai không đưa ra câu trả lời rõ ràng. Vị trí trung thực: chúng nhắm mục tiêu các mô hình triển khai hơi khác nhau.
Sẵn sàng bắt đầu xây dựng? Tải xuống Apidog và nhập thông số kỹ thuật OpenAPI của Qianfan để kiểm tra ERNIE 5.1 cùng với mô hình hiện tại của bạn trong một không gian làm việc.
