바이두는 2026년 5월 9일 ERNIE 5.1을 출시했으며, 헤드라인의 수치는 간과하기 어렵습니다: ERNIE 5.0 전체 파라미터의 약 3분의 1 수준인 전문가 혼합(Mixture-of-Experts) 모델이 **아레나 서치 리더보드에서 전 세계 4위**를 차지했으며, 1,223점으로 중국 모델 중 1위를 기록했습니다.
이는 바이두가 더 이상 중국어 태스크에만 집중하지 않고, 에이전트 도구 사용, 장문 창작 글쓰기, 추론 능력에서 Gemini 3.1 Pro 및 DeepSeek-V4-Pro와 공개적으로 경쟁하는 ERNIE 제품군의 첫 번째 버전입니다. Apidog를 사용하여 개발하고 계시고, 70B 파라미터 규모 없이 에이전트 스택에 통합할 수 있는 중국 최전선 모델을 기다려 오셨다면, 이 출시는 신중하게 검토할 가치가 있습니다.
이 가이드는 ERNIE 5.1이 무엇인지, 내부적으로 무엇이 변경되었는지, 벤치마크가 DeepSeek-V4-Pro 및 Gemini 3.1 Pro와 어떻게 비교되는지, 그리고 이미 DeepSeek V4 또는 Kimi K2.6을 프로덕션에 사용하고 있다면 이 모델이 어디에 적합한지 자세히 설명합니다.
요약: 한 문단으로 보는 ERNIE 5.1
ERNIE 5.1은 유사한 최전선 모델의 사전 학습 비용의 약 6%로 훈련된 텍스트 전용 MoE(Mixture-of-Experts) 모델입니다. 전체 파라미터는 ERNIE 5.0의 약 3분의 1 수준이며, 순방향 통과(forward pass)당 활성 파라미터는 약 절반입니다. 아레나 서치 리더보드에서 1,223점(글로벌 4위, 중국 1위)을 기록했으며, τ³-bench 및 SpreadsheetBench-Verified 에이전트 벤치마크에서 DeepSeek-V4-Pro를 능가하고, 도구 사용 시 AIME26에서 99.6점을 달성했습니다. ERNIE 채팅 UI, 바이두 AI 스튜디오의 ERNIE 5.1 플레이그라운드, 첸판(Qianfan) API를 통해 현재 접근 가능합니다.

이 출시가 중요한 이유
세 가지가 눈에 띄며, 그 중 어느 것도 "바이두가 또 다른 모델을 출시했다"는 것은 아닙니다.
1. 비용 대비 품질 비율. 유사 모델 사전 학습 비용의 약 6%라는 수치는 업계 전반의 가격 기대치를 재설정하는 숫자입니다. 바이두가 이를 첸판(Qianfan)을 통해 최전선 폐쇄형 모델 비용의 일부만으로 제공할 수 있다면, 하위 API 가격도 뒤따를 것입니다.
2. MoE 설계는 세 가지 축에서 유연합니다. 대부분의 MoE 모델은 너비(어떤 전문가가 활성화되는지)를 가로질러 라우팅하며, 때로는 깊이(레이어 건너뛰기)도 라우팅합니다. 바이두는 ERNIE 5.1이 **깊이, 너비, 희소성**을 동시에 가로질러 라우팅한다고 주장하며, 이것이 에이전트 도구 사용 점수를 잃지 않고 모델을 축소한 방법입니다. 이는 일반적인 GShard 스타일 MoE보다는 DeepSeek-V3.x의 설계 철학에 더 가깝습니다.
3. 에이전트 기능이 헤드라인이며, 각주가 아닙니다. ERNIE 5.0은 지식 및 창작 글쓰기 모델로 포지셔닝되었습니다. ERNIE 5.1은 "세계 최고 모델과 동등한 에이전트 기능"을 명시적으로 마케팅하며, 도구 호출 데모에 맞춰진 바이두 AI 스튜디오 플레이그라운드와 함께 제공됩니다. 이는 전략적인 변화입니다.

벤치마크, 나란히 비교
다음은 바이두가 공개한 내용을 가장 근접한 공개 비교 지점과 매핑한 것입니다.
| 벤치마크 | ERNIE 5.1 | 테스트 내용 | 가장 가까운 경쟁 모델 |
|---|---|---|---|
| 아레나 서치 리더보드 | 1,223 (글로벌 4위, 중국 1위) | 인간 평가 기반 검색 인식 QA | Gemini 3.1 Pro, GPT-5.x |
| τ³-벤치 | DeepSeek-V4-Pro 능가 | 에이전트 도구 사용, 다중 턴 | DeepSeek-V4-Pro |
| SpreadsheetBench-Verified | DeepSeek-V4-Pro 능가 | 실제 스프레드시트 작업 | DeepSeek-V4-Pro |
| AIME26 (도구 포함) | 99.6 | 코드 인터프리터가 있는 경쟁 수학 | GPT-5.x, Gemini 3.1 Pro |
| GPQA | “선도적인 폐쇄형 소스에 근접” | 대학원 수준 과학 QA | Claude Sonnet 4.6 |
| MMLU-Pro | “선도적인 폐쇄형 소스에 근접” | 광범위한 지식 | 모든 최전선 모델 |
몇 가지 솔직한 주의사항이 있습니다. 아레나 점수는 프롬프트 조합과 평가자 풀에 따라 달라지며, 중국어 중심의 프롬프트가 여기서 도움이 되었을 수 있습니다. 도구 사용 AIME26 점수 또한 도구 증강 방식입니다; 순수 추론 AIME 점수는 공개되지 않았습니다. 창작 글쓰기는 Gemini 3.1 Pro와 "거의 비슷하다"고 묘사되었지, "일치한다"고는 하지 않았습니다.
그럼에도 불구하고, τ³-벤치와 SpreadsheetBench 결과는 주목할 만합니다. 둘 다 에이전트 기능과 관련이 있고, 외부에서 관리되며, 역사적으로 조작하기 어려웠던 벤치마크입니다.
아키텍처에 대해 알려진 것
바이두는 DeepSeek이 V3 시리즈 논문에서 공개한 것보다 적게 공개했지만, 출시 게시물 및 관련 게시물에서 확인된 내용은 다음과 같습니다.
- 총 파라미터: ERNIE 5.0의 약 3분의 1
- 토큰당 활성 파라미터: ERNIE 5.0의 약 절반
- 라우팅: 깊이, 너비, 희소성에서 유연함 (3축 MoE)
- 사전 학습 비용: "유사 모델"의 약 6%
- 모달리티: 출시 시점 텍스트 전용 (비전, 오디오 없음)
- 언어: 중국어 및 영어 버전 사용 가능
컨텍스트 길이, 정확한 파라미터 수, 훈련 토큰 예산은 공개되지 않았습니다. 이전에 GLM 5.1과 같은 중국어 MoE 모델로 개발해 본 경험이 있다면, 유사한 개발자 접점을 기대할 수 있습니다.

ERNIE 5.1으로 아직 할 수 없는 것
나중에 문제가 생기지 않도록 미리 언급할 가치가 있습니다.
- 이미지 입력 불가. ERNIE 5.1은 텍스트 전용입니다. 멀티모달 바이두 워크플로우의 경우 여전히 ERNIE-VL 또는 외부 비전 모델이 필요합니다.
- 오디오 입력 또는 출력 불가. 네이티브 음성, 실시간 음성은 지원하지 않습니다.
- 공개된 컨텍스트 윈도우 없음. 바이두가 수치를 확인할 때까지 장문 문서 사용 사례는 신중하게 다루세요.
- HuggingFace 가중치 없음. 이 모델은 호스팅 전용입니다. 온프레미스 배포가 중요하다면, 대신 DeepSeek V4 로컬 또는 로컬 LLM을 고려해야 합니다.
ERNIE 5.1이 중국 최전선 모델과 비교되는 방식
이미 DeepSeek, Kimi, GLM, Qwen 중에서 선택하고 있다면, 다음은 빠른 사고 모델입니다.
ERNIE 5.1을 선택할 때: 중국어 또는 영어로 강력한 에이전트 도구 사용과 검색 증강 답변이 필요하고, 중국 클라우드 측에서 가장 저렴한 가격 곡선을 원할 때.
DeepSeek V4를 선택할 때: 오픈 가중치, 온프레미스 배포, 또는 도구 없이 어려운 수학 문제에서 가장 강력한 순수 추론 점수가 필요할 때.
Kimi K2.6을 선택할 때: 문서 작업이 많은 워크플로우에 긴 컨텍스트 윈도우가 필요할 때.
GLM 5.1을 선택할 때: 균형 잡힌 다재다능한 모델이 필요하고 스택에 이미 Z.ai 또는 Zhipu가 있을 때.
이것은 엄격한 순위가 아닙니다. 어떤 장단점이 귀하의 워크로드와 일치하는지에 대한 문제입니다. 결정하기 전에 50개의 프롬프트 슬라이스에 대해 자체 평가를 실행해 보세요.
오늘 ERNIE 5.1을 사용해 볼 수 있는 곳
마찰 순서대로 세 가지 경로:
- ernie.baidu.com: 소비자 채팅 UI. 무료, API 키 없음, 중국 지역. 창작 글쓰기 및 추론 기능을 시험해보기에 가장 좋습니다.
- 바이두 AI 스튜디오 ERNIE 5.1 플레이그라운드: 도구 호출 데모가 미리 연결된 호스팅된 플레이그라운드. API 작업에 전념하기 전에 에이전트 실험을 하기에 좋습니다.
- 첸판(Qianfan) API: 개발자 엔드포인트. OpenAI 호환 요청 형식, 베어러 토큰 인증. 자세한 실습 안내는 관련 게시물 ERNIE 5.1 API 사용 방법에 있습니다.
여러 중국 모델 제공업체를 동시에 평가하고 있다면, Apidog는 일회용 스크립트를 작성하지 않고도 키를 관리하고, 제공업체별 요청 본문을 저장하고, 응답을 나란히 비교하는 가장 깔끔한 방법입니다.
가격 및 출시
바이두는 ERNIE 5.1이 출시 후 몇 주 안에 10개 이상의 창작 생산 플랫폼에 배포될 것이라고 발표했습니다. 첸판(Qianfan)의 토큰당 공개 가격은 출시 게시물에 없었습니다; 약 6%의 사전 학습 비용 주장과 바이두의 과거 첸판 요금표를 기반으로 할 때, ERNIE 4.5 Turbo와 같거나 더 낮은 수준의 입력 가격을 예상합니다. 내부적으로 수치를 언급하기 전에 항상 첸판 콘솔에서 실시간 요금을 확인하세요.
개발자가 ERNIE 5.1에 대해 생각해야 할 점
스택에 통합할지 여부를 결정하는 경우 세 가지 구체적인 권장 사항입니다.
- 1. 공개 벤치마크가 아닌 자체 에이전트 평가를 실행하세요. τ³-벤치는 좋은 지표이지만 귀하의 워크로드와는 다릅니다. 실제 도구 사용 패턴을 반영하는 20-50가지 케이스 평가를 구축한 다음, ERNIE 5.1을 현재 모델과 비교하세요. LLM을 API로 테스트하기는 Apidog를 사용하여 이를 수행하는 한 가지 방법을 안내합니다.
- 2. 이 모델을 중국 클라우드에 대한 베팅으로 간주하세요. 첸판(Qianfan)은 중국에서 호스팅됩니다. 데이터 상주 규칙이 "중화인민공화국 인프라 불가"라고 명시하고 있다면, 벤치마크와 상관없이 이 모델은 시작할 수 없습니다.
- 3. 가격 발표를 주시하세요. 약 6%의 사전 학습 비용 주장은 이번 출시에서 가장 흥미로운 숫자입니다. 바이두가 이 비용 절감분을 API에 반영한다면, 전체 중국 모델의 가격 하한선이 낮아져 DeepSeek, Zhipu, Moonshot이 대응할 수밖에 없을 것입니다.
자주 묻는 질문
- ERNIE 5.1은 오픈 소스인가요? 아닙니다. ERNIE 5.1은 바이두의 채팅 UI, 바이두 AI 스튜디오, 첸판(Qianfan) API를 통해 접근 가능한 호스팅 전용 모델입니다. 작성 시점 기준으로 HuggingFace에 공개된 가중치는 없습니다.
- ERNIE 5.1은 이미지 또는 비전 입력을 지원하나요? 아닙니다. ERNIE 5.1은 출시 시점 텍스트 전용입니다. 바이두의 ERNIE-VL 제품군이 비전 작업을 처리합니다. 단일 멀티모달 중국어 모델이 필요하다면, 대신 Qwen 3.5 Omni를 살펴보세요.
- 컨텍스트 길이는 얼마인가요? 바이두는 출시 게시물에 특정 컨텍스트 윈도우 수치를 공개하지 않았습니다. 확인할 때까지 장문 문서 워크플로우는 방어적으로 설계하고 입력을 분할하세요.
- 중국 외부에서 ERNIE 5.1을 사용할 수 있나요? 채팅 UI와 첸판(Qianfan) API는 대부분의 지역에서 접근 가능하지만, 지연 시간과 계정 인증 방식이 다릅니다. 일부 기업 기능은 여전히 중국 본토 전화번호 또는 사업자 등록증이 필요합니다. 관련 가이드 ERNIE 5.1 API 사용 방법에서 접근 흐름을 자세히 다룹니다.
- ERNIE 5.1이 DeepSeek-V4-Pro보다 우수한가요? τ³-벤치 및 SpreadsheetBench-Verified에서는 바이두가 그렇다고 말합니다. 오픈 가중치 접근 측면에서는 그렇지 않습니다. 도구 사용 없는 순수 추론 수학 벤치마크에서는 공개된 수치가 명확한 답을 주지 않습니다. 솔직한 입장은: 이들은 약간 다른 배포 모델을 목표로 합니다.
개발을 시작할 준비가 되셨나요? Apidog를 다운로드하고 첸판(Qianfan) OpenAPI 사양을 가져와 하나의 워크스페이스에서 ERNIE 5.1을 현재 모델과 함께 테스트해 보세요.
