텐센트는 2026년 4월 22일 Hy3 프리뷰를 오픈 소스로 공개했으며, 하루 만에 OpenRouter는 이를 완전 무료 엔드포인트로 등록했습니다. 신용카드, 토큰 측정, 체험 기간 제한이 없습니다. 오늘, 당신의 코드에서 텐센트의 위안바오(Yuanbao) 앱과 코드버디(CodeBuddy) 비서를 구동하는 것과 동일한 2950억(295B) 매개변수 전문가 혼합(Mixture-of-Experts) 모델을 무료로 호출할 수 있습니다.
이 가이드는 OpenRouter, Hugging Face Space, 그리고 순수 Hy3 저장소를 통해 Hy3 프리뷰 API를 무료로 사용하는 방법을 보여줍니다. 또한 Hy3를 2026년 대부분의 오픈 모델과 다르게 만드는 추론 모드, 그리고 일회성 스크립트 작성 없이 Apidog 내에서 API를 테스트하는 방법을 다룹니다.
첫 응답을 가장 빨리 받고 싶다면 "단계별: OpenRouter에서 Hy3 프리뷰를 무료로 호출하기"로 이동하세요.
요약
- **Hy3 프리뷰는 OpenRouter에서 무료입니다.** 모델 ID
tencent/hy3-preview:free로 $0 입출력 요금으로 제공됩니다. - **전문가 혼합(Mixture-of-Experts) 모델**입니다: 총 2950억(295B) 매개변수, 210억(21B) 활성, 상위 8개 라우팅을 사용하는 192개 전문가, 그리고 **256K 토큰 컨텍스트 창**을 가집니다.
- 세 가지 **추론 모드**가 내장되어 있습니다: 빠른 답변을 위한
no_think, 에이전트 및 코딩 작업에서 깊은 사고의 사슬(chain-of-thought)을 위한low및high. - 오픈 가중치 모델치고는 벤치마크가 강력합니다: **SWE-bench Verified 74.4**, **Terminal-Bench 2.0 54.4**, **GPQA Diamond 87.2**, **MMLU 87.42**.
- 세 가지 무료 방법으로 실행할 수 있습니다: OpenRouter 무료 티어, Hugging Face Hy3-preview Space, 또는 vLLM과 오픈 가중치를 사용한 로컬 추론.
- Hy3가 OpenAI 채팅 완성(Chat Completions) 스키마를 사용하기 때문에 Apidog는 OpenRouter 엔드포인트와 잘 어울립니다; OpenRouter에 요청을 보내고 바로 시작하세요.
Hy3 프리뷰란 무엇인가요?
Hy3 프리뷰는 텐센트가 재편성한 훈위안(Hunyuan) 파운데이션 모델 팀의 첫 주력 모델로, 이 팀은 텐센트의 추론 스택 강화를 위해 영입된 전 OpenAI 연구원 야오 순위(Yao Shunyu)가 이끌고 있습니다. 이는 텐센트의 역대 가장 강력한 모델이자, DeepSeek, Alibaba, Zhipu의 최고 중국 오픈 가중치 모델 출시에 대한 직접적인 응답으로 볼 수 있습니다.

공식 모델 카드의 기술 프로필은 에이전트 우선(agent-first)입니다:
- **아키텍처**: 전문가 혼합(Mixture-of-Experts), 80개 레이어와 1개 MTP 레이어, 그룹 쿼리 어텐션(grouped-query attention)을 가진 64개 어텐션 헤드.
- **매개변수**: 총 2950억(295B) 개, 순방향 통과당 210억(21B) 개 활성.
- **전문가**: 토큰당 상위 8개 라우팅을 사용하는 192개 전문가.
- **컨텍스트**: 256K 토큰 (OpenRouter 목록에서는 262,144개).
- **토크나이저**: BF16 정밀도를 가진 120,832개 항목의 어휘.
- **라이선스**: 텐센트 Hy 커뮤니티 라이선스(Tencent Hy Community License), 라이선스 약관 내에서 상업적 사용 허용.
일반적인 2000억(200B)대 MoE와 차별화되는 점은 에이전트 학습입니다. 텐센트는 다중 턴 도구 사용을 위해 RL 인프라를 재구축했으며, SWE-bench Verified, Terminal-Bench 2.0 및 내부 WildClawBench 스위트에서 발표된 점수는 코드 및 셸 작업에서 최고 수준의 비공개 모델에 근접합니다.

Hy3 프리뷰를 무료로 사용하는 세 가지 방법
채팅 UI, API 또는 로컬 가중치를 원하는지에 따라 세 가지 경로가 있습니다.
| 경로 | 내용 | 무료 여부? | 적합한 경우 |
|---|---|---|---|
OpenRouter tencent/hy3-preview:free |
호스팅된 OpenAI 호환 API | 예, 입출력 $0 | 에이전트, 스크립트 및 백엔드 기능 구축 |
| Hugging Face Space | 브라우저 채팅 데모 | 예 | 빠른 프롬프트, 간보기, 스모크 테스트 |
| 자체 호스팅 가중치 (vLLM / SGLang) | 자체 GPU에서 오픈 가중치 실행 | 무료 소프트웨어, 하드웨어 비용 발생 | 개인 정보 보호에 민감한 워크로드, 대용량 |
대부분의 개발자는 OpenRouter 경로를 원할 것입니다. 이는 가입부터 작동하는 API 호출까지 가장 짧은 경로이며, 무료 티어의 속도 제한은 프로토타입 제작에 충분히 관대합니다.
단계별: OpenRouter에서 Hy3 프리뷰를 무료로 호출하기
다음은 `tencent/hy3-preview:free` 응답까지의 최소 경로입니다.

- **OpenRouter 계정을 만드세요.** openrouter.ai에서 가입하세요. 이메일만으로 충분하며, 무료 티어 모델에는 결제 수단이 필요하지 않습니다.
- **API 키를 생성하세요.** OpenRouter 대시보드에서 "Keys"를 열고 새 키를 생성하세요. 이를 환경 변수에 복사하세요. 예를 들어
export OPENROUTER_API_KEY=sk-or-...와 같이요. - **모델 페이지를 여세요.** Hy3 프리뷰 무료 목록으로 이동하여 상태 배너에 "Free"라고 표시되어 있는지 확인하세요. 거기에서 사용 통계도 볼 수 있습니다; 출시 당시 이 엔드포인트는 모든 사용자를 통틀어 하루에 68.1억(6.81B) 프롬프트 토큰을 처리했습니다.

**첫 요청을 보내세요.** OpenRouter는 OpenAI 채팅 완성(Chat Completions) 스키마를 노출하므로, 모든 OpenAI SDK가 작동합니다:
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "tencent/hy3-preview:free",
"messages": [
{"role": "user", "content": "Explain the MoE routing decision inside a top-8 of 192 setup in 3 sentences."}
],
"temperature": 0.9,
"top_p": 1.0
}'
- 필요할 때 추론을 켜세요. Hy3는 `effort`가 `low` 또는 `high`로 설정된 `reasoning` 매개변수를 받습니다. OpenRouter는 추론 추적을 별도의 `reasoning_details` 배열로 반환하며, 이는 자체 토큰 버킷으로 청구됩니다:
{
"model": "tencent/hy3-preview:free",
"messages": [
{"role": "user", "content": "Plan, then write a Bash script that rotates daily log files older than 30 days into a dated archive folder."}
],
"reasoning": {"effort": "high"}
}
- 반복하세요. 모델이 이전 컨텍스트를 기반으로 구축되기를 원한다면 세션을 동일한 스레드에 유지하세요; Hy3의 256K 창은 대부분의 전체 코드베이스를 처음부터 끝까지 처리합니다.
이것이 전체 흐름입니다. 호출하는 모델은 Hugging Face에 게시된 것과 동일합니다; OpenRouter 무료 티어의 품질은 다른 제공업체의 유료 경로와 동일합니다.
무료, 유료, 자체 호스팅: 다른 점
무료가 유일한 경로는 아니므로, 어느 쪽을 선택하기 전에 실제 차이점을 아는 것이 도움이 됩니다.
| 기능 | OpenRouter 무료 | OpenRouter 유료 (비무료 엔드포인트) | 자체 호스팅 (vLLM / SGLang) |
|---|---|---|---|
| 토큰당 비용 | $0 | 제공업체별 | 전기료 및 GPU 감가상각비 |
| 추론 모드 | no_think, low, high |
동일 | 동일 |
| 컨텍스트 길이 | 256K | 256K | 256K (메모리 허용 시) |
| 로드 시 처리량 | 공유 풀, 수요 시 우선순위 하락 | 전용 | 클러스터가 제공하는 만큼 |
| 속도 제한 | OpenRouter 무료 티어 한도 (유동적) | 제공업체별 | 없음 |
| 데이터 보존 | OpenRouter 로깅 정책 | 제공업체별 | 사용자 하드웨어에 보존 |
| 추론 토큰 가시성 | 예, reasoning_details를 통해 |
예 | 예 |
무료는 프로토타입, 사이드 프로젝트, 평가 벤치마크, 저트래픽 에이전트에 적합한 선택입니다. 지연 시간이 중요하거나 속도 제한을 초과하는 순간부터 유료 또는 자체 호스팅이 합리적입니다.
Hy3를 더 잘 활용하기 위한 프롬프트 및 매개변수 팁
Hy3는 작은 모델보다 명시적인 설정에 더 큰 이점을 제공합니다. 몇 가지 습관이 도움이 됩니다.
- 모드에 맞게 온도를 조절하세요. 모델 카드는 기본값으로
temperature=0.9및top_p=1.0을 권장합니다. 구조화된 출력의 경우0.3으로 낮추고, 창의적인 작업의 경우0.9를 유지하세요. - 일상적인 채팅에는
no_think를 사용하세요. 기본 추론 모드가 꺼져 있는 데는 이유가 있습니다; 계획, 다단계 코드 또는 수학에만low또는high가 필요합니다. 한 줄 질문에high를 사용하면 추론 토큰이 낭비됩니다. - 시스템 프롬프트에 도구 이름을 지정하세요. Hy3는 특정 파서(
hy_v3)를 사용하여 도구 사용을 위해 훈련되었습니다. OpenRouter에서도 스키마에만 의존하는 대신 시스템 프롬프트가 각 도구의 작업을 설명할 때 더 나은 호출을 얻을 수 있습니다. - 코드를 인용하고 요약하지 마세요. 256K 창을 통해 전체 파일을 붙여넣을 수 있습니다. 파일을 붙여넣은 다음 질문하세요; 모델에게 코드를 상상하도록 요청하지 마세요.
- 여러 파일 편집을 일괄 처리하세요. Hy3의 SWE-bench Verified 점수 74.4는 여러 파일을 일관성 있게 편집하는 것에서 나옵니다. 한 번에 하나씩 흘려보내는 대신 전체 세트를 하나의 메시지로 제공하세요.
- 먼저 계획을 요청하세요. 에이전트 작업의 경우, 두 단계 패턴("계획을 초안하고, 내 확인을 기다린 다음 실행")은 원샷 프롬프트보다 일관되게 더 깔끔한 결과를 생성합니다.
배포 전 알아두어야 할 제한 사항
몇 가지 함정은 놓치면 문제가 될 수 있습니다.
- 속도 제한은 로드에 따라 유동적입니다. OpenRouter의 무료 티어는 모든 무료 사용자 간에 용량을 공유합니다. 출시 당시 일일 프롬프트 볼륨은 이미 68.1억(6.81B) 토큰이었으며, 피크 시간대 호출은 429 오류를 볼 수 있습니다. 지수 백오프(exponential backoff)를 사용하여 재시도 기능을 구축하세요.
- 추론 토큰은 출력으로 계산됩니다.
reasoning_details는 OpenRouter 무료 티어에서 무료이지만, 유료 경로에서는 출력으로 청구됩니다. 측정 없이effort: "high"기본값을 수익에 민감한 제품에 배포하지 마세요. - 라이선스는 Apache 2.0이 아닙니다. 텐센트 Hy 커뮤니티 라이선스는 상업적 사용을 허용하지만, 사용 정책 및 귀속 조항을 포함합니다; 제품에 Hy3를 포함하기 전에 GitHub 저장소의 전체 라이선스를 읽어보세요.
- 도구 호출에는 올바른 파서가 필요합니다. 자체 호스팅하는 경우, vLLM 또는 SGLang을
--tool-call-parser hy_v3(SGLang의 경우hunyuan)와 함께 실행하세요. 이것이 없으면 도구 호출이 일반 텍스트로 돌아옵니다. - 영어와 중국어가 1순위이며, 다른 언어는 2순위입니다. C-Eval 89.80 및 CMMLU 89.61 점수는 강력한 중국어 성능을 보여줍니다. 다른 언어는 MMMLU를 통해 지원되지만 품질이 떨어집니다.
- 일부 추론 벤치마크에서는 미국 최고 주력 모델에 뒤처집니다. HLE는 30점이며, SCMP 보도에 따르면 Hy3는 최고 중국 모델과 동등하지만, 가장 어려운 추론 스위트에서는 OpenAI와 Google DeepMind의 현재 주력 모델에 여전히 뒤처집니다.
개발자 고속 경로: Hy3 프리뷰 + Apidog
명령줄 curl은 데모에는 괜찮습니다. 실제 반복 작업을 위해서는 시각적 API 클라이언트가 시간을 절약해줍니다.
- Apidog를 열고 새 프로젝트를 만드세요. OpenAI 채팅 완성(Chat Completions) OpenAPI 사양을 가져오세요; OpenRouter는 동일한 스키마를 사용합니다.
- 기본 URL을
https://openrouter.ai/api/v1로 설정하고OPENROUTER_API_KEY환경 변수를 추가하세요. - 모델이
tencent/hy3-preview:free로 설정된/chat/completions를 호출하는 요청을 만드세요. - 추론 모드를 비교하기 위해 요청을 포크하세요. Apidog를 사용하면 요청을 복제하고 하나의 매개변수를 조정할 수 있으므로, 동일한 프롬프트를
no_think,low,high와 함께 나란히 실행하고 지연 시간 및 출력 차이를 검사할 수 있습니다. - 프롬프트 템플릿을 저장하세요. 에이전트 프롬프트는 길어집니다. Apidog의 환경 및 변수 시스템은 시스템 프롬프트, 도구 스키마, 사용자 턴을 분리하여 테스트 전반에 걸쳐 재사용할 수 있도록 합니다.
Postman에서 전환한다면 빠를 것입니다; 저희의 2026년 Postman 없는 API 테스트 가이드가 마이그레이션을 다룹니다. 편집기에서 작업하는 팀은 VS Code 내 Apidog를 사용하여 VS Code 안에서 동일한 워크플로우를 실행할 수 있으며, 이는 프롬프트 튜닝을 출력을 사용하는 코드 옆에 유지합니다.
한도에 도달했을 때의 무료 대안
피크 시간대에 OpenRouter 무료 풀에 의해 제한된다면, 먼저 시도해 볼 만한 두 가지 경로가 있습니다.
- Hugging Face Space. Hy3-preview Space는 브라우저 채팅 데모를 호스팅합니다. 스크립트화할 수는 없지만, 무료이며 빠른 비교에 유용합니다.
- 다른 무료 중국 오픈 가중치 모델. Alibaba의 Qwen 3.5 Omni는 강력한 멀티모달 출력을 제공하는 무료 티어를 제공합니다; 설정에 대해서는 저희의 Qwen 3.5 Omni 발표 및 사용 가이드를 참조하세요. Zhipu GLM 5V Turbo도 관대한 무료 티어를 제공하는 또 다른 옵션입니다; GLM 5V Turbo API 가이드에 전체 과정이 나와 있습니다.
이들 중 어느 것도 에이전트 코딩에 대한 Hy3의 SWE-bench 및 Terminal-Bench 수치를 따라잡지는 못하지만, 무료 Hy3 티어가 우선순위를 두지 않는 채팅, 다국어 및 멀티모달 사용 사례를 다룹니다. 프로덕션 빌드의 경우, Apidog를 다운로드하고 모델당 하나의 컬렉션을 설정하세요; 실제 프롬프트에 대한 병렬 벤치마크가 모든 리더보드를 읽는 것보다 낫습니다.
vLLM으로 Hy3 프리뷰 자체 호스팅
하드웨어가 있다면 로컬 추론은 네 번째 무료 경로입니다. 모델 카드는 텐서 병렬 처리 8과 추측 디코딩을 위해 멀티 토큰 예측을 활성화한 vLLM을 권장합니다:
vllm serve tencent/Hy3-preview \
--tensor-parallel-size 8 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 1 \
--tool-call-parser hy_v3 \
--reasoning-parser hy_v3 \
--enable-auto-tool-choice \
--served-model-name hy3-preview
동등한 SGLang 명령어는 --tool-call-parser hunyuan 및 --reasoning-parser hunyuan을 사용합니다. 서버가 http://localhost:8000/v1에서 실행되면, 모든 OpenAI SDK는 OpenRouter를 가리키는 것과 동일한 방식으로 이를 가리킵니다; 기본 URL과 키만 변경됩니다.
전체 모델에는 BF16에서 8개의 H100급 GPU가 필요할 것으로 예상됩니다. 양자화된 커뮤니티 빌드가 나타날 예정이지만, 출시 당시 공식 경로는 완전 정밀도입니다.
자주 묻는 질문
Hy3 프리뷰는 무료인가요?
예. OpenRouter는 tencent/hy3-preview:free를 백만 입력 토큰당 $0, 백만 출력 토큰당 $0로 제공합니다. 무료 티어의 추론 토큰도 무료이지만, 속도 제한에 포함됩니다. 프로덕션에 의존하기 전에 OpenRouter 모델 페이지에서 현재 상태를 확인하세요.
Hy3 프리뷰는 DeepSeek V3 및 Qwen 3과 어떻게 비교되나요?
Hy3 프리뷰의 SWE-bench Verified 점수 74.4 및 Terminal-Bench 2.0 점수 54.4는 최고 중국 오픈 모델과 동일한 등급에 속하며, 에이전트 및 도구 사용에 명확하게 기울어져 있습니다. 순수한 채팅의 경우 Qwen 3 및 DeepSeek V3가 경쟁력이 있지만, 에이전트 및 코딩 워크플로우의 경우 Hy3의 RL 학습 도구 사용이 차별점입니다.
Hy3의 추론 모드는 무엇인가요?
세 가지입니다: no_think (기본값, 직접 답변), low, high. OpenRouter의 reasoning 매개변수를 통해 또는 모델을 직접 호출할 때 chat_template_kwargs={"reasoning_effort": "high"}를 통해 전환할 수 있습니다. 계획, 다단계 코드 및 수학에는 high를 사용하고, 채팅에는 사용하지 마세요.
Hy3 프리뷰를 상업적으로 사용할 수 있나요?
예, 텐센트 Hy 커뮤니티 라이선스(Tencent Hy Community License)에 따라 가능합니다. 이 라이선스는 귀속 및 사용 정책 준수를 조건으로 상업적 사용을 허용합니다. 수익 창출 제품에 배포하기 전에 Hy3 GitHub 저장소에서 전체 약관을 읽어보세요.
무료 티어는 어떤 컨텍스트 길이를 지원하나요?
256K 토큰을 처음부터 끝까지 지원합니다. OpenRouter의 목록은 262,144 토큰을 보여주며, 이는 모델 카드와 일치합니다. 중간 크기의 전체 코드베이스를 붙여넣고도 도구 스키마 및 대화 기록을 위한 공간이 남습니다.
코드 작성 없이 Hy3 프리뷰를 테스트하는 방법은 무엇인가요?
브라우저 채팅 데모를 위해 Hugging Face Space를 사용하거나, OpenRouter 엔드포인트에 Apidog를 연결하세요. Apidog는 OpenAI OpenAPI 사양을 가져오므로, 요청 구성은 기본 URL, API 키, 모델 이름의 세 가지 필드입니다.
