Cách Sử Dụng Hy3 Preview API Miễn Phí

Tencent đã công bố mã nguồn mở Hy3 Preview vào ngày 22 tháng 4 năm 2026, và trong vòng một ngày, OpenRouter đã niêm yết nó như một điểm cuối hoàn toàn miễn phí. Không cần thẻ tín dụng, không tính phí token, không giới hạn dùng thử. Bạn có thể gọi mô hình Mixture-of-Experts 295B-tham số tương tự mà Tencent sử dụng cho ứng dụng Yuanbao và trợ lý CodeBuddy của mình từ mã nguồn của bạn, ngay hôm nay, hoàn toàn miễn phí.

Hướng dẫn này chỉ ra cách sử dụng API Hy3 Preview miễn phí thông qua OpenRouter, Hugging Face Space và kho lưu trữ Hy3 gốc. Nó cũng bao gồm các chế độ suy luận giúp Hy3 khác biệt so với hầu hết các mô hình mở năm 2026, và cách kiểm thử API trong Apidog mà không cần viết các script dùng một lần.

button

Nếu bạn muốn có phản hồi đầu tiên nhanh nhất, hãy chuyển đến phần “Hướng dẫn từng bước: gọi Hy3 Preview miễn phí trên OpenRouter.”

TL;DR

Hy3 Preview miễn phí trên OpenRouter với ID mô hình tencent/hy3-preview:free cùng mức giá $0 cho đầu vào và $0 cho đầu ra.
Đây là một mô hình Mixture-of-Experts: tổng cộng 295B tham số, 21B tham số hoạt động, 192 chuyên gia với định tuyến top-8, và một cửa sổ ngữ cảnh 256K-token.
Ba chế độ suy luận được tích hợp sẵn: no_think cho câu trả lời nhanh, low, và high cho chuỗi suy nghĩ sâu sắc trong các tác vụ agent và lập trình.
Điểm chuẩn rất mạnh đối với một mô hình mã nguồn mở: SWE-bench Verified 74.4, Terminal-Bench 2.0 54.4, GPQA Diamond 87.2, MMLU 87.42.
Bạn có thể chạy nó theo ba cách miễn phí: gói miễn phí của OpenRouter, Hy3-preview Space của Hugging Face, hoặc suy luận cục bộ với vLLM và các trọng số mở.
Apidog kết hợp tốt với điểm cuối OpenRouter vì Hy3 sử dụng schema OpenAI Chat Completions; chỉ cần trỏ một yêu cầu đến OpenRouter và bắt đầu.

Hy3 Preview là gì?

Hy3 Preview là bản phát hành chủ lực đầu tiên của đội ngũ mô hình nền tảng Hunyuan đã được tái cấu trúc của Tencent, hiện được lãnh đạo bởi Yao Shunyu, một cựu nhà nghiên cứu OpenAI được công ty thuê để thúc đẩy hệ thống suy luận của mình. Hãy xem đây là mô hình có năng lực nhất của Tencent từ trước đến nay và là một câu trả lời trực tiếp cho các bản phát hành mã nguồn mở hàng đầu của Trung Quốc từ DeepSeek, Alibaba và Zhipu.

Thông tin kỹ thuật từ thẻ mô hình chính thức là hướng đến tác nhân (agent-first):

Kiến trúc: Mixture-of-Experts, 80 lớp cộng thêm một lớp MTP, 64 đầu chú ý với cơ chế chú ý theo nhóm truy vấn.
Tham số: Tổng cộng 295B, 21B hoạt động mỗi lượt chuyển tiếp.
Chuyên gia: 192 chuyên gia với định tuyến top-8 cho mỗi token.
Ngữ cảnh: 256K token (262.144 trên danh sách của OpenRouter).
Bộ mã hóa (Tokenizer): Từ vựng 120.832 mục với độ chính xác BF16.
Giấy phép: Tencent Hy Community License, cho phép sử dụng thương mại trong khuôn khổ điều khoản giấy phép.

Điều làm nó khác biệt so với một mô hình MoE thông thường cỡ 200B là việc đào tạo theo hướng agent. Tencent đã xây dựng lại hạ tầng RL của mình cho việc sử dụng công cụ đa lượt, và các điểm số được công bố trên SWE-bench Verified, Terminal-Bench 2.0, và bộ WildClawBench nội bộ đã đưa nó đến gần các mô hình đóng hàng đầu về các tác vụ code và shell.

Ba cách miễn phí để sử dụng Hy3 Preview

Bạn có ba con đường tùy thuộc vào việc bạn muốn giao diện trò chuyện (chat UI), API, hay trọng số cục bộ.

Đường dẫn	Nó là gì	Miễn phí?	Thích hợp cho
OpenRouter `tencent/hy3-preview:free`	API tương thích OpenAI được lưu trữ	Có, $0 đầu vào/đầu ra	Xây dựng agent, script và tính năng backend
Hugging Face Space	Bản demo trò chuyện trên trình duyệt	Có	Nhắc lệnh nhanh, thử nghiệm ban đầu, kiểm tra sơ bộ
Trọng số tự lưu trữ (vLLM / SGLang)	Chạy các trọng số mở trên GPU của riêng bạn	Phần mềm miễn phí, chi phí phần cứng áp dụng	Khối lượng công việc nhạy cảm về quyền riêng tư, khối lượng lớn

Hầu hết các nhà phát triển sẽ muốn đi theo con đường OpenRouter. Đây là con đường ngắn nhất từ khi đăng ký đến một cuộc gọi API hoạt động, và giới hạn tỷ lệ (rate limit) trên gói miễn phí đủ rộng rãi cho việc tạo mẫu.

Hướng dẫn từng bước: gọi Hy3 Preview miễn phí trên OpenRouter

Đây là con đường tối thiểu từ con số 0 đến một phản hồi tencent/hy3-preview:free hoạt động.

Tạo tài khoản OpenRouter. Đăng ký tại openrouter.ai. Chỉ cần email; không yêu cầu phương thức thanh toán cho các mô hình miễn phí.
Tạo khóa API. Trong bảng điều khiển OpenRouter, mở "Keys" và tạo khóa mới. Sao chép nó vào một biến môi trường, ví dụ export OPENROUTER_API_KEY=sk-or-....
Mở trang mô hình. Truy cập danh sách miễn phí của Hy3 Preview và xác nhận biểu ngữ trạng thái hiển thị “Free.” Bạn cũng sẽ thấy số liệu sử dụng ở đó; tại thời điểm ra mắt, điểm cuối này đang xử lý 6.81 tỷ token nhắc lệnh mỗi ngày cho tất cả người dùng.

Gửi yêu cầu đầu tiên của bạn. OpenRouter hiển thị schema OpenAI Chat Completions, vì vậy bất kỳ SDK OpenAI nào cũng hoạt động:

curl https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tencent/hy3-preview:free",
    "messages": [
      {"role": "user", "content": "Explain the MoE routing decision inside a top-8 of 192 setup in 3 sentences."}
    ],
    "temperature": 0.9,
    "top_p": 1.0
  }'

Bật suy luận khi bạn cần. Hy3 chấp nhận tham số reasoning với effort được đặt thành low hoặc high. OpenRouter trả về dấu vết suy nghĩ trong một mảng reasoning_details riêng biệt, được tính như một nhóm token riêng:

{
  "model": "tencent/hy3-preview:free",
  "messages": [
    {"role": "user", "content": "Plan, then write a Bash script that rotates daily log files older than 30 days into a dated archive folder."}
  ],
  "reasoning": {"effort": "high"}
}

Lặp lại. Giữ phiên trong cùng một luồng nếu bạn muốn mô hình xây dựng dựa trên ngữ cảnh trước đó; cửa sổ 256K của Hy3 xử lý hầu hết các codebase đầy đủ từ đầu đến cuối.

Đó là toàn bộ quy trình. Mô hình bạn đang gọi là mô hình tương tự được xuất bản trên Hugging Face; chất lượng trên gói miễn phí của OpenRouter giống hệt các gói trả phí trên các nhà cung cấp khác.

Miễn phí, Plus, và tự lưu trữ: điểm khác biệt

Miễn phí không phải là con đường duy nhất, và điều quan trọng là phải thấy sự khác biệt thực sự trước khi bạn cam kết với một lựa chọn.

Khả năng	OpenRouter Miễn phí	OpenRouter Trả phí (điểm cuối không miễn phí)	Tự lưu trữ (vLLM / SGLang)
Chi phí mỗi token	$0	Theo nhà cung cấp	Điện năng cộng khấu hao GPU
Chế độ suy luận	`no_think`, `low`, `high`	Tương tự	Tương tự
Độ dài ngữ cảnh	256K	256K	256K (tùy thuộc bộ nhớ)
Thông lượng khi tải cao	Nhóm dùng chung, bị ưu tiên thấp hơn khi có nhu cầu	Riêng biệt	Bất cứ thứ gì cluster của bạn phục vụ
Giới hạn tỷ lệ	Giới hạn gói miễn phí OpenRouter (linh hoạt)	Cụ thể theo nhà cung cấp	Không có
Lưu trữ dữ liệu	Chính sách ghi nhật ký của OpenRouter	Cụ thể theo nhà cung cấp	Ở trên phần cứng của bạn
Khả năng hiển thị token suy luận	Có, qua `reasoning_details`	Có	Có

Miễn phí là lựa chọn phù hợp cho các bản mẫu, dự án phụ, điểm chuẩn đánh giá và các tác nhân có lưu lượng truy cập thấp. Trả phí hoặc tự lưu trữ có ý nghĩa khi độ trễ quan trọng hoặc bạn vượt quá giới hạn tỷ lệ.

Mẹo về nhắc lệnh và tham số để tận dụng tối đa Hy3

Hy3 cần thiết lập rõ ràng hơn so với các mô hình nhỏ hơn. Một vài thói quen sẽ hữu ích.

Phù hợp nhiệt độ với chế độ. Thẻ mô hình khuyến nghị temperature=0.9 và top_p=1.0 làm mặc định. Giảm xuống 0.3 cho đầu ra có cấu trúc, giữ ở 0.9 cho công việc sáng tạo.
Sử dụng no_think cho trò chuyện hàng ngày. Chế độ suy luận mặc định tắt là có lý do; bạn chỉ cần low hoặc high cho việc lập kế hoạch, code đa bước, hoặc toán học. Chạy high cho một câu hỏi một dòng là lãng phí token suy luận.
Đặt tên công cụ trong system prompt. Hy3 được đào tạo để sử dụng công cụ với một parser cụ thể (hy_v3). Ngay cả trên OpenRouter, bạn vẫn nhận được các cuộc gọi tốt hơn khi system prompt mô tả công việc của từng công cụ thay vì chỉ dựa vào schema.
Trích dẫn code, đừng tóm tắt nó. Cửa sổ 256K cho phép bạn dán toàn bộ file. Dán file, sau đó đặt câu hỏi; đừng yêu cầu mô hình tưởng tượng code.
Sửa đổi nhiều file theo lô. Điểm SWE-bench Verified 74.4 của Hy3 đến từ việc chỉnh sửa nhiều file một cách nhất quán. Hãy cung cấp toàn bộ tập hợp trong một tin nhắn thay vì nhỏ giọt từng cái một.
Yêu cầu kế hoạch trước. Đối với các tác vụ agent, mẫu hai bước (“phác thảo kế hoạch, chờ xác nhận của tôi, sau đó thực hiện”) luôn tạo ra kết quả sạch hơn so với các nhắc lệnh một lần.

Những giới hạn cần biết trước khi triển khai

Một vài lỗi nhỏ sẽ làm bạn vấp nếu bỏ qua chúng.

Giới hạn tỷ lệ thay đổi theo tải. Gói miễn phí của OpenRouter chia sẻ dung lượng giữa tất cả người dùng miễn phí. Khi ra mắt, khối lượng nhắc lệnh hàng ngày đã là 6.81B token; các cuộc gọi vào giờ cao điểm có thể gặp lỗi 429. Hãy xây dựng các lần thử lại với độ trễ lũy thừa (exponential backoff).
Token suy luận được tính là đầu ra. reasoning_details miễn phí trên gói miễn phí của OpenRouter, nhưng trên các gói trả phí chúng được tính phí như đầu ra. Đừng triển khai mặc định effort: "high" cho một sản phẩm nhạy cảm về doanh thu mà không đo lường.
Giấy phép không phải là Apache 2.0. Giấy phép Tencent Hy Community License cho phép sử dụng thương mại nhưng có các điều khoản về chính sách sử dụng và ghi công; đọc giấy phép đầy đủ trên kho lưu trữ GitHub trước khi bạn nhúng Hy3 vào một sản phẩm.
Gọi công cụ yêu cầu parser phù hợp. Nếu bạn tự lưu trữ, hãy chạy vLLM hoặc SGLang với --tool-call-parser hy_v3 (hoặc hunyuan cho SGLang). Nếu không có nó, các cuộc gọi công cụ sẽ trả về dưới dạng văn bản thuần túy.
Tiếng Anh và tiếng Trung là ưu tiên hàng đầu; các ngôn ngữ khác là thứ hai. Các điểm C-Eval 89.80 và CMMLU 89.61 cho thấy khả năng tiếng Trung mạnh mẽ. Các ngôn ngữ khác được hỗ trợ qua MMMLU nhưng chất lượng giảm đi.
Nó còn kém các flagship hàng đầu của Mỹ trên một số điểm chuẩn suy luận. HLE đạt 30, và tin tức trên SCMP lưu ý rằng Hy3 ngang bằng với các mô hình hàng đầu của Trung Quốc nhưng vẫn còn kém các flagship hiện tại của OpenAI và Google DeepMind trên các bộ thử nghiệm suy luận khó nhất.

Lối tắt phát triển: Hy3 Preview cộng Apidog

Curl dòng lệnh tốt cho một bản demo. Để lặp lại thực tế, một client API trực quan sẽ tiết kiệm hàng giờ.

Mở Apidog và tạo một dự án mới. Nhập thông số kỹ thuật OpenAPI của OpenAI Chat Completions; OpenRouter sử dụng cùng một schema.
Đặt URL cơ sở thành https://openrouter.ai/api/v1 và thêm một biến môi trường cho OPENROUTER_API_KEY.
Tạo một yêu cầu gọi đến /chat/completions với mô hình được đặt thành tencent/hy3-preview:free.
Sao chép yêu cầu để so sánh các chế độ suy luận. Apidog cho phép bạn nhân đôi một yêu cầu và điều chỉnh một tham số, để bạn có thể chạy cùng một nhắc lệnh với no_think, low, và high song song và kiểm tra độ trễ cùng sự khác biệt về đầu ra.
Lưu các mẫu nhắc lệnh (prompt templates). Các nhắc lệnh agent có thể dài. Hệ thống môi trường và biến của Apidog giữ các system prompt, tool schema và lượt người dùng được tách biệt để bạn có thể tái sử dụng chúng trong các bài kiểm thử.

Nếu bạn chuyển từ Postman, quá trình này rất nhanh; hướng dẫn kiểm thử API không dùng Postman năm 2026 của chúng tôi bao gồm quá trình di chuyển. Các nhóm làm việc trong trình chỉnh sửa của họ có thể chạy cùng một quy trình làm việc bên trong VS Code với Apidog bên trong VS Code, giúp điều chỉnh nhắc lệnh liền kề với mã nguồn tiêu thụ đầu ra.

Các lựa chọn thay thế miễn phí khi bạn đạt giới hạn

Nếu nhóm miễn phí của OpenRouter làm bạn bị chậm vào giờ cao điểm, có hai con đường đáng thử đầu tiên.

Hugging Face Space. Hy3-preview Space cung cấp một bản demo trò chuyện trên trình duyệt. Nó không thể được viết script, nhưng miễn phí và hữu ích cho việc so sánh nhanh.
Các mô hình mã nguồn mở Trung Quốc miễn phí khác. Qwen 3.5 Omni của Alibaba cung cấp một gói miễn phí với đầu ra đa phương thức mạnh mẽ; xem thông báo về Qwen 3.5 Omni của chúng tôi và hướng dẫn sử dụng kèm theo để thiết lập. Zhipu GLM 5V Turbo là một lựa chọn khác với gói miễn phí rộng rãi; hướng dẫn API GLM 5V Turbo có toàn bộ quá trình hướng dẫn.

Không có mô hình nào trong số này sánh được với điểm SWE-bench và Terminal-Bench của Hy3 cho lập trình theo tác nhân (agentic coding), nhưng chúng bao gồm các trường hợp sử dụng trò chuyện, đa ngôn ngữ và đa phương thức mà gói Hy3 miễn phí không ưu tiên. Để xây dựng một sản phẩm, hãy Tải xuống Apidog và thiết lập một bộ sưu tập cho mỗi mô hình; các điểm chuẩn song song trên các nhắc lệnh thực tế của bạn sẽ hiệu quả hơn việc đọc bất kỳ bảng xếp hạng nào.

button

Tự lưu trữ Hy3 Preview với vLLM

Nếu bạn có phần cứng, suy luận cục bộ là con đường miễn phí thứ tư. Thẻ mô hình khuyến nghị vLLM với độ song song tensor là 8 và bật dự đoán đa token cho giải mã suy đoán:

vllm serve tencent/Hy3-preview \
  --tensor-parallel-size 8 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser hy_v3 \
  --reasoning-parser hy_v3 \
  --enable-auto-tool-choice \
  --served-model-name hy3-preview

Lệnh SGLang tương đương sử dụng --tool-call-parser hunyuan và --reasoning-parser hunyuan. Khi máy chủ hoạt động tại http://localhost:8000/v1, bất kỳ SDK OpenAI nào cũng trỏ đến nó theo cách tương tự như cách nó trỏ đến OpenRouter; chỉ có URL cơ sở và khóa thay đổi.

Dự kiến cần tám GPU lớp H100 với BF16 cho mô hình đầy đủ. Các bản dựng cộng đồng được lượng tử hóa sẽ xuất hiện, nhưng tại thời điểm ra mắt, đường dẫn chính thức là độ chính xác đầy đủ.

Câu hỏi thường gặp

Hy3 Preview có miễn phí không?Có. OpenRouter niêm yết tencent/hy3-preview:free với $0 cho mỗi triệu token đầu vào và $0 cho mỗi triệu token đầu ra. Token suy luận trên gói miễn phí cũng miễn phí, mặc dù chúng được tính vào giới hạn tỷ lệ. Xác nhận trạng thái hiện tại trên trang mô hình OpenRouter trước khi bạn phụ thuộc vào nó cho sản xuất.

Hy3 Preview so sánh với DeepSeek V3 và Qwen 3 như thế nào?Điểm SWE-bench Verified 74.4 và Terminal-Bench 2.0 54.4 của Hy3 Preview đặt nó cùng hạng với các mô hình mã nguồn mở hàng đầu của Trung Quốc, với xu hướng rõ ràng về tác nhân (agent) và sử dụng công cụ. Đối với trò chuyện thuần túy, Qwen 3 và DeepSeek V3 có tính cạnh tranh; đối với quy trình làm việc của tác nhân và lập trình, việc sử dụng công cụ được đào tạo bằng RL của Hy3 là yếu tố tạo nên sự khác biệt.

Các chế độ suy luận của Hy3 là gì?Ba chế độ: no_think (mặc định, trả lời trực tiếp), low, và high. Chuyển đổi chúng thông qua tham số reasoning trên OpenRouter hoặc qua chat_template_kwargs={"reasoning_effort": "high"} khi gọi trực tiếp mô hình. Sử dụng high cho việc lập kế hoạch, code đa bước và toán học; để tắt nó cho trò chuyện.

Tôi có thể sử dụng Hy3 Preview cho mục đích thương mại không?Có, theo Giấy phép Tencent Hy Community License. Giấy phép cho phép sử dụng thương mại với điều kiện ghi công và tuân thủ chính sách sử dụng. Đọc toàn bộ điều khoản trên kho lưu trữ GitHub của Hy3 trước khi triển khai nó trong một sản phẩm tạo doanh thu.

Gói miễn phí hỗ trợ độ dài ngữ cảnh bao nhiêu?256K token từ đầu đến cuối. Danh sách của OpenRouter hiển thị 262.144 token, khớp với thẻ mô hình. Bạn có thể dán toàn bộ một codebase cỡ trung bình và vẫn còn chỗ cho các tool schema và lịch sử cuộc trò chuyện.

Làm cách nào để kiểm thử Hy3 Preview mà không cần viết code?Sử dụng Hugging Face Space để có bản demo trò chuyện trên trình duyệt, hoặc trỏ Apidog đến điểm cuối của OpenRouter. Apidog nhập thông số kỹ thuật OpenAPI của OpenAI, vì vậy việc cấu hình yêu cầu chỉ cần ba trường: URL cơ sở, khóa API và tên mô hình.