A Tencent lançou o Hy3 Preview em código aberto em 22 de abril de 2026, e em um dia o OpenRouter o listou como um endpoint totalmente gratuito. Sem cartão de crédito, sem medição de tokens, sem período de teste. Você pode chamar o mesmo modelo Mixture-of-Experts de 295 bilhões de parâmetros que alimenta o aplicativo Yuanbao da Tencent e o assistente CodeBuddy a partir do seu próprio código, hoje, por zero dólares.
Este guia mostra como usar a API do Hy3 Preview gratuitamente através do OpenRouter, do Hugging Face Space e do repositório original do Hy3. Ele também aborda os modos de raciocínio que tornam o Hy3 diferente da maioria dos modelos abertos de 2026, e como testar a API dentro do Apidog sem escrever scripts descartáveis.
Se você deseja a rota mais rápida para sua primeira resposta, pule para “Passo a passo: chame o Hy3 Preview gratuitamente no OpenRouter.”
Resumo
- O Hy3 Preview é gratuito no OpenRouter sob o ID de modelo
tencent/hy3-preview:freecom preços de entrada e saída de $0. - É um modelo Mixture-of-Experts: 295 bilhões de parâmetros totais, 21 bilhões ativos, 192 experts com roteamento top-8 e uma janela de contexto de 256K tokens.
- Três modos de raciocínio vêm integrados:
no_thinkpara respostas rápidas,lowehighpara raciocínio em cadeia de pensamento profunda em tarefas de agente e codificação. - Os benchmarks são fortes para um modelo de pesos abertos: SWE-bench Verified 74.4, Terminal-Bench 2.0 54.4, GPQA Diamond 87.2, MMLU 87.42.
- Você pode executá-lo de três maneiras gratuitas: a camada gratuita do OpenRouter, o Hy3-preview Space do Hugging Face ou inferência local com vLLM e os pesos abertos.
- O Apidog combina bem com o endpoint do OpenRouter porque o Hy3 usa o esquema OpenAI Chat Completions; direcione uma requisição para o OpenRouter e pronto.
O que é o Hy3 Preview?
O Hy3 Preview é o primeiro lançamento de destaque da equipe de modelos de fundação Hunyuan reestruturada da Tencent, agora liderada por Yao Shunyu, um ex-pesquisador da OpenAI que a empresa contratou para impulsionar sua pilha de raciocínio. Vamos enquadrá-lo como o modelo mais capaz da Tencent até agora e uma resposta direta aos principais lançamentos chineses de pesos abertos da DeepSeek, Alibaba e Zhipu.

O perfil técnico do cartão de modelo oficial é focado em agente:
- Arquitetura: Mixture-of-Experts, 80 camadas mais uma camada MTP, 64 cabeças de atenção com atenção agrupada por consulta.
- Parâmetros: 295 bilhões totais, 21 bilhões ativos por passagem adiante.
- Experts: 192 especialistas com roteamento top-8 por token.
- Contexto: 256K tokens (262.144 na listagem do OpenRouter).
- Tokenizador: Vocabulário de 120.832 entradas com precisão BF16.
- Licença: Tencent Hy Community License, uso comercial permitido dentro dos termos da licença.
O que o diferencia de um MoE genérico na faixa de 200B é o treinamento agêntico. A Tencent reconstruiu sua infraestrutura de RL para uso de ferramentas multi-turn, e as pontuações publicadas no SWE-bench Verified, Terminal-Bench 2.0 e na suíte interna WildClawBench o colocam perto dos principais modelos fechados em tarefas de código e shell.

Três maneiras gratuitas de usar o Hy3 Preview
Você tem três caminhos dependendo se deseja uma interface de chat, uma API ou pesos locais.
| Caminho | O que é | Grátis? | Bom para |
|---|---|---|---|
OpenRouter tencent/hy3-preview:free |
API hospedada compatível com OpenAI | Sim, $0 entrada/saída | Construção de agentes, scripts e funcionalidades de backend |
| Hugging Face Space | Demonstração de chat no navegador | Sim | Prompts rápidos, experimentação, testes de fumaça |
| Pesos auto-hospedados (vLLM / SGLang) | Executar os pesos abertos em suas próprias GPUs | Software gratuito, custo de hardware se aplica | Cargas de trabalho sensíveis à privacidade, alto volume |
A maioria dos desenvolvedores vai querer a rota do OpenRouter. É o caminho mais curto desde a inscrição até uma chamada de API funcional, e os limites de taxa na camada gratuita são generosos o suficiente para prototipagem.
Passo a passo: chame o Hy3 Preview gratuitamente no OpenRouter
Aqui está o caminho mínimo do zero a uma resposta funcional do tencent/hy3-preview:free.

- Crie uma conta OpenRouter. Cadastre-se em openrouter.ai. E-mail é suficiente; nenhum método de pagamento é exigido para modelos de camada gratuita.
- Gere uma chave de API. No painel do OpenRouter, abra “Keys” e crie uma nova chave. Copie-a para uma variável de ambiente, por exemplo
export OPENROUTER_API_KEY=sk-or-.... - Abra a página do modelo. Vá para a listagem gratuita do Hy3 Preview e confirme se o banner de status diz “Free.” Você também verá estatísticas de uso lá; no lançamento, o endpoint estava lidando com 6,81 bilhões de tokens de prompt por dia em todos os usuários.

Envie sua primeira requisição. O OpenRouter expõe o esquema OpenAI Chat Completions, então qualquer SDK da OpenAI funciona:
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "tencent/hy3-preview:free",
"messages": [
{"role": "user", "content": "Explain the MoE routing decision inside a top-8 of 192 setup in 3 sentences."}
],
"temperature": 0.9,
"top_p": 1.0
}'
- Ative o raciocínio quando precisar. O Hy3 aceita um parâmetro
reasoningcomeffortdefinido comolowouhigh. O OpenRouter retorna o traço de pensamento em um array separadoreasoning_details, cobrado como seu próprio bucket de tokens:
{
"model": "tencent/hy3-preview:free",
"messages": [
{"role": "user", "content": "Plan, then write a Bash script that rotates daily log files older than 30 days into a dated archive folder."}
],
"reasoning": {"effort": "high"}
}
- Iterar. Mantenha a sessão no mesmo thread se quiser que o modelo construa a partir de um contexto anterior; a janela de 256K do Hy3 lida com a maioria das bases de código completas de ponta a ponta.
Esse é todo o fluxo. O modelo que você está chamando é o mesmo publicado no Hugging Face; a qualidade na camada gratuita do OpenRouter é idêntica às rotas pagas em outros provedores.
Gratuito, Plus e auto-hospedado: onde eles diferem
Gratuito não é o único caminho, e ajuda ver a diferença real antes de você se comprometer com um.
| Capacidade | OpenRouter Gratuito | OpenRouter Pago (endpoints não gratuitos) | Auto-hospedado (vLLM / SGLang) |
|---|---|---|---|
| Custo por token | $0 | Por provedor | Eletricidade mais amortização de GPU |
| Modos de raciocínio | no_think, low, high |
O mesmo | O mesmo |
| Comprimento do contexto | 256K | 256K | 256K (se a memória permitir) |
| Vazão sob carga | Pool compartilhado, despriorizado sob demanda | Dedicado | O que seu cluster servir |
| Limites de taxa | Limite da camada gratuita do OpenRouter (flexível) | Específico do provedor | Nenhum |
| Retenção de dados | Política de registro do OpenRouter | Específico do provedor | Permanece no seu hardware |
| Visibilidade de tokens de raciocínio | Sim, via reasoning_details |
Sim | Sim |
A opção gratuita é a escolha certa para protótipos, projetos secundários, benchmarks de avaliação e agentes de baixo tráfego. Pago ou auto-hospedado faz sentido no momento em que a latência importa ou você excede o limite de taxa.
Dicas de prompt e parâmetros para aproveitar ao máximo o Hy3
O Hy3 recompensa a configuração explícita mais do que modelos menores. Alguns hábitos ajudam.
- Combine a temperatura com o modo. O cartão do modelo recomenda
temperature=0.9etop_p=1.0como padrão. Caia para0.3para saída estruturada, mantenha0.9para trabalho criativo. - Use
no_thinkpara conversas diárias. O modo de raciocínio padrão está desativado por um motivo; você só precisa delowouhighpara planejamento, código de várias etapas ou matemática. Executarhighem uma pergunta de uma linha desperdiça tokens de raciocínio. - Nomeie as ferramentas no prompt do sistema. O Hy3 foi treinado para uso de ferramentas com um parser específico (
hy_v3). Mesmo no OpenRouter, você obtém melhores chamadas quando o prompt do sistema descreve a função de cada ferramenta em vez de confiar apenas no esquema. - Cite o código, não o resuma. A janela de 256K permite colar arquivos inteiros. Cole o arquivo e, em seguida, faça a pergunta; não peça ao modelo para imaginar o código.
- Agrupe edições de vários arquivos. A pontuação SWE-bench Verified de 74.4 do Hy3 vem da edição coerente de vários arquivos. Dê a ele o conjunto completo em uma mensagem, em vez de gotejá-los um por um.
- Peça um plano primeiro. Para tarefas agênticas, um padrão de duas etapas (“elabore um plano, espere minha confirmação e depois execute”) produz consistentemente resultados mais limpos do que prompts de uma única vez.
Limites que vale a pena conhecer antes de você lançar
Algumas armadilhas o pegarão se você as ignorar.
- Os limites de taxa são flexíveis com a carga. A camada gratuita do OpenRouter compartilha capacidade entre todos os usuários gratuitos. No lançamento, o volume diário de prompts já era de 6,81 bilhões de tokens; chamadas em horários de pico podem ver erros 429. Construa retentativas com backoff exponencial.
- Tokens de raciocínio contam como saída.
reasoning_detailssão gratuitos na camada gratuita do OpenRouter, mas em rotas pagas eles são cobrados como saída. Não envie padrõeseffort: "high"para um produto sensível à receita sem medir. - A licença não é Apache 2.0. A Tencent Hy Community License permite uso comercial, mas carrega cláusulas de política de uso e atribuição; leia a licença completa no repositório GitHub do Hy3 antes de incorporar o Hy3 em um produto.
- A chamada de ferramentas requer o parser correto. Se você auto-hospedar, execute vLLM ou SGLang com
--tool-call-parser hy_v3(ouhunyuanpara SGLang). Sem isso, as chamadas de ferramentas retornam como texto simples. - Inglês e Chinês são de primeira classe; outras línguas são de segunda. As pontuações C-Eval 89.80 e CMMLU 89.61 mostram um forte desempenho em chinês. Outras línguas são suportadas via MMMLU, mas caem em qualidade.
- Ele fica atrás dos principais modelos de ponta dos EUA em alguns benchmarks de raciocínio. O HLE está em 30, e a cobertura do SCMP observa que o Hy3 está no mesmo nível dos principais modelos chineses, mas ainda atrás dos atuais modelos de ponta da OpenAI e Google DeepMind nas suítes de raciocínio mais difíceis.
O caminho rápido do desenvolvedor: Hy3 Preview mais Apidog
O curl via linha de comando é bom para uma demonstração. Para iteração real, um cliente de API visual economiza horas.
- Abra o Apidog e crie um novo projeto. Importe a especificação OpenAPI do OpenAI Chat Completions; o OpenRouter usa o mesmo esquema.
- Defina a URL base para
https://openrouter.ai/api/v1e adicione uma variável de ambiente paraOPENROUTER_API_KEY. - Crie uma requisição que acesse
/chat/completionscom o modelo definido comotencent/hy3-preview:free. - Ramifique a requisição para comparar os modos de raciocínio. O Apidog permite duplicar uma requisição e ajustar um parâmetro, para que você possa executar o mesmo prompt com
no_think,lowehighlado a lado e inspecionar a diferença de latência e saída. - Salve modelos de prompt. Prompts agênticos podem ser longos. O ambiente e o sistema de variáveis do Apidog mantêm os prompts do sistema, esquemas de ferramentas e turnos do usuário separados para que você possa reutilizá-los em diferentes testes.
Se você está vindo do Postman, a transição é rápida; nosso guia de teste de API sem Postman em 2026 aborda a migração. Equipes que vivem em seu editor podem executar o mesmo fluxo de trabalho dentro do VS Code com o Apidog dentro do VS Code, que mantém o ajuste de prompt ao lado do código que consome a saída.
Alternativas gratuitas quando você atinge o limite
Se o pool gratuito do OpenRouter o restringir durante os horários de pico, duas opções valem a pena tentar primeiro.
- Hugging Face Space. O Hy3-preview Space hospeda uma demonstração de chat no navegador. Não é scriptável, mas é gratuito e útil para comparações rápidas.
- Outros modelos chineses de pesos abertos gratuitos. O Qwen 3.5 Omni da Alibaba oferece uma camada gratuita com forte saída multimodal; veja nosso anúncio do Qwen 3.5 Omni e o guia complementar de como usá-lo para configuração. O Zhipu GLM 5V Turbo é outra opção com uma generosa camada gratuita; o guia da API do GLM 5V Turbo tem o passo a passo completo.
Nenhum desses modelos corresponde aos números do Hy3 no SWE-bench e Terminal-Bench para codificação agêntica, mas eles cobrem casos de uso de chat, multilíngues e multimodais que a camada gratuita do Hy3 não prioriza. Para uma construção de produção, baixe o Apidog e configure uma coleção por modelo; benchmarks lado a lado em seus prompts reais superam a leitura de qualquer classificação.
Auto-hospedagem do Hy3 Preview com vLLM
Se você tem o hardware, a inferência local é o quarto caminho gratuito. O cartão do modelo recomenda vLLM com paralelismo de tensor de 8 e previsão de múltiplos tokens habilitada para decodificação especulativa:
vllm serve tencent/Hy3-preview \
--tensor-parallel-size 8 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 1 \
--tool-call-parser hy_v3 \
--reasoning-parser hy_v3 \
--enable-auto-tool-choice \
--served-model-name hy3-preview
O comando SGLang equivalente usa --tool-call-parser hunyuan e --reasoning-parser hunyuan. Uma vez que o servidor esteja funcionando em http://localhost:8000/v1, qualquer SDK da OpenAI o aponta da mesma forma que apontaria para o OpenRouter; apenas a URL base e a chave mudam.
Espere oito GPUs da classe H100 em BF16 para o modelo completo. Construções comunitárias quantizadas aparecerão, mas no lançamento o caminho oficial é de precisão total.
FAQ
O Hy3 Preview é gratuito?Sim. O OpenRouter lista tencent/hy3-preview:free com $0 por milhão de tokens de entrada e $0 por milhão de tokens de saída. Tokens de raciocínio na camada gratuita também são gratuitos, embora contem para os limites de taxa. Confirme o status atual na página do modelo OpenRouter antes de depender dele para produção.
Como o Hy3 Preview se compara ao DeepSeek V3 e ao Qwen 3?A pontuação do Hy3 Preview no SWE-bench Verified de 74.4 e no Terminal-Bench 2.0 de 54.4 o coloca no mesmo nível dos principais modelos chineses abertos, com uma clara inclinação para agente e uso de ferramentas. Para chat puro, Qwen 3 e DeepSeek V3 são competitivos; para fluxos de trabalho de agente e codificação, o uso de ferramentas treinado por RL do Hy3 é o diferencial.
Quais são os modos de raciocínio do Hy3?Três: no_think (padrão, resposta direta), low e high. Alterne-os através do parâmetro reasoning no OpenRouter ou via chat_template_kwargs={"reasoning_effort": "high"} ao chamar o modelo diretamente. Use high para planejamento, código de várias etapas e matemática; deixe-o desativado para chat.
Posso usar o Hy3 Preview comercialmente?Sim, sob a Tencent Hy Community License. A licença permite uso comercial com atribuição e conformidade com a política de uso. Leia os termos completos no repositório GitHub do Hy3 antes de implantá-lo em um produto gerador de receita.
Qual o comprimento de contexto que a camada gratuita suporta?256K tokens de ponta a ponta. A listagem do OpenRouter mostra 262.144 tokens, correspondendo ao cartão do modelo. Você pode colar uma base de código inteira de tamanho médio e ainda ter espaço para esquemas de ferramentas e histórico de conversas.
Como testar o Hy3 Preview sem escrever código?Use o Hugging Face Space para uma demonstração de chat no navegador, ou aponte o Apidog para o endpoint do OpenRouter. O Apidog importa a especificação OpenAPI da OpenAI, então configurar a requisição é feita em três campos: URL base, chave de API e nome do modelo.
