Como Usar a API Hy3 Preview Grátis?

A Tencent lançou o Hy3 Preview em código aberto em 22 de abril de 2026, e em um dia o OpenRouter o listou como um endpoint totalmente gratuito. Sem cartão de crédito, sem medição de tokens, sem período de teste. Você pode chamar o mesmo modelo Mixture-of-Experts de 295 bilhões de parâmetros que alimenta o aplicativo Yuanbao da Tencent e o assistente CodeBuddy a partir do seu próprio código, hoje, por zero dólares.

Este guia mostra como usar a API do Hy3 Preview gratuitamente através do OpenRouter, do Hugging Face Space e do repositório original do Hy3. Ele também aborda os modos de raciocínio que tornam o Hy3 diferente da maioria dos modelos abertos de 2026, e como testar a API dentro do Apidog sem escrever scripts descartáveis.

button

Se você deseja a rota mais rápida para sua primeira resposta, pule para “Passo a passo: chame o Hy3 Preview gratuitamente no OpenRouter.”

Resumo

O Hy3 Preview é gratuito no OpenRouter sob o ID de modelo tencent/hy3-preview:free com preços de entrada e saída de $0.
É um modelo Mixture-of-Experts: 295 bilhões de parâmetros totais, 21 bilhões ativos, 192 experts com roteamento top-8 e uma janela de contexto de 256K tokens.
Três modos de raciocínio vêm integrados: no_think para respostas rápidas, low e high para raciocínio em cadeia de pensamento profunda em tarefas de agente e codificação.
Os benchmarks são fortes para um modelo de pesos abertos: SWE-bench Verified 74.4, Terminal-Bench 2.0 54.4, GPQA Diamond 87.2, MMLU 87.42.
Você pode executá-lo de três maneiras gratuitas: a camada gratuita do OpenRouter, o Hy3-preview Space do Hugging Face ou inferência local com vLLM e os pesos abertos.
O Apidog combina bem com o endpoint do OpenRouter porque o Hy3 usa o esquema OpenAI Chat Completions; direcione uma requisição para o OpenRouter e pronto.

O que é o Hy3 Preview?

O Hy3 Preview é o primeiro lançamento de destaque da equipe de modelos de fundação Hunyuan reestruturada da Tencent, agora liderada por Yao Shunyu, um ex-pesquisador da OpenAI que a empresa contratou para impulsionar sua pilha de raciocínio. Vamos enquadrá-lo como o modelo mais capaz da Tencent até agora e uma resposta direta aos principais lançamentos chineses de pesos abertos da DeepSeek, Alibaba e Zhipu.

O perfil técnico do cartão de modelo oficial é focado em agente:

Arquitetura: Mixture-of-Experts, 80 camadas mais uma camada MTP, 64 cabeças de atenção com atenção agrupada por consulta.
Parâmetros: 295 bilhões totais, 21 bilhões ativos por passagem adiante.
Experts: 192 especialistas com roteamento top-8 por token.
Contexto: 256K tokens (262.144 na listagem do OpenRouter).
Tokenizador: Vocabulário de 120.832 entradas com precisão BF16.
Licença: Tencent Hy Community License, uso comercial permitido dentro dos termos da licença.

O que o diferencia de um MoE genérico na faixa de 200B é o treinamento agêntico. A Tencent reconstruiu sua infraestrutura de RL para uso de ferramentas multi-turn, e as pontuações publicadas no SWE-bench Verified, Terminal-Bench 2.0 e na suíte interna WildClawBench o colocam perto dos principais modelos fechados em tarefas de código e shell.

Três maneiras gratuitas de usar o Hy3 Preview

Você tem três caminhos dependendo se deseja uma interface de chat, uma API ou pesos locais.

Caminho	O que é	Grátis?	Bom para
OpenRouter `tencent/hy3-preview:free`	API hospedada compatível com OpenAI	Sim, $0 entrada/saída	Construção de agentes, scripts e funcionalidades de backend
Hugging Face Space	Demonstração de chat no navegador	Sim	Prompts rápidos, experimentação, testes de fumaça
Pesos auto-hospedados (vLLM / SGLang)	Executar os pesos abertos em suas próprias GPUs	Software gratuito, custo de hardware se aplica	Cargas de trabalho sensíveis à privacidade, alto volume

A maioria dos desenvolvedores vai querer a rota do OpenRouter. É o caminho mais curto desde a inscrição até uma chamada de API funcional, e os limites de taxa na camada gratuita são generosos o suficiente para prototipagem.

Passo a passo: chame o Hy3 Preview gratuitamente no OpenRouter

Aqui está o caminho mínimo do zero a uma resposta funcional do tencent/hy3-preview:free.

Crie uma conta OpenRouter. Cadastre-se em openrouter.ai. E-mail é suficiente; nenhum método de pagamento é exigido para modelos de camada gratuita.
Gere uma chave de API. No painel do OpenRouter, abra “Keys” e crie uma nova chave. Copie-a para uma variável de ambiente, por exemplo export OPENROUTER_API_KEY=sk-or-....
Abra a página do modelo. Vá para a listagem gratuita do Hy3 Preview e confirme se o banner de status diz “Free.” Você também verá estatísticas de uso lá; no lançamento, o endpoint estava lidando com 6,81 bilhões de tokens de prompt por dia em todos os usuários.

Envie sua primeira requisição. O OpenRouter expõe o esquema OpenAI Chat Completions, então qualquer SDK da OpenAI funciona:

curl https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tencent/hy3-preview:free",
    "messages": [
      {"role": "user", "content": "Explain the MoE routing decision inside a top-8 of 192 setup in 3 sentences."}
    ],
    "temperature": 0.9,
    "top_p": 1.0
  }'

Ative o raciocínio quando precisar. O Hy3 aceita um parâmetro reasoning com effort definido como low ou high. O OpenRouter retorna o traço de pensamento em um array separado reasoning_details, cobrado como seu próprio bucket de tokens:

{
  "model": "tencent/hy3-preview:free",
  "messages": [
    {"role": "user", "content": "Plan, then write a Bash script that rotates daily log files older than 30 days into a dated archive folder."}
  ],
  "reasoning": {"effort": "high"}
}

Iterar. Mantenha a sessão no mesmo thread se quiser que o modelo construa a partir de um contexto anterior; a janela de 256K do Hy3 lida com a maioria das bases de código completas de ponta a ponta.

Esse é todo o fluxo. O modelo que você está chamando é o mesmo publicado no Hugging Face; a qualidade na camada gratuita do OpenRouter é idêntica às rotas pagas em outros provedores.

Gratuito, Plus e auto-hospedado: onde eles diferem

Gratuito não é o único caminho, e ajuda ver a diferença real antes de você se comprometer com um.

Capacidade	OpenRouter Gratuito	OpenRouter Pago (endpoints não gratuitos)	Auto-hospedado (vLLM / SGLang)
Custo por token	$0	Por provedor	Eletricidade mais amortização de GPU
Modos de raciocínio	`no_think`, `low`, `high`	O mesmo	O mesmo
Comprimento do contexto	256K	256K	256K (se a memória permitir)
Vazão sob carga	Pool compartilhado, despriorizado sob demanda	Dedicado	O que seu cluster servir
Limites de taxa	Limite da camada gratuita do OpenRouter (flexível)	Específico do provedor	Nenhum
Retenção de dados	Política de registro do OpenRouter	Específico do provedor	Permanece no seu hardware
Visibilidade de tokens de raciocínio	Sim, via `reasoning_details`	Sim	Sim

A opção gratuita é a escolha certa para protótipos, projetos secundários, benchmarks de avaliação e agentes de baixo tráfego. Pago ou auto-hospedado faz sentido no momento em que a latência importa ou você excede o limite de taxa.

Dicas de prompt e parâmetros para aproveitar ao máximo o Hy3

O Hy3 recompensa a configuração explícita mais do que modelos menores. Alguns hábitos ajudam.

Combine a temperatura com o modo. O cartão do modelo recomenda temperature=0.9 e top_p=1.0 como padrão. Caia para 0.3 para saída estruturada, mantenha 0.9 para trabalho criativo.
Use no_think para conversas diárias. O modo de raciocínio padrão está desativado por um motivo; você só precisa de low ou high para planejamento, código de várias etapas ou matemática. Executar high em uma pergunta de uma linha desperdiça tokens de raciocínio.
Nomeie as ferramentas no prompt do sistema. O Hy3 foi treinado para uso de ferramentas com um parser específico (hy_v3). Mesmo no OpenRouter, você obtém melhores chamadas quando o prompt do sistema descreve a função de cada ferramenta em vez de confiar apenas no esquema.
Cite o código, não o resuma. A janela de 256K permite colar arquivos inteiros. Cole o arquivo e, em seguida, faça a pergunta; não peça ao modelo para imaginar o código.
Agrupe edições de vários arquivos. A pontuação SWE-bench Verified de 74.4 do Hy3 vem da edição coerente de vários arquivos. Dê a ele o conjunto completo em uma mensagem, em vez de gotejá-los um por um.
Peça um plano primeiro. Para tarefas agênticas, um padrão de duas etapas (“elabore um plano, espere minha confirmação e depois execute”) produz consistentemente resultados mais limpos do que prompts de uma única vez.

Limites que vale a pena conhecer antes de você lançar

Algumas armadilhas o pegarão se você as ignorar.

Os limites de taxa são flexíveis com a carga. A camada gratuita do OpenRouter compartilha capacidade entre todos os usuários gratuitos. No lançamento, o volume diário de prompts já era de 6,81 bilhões de tokens; chamadas em horários de pico podem ver erros 429. Construa retentativas com backoff exponencial.
Tokens de raciocínio contam como saída. reasoning_details são gratuitos na camada gratuita do OpenRouter, mas em rotas pagas eles são cobrados como saída. Não envie padrões effort: "high" para um produto sensível à receita sem medir.
A licença não é Apache 2.0. A Tencent Hy Community License permite uso comercial, mas carrega cláusulas de política de uso e atribuição; leia a licença completa no repositório GitHub do Hy3 antes de incorporar o Hy3 em um produto.
A chamada de ferramentas requer o parser correto. Se você auto-hospedar, execute vLLM ou SGLang com --tool-call-parser hy_v3 (ou hunyuan para SGLang). Sem isso, as chamadas de ferramentas retornam como texto simples.
Inglês e Chinês são de primeira classe; outras línguas são de segunda. As pontuações C-Eval 89.80 e CMMLU 89.61 mostram um forte desempenho em chinês. Outras línguas são suportadas via MMMLU, mas caem em qualidade.
Ele fica atrás dos principais modelos de ponta dos EUA em alguns benchmarks de raciocínio. O HLE está em 30, e a cobertura do SCMP observa que o Hy3 está no mesmo nível dos principais modelos chineses, mas ainda atrás dos atuais modelos de ponta da OpenAI e Google DeepMind nas suítes de raciocínio mais difíceis.

O caminho rápido do desenvolvedor: Hy3 Preview mais Apidog

O curl via linha de comando é bom para uma demonstração. Para iteração real, um cliente de API visual economiza horas.

Abra o Apidog e crie um novo projeto. Importe a especificação OpenAPI do OpenAI Chat Completions; o OpenRouter usa o mesmo esquema.
Defina a URL base para https://openrouter.ai/api/v1 e adicione uma variável de ambiente para OPENROUTER_API_KEY.
Crie uma requisição que acesse /chat/completions com o modelo definido como tencent/hy3-preview:free.
Ramifique a requisição para comparar os modos de raciocínio. O Apidog permite duplicar uma requisição e ajustar um parâmetro, para que você possa executar o mesmo prompt com no_think, low e high lado a lado e inspecionar a diferença de latência e saída.
Salve modelos de prompt. Prompts agênticos podem ser longos. O ambiente e o sistema de variáveis do Apidog mantêm os prompts do sistema, esquemas de ferramentas e turnos do usuário separados para que você possa reutilizá-los em diferentes testes.

Se você está vindo do Postman, a transição é rápida; nosso guia de teste de API sem Postman em 2026 aborda a migração. Equipes que vivem em seu editor podem executar o mesmo fluxo de trabalho dentro do VS Code com o Apidog dentro do VS Code, que mantém o ajuste de prompt ao lado do código que consome a saída.

Alternativas gratuitas quando você atinge o limite

Se o pool gratuito do OpenRouter o restringir durante os horários de pico, duas opções valem a pena tentar primeiro.

Hugging Face Space. O Hy3-preview Space hospeda uma demonstração de chat no navegador. Não é scriptável, mas é gratuito e útil para comparações rápidas.
Outros modelos chineses de pesos abertos gratuitos. O Qwen 3.5 Omni da Alibaba oferece uma camada gratuita com forte saída multimodal; veja nosso anúncio do Qwen 3.5 Omni e o guia complementar de como usá-lo para configuração. O Zhipu GLM 5V Turbo é outra opção com uma generosa camada gratuita; o guia da API do GLM 5V Turbo tem o passo a passo completo.

Nenhum desses modelos corresponde aos números do Hy3 no SWE-bench e Terminal-Bench para codificação agêntica, mas eles cobrem casos de uso de chat, multilíngues e multimodais que a camada gratuita do Hy3 não prioriza. Para uma construção de produção, baixe o Apidog e configure uma coleção por modelo; benchmarks lado a lado em seus prompts reais superam a leitura de qualquer classificação.

button

Auto-hospedagem do Hy3 Preview com vLLM

Se você tem o hardware, a inferência local é o quarto caminho gratuito. O cartão do modelo recomenda vLLM com paralelismo de tensor de 8 e previsão de múltiplos tokens habilitada para decodificação especulativa:

vllm serve tencent/Hy3-preview \
  --tensor-parallel-size 8 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser hy_v3 \
  --reasoning-parser hy_v3 \
  --enable-auto-tool-choice \
  --served-model-name hy3-preview

O comando SGLang equivalente usa --tool-call-parser hunyuan e --reasoning-parser hunyuan. Uma vez que o servidor esteja funcionando em http://localhost:8000/v1, qualquer SDK da OpenAI o aponta da mesma forma que apontaria para o OpenRouter; apenas a URL base e a chave mudam.

Espere oito GPUs da classe H100 em BF16 para o modelo completo. Construções comunitárias quantizadas aparecerão, mas no lançamento o caminho oficial é de precisão total.

FAQ

O Hy3 Preview é gratuito?Sim. O OpenRouter lista tencent/hy3-preview:free com $0 por milhão de tokens de entrada e $0 por milhão de tokens de saída. Tokens de raciocínio na camada gratuita também são gratuitos, embora contem para os limites de taxa. Confirme o status atual na página do modelo OpenRouter antes de depender dele para produção.

Como o Hy3 Preview se compara ao DeepSeek V3 e ao Qwen 3?A pontuação do Hy3 Preview no SWE-bench Verified de 74.4 e no Terminal-Bench 2.0 de 54.4 o coloca no mesmo nível dos principais modelos chineses abertos, com uma clara inclinação para agente e uso de ferramentas. Para chat puro, Qwen 3 e DeepSeek V3 são competitivos; para fluxos de trabalho de agente e codificação, o uso de ferramentas treinado por RL do Hy3 é o diferencial.

Quais são os modos de raciocínio do Hy3?Três: no_think (padrão, resposta direta), low e high. Alterne-os através do parâmetro reasoning no OpenRouter ou via chat_template_kwargs={"reasoning_effort": "high"} ao chamar o modelo diretamente. Use high para planejamento, código de várias etapas e matemática; deixe-o desativado para chat.

Posso usar o Hy3 Preview comercialmente?Sim, sob a Tencent Hy Community License. A licença permite uso comercial com atribuição e conformidade com a política de uso. Leia os termos completos no repositório GitHub do Hy3 antes de implantá-lo em um produto gerador de receita.

Qual o comprimento de contexto que a camada gratuita suporta?256K tokens de ponta a ponta. A listagem do OpenRouter mostra 262.144 tokens, correspondendo ao cartão do modelo. Você pode colar uma base de código inteira de tamanho médio e ainda ter espaço para esquemas de ferramentas e histórico de conversas.

Como testar o Hy3 Preview sem escrever código?Use o Hugging Face Space para uma demonstração de chat no navegador, ou aponte o Apidog para o endpoint do OpenRouter. O Apidog importa a especificação OpenAPI da OpenAI, então configurar a requisição é feita em três campos: URL base, chave de API e nome do modelo.