Cómo Usar la API de Vista Previa Hy3 Gratis

Tencent hizo de código abierto Hy3 Preview el 22 de abril de 2026, y en un día OpenRouter lo incluyó como un punto final completamente gratuito. Sin tarjeta de crédito, sin medición de tokens, sin ventana de prueba. Puedes llamar al mismo modelo Mixture-of-Experts de 295B parámetros que impulsa la aplicación Yuanbao de Tencent y el asistente CodeBuddy desde tu propio código, hoy, por cero dólares.

Esta guía muestra cómo usar la API de Hy3 Preview de forma gratuita a través de OpenRouter, el Space de Hugging Face y el repositorio Hy3 original. También cubre los modos de razonamiento que hacen que Hy3 sea diferente de la mayoría de los modelos abiertos de 2026, y cómo probar la API dentro de Apidog sin escribir scripts desechables.

botón

Si quieres la ruta más rápida para tu primera respuesta, salta a "Paso a paso: llama a Hy3 Preview gratis en OpenRouter".

En resumen

Hy3 Preview es gratuito en OpenRouter bajo el ID de modelo tencent/hy3-preview:free con un precio de entrada de $0 y de salida de $0.
Es un modelo Mixture-of-Experts: 295B de parámetros totales, 21B activos, 192 expertos con enrutamiento top-8 y una ventana de contexto de 256K tokens.
Tres modos de razonamiento vienen incorporados: no_think para respuestas rápidas, low y high para un profundo chain-of-thought en tareas de agente y codificación.
Los benchmarks son sólidos para un modelo de pesos abiertos: SWE-bench Verified 74.4, Terminal-Bench 2.0 54.4, GPQA Diamond 87.2, MMLU 87.42.
Puedes ejecutarlo de tres maneras gratuitas: la capa gratuita de OpenRouter, el Space de Hugging Face Hy3-preview, o inferencia local con vLLM y los pesos abiertos.
Apidog se combina bien con el endpoint de OpenRouter porque Hy3 usa el esquema de Completions de Chat de OpenAI; apunta una solicitud a OpenRouter y listo.

¿Qué es Hy3 Preview?

Hy3 Preview es el primer lanzamiento insignia del equipo reestructurado de modelos fundacionales Hunyuan de Tencent, ahora liderado por Yao Shunyu, un exinvestigador de OpenAI que la compañía contrató para impulsar su pila de razonamiento. Enmarquémoslo como el modelo más capaz de Tencent hasta la fecha y una respuesta directa a los principales lanzamientos de código abierto chinos de DeepSeek, Alibaba y Zhipu.

Captura de pantalla de la arquitectura de Hy3 Preview, mostrando su estructura MoE y flujo de datos.

El perfil técnico de la tarjeta de modelo oficial es centrado en el agente:

Arquitectura: Mixture-of-Experts, 80 capas más una capa MTP, 64 cabezas de atención con atención de consulta agrupada.
Parámetros: 295B totales, 21B activos por pasada hacia adelante.
Expertos: 192 especialistas con enrutamiento top-8 por token.
Contexto: 256K tokens (262.144 en la lista de OpenRouter).
Tokenizador: Vocabulario de 120.832 entradas con precisión BF16.
Licencia: Licencia Comunitaria Tencent Hy, uso comercial permitido dentro de los términos de la licencia.

Lo que lo distingue de un MoE genérico de rango de 200B es el entrenamiento agéntico. Tencent reconstruyó su infraestructura de RL para el uso de herramientas de múltiples turnos, y las puntuaciones publicadas en SWE-bench Verified, Terminal-Bench 2.0 y el conjunto interno WildClawBench lo sitúan cerca de los modelos cerrados más importantes en tareas de código y shell.

Gráfico que muestra los resultados de Hy3 Preview en SWE-bench Verified y Terminal-Bench 2.0.

Tres formas gratuitas de usar Hy3 Preview

Tienes tres caminos dependiendo de si quieres una interfaz de chat, una API o pesos locales.

Ruta	Qué es	¿Gratis?	Ideal para
OpenRouter `tencent/hy3-preview:free`	API compatible con OpenAI alojada	Sí, $0 entrada/salida	Construir agentes, scripts y características de backend
Hugging Face Space	Demostración de chat en navegador	Sí	Mensajes rápidos, probarlo, pruebas de humo
Pesos autoalojados (vLLM / SGLang)	Ejecutar los pesos abiertos en tus propias GPUs	Software gratuito, se aplica el costo del hardware	Cargas de trabajo sensibles a la privacidad, alto volumen

La mayoría de los desarrolladores querrán la ruta de OpenRouter. Es el camino más corto desde el registro hasta una llamada a la API que funciona, y los límites de tarifa en la capa gratuita son lo suficientemente generosos para la creación de prototipos.

Paso a paso: llama a Hy3 Preview gratis en OpenRouter

Aquí tienes el camino mínimo desde cero hasta una respuesta funcional de tencent/hy3-preview:free.

Captura de pantalla de la página de OpenRouter para Hy3 Preview, mostrando su estado gratuito y estadísticas de uso.

Crea una cuenta de OpenRouter. Regístrate en openrouter.ai. Un correo electrónico es suficiente; no se requiere método de pago para los modelos de la capa gratuita.
Genera una clave API. En el panel de control de OpenRouter, abre "Keys" y crea una nueva clave. Cópiala en una variable de entorno, por ejemplo export OPENROUTER_API_KEY=sk-or-....
Abre la página del modelo. Ve a la lista gratuita de Hy3 Preview y confirma que el banner de estado dice "Free". También verás estadísticas de uso allí; en el lanzamiento, el endpoint estaba manejando 6.81B de tokens de entrada por día entre todos los usuarios.

Captura de pantalla del banner de OpenRouter que confirma que Hy3 Preview es un modelo gratuito.

Envía tu primera solicitud. OpenRouter expone el esquema de OpenAI Chat Completions, por lo que cualquier SDK de OpenAI funciona:

curl https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tencent/hy3-preview:free",
    "messages": [
      {"role": "user", "content": "Explica la decisión de enrutamiento de MoE dentro de una configuración top-8 de 192 en 3 oraciones."}
    ],
    "temperature": 0.9,
    "top_p": 1.0
  }'

Activa el razonamiento cuando lo necesites. Hy3 acepta un parámetro reasoning con effort establecido en low o high. OpenRouter devuelve el rastro de pensamiento en un array reasoning_details separado, facturado como su propio cubo de tokens:

{
  "model": "tencent/hy3-preview:free",
  "messages": [
    {"role": "user", "content": "Planifica, luego escribe un script Bash que rote los archivos de registro diarios con más de 30 días en una carpeta de archivo fechada."}
  ],
  "reasoning": {"effort": "high"}
}

Itera. Mantén la sesión en el mismo hilo si quieres que el modelo se base en el contexto anterior; la ventana de 256K de Hy3 maneja la mayoría de las bases de código completas de principio a fin.

Ese es todo el flujo. El modelo al que estás llamando es el mismo publicado en Hugging Face; la calidad en la capa gratuita de OpenRouter es idéntica a las rutas de pago en otros proveedores.

Gratuito, Plus y autoalojado: en qué se diferencian

Gratuito no es el único camino, y ayuda ver la diferencia real antes de comprometerte con uno.

Capacidad	OpenRouter Gratuito	OpenRouter de pago (endpoints no gratuitos)	Autoalojado (vLLM / SGLang)
Costo por token	$0	Por proveedor	Electricidad más amortización de GPU
Modos de razonamiento	`no_think`, `low`, `high`	Igual	Igual
Longitud del contexto	256K	256K	256K (si la memoria lo permite)
Rendimiento bajo carga	Pool compartido, despriorizado bajo demanda	Dedicado	Lo que tu clúster sirva
Límites de tarifa	Límite de capa gratuita de OpenRouter (flexible)	Específico del proveedor	Ninguno
Retención de datos	Política de registro de OpenRouter	Específico del proveedor	Permanece en tu hardware
Visibilidad de tokens de razonamiento	Sí, vía `reasoning_details`	Sí	Sí

Gratuito es la elección correcta para prototipos, proyectos secundarios, benchmarks de evaluación y agentes de bajo tráfico. Pago o autoalojado tiene sentido en el momento en que la latencia importa o excedes el límite de tarifa.

Consejos de prompts y parámetros para sacar más partido a Hy3

Hy3 recompensa la configuración explícita más que los modelos más pequeños. Algunos hábitos ayudan.

Ajusta la temperatura al modo. La tarjeta del modelo recomienda temperature=0.9 y top_p=1.0 como valores predeterminados. Baja a 0.3 para una salida estructurada, mantente en 0.9 para trabajos creativos.
Usa no_think para el chat diario. El modo de razonamiento predeterminado está desactivado por una razón; solo necesitas low o high para la planificación, código de varios pasos o matemáticas. Ejecutar high en una pregunta de una línea desperdicia tokens de razonamiento.
Nombra las herramientas en el prompt del sistema. Hy3 fue entrenado para usar herramientas con un analizador específico (hy_v3). Incluso en OpenRouter obtendrás mejores llamadas cuando el prompt del sistema describa el trabajo de cada herramienta en lugar de depender solo del esquema.
Cita el código, no lo resumas. La ventana de 256K te permite pegar archivos enteros. Pega el archivo y luego haz la pregunta; no le pidas al modelo que imagine el código.
Edita múltiples archivos en lotes. La puntuación SWE-bench Verified de Hy3 de 74.4 proviene de editar varios archivos de forma coherente. Dale el conjunto completo en un solo mensaje en lugar de goteárselos uno a la vez.
Pide un plan primero. Para tareas agénticas, un patrón de dos pasos ("elaborar un plan, esperar mi confirmación, luego ejecutar") produce resultados consistentemente más limpios que los prompts de una sola vez.

Límites que conviene conocer antes de lanzar

Algunos inconvenientes te sorprenderán si los pasas por alto.

Los límites de velocidad se ajustan a la carga. La capa gratuita de OpenRouter comparte capacidad entre todos los usuarios gratuitos. En el lanzamiento, el volumen diario de prompts ya era de 6.81B de tokens; las llamadas en horas pico pueden experimentar 429s. Implementa reintentos con retroceso exponencial.
Los tokens de razonamiento cuentan como salida. Los reasoning_details son gratuitos en la capa gratuita de OpenRouter, pero en las rutas de pago se facturan como salida. No envíes effort: "high" por defecto a un producto sensible a los ingresos sin medirlo.
La licencia no es Apache 2.0. La Licencia Comunitaria Tencent Hy permite el uso comercial pero conlleva cláusulas de política de uso y atribución; lee la licencia completa en el repositorio de GitHub antes de integrar Hy3 en un producto.
La llamada a herramientas requiere el analizador correcto. Si lo autoalojas, ejecuta vLLM o SGLang con --tool-call-parser hy_v3 (o hunyuan para SGLang). Sin él, las llamadas a herramientas regresan como texto plano.
El inglés y el chino son de primera clase; otros idiomas son de segunda. Las puntuaciones C-Eval 89.80 y CMMLU 89.61 muestran un sólido chino. Otros idiomas son compatibles a través de MMMLU, pero disminuyen en calidad.
Se queda atrás de los principales buques insignia de EE. UU. en algunos benchmarks de razonamiento. HLE se sitúa en 30, y la cobertura de SCMP señala que Hy3 está a la par de los principales modelos chinos, pero aún por detrás de los buques insignia actuales de OpenAI y Google DeepMind en las suites de razonamiento más difíciles.

La vía rápida para desarrolladores: Hy3 Preview más Apidog

El `curl` de línea de comandos está bien para una demostración. Para una iteración real, un cliente API visual ahorra horas.

Abre Apidog y crea un nuevo proyecto. Importa la especificación OpenAPI de OpenAI Chat Completions; OpenRouter utiliza el mismo esquema.
Establece la URL base en https://openrouter.ai/api/v1 y agrega una variable de entorno para OPENROUTER_API_KEY.
Crea una solicitud que apunte a /chat/completions con el modelo configurado como tencent/hy3-preview:free.
Duplica la solicitud para comparar los modos de razonamiento. Apidog te permite duplicar una solicitud y ajustar un parámetro, para que puedas ejecutar el mismo prompt con no_think, low y high uno al lado del otro e inspeccionar la latencia y la diferencia de salida.
Guarda las plantillas de prompts. Los prompts agénticos se vuelven largos. El sistema de entorno y variables de Apidog mantiene separados los prompts del sistema, los esquemas de herramientas y los turnos de usuario para que puedas reutilizarlos en diferentes pruebas.

Si vienes de Postman, el cambio es rápido; nuestra guía de pruebas de API sin Postman en 2026 cubre la migración. Los equipos que viven en su editor pueden ejecutar el mismo flujo de trabajo dentro de VS Code con Apidog dentro de VS Code, lo que mantiene la optimización de prompts junto al código que consume la salida.

Alternativas gratuitas cuando alcanzas el límite

Si el pool gratuito de OpenRouter te ralentiza durante las horas pico, hay dos caminos que vale la pena probar primero.

Hugging Face Space. El Space de Hy3-preview aloja una demo de chat en navegador. No es programable, pero es gratuito y útil para comparaciones rápidas.
Otros modelos chinos de código abierto gratuitos. Qwen 3.5 Omni de Alibaba ofrece una capa gratuita con una sólida salida multimodal; consulta nuestro anuncio de Qwen 3.5 Omni y la guía de uso complementaria para la configuración. Zhipu GLM 5V Turbo es otra opción con una generosa capa gratuita; la guía de API de GLM 5V Turbo tiene el recorrido completo.

Ninguno de estos iguala los números de SWE-bench y Terminal-Bench de Hy3 para codificación agéntica, pero cubren casos de uso de chat, multilingües y multimodales que la capa gratuita de Hy3 no prioriza. Para una compilación de producción, descarga Apidog y configura una colección por modelo; los benchmarks lado a lado en tus prompts reales superan la lectura de cualquier clasificación.

botón

Autoalojamiento de Hy3 Preview con vLLM

Si tienes el hardware, la inferencia local es el cuarto camino gratuito. La tarjeta del modelo recomienda vLLM con paralelismo de tensor de 8 y predicción multi-token habilitada para decodificación especulativa:

vllm serve tencent/Hy3-preview \
  --tensor-parallel-size 8 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser hy_v3 \
  --reasoning-parser hy_v3 \
  --enable-auto-tool-choice \
  --served-model-name hy3-preview

El comando SGLang equivalente usa --tool-call-parser hunyuan y --reasoning-parser hunyuan. Una vez que el servidor esté activo en http://localhost:8000/v1, cualquier SDK de OpenAI apunta a él de la misma manera que apuntaría a OpenRouter; solo cambian la URL base y la clave.

Espera ocho GPUs de clase H100 a BF16 para el modelo completo. Aparecerán compilaciones comunitarias cuantizadas, pero en el lanzamiento la ruta oficial es de precisión completa.

Preguntas frecuentes

¿Es Hy3 Preview gratuito?Sí. OpenRouter lista tencent/hy3-preview:free con $0 por millón de tokens de entrada y $0 por millón de tokens de salida. Los tokens de razonamiento en la capa gratuita también son gratuitos, aunque cuentan para los límites de velocidad. Confirma el estado actual en la página del modelo de OpenRouter antes de depender de él para producción.

¿Cómo se compara Hy3 Preview con DeepSeek V3 y Qwen 3?La puntuación de SWE-bench Verified de Hy3 Preview de 74.4 y Terminal-Bench 2.0 de 54.4 lo sitúan en el mismo nivel que los principales modelos abiertos chinos, con una clara inclinación hacia el agente y el uso de herramientas. Para el chat puro, Qwen 3 y DeepSeek V3 son competitivos; para los flujos de trabajo de agente y codificación, el uso de herramientas entrenado con RL de Hy3 es el diferenciador.

¿Cuáles son los modos de razonamiento de Hy3?Tres: no_think (predeterminado, respuesta directa), low y high. Cámbialos a través del parámetro reasoning en OpenRouter o vía chat_template_kwargs={"reasoning_effort": "high"} al llamar directamente al modelo. Usa high para planificación, código de varios pasos y matemáticas; déjalo desactivado para el chat.

¿Puedo usar Hy3 Preview comercialmente?Sí, bajo la Licencia Comunitaria Tencent Hy. La licencia permite el uso comercial con atribución y cumplimiento de las cláusulas de política de uso. Lee los términos completos en el repositorio de GitHub de Hy3 antes de implementarlo en un producto que genere ingresos.

¿Qué longitud de contexto admite la capa gratuita?256K tokens de principio a fin. La lista de OpenRouter muestra 262.144 tokens, lo que coincide con la tarjeta del modelo. Puedes pegar una base de código de tamaño medio completa y aún tener espacio para esquemas de herramientas e historial de conversación.

¿Cómo pruebo Hy3 Preview sin escribir código?Usa el Space de Hugging Face para una demostración de chat en navegador, o apunta Apidog al endpoint de OpenRouter. Apidog importa la especificación OpenAPI de OpenAI, por lo que configurar la solicitud es cuestión de tres campos: URL base, clave API y nombre del modelo.