Precios GLM-5.2: Costo API, Entrada en caché y Planes de Codificación GLM (2026)

Explicación de los precios de GLM-5.2: $1.40/$4.40 por 1 millón de tokens de API, entrada en caché ~ $0.26, ejemplos de costos calculados, niveles del Plan de Codificación GLM, y ¿es más barato que GPT-5.5?

INEZA Felin-Michel

INEZA Felin-Michel

17 June 2026

Precios GLM-5.2: Costo API, Entrada en caché y Planes de Codificación GLM (2026)

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

GLM-5.2 es la forma económica de ejecutar un modelo de codificación de clase fronteriza. Z.ai (Zhipu AI) lo distribuye con pesos abiertos bajo una licencia MIT, una ventana de contexto de 1 millón de tokens y una tarifa de API que reduce drásticamente los costos de los grandes laboratorios cerrados. Esta página es la página clave. Obtendrá el costo exacto de la API por token, cómo funciona el descuento de entrada en caché, ejemplos de dólares detallados para sesiones de codificación reales, los niveles de suscripción del Plan de Codificación GLM y una lectura honesta sobre si GLM-5.2 es más económico que GPT-5.5 para la forma en que realmente trabaja.

Una nota antes de los números: los precios de la IA se mueven rápido y algunos niveles del Plan de Codificación GLM pueden variar entre fuentes secundarias. Si una cifra no está confirmada, se marcará. Trate cualquier número marcado como una estimación y confirme el precio actual en z.ai antes de comprometer un presupuesto.

botón

Costo de la API de GLM-5.2 de un vistazo

La tarifa de la API de pago por uso es el punto de partida más claro, ya que está confirmada por la lista pública de OpenRouter.

Elemento Precio Fuente
Tokens de entrada $1.40 / 1M Confirmado (OpenRouter)
Tokens de salida $4.40 / 1M Confirmado (OpenRouter)
Entrada en caché ~$0.26 / 1M VentureBeat (atribución)

Así, el costo por token de GLM-5.2 se traduce en $0.0000014 por token de entrada y $0.0000044 por token de salida. La salida es aproximadamente 3.1 veces el precio de la entrada, lo cual es la forma normal para un modelo de razonamiento: los tokens que genera (incluida su traza de pensamiento) cuestan más que los tokens que se le proporcionan.

La tarifa de entrada en caché de aproximadamente $0.26 por cada 1 millón de tokens es la palanca que lo cambia todo para las cargas de trabajo de agentes y chat, y se cubre en su propia sección a continuación. Esa cifra proviene del informe de VentureBeat en lugar de una tarjeta de tarifas de primera mano, así que atribúyala en consecuencia.

No hay una vía gratuita en OpenRouter para glm-5.2. Si ve una afirmación diferente en otro lugar, es incorrecta. Puede ejecutar los pesos abiertos usted mismo por el costo de su propio hardware, lo cual es un tipo diferente de "gratis". Para esa vía, consulte la guía complementaria sobre cómo usar GLM-5.2 gratis y el artículo anterior sobre ejecutar GLM-5 localmente gratis.

Cómo funciona el descuento de entrada en caché

El almacenamiento en caché de prompts es el control de costos más importante en la hoja de precios de GLM-5.2, y la mayoría de la gente lo deja pasar.

Así es cómo funciona: cuando envía repetidamente un prefijo largo y estable (un prompt del sistema, las definiciones de herramientas de un agente de codificación, un archivo grande al que se refiere constantemente), el proveedor puede almacenar en caché el prefijo procesado. En la siguiente llamada, la parte en caché se factura a la tarifa de entrada en caché (~$0.26 / 1M) en lugar de la tarifa de entrada completa ($1.40 / 1M). Esto representa un descuento de aproximadamente el 81% en la parte repetida de su prompt.

Donde esto da sus frutos:

Dos reglas prácticas. Primero, mantenga el contenido reutilizado al principio del prompt y el contenido variable al final; las cachés se basan en el prefijo. Segundo, las cachés caducan, por lo que el descuento se aplica a las llamadas que se realizan en un corto período de tiempo, no a una solicitud que realiza una vez cada hora.

Desactivar el pensamiento como control de costos

GLM-5.2 es un modelo de razonamiento con dos niveles de esfuerzo de pensamiento, Alto y Máximo. Z.ai recomienda Máximo para la codificación. Pero los tokens de pensamiento son tokens de salida, y la salida es el lado costoso de la factura a $4.40 / 1M. Más pensamiento significa más tokens generados, lo que se traduce en una factura más grande.

Tiene una palanca directa para esto. En la API puede desactivar el pensamiento por completo:

{
  "model": "glm-5.2",
  "messages": [
    { "role": "user", "content": "Reformatea este JSON y devuélvelo." }
  ],
  "thinking": { "type": "disabled" }
}

Utilice los niveles deliberadamente:

Hacer coincidir el nivel de esfuerzo con la tarea es la diferencia entre una factura de salida de $4.40 y una de $1 para el mismo prompt. La referencia completa de parámetros, incluyendo reasoning_effort y el streaming, se encuentra en la guía de la API de GLM-5.2, y el tutorial de la API de GLM-5 anterior cubre la misma forma compatible con OpenAI si está migrando.

Ejemplos de costos calculados

Las tarifas abstractas por token no significan mucho hasta que las aplica al trabajo real. Aquí hay tres sesiones, con precios basados en las tarifas confirmadas.

Ejemplo 1: una única sesión de codificación de 100K tokens. Supongamos que ejecuta una tarea de codificación agentica que lee 100K tokens de contexto (su repositorio, instrucciones, contenido de archivos) y genera 20K tokens de código y razonamiento.

Ejemplo 2: la misma sesión con caché. Ahora suponga que 80K de esos 100K de entrada son un prefijo estable (prompt del sistema, definiciones de herramientas, archivos sin cambios) servido desde la caché, y 20K son nuevos.

El almacenamiento en caché del prefijo estable redujo el costo de la sesión en aproximadamente un 40%, y los ahorros aumentan cuantas más interacciones realice con el mismo contexto.

Ejemplo 3: un asistente de chat que realiza extracciones con el pensamiento desactivado. Un bot de soporte procesa 500 mensajes al día. Cada llamada envía 2K tokens de entrada y devuelve 300 tokens de salida, con el pensamiento desactivado.

Estas son estimaciones de tarifas de lista. Su factura real depende de cuánto pensamiento permita y de cuánto de su entrada se almacene en caché.

Niveles del Plan de Codificación GLM

Si trabaja con un agente de codificación todo el día, la ruta de suscripción suele ser más económica que las llamadas a la API medidas. Z.ai vende un Plan de Codificación GLM con niveles específicos (Lite, Pro, Max, más Equipo), expuesto a Claude Code y herramientas similares a través de un endpoint compatible con Anthropic.

La clave del plan es una credencial diferente a la clave API estándar. Para conectar GLM-5.2 a Claude Code, apúntelo al endpoint de codificación y seleccione la variante de contexto de 1M a través del sufijo de modelo [1m]:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

El valor de API_TIMEOUT_MS importa. Sin un tiempo de espera largo, Claude Code puede terminar llamadas largas de gran contexto antes de que GLM-5.2 finalice. Algunas fuentes muestran la URL base de codificación como open.z.ai/api/paas/v4 en su lugar, así que verifique el host exacto en vivo. La configuración completa del agente, incluyendo Cline y Cursor, se encuentra en la guía de agentes de codificación GLM-5.2, y el artículo anterior sobre GLM-5.1 con Claude Code cubre el mismo patrón para la generación anterior.

¿Es GLM-5.2 más barato que GPT-5.5?

Sí, en la API medida, y por un amplio margen. La descripción más clara proviene de VentureBeat, que informó que GLM-5.2 "supera a GPT-5.5 en codificación de largo alcance a aproximadamente 1/6 del costo". Esa afirmación es de VentureBeat, no una medición de Apidog, y combina el rendimiento de referencia con el precio, por lo que debe interpretarse como una declaración de valor direccional en lugar de una relación por token.

A nivel de la tarjeta de tarifas, aquí está la comparación de alto nivel. GLM-5.2 se lista a $1.40 de entrada / $4.40 de salida por 1M de tokens. Los modelos cerrados de frontera de OpenAI, Anthropic y Google generalmente se sitúan muy por encima de eso para sus niveles de razonamiento superiores, razón por la cual la expresión "una fracción del costo" sigue apareciendo. Para un desglose de velocidad y costo de los modelos, basado en números, consulte GLM-5 vs DeepSeek vs GPT-5 en velocidad y costo y la comparación más amplia GLM-5.1 vs Claude, GPT, Gemini y DeepSeek.

La comparación de suscripciones es más matizada. Un nivel alto del Plan de Codificación GLM, estimado en ~80 $/mes, se sitúa en el mismo rango que las suscripciones de codificación de un solo usuario más caras de otros proveedores, por lo que los factores decisivos se convierten en la calidad del modelo para sus tareas y cómo los planes miden el uso. La pregunta plan contra plan (Plan GLM frente a Claude Code, Codex, Cursor y MiniMax) se analiza en detalle en Claude Code vs Codex vs Cursor vs MiniMax Plan vs GLM Plan.

Una advertencia sobre los benchmarks: los resultados de lanzamiento que motivan la propuesta de valor (SWE-bench Pro 62.1, Terminal-Bench 2.1 en 81.0, MCP-Atlas 77.0) son resultados publicados por Z.ai. El conjunto completo se desglosa en el análisis en profundidad de los benchmarks de GLM-5.2, y el enfrentamiento directo con los laboratorios cerrados se encuentra en GLM-5.2 vs GPT-5.5, Claude Opus y Gemini.

¿Qué ruta de precios debería elegir?

Una guía rápida de decisión:

Cualquiera que sea el camino que elija, las dos palancas de costos permanecen iguales: almacene en caché sus prefijos estables y reduzca el esfuerzo de pensamiento para el trabajo que no lo necesita.

Pruebas de costos de GLM-5.2 antes de comprometerse

Antes de elegir un plan, es útil ver cuánto cuestan sus prompts reales y cuánto tiempo tardan. Puede apuntar cualquier cliente compatible con OpenAI al endpoint de GLM-5.2 y observar el uso de tokens por llamada. Apidog es útil aquí: es una plataforma API todo en uno para diseñar, depurar, probar y documentar APIs, por lo que puede enviar solicitudes a https://api.z.ai/api/paas/v4/chat/completions, inspeccionar la respuesta y el conteo de tokens, y guardar las llamadas como una colección reutilizable mientras compara los niveles de pensamiento y el comportamiento de caché. Descargue Apidog si desea comparar la tarjeta de tarifas con su propio tráfico en lugar de confiar en un ejemplo resuelto.

botón

La versión corta: la tarifa API confirmada de GLM-5.2 de $1.40 de entrada y $4.40 de salida es el número de referencia. Almacene en caché sus prefijos, gestione el esfuerzo de pensamiento y verifique el precio de cualquier nivel del Plan de Codificación en vivo antes de comprometerse.

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs

Precios GLM-5.2: Costo API, Entrada en caché y Planes de Codificación GLM (2026)