GLM-5.2 es la forma económica de ejecutar un modelo de codificación de clase fronteriza. Z.ai (Zhipu AI) lo distribuye con pesos abiertos bajo una licencia MIT, una ventana de contexto de 1 millón de tokens y una tarifa de API que reduce drásticamente los costos de los grandes laboratorios cerrados. Esta página es la página clave. Obtendrá el costo exacto de la API por token, cómo funciona el descuento de entrada en caché, ejemplos de dólares detallados para sesiones de codificación reales, los niveles de suscripción del Plan de Codificación GLM y una lectura honesta sobre si GLM-5.2 es más económico que GPT-5.5 para la forma en que realmente trabaja.
Una nota antes de los números: los precios de la IA se mueven rápido y algunos niveles del Plan de Codificación GLM pueden variar entre fuentes secundarias. Si una cifra no está confirmada, se marcará. Trate cualquier número marcado como una estimación y confirme el precio actual en z.ai antes de comprometer un presupuesto.
Costo de la API de GLM-5.2 de un vistazo
La tarifa de la API de pago por uso es el punto de partida más claro, ya que está confirmada por la lista pública de OpenRouter.
| Elemento | Precio | Fuente |
|---|---|---|
| Tokens de entrada | $1.40 / 1M | Confirmado (OpenRouter) |
| Tokens de salida | $4.40 / 1M | Confirmado (OpenRouter) |
| Entrada en caché | ~$0.26 / 1M | VentureBeat (atribución) |
Así, el costo por token de GLM-5.2 se traduce en $0.0000014 por token de entrada y $0.0000044 por token de salida. La salida es aproximadamente 3.1 veces el precio de la entrada, lo cual es la forma normal para un modelo de razonamiento: los tokens que genera (incluida su traza de pensamiento) cuestan más que los tokens que se le proporcionan.

La tarifa de entrada en caché de aproximadamente $0.26 por cada 1 millón de tokens es la palanca que lo cambia todo para las cargas de trabajo de agentes y chat, y se cubre en su propia sección a continuación. Esa cifra proviene del informe de VentureBeat en lugar de una tarjeta de tarifas de primera mano, así que atribúyala en consecuencia.
No hay una vía gratuita en OpenRouter para glm-5.2. Si ve una afirmación diferente en otro lugar, es incorrecta. Puede ejecutar los pesos abiertos usted mismo por el costo de su propio hardware, lo cual es un tipo diferente de "gratis". Para esa vía, consulte la guía complementaria sobre cómo usar GLM-5.2 gratis y el artículo anterior sobre ejecutar GLM-5 localmente gratis.
Cómo funciona el descuento de entrada en caché
El almacenamiento en caché de prompts es el control de costos más importante en la hoja de precios de GLM-5.2, y la mayoría de la gente lo deja pasar.
Así es cómo funciona: cuando envía repetidamente un prefijo largo y estable (un prompt del sistema, las definiciones de herramientas de un agente de codificación, un archivo grande al que se refiere constantemente), el proveedor puede almacenar en caché el prefijo procesado. En la siguiente llamada, la parte en caché se factura a la tarifa de entrada en caché (~$0.26 / 1M) en lugar de la tarifa de entrada completa ($1.40 / 1M). Esto representa un descuento de aproximadamente el 81% en la parte repetida de su prompt.
Donde esto da sus frutos:
- Agentes de codificación. Herramientas como Claude Code, Cline y Cursor reenvían un gran preámbulo estable (instrucciones, esquemas de herramientas, contexto del repositorio) en cada turno. El almacenamiento en caché de ese preámbulo reduce drásticamente la factura de entrada por turno. Los detalles de configuración se encuentran en la guía de GLM-5.2 con Claude Code, Cline y Cursor.
- RAG y preguntas y respuestas de documentos. Si hace muchas preguntas sobre el mismo documento largo, almacene en caché el documento una vez y pague el precio completo solo por cada pregunta corta más la respuesta.
- Conversaciones largas. Un historial de chat creciente es un prefijo estable creciente. El almacenamiento en caché mantiene bajo el costo de "recordar" la conversación.
Dos reglas prácticas. Primero, mantenga el contenido reutilizado al principio del prompt y el contenido variable al final; las cachés se basan en el prefijo. Segundo, las cachés caducan, por lo que el descuento se aplica a las llamadas que se realizan en un corto período de tiempo, no a una solicitud que realiza una vez cada hora.
Desactivar el pensamiento como control de costos
GLM-5.2 es un modelo de razonamiento con dos niveles de esfuerzo de pensamiento, Alto y Máximo. Z.ai recomienda Máximo para la codificación. Pero los tokens de pensamiento son tokens de salida, y la salida es el lado costoso de la factura a $4.40 / 1M. Más pensamiento significa más tokens generados, lo que se traduce en una factura más grande.
Tiene una palanca directa para esto. En la API puede desactivar el pensamiento por completo:
{
"model": "glm-5.2",
"messages": [
{ "role": "user", "content": "Reformatea este JSON y devuélvelo." }
],
"thinking": { "type": "disabled" }
}
Utilice los niveles deliberadamente:
- Pensamiento deshabilitado para trabajos mecánicos y económicos: formateo, extracción, reescrituras simples, clasificación. Omite la traza de razonamiento y paga solo por una respuesta corta.
- Esfuerzo alto para la codificación y el análisis diarios donde desea un buen razonamiento sin el máximo gasto de tokens.
- Esfuerzo máximo para codificación y matemáticas difíciles y de largo alcance, donde el pensamiento adicional realmente compensa su costo en precisión.
Hacer coincidir el nivel de esfuerzo con la tarea es la diferencia entre una factura de salida de $4.40 y una de $1 para el mismo prompt. La referencia completa de parámetros, incluyendo reasoning_effort y el streaming, se encuentra en la guía de la API de GLM-5.2, y el tutorial de la API de GLM-5 anterior cubre la misma forma compatible con OpenAI si está migrando.
Ejemplos de costos calculados
Las tarifas abstractas por token no significan mucho hasta que las aplica al trabajo real. Aquí hay tres sesiones, con precios basados en las tarifas confirmadas.
Ejemplo 1: una única sesión de codificación de 100K tokens. Supongamos que ejecuta una tarea de codificación agentica que lee 100K tokens de contexto (su repositorio, instrucciones, contenido de archivos) y genera 20K tokens de código y razonamiento.
- Entrada: 100,000 × $1.40 / 1,000,000 = $0.140
- Salida: 20,000 × $4.40 / 1,000,000 = $0.088
- Total: ~$0.23
Ejemplo 2: la misma sesión con caché. Ahora suponga que 80K de esos 100K de entrada son un prefijo estable (prompt del sistema, definiciones de herramientas, archivos sin cambios) servido desde la caché, y 20K son nuevos.
- Entrada en caché: 80,000 × $0.26 / 1,000,000 = $0.021
- Entrada nueva: 20,000 × $1.40 / 1,000,000 = $0.028
- Salida: 20,000 × $4.40 / 1,000,000 = $0.088
- Total: ~$0.14
El almacenamiento en caché del prefijo estable redujo el costo de la sesión en aproximadamente un 40%, y los ahorros aumentan cuantas más interacciones realice con el mismo contexto.
Ejemplo 3: un asistente de chat que realiza extracciones con el pensamiento desactivado. Un bot de soporte procesa 500 mensajes al día. Cada llamada envía 2K tokens de entrada y devuelve 300 tokens de salida, con el pensamiento desactivado.
- Entrada: 500 × 2,000 × $1.40 / 1,000,000 = $1.40
- Salida: 500 × 300 × $4.40 / 1,000,000 = $0.66
- Total: ~$2.06 / día, aproximadamente $62 al mes para una carga de trabajo de 500 llamadas al día.
Estas son estimaciones de tarifas de lista. Su factura real depende de cuánto pensamiento permita y de cuánto de su entrada se almacene en caché.
Niveles del Plan de Codificación GLM
Si trabaja con un agente de codificación todo el día, la ruta de suscripción suele ser más económica que las llamadas a la API medidas. Z.ai vende un Plan de Codificación GLM con niveles específicos (Lite, Pro, Max, más Equipo), expuesto a Claude Code y herramientas similares a través de un endpoint compatible con Anthropic.

La clave del plan es una credencial diferente a la clave API estándar. Para conectar GLM-5.2 a Claude Code, apúntelo al endpoint de codificación y seleccione la variante de contexto de 1M a través del sufijo de modelo [1m]:
export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
El valor de API_TIMEOUT_MS importa. Sin un tiempo de espera largo, Claude Code puede terminar llamadas largas de gran contexto antes de que GLM-5.2 finalice. Algunas fuentes muestran la URL base de codificación como open.z.ai/api/paas/v4 en su lugar, así que verifique el host exacto en vivo. La configuración completa del agente, incluyendo Cline y Cursor, se encuentra en la guía de agentes de codificación GLM-5.2, y el artículo anterior sobre GLM-5.1 con Claude Code cubre el mismo patrón para la generación anterior.
¿Es GLM-5.2 más barato que GPT-5.5?
Sí, en la API medida, y por un amplio margen. La descripción más clara proviene de VentureBeat, que informó que GLM-5.2 "supera a GPT-5.5 en codificación de largo alcance a aproximadamente 1/6 del costo". Esa afirmación es de VentureBeat, no una medición de Apidog, y combina el rendimiento de referencia con el precio, por lo que debe interpretarse como una declaración de valor direccional en lugar de una relación por token.
A nivel de la tarjeta de tarifas, aquí está la comparación de alto nivel. GLM-5.2 se lista a $1.40 de entrada / $4.40 de salida por 1M de tokens. Los modelos cerrados de frontera de OpenAI, Anthropic y Google generalmente se sitúan muy por encima de eso para sus niveles de razonamiento superiores, razón por la cual la expresión "una fracción del costo" sigue apareciendo. Para un desglose de velocidad y costo de los modelos, basado en números, consulte GLM-5 vs DeepSeek vs GPT-5 en velocidad y costo y la comparación más amplia GLM-5.1 vs Claude, GPT, Gemini y DeepSeek.
La comparación de suscripciones es más matizada. Un nivel alto del Plan de Codificación GLM, estimado en ~80 $/mes, se sitúa en el mismo rango que las suscripciones de codificación de un solo usuario más caras de otros proveedores, por lo que los factores decisivos se convierten en la calidad del modelo para sus tareas y cómo los planes miden el uso. La pregunta plan contra plan (Plan GLM frente a Claude Code, Codex, Cursor y MiniMax) se analiza en detalle en Claude Code vs Codex vs Cursor vs MiniMax Plan vs GLM Plan.
Una advertencia sobre los benchmarks: los resultados de lanzamiento que motivan la propuesta de valor (SWE-bench Pro 62.1, Terminal-Bench 2.1 en 81.0, MCP-Atlas 77.0) son resultados publicados por Z.ai. El conjunto completo se desglosa en el análisis en profundidad de los benchmarks de GLM-5.2, y el enfrentamiento directo con los laboratorios cerrados se encuentra en GLM-5.2 vs GPT-5.5, Claude Opus y Gemini.
¿Qué ruta de precios debería elegir?
Una guía rápida de decisión:
- Uso esporádico o de bajo volumen: API de pago por uso. Solo paga por lo que ejecuta, y las tarifas son lo suficientemente bajas como para que el uso ligero siga siendo económico.
- Codificación durante todo el día en un agente: un nivel del Plan de Codificación GLM. El costo mensual predecible es mejor que la facturación medida una vez que realiza cientos de llamadas al día. Verifique primero el precio del nivel.
- Privacidad, sin conexión o costo marginal cero: aloje usted mismo los pesos abiertos. No hay factura por token, solo su propia capacidad de cómputo. Comience con ejecutar GLM-5 localmente gratis o GLM-5 gratis con Ollama.
Cualquiera que sea el camino que elija, las dos palancas de costos permanecen iguales: almacene en caché sus prefijos estables y reduzca el esfuerzo de pensamiento para el trabajo que no lo necesita.
Pruebas de costos de GLM-5.2 antes de comprometerse
Antes de elegir un plan, es útil ver cuánto cuestan sus prompts reales y cuánto tiempo tardan. Puede apuntar cualquier cliente compatible con OpenAI al endpoint de GLM-5.2 y observar el uso de tokens por llamada. Apidog es útil aquí: es una plataforma API todo en uno para diseñar, depurar, probar y documentar APIs, por lo que puede enviar solicitudes a https://api.z.ai/api/paas/v4/chat/completions, inspeccionar la respuesta y el conteo de tokens, y guardar las llamadas como una colección reutilizable mientras compara los niveles de pensamiento y el comportamiento de caché. Descargue Apidog si desea comparar la tarjeta de tarifas con su propio tráfico en lugar de confiar en un ejemplo resuelto.

La versión corta: la tarifa API confirmada de GLM-5.2 de $1.40 de entrada y $4.40 de salida es el número de referencia. Almacene en caché sus prefijos, gestione el esfuerzo de pensamiento y verifique el precio de cualquier nivel del Plan de Codificación en vivo antes de comprometerse.
