GLM-5.2 Benchmarks y Especificaciones: SWE-bench Pro, Terminal-Bench y Qué Significan los Números

GLM-5.2 de Z.ai (Zhipu AI) llegó con una serie de números de referencia, y algunos de ellos son realmente impresionantes. El titular es SWE-bench Pro con 62.1, superando a GPT-5.5. La historia más importante está enterrada una fila más abajo: Terminal-Bench saltó de 62.0 a 81.0 en una sola generación. Esta publicación repasa cada puntuación de referencia de GLM-5.2, explica qué mide realmente cada prueba y señala dónde la ventaja es real frente a dónde es un error de redondeo.

Todos los números de lanzamiento aquí son resultados publicados por Z.ai a menos que se indique lo contrario. Cuando un modelo afirma superar al resto en sus propios marcadores, se lee con una ceja levantada. Por eso seremos específicos sobre lo que demuestra cada benchmark y lo que no.

💡

Si construyes o pruebas APIs mientras evalúas modelos como este, Apidog es la plataforma todo en uno que utilizamos para diseñar, depurar, simular y documentar los puntos finales que estos modelos invocan. Más sobre esto más adelante, pero es relevante: muchas de las mejoras de GLM-5.2 aparecen en trabajos agentivos y de uso de herramientas, que es precisamente territorio de APIs.

botón

La versión corta: puntuaciones de referencia de GLM-5.2 de un vistazo

Aquí está la tabla completa de benchmarks de GLM-5.2, con los rivales más cercanos para el contexto. Trate las columnas de comparación como las cifras reportadas por Z.ai para esos modelos, no como nuevas ejecuciones independientes.

Benchmark	Qué mide	GLM-5.2	GLM-5.1	GPT-5.5	Claude Opus 4.8
SWE-bench Pro	Correcciones de errores de repositorios del mundo real	62.1	58.4	58.6	n/a
Terminal-Bench 2.1	Tareas de shell/agente de varios pasos	81.0	62.0	n/a	n/a
MCP-Atlas	Uso de herramientas sobre servidores MCP	77.0	n/a	75.3	77.8
Examen Final de la Humanidad (con herramientas)	Razonamiento experto difícil	54.7	n/a	52.2	n/a
AIME 2026	Matemáticas de competición	99.2	n/a	n/a	n/a
GPQA-Diamond	Ciencia a nivel de posgrado	91.2	n/a	n/a	n/a

Z.ai también informa que GLM-5.2 es el modelo de código abierto con la puntuación más alta en FrontierSWE, PostTrainBench y SWE-Marathon. Veremos qué significa ese calificativo ("código abierto").

Para la versión en lenguaje sencillo de lo que es este modelo, consulte la descripción general de GLM-5.2. Para saber cómo se compara con el campo propietario en un cara a cara, hay un desglose dedicado de GLM-5.2 vs GPT-5.5, Opus y Gemini.

SWE-bench Pro: 62.1 y lo que realmente te dice

SWE-bench Pro es el primo más difícil y curado del SWE-bench original. Entrega a un modelo un problema real de GitHub más el repositorio completo, y le pide que produzca un parche que haga pasar la suite de pruebas oculta del proyecto. Sin opciones múltiples, sin funciones de juguete. O arreglas el error en archivos reales o no lo haces.

GLM-5.2 puntúa 62.1. GPT-5.5 se sitúa en 58.6 y GLM-5.1 en 58.4, según Z.ai. Así que dos conclusiones honestas:

La ventaja de 3.5 puntos sobre GPT-5.5 es significativa, pero no un abismo. En un benchmark tan ruidoso, unos pocos puntos pueden variar debido a detalles del arnés de prueba, presupuestos de reintentos y andamiaje de prompts. Digamos que es "competitivo en la cima", no "dominante".
La ganancia de 3.7 puntos sobre GLM-5.1 es la señal más confiable, porque es el mismo laboratorio midiendo de la misma manera en dos de sus propios modelos. Los deltas generación a generación son la lectura más clara que se obtiene.

¿Por qué preocuparse por SWE-bench Pro? Porque es el proxy público más cercano a "¿puede este modelo hacer mi trabajo real?". Arreglar un error en una base de código extensa requiere leer código desconocido, localizar el archivo correcto y editar sin romper otras tres cosas. Esa es la realidad diaria del trabajo de software, por eso los modelos centrados en la codificación se evalúan primero en esto.

Terminal-Bench 2.1: 81.0 es la cifra destacada

Si lees una fila en la tabla, lee esta. Terminal-Bench evalúa un modelo como agente en una shell real: instalar dependencias, ejecutar comandos, analizar la salida, recuperarse de errores y completar una tarea de varios pasos de principio a fin. Recompensa la persistencia y la disciplina de las herramientas, no la astucia de un solo intento.

GLM-5.1 obtuvo 62.0. GLM-5.2 obtiene 81.0. Eso es un salto de 19 puntos en una generación, y es la estadística de rendimiento destacada de GLM-5.2 por una razón. Pasar de "falla en cuatro de cada diez tareas" a "completa aproximadamente cuatro de cada cinco" es la diferencia entre un modelo que tienes que supervisar y uno al que le puedes entregar un terminal.

Aquí también es donde la historia de la arquitectura se conecta con la historia del benchmark. Z.ai atribuye a la atención dispersa "IndexShare" de GLM-5.2, que reutiliza un indexador en cada cuatro capas de atención dispersa para mantener bajos los costos de atención en contextos largos. Las tareas de agente de largo horizonte generan transcripciones largas: comando, salida, comando, salida, durante docenas de turnos. Un modelo que mantiene ese contexto de forma económica y precisa es un modelo que no pierde el hilo a mitad de una construcción. El salto de Terminal-Bench es el resultado práctico de ese diseño. Para la comparación generacional completa, consulte GLM-5.2 vs GLM-5.1.

Una advertencia honesta: Terminal-Bench es una cifra reportada por Z.ai, y los benchmarks agentivos son sensibles al andamiaje alrededor del modelo (límites de tiempo de espera, reintentos permitidos, el prompt del arnés). El salto es lo suficientemente grande como para que el andamiaje por sí solo sea poco probable que lo explique, pero verifícalo en tu propia carga de trabajo antes de apostar un pipeline en él.

MCP-Atlas: 77.0, y un empate honesto en la cima

MCP-Atlas mide el uso de herramientas a través del Protocolo de Contexto del Modelo (Model Context Protocol), la forma estándar en que los modelos llaman a herramientas y servidores externos. Es el benchmark que se mapea más directamente al trabajo de agentes y APIs: ¿puede el modelo elegir la herramienta correcta, formatear la llamada correctamente, leer el resultado y seguir adelante?

GLM-5.2 aterriza en 77.0. GPT-5.5 está en 75.3, y Claude Opus 4.8 está en 77.8, según Z.ai. Esta es la fila donde debes resistir la tentación de declarar un ganador. GLM-5.2 supera a GPT-5.5 por 1.7 y va por detrás de Opus 4.8 por 0.8. Esos son márgenes de error de redondeo. La afirmación justa es que, en el uso de herramientas al estilo MCP, los tres están en un empate técnico, y GLM-5.2 se ha ganado su lugar en ese grupo.

Eso importa porque el uso de herramientas es donde un modelo de codificación se encuentra con su stack. Cada llamada MCP es, funcionalmente, una interacción API: una solicitud estructurada, una respuesta para analizar, un error que manejar. Si está conectando un modelo a servicios reales, desea la misma higiene que aplicaría a cualquier integración. Aquí es exactamente donde encaja Apidog. Puede definir y simular los puntos finales que un agente usará, luego depurar las cargas útiles de solicitud y respuesta reales que genera el modelo, antes de lanzarlo a producción. Descargue Apidog si desea probar esas llamadas a herramientas de la misma manera que probaría cualquier otra API.

Razonamiento y matemáticas: HLE 54.7, AIME 99.2, GPQA-Diamond 91.2

La codificación no es toda la historia. GLM-5.2 también presenta sólidas cifras de razonamiento.

Examen Final de la Humanidad (con herramientas): 54.7. HLE es un examen deliberadamente brutal que abarca preguntas de nivel experto en muchos campos, construido para resistir la saturación fácil. La configuración "con herramientas" permite al modelo buscar y computar en lugar de responder en frío. El 54.7 de GLM-5.2 supera el 52.2 de GPT-5.5 (según Z.ai). En un benchmark tan difícil, cualquier cosa en los 50s es un resultado serio.
AIME 2026: 99.2. AIME son matemáticas de competición para estudiantes de secundaria avanzados. Un 99.2 es efectivamente una puntuación máxima, lo que principalmente indica que la prueba ya no diferencia a los modelos de vanguardia. Es más una señal de "sin debilidades aquí" que un diferenciador.
GPQA-Diamond: 91.2. GPQA-Diamond es la parte más difícil de un conjunto de preguntas y respuestas científicas de nivel de posgrado, filtrado para que los no expertos no puedan resolverlo por fuerza bruta, ni siquiera con acceso a la web. Un 91.2 sitúa a GLM-5.2 firmemente en territorio de frontera en el razonamiento técnico.

El patrón en estos: GLM-5.2 no es un especialista estrecho en código que se desmorona en matemáticas o ciencia. Los dos niveles de esfuerzo de pensamiento (Alto y Máximo, con Máximo recomendado para codificación) le permiten intercambiar latencia por profundidad en los problemas más difíciles. Si desea un ángulo más profundo de matemáticas y razonamiento junto con la codificación, la pieza de benchmarks de GLM-5.2 vs el campo lleva esa comparación más allá.

La afirmación de "código abierto más alto", explicada

Z.ai reporta que GLM-5.2 es el modelo de código abierto líder en FrontierSWE, PostTrainBench y SWE-Marathon. Lea ese calificativo cuidadosamente, porque está haciendo un trabajo real.

"El código abierto más alto" es una afirmación más limitada que "el más alto, punto". El campo de pesos abiertos es el marco relevante aquí: GLM-5.2 se envía bajo una licencia MIT con pesos abiertos y sin restricciones regionales, lo cual es una propuesta diferente a la de un modelo de API cerrado que alquila. Frente a otros modelos de pesos abiertos, ser el mejor en FrontierSWE (tareas de software de dificultad de frontera), PostTrainBench (capacidad post-entrenamiento) y SWE-Marathon (trabajo de software largo y sostenido) es una afirmación fuerte, y es la afirmación que importa si su restricción es "debe poder auto-alojarse".

No es lo mismo que superar a todos los modelos propietarios en esas pruebas. Cuando GLM-5.2 realmente supera a GPT-5.5, como en SWE-bench Pro y HLE, Z.ai lo dice directamente sin la salvedad de "código abierto". Así que el modelo mental es: en la frontera o cerca de ella en general, y claramente el primero entre los modelos que puedes descargar y ejecutar tú mismo. VentureBeat enmarcó el valor de manera contundente, informando que GLM-5.2 "supera a GPT-5.5 en codificación de largo horizonte con aproximadamente una sexta parte del costo". Esa es la caracterización de VentureBeat, que vale la pena atribuir en lugar de afirmar como un hecho medido.

Especificaciones de GLM-5.2 de un vistazo

Los benchmarks solo significan algo frente a la realidad del hardware y las licencias. Aquí están las especificaciones de GLM-5.2 que dan forma a cómo las puntuaciones se traducen a su configuración.

Especificación	Valor
Parámetros	~753B totales, mezcla de expertos (MoE)
Precisión	BF16
Atención	Atención dispersa IndexShare (un indexador compartido por cada 4 capas dispersas)
Ventana de contexto	1M de tokens (1,048,576)
Salida máxima	Hasta 128K según la documentación de z.ai (verificar en vivo; OpenRouter no lista una cifra)
Modalidad	Texto de entrada, texto de salida (sin variante de visión confirmada)
Esfuerzo de pensamiento	Alto y Máximo; se puede deshabilitar
Licencia	MIT, pesos abiertos, sin restricciones regionales
IDs de modelo	HF `zai-org/GLM-5.2`, API `glm-5.2`, Ollama `glm-5.2`, OpenRouter `z-ai/glm-5.2`

Algunas notas sobre la lectura de esta barra lateral. El recuento de parámetros de ~753B es el tamaño total de MoE, no el recuento activo por token, así que no lo lea como "necesita 753B de computación densa por pasada hacia adelante", ese es el punto de MoE. El contexto de 1M de tokens es la especificación que hace creíble el resultado de Terminal-Bench: las ejecuciones largas de agentes necesitan un lugar donde poner todo ese historial. En cuanto a la salida máxima, tenga cuidado. La documentación de Z.ai cita hasta 128K (a junio de 2026, verifique el límite actual en z.ai), pero no se lista consistentemente en todos los proveedores, así que trátelo como un límite documentado en lugar de uno garantizado. Y no hay un modelo de visión GLM-5.2. Si ve "GLM-5.2V" en algún lugar, no es algo que Z.ai haya confirmado.

El precio sigue la lógica de los pesos abiertos: OpenRouter lista $1.40 por 1M de tokens de entrada y $4.40 por 1M de salida, con entrada en caché alrededor de $0.26 por 1M (cifra de VentureBeat). Ese perfil de costo es la base de la línea "una sexta parte del costo". Para el desglose completo de costos, incluyendo los niveles del Plan de Codificación GLM, consulte la página de precios de GLM-5.2, y si desea ejecutarlo sin pagar por token, cómo usar GLM-5.2 gratis cubre la ruta de auto-alojamiento.

Cómo verificar estos benchmarks por ti mismo

Las tarjetas de puntuación de los proveedores son un punto de partida, no un veredicto. Hay tres cosas que debe hacer antes de confiar en cualquiera de estos números para una decisión real:

Lea las fuentes primarias. El blog de Z.ai GLM-5.2 y la documentación de Z.ai contienen la metodología oficial. La tarjeta del modelo de Hugging Face tiene los pesos y la configuración si desea inspeccionar la arquitectura directamente.
Verifique listados de terceros. La página de OpenRouter confirma los precios y la ID del modelo, y la entrada de la biblioteca de Ollama confirma la ruta de ejecución local. La cobertura de VentureBeat añade un marco externo sobre la historia del costo.
Ejecute su propia evaluación. El único benchmark que realmente cuenta es su carga de trabajo. Conecte GLM-5.2 a una tarea real, idealmente una agentiva con llamadas a herramientas, y observe cómo se comporta a lo largo de muchas interacciones. Para el contexto de generaciones anteriores sobre este mismo ejercicio, el artículo sobre GLM-5.1 y la comparación de velocidad y costo de GLM-5 vs DeepSeek vs GPT-5 son líneas base útiles.

Cuando ejecute esa evaluación de su propia carga de trabajo, las llamadas a herramientas son donde los modelos fallan silenciosamente: JSON malformado, selección de herramienta incorrecta, manejo de errores omitido. Simular esos puntos finales en Apidog le permite observar las solicitudes y respuestas reales del modelo sin saturar los servicios en vivo, que es la forma más rápida de distinguir a un héroe de benchmark de un modelo que funciona en su stack.

La conclusión

La hoja de benchmarks de GLM-5.2 resiste el escrutinio mejor que la mayoría de las tarjetas de puntuación de lanzamiento. El salto de Terminal-Bench de 62.0 a 81.0 es el número realmente grande, la ventaja de SWE-bench Pro sobre GPT-5.5 es real aunque modesta, y el resultado de MCP-Atlas es un empate honesto entre los tres primeros. Combine esas puntuaciones con pesos abiertos, una licencia MIT, un contexto de 1M de tokens y una economía de aproximadamente una sexta parte del costo, y obtendrá un modelo que merece una evaluación seria en lugar de una mirada educada.

Los benchmarks te guían hacia el modelo correcto. Tu propia carga de trabajo lo confirma. Cuando ejecutes esa prueba y esta involucre llamadas reales a API y herramientas, configura los puntos finales en Apidog para que puedas ver exactamente lo que el modelo envía y recibe, luego decide basándote en lo que hace en tu stack, no en lo que puntuó en el de otra persona.