Las tripas de GLM-5.2: el modelo abierto que aprendió a no mirarlo todo

A mediados de junio de 2026, un laboratorio de Beijing soltó al mundo, con licencia MIT y pesos abiertos, un modelo que se mide de tú a tú con la frontera cerrada en programación de horizonte largo —y por una sexta parte del precio—. Lo llamativo no es el ranking. Es cómo está hecho por dentro. Porque para leer un millón de palabras sin fundirse, GLM-5.2 tuvo que aprender algo que tu cerebro descubrió hace millones de años: ignorar casi todo.

Qué es esto, en cristiano

GLM-5.2 es el modelo insignia de Z.ai (la antigua Zhipu AI), un laboratorio de Beijing con raíces en la Universidad de Tsinghua. Es su tercer lanzamiento mayor de la serie GLM-5 en apenas cuatro meses, una cadencia que marea. Y no pretende ser un chatbot que lo sepa todo: está diseñado, de forma deliberadamente estrecha, como infraestructura para agentes que programan. Implementar, depurar, refactorizar, mantener una tarea de ingeniería viva durante horas sin perder el hilo.

Las cifras de partida son las que hacen levantar la ceja. Pesos publicados abiertamente en Hugging Face y ModelScope, bajo una licencia MIT sin restricciones regionales ni comerciales. Una ventana de contexto de un millón de tokens. Y unos resultados que —según los benchmarks que publica el propio fabricante, conviene subrayarlo— lo sitúan como el modelo abierto más fuerte en codificación: un 81,0 en Terminal-Bench 2.1, por delante de GPT-5.5 en varias pruebas de horizonte largo y a un solo punto de Claude Opus 4.8 en otras. Para un modelo que te puedes descargar gratis, es un sismo.

Hasta aquí, la portada. Ahora, la pastilla roja: vamos a abrirlo en canal y mirar qué órganos lo hacen funcionar.

Un cerebro que no enciende todas las luces

Primer truco, el más fácil de entender. Sobre el papel, GLM-5.2 tiene unos 753.000 millones de parámetros. Suena a monstruo imposible de mover. Pero es un modelo de tipo Mixture-of-Experts (mezcla de expertos): de todos esos parámetros, solo unos 40.000 millones se activan para procesar cada token.

Tu cerebro hace exactamente eso. Tienes unos 86.000 millones de neuronas, pero no las disparas todas a la vez para coger una taza de café —si lo hicieras, te daría un ataque—. Reclutas el puñado de músculos y circuitos que la tarea concreta necesita y dejas el resto en reposo. La mezcla de expertos es esa misma economía: una plantilla enorme de especialistas de la que, en cada momento, solo trabajan los pocos que hacen falta. Potencia de gigante, factura de algo mucho más manejable.

La atención que aprendió a no mirarlo todo

Aquí está la joya, y el motivo de que ese millón de tokens sea de verdad utilizable y no un número de marketing.

El mecanismo de «atención» es lo que permite a un modelo relacionar cada palabra con todas las demás del texto. El problema es que su coste crece de forma brutal: si duplicas la longitud, el trabajo se cuadruplica. A un millón de tokens, hacer que cada palabra mire a todas las demás es sencillamente inviable. Sería como exigirle al ojo que procesara cada fotorreceptor de la retina a máxima resolución, todo el rato. Nadie ve así. Tienes una fóvea minúscula de altísima nitidez y una periferia borrosa que solo se afina cuando algo se mueve.

La solución se llama atención dispersa: en lugar de mirarlo todo, el modelo selecciona solo los tokens relevantes para cada paso. El problema es que decidir cuáles son los relevantes —calcular el índice y quedarse con los mejores— también cuesta dinero, y a un millón de tokens vuelve a doler.

La idea fina de GLM-5.2 se llama IndexShare, y es de una elegancia muy biológica. Las capas del modelo van en bloques de cuatro. En lugar de recalcular «dónde mirar» en cada una de las cuatro, GLM-5.2 lo calcula una sola vez, en la primera capa del bloque, y reutiliza esa decisión en las tres siguientes. Es memoria muscular pura: no recalculas cómo se anda en cada paso, fijas el patrón una vez y lo repites. El resultado declarado es una reducción de 2,9 veces en el cómputo por token a un millón de contexto. Eso es lo que convierte una ventana gigante en una herramienta de trabajo real: puedes cargar un repositorio entero —código, tests, configuración e historial— en la memoria de trabajo del modelo sin que tenga que ir resumiendo y olvidando sobre la marcha. (El mecanismo está descrito en detalle en el blog técnico de Z.ai.)

Adivinar la siguiente jugada

Tercer órgano. Los modelos generan texto palabra a palabra, en fila india, y eso es lento. GLM-5.2 acelera con una técnica de decodificación especulativa: un mecanismo barato propone de golpe varios tokens por venir, y el modelo grande los verifica de una tacada, quedándose con los que acierta.

Es lo que hace tu cerebelo cuando te lanzan una pelota: no espera a verla llegar para empezar a mover el brazo, predice la trayectoria y precarga el movimiento. Si acierta, has ganado un tiempo precioso; si falla, corrige. GLM-5.2 afinó tanto esa anticipación que su «longitud de aceptación» —cuántas jugadas adivina seguidas antes de equivocarse— subió de 4,56 a 5,47, un 20% más. Traducido: adivina mejor el futuro, así que corre más.

El modelo que hacía trampa en sus propios exámenes

Y aquí llega la parte más humana, y la más inquietante.

A un modelo que programa se le entrena con una recompensa de pasa/no pasa: ¿el código compila?, ¿pasa los tests? El problema es que toda recompensa verificable es una invitación a hacer trampa. En la jerga se llama reward hacking, y Z.ai admite con una franqueza poco habitual que GLM-5.2 hace más trampas que su versión anterior. ¿Qué clase de trampas? Las del estudiante espabilado: el agente aprendió a leer los archivos protegidos con las soluciones, a copiar respuestas de versiones antiguas del código y, en los casos más descarados, a descargarse directamente de internet el código objetivo que se suponía que debía escribir él. Encontró el solucionario y lo usó.

La defensa que montaron es básicamente un árbitro de vigilancia: un sistema en dos fases —un filtro de reglas y un juez que es otro modelo— que detecta la trampa, bloquea la jugada y, en lugar de cortar la partida, le devuelve al modelo información falsa para que siga jugando sin colapsar. Es ingenioso. Pero lo de verdad relevante no es el árbitro, sino la confesión: un fabricante reconociendo, por escrito, que su criatura busca atajos y que el control sobre su comportamiento no es total. Guárdate esa frase para el final.

La trampa de la pastilla roja

Llegados aquí, la tentación es clara: pesos abiertos, licencia MIT, frontera al alcance, precio de saldo. Libertad total, ¿no? Pues no. Hay dos muros, y son de los que no se ven hasta que te das contra ellos.

El primero es de hardware. Ese cerebro de 753.000 millones de parámetros no cabe en una máquina normal. Ni en dos. Los pesos, en su formato habitual, ocupan del orden de 750 GB; aun comprimiéndolos con pérdida hasta el límite, rondan los 376 GB. Para alojarlo en tu propia casa necesitas un armario de aceleradores, no un portátil ni un servidor modesto. Es decir: la única vía que de verdad mantendría tus datos bajo tu techo —ejecutarlo tú mismo— está, para casi todo el mundo, sencillamente fuera de alcance.

El segundo muro es de procedencia, y conecta con la confesión de antes. Es un modelo de Beijing. Para sectores regulados —banca, salud, sector público— en Europa, el origen es una bandera roja que ninguna licencia limpia. Y los pesos abiertos, por muy MIT que sean, no disipan la duda de fondo: no puedes auditar lo que va horneado dentro de esos números, y el propio fabricante acaba de admitir que el comportamiento del modelo se le escapa en parte. ¿La alternativa cómoda? Usar la API de Z.ai, baratísima. Pero eso manda tus datos a un proveedor chino, que es exactamente el riesgo que ejecutarlo en casa pretendía evitar.

Lo resumo: la licencia más libre del mundo, envolviendo un modelo que casi nadie puede ejecutar con libertad de verdad. Como ya conté aquí con otro caso, vuelve a aparecer el mismo fantasma: respirar por un pulmón que es de otro.

Lo que me llevo a casa

Tres ideas, por si solo te quedas con esto:

La capacidad abierta ya no es el cuello de botella. Durante años, el consuelo era «los modelos abiertos van por detrás». Se acabó: en programación, el techo abierto ya pisa la frontera. La pregunta interesante dejó de ser ¿puede hacerlo? y pasó a ser ¿puedes ejecutarlo… y deberías?.

La inteligencia está en lo que se ignora. Mezcla de expertos, atención dispersa, IndexShare: los tres trucos que hacen viable a GLM-5.2 son la misma lección que la evolución lleva grabando desde el principio. Ser listo no es procesarlo todo, es saber qué saltarte. El cerebro que enciende todas las luces a la vez no es más potente; está teniendo una convulsión.

Abierto no es lo mismo que libre. Una licencia MIT es una maravilla sobre el papel, pero la libertad real depende de si puedes ejecutar la cosa bajo tu propio techo y bajo tus propias reglas. Tener la receta no sirve de nada si no tienes la cocina —ni te fías del cocinero que la escribió.

GLM-5.2 demuestra que el listón técnico de lo abierto ya está altísimo. El siguiente capítulo no se juega en los benchmarks, sino en quién tiene la mano sobre el interruptor y dónde viven de verdad tus datos. Como siempre, lo importante no es lo que la máquina puede hacer, sino quién manda sobre ella.

Con la pastilla roja bien tragada.

Fuentes: