GLM 5.2 es mi nuevo modelo favorito...

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00El mejor modelo abierto del mundo ahora mismo no viene de una empresa llamada OpenAI, sino, por supuesto, de
00:00:04un laboratorio chino, y se trata de GLM 5.2 de Zhipu. Este modelo es realmente impresionante, iguala a GPT 5.5 en
00:00:10ciertos benchmarks e incluso hay una categoría donde parece superar a Claude, todo ello mientras
00:00:15tiene licencia MIT abierta. Vamos a echarle un vistazo. GLM 5.2 es un modelo de 744 mil millones de parámetros totales
00:00:26con 40 mil millones de parámetros activos, y en realidad tiene el mismo tamaño que su predecesor, el GLM 5.1,
00:00:31por lo que es muy impresionante que hayan logrado tal salto en el índice de inteligencia
00:00:35de Artificial Analysis. Esta es una puntuación combinada de varios benchmarks, como razonamiento, programación,
00:00:40ciencia y todo lo demás. GLM 5.2 obtuvo una puntuación de 51, que es 11 puntos superior a su iteración anterior
00:00:45y es el mejor modelo abierto por un margen bastante saludable. Puedes ver que Qwen 3.7 es el siguiente, luego Minimax M3,
00:00:51seguido de Kimi k 2.6. Esto lo coloca en el mismo terreno que Gemini 3.5 Flash y GPT 5.4
00:00:57en esfuerzo máximo, lo cual es una locura, y en algunos de los benchmarks incluidos en este índice, como GPQA,
00:01:03supera a GPT 5.5. Si nos centramos específicamente en la programación, también es excelente en el índice de código
00:01:09alcanzando la misma puntuación que Gemini 3.1 Pro y superando a Sonnet 4.6, y ni siquiera está tan lejos de
00:01:14los mejores modelos frontera. También está un poco por delante de Kimi k 2.7 Code, que es nuestro modelo más nuevo, del cual sé que
00:01:19mucha gente, incluyéndome a mí, somos grandes fans. Siempre he encontrado que los modelos Kimi tienen un toque
00:01:23realmente agradable. Fuera del índice de programación, otro benchmark que a la gente parece gustarle mucho estos
00:01:27días es SWE-bench, así que si echamos un vistazo, supera a Opus 4.7 en esfuerzo medio,
00:01:33lo cual es genuinamente impresionante. Cabe señalar aquí, sin embargo, que no todos los modelos han sido probados
00:01:38en este benchmark, y el arnés utilizado fue Claude Code; solo necesitas un poco de truco de API
00:01:42para apuntar a Zhipu en lugar de Anthropic. El último grupo de benchmarks que me gusta es Design Arena,
00:01:47y aquí es donde las cosas se ponen interesantes. GLM 5.2 acaba de tomar el primer lugar general en el leaderboard
00:01:53de diseño web HTML de un solo turno de Design Arena, convirtiéndose en el primer modelo en superar la línea de Claude,
00:01:58incluyendo a Claude 3.5. Parece que esta pudo haber sido un área de enfoque para el modelo, ya que una investigación adicional
00:02:02por parte de Design Arena parece mostrar que GLM 5.2 tiene un fuerte conjunto de plantillas expertas que evitan los
00:02:08patrones de diseño anti-IA comunes, así que deberías obtener menos degradados morados, y también parece funcionar muy bien
00:02:12con librerías comunes como Chart.js, Three.js y Tailwind. Viene con un pequeño inconveniente,
00:02:18que es un poco más lento, pero volveré a eso más tarde. Tampoco es el número uno en todas partes en Design Arena;
00:02:22ocupa el segundo lugar en desarrollo de juegos, visualización de datos y 3D, y cuarto en cuanto a componentes de interfaz de usuario, pero eso es
00:02:28todavía súper impresionante. Pensé en probar esto en algunas aplicaciones de demostración, y la primera fue en realidad
00:02:32recrear Linear. Pero una de las cosas molestas de GLM 5.2, que es una desventaja,
00:02:37es que solo acepta modalidades de texto, así que no puedes subir una captura de pantalla y decir “recrea esto”.
00:02:42así que lo que hice fue enviarle una captura de pantalla a Claude y pedirle que me diera una instrucción para recrear esto
00:02:46y ese es el prompt que terminé dándole a GLM 5.2. Independientemente de eso, los resultados que obtuve fueron súper
00:02:51impresionantes. A la izquierda aquí tengo la página web real de Linear y a la derecha tenemos la recreación de GLM;
00:02:55puedes ver que captó los elementos generales, y para la captura de pantalla de hecho simplemente
00:02:59recreó la interfaz, lo cual creo que fue genial. Mientras bajamos, puedes ver que captó en general
00:03:04la sensación del sitio web de Linear, y realmente creo que se ve muy bien. Así que tiene fuertes habilidades
00:03:09de diseño de interfaz. Obviamente no es perfecto, ya que no pudo tomar una captura de pantalla, así que está haciendo esto como
00:03:14una recreación de ese prompt de texto que te mostré, pero esta página web se ve muy bien. Para comparar,
00:03:19a la izquierda tengo lo que Claude Opus 4.8 me dio con el mismo prompt, y este es
00:03:23Kimi k 2.7 Code, y de nuevo, todos hicieron un buen trabajo recreando el sitio web solo a partir de ese
00:03:29prompt. Y de hecho creo que quizás me guste más el de Kimi k 2.7, simplemente tiene la
00:03:34mejor sensación general y se ve más completo, en mi opinión. Lo siguiente que pensé es que sería bueno
00:03:38darles a estos modelos un nuevo sitio web que probablemente no hayan visto antes, ya que Linear probablemente está en
00:03:42los datos de entrenamiento de muchos de estos modelos, así que dije: “diseña y construye un hermoso sitio web de una página
00:03:46para un producto ficticio llamado North Star”. Es una aplicación de planificación personal impulsada por IA. Puedes ver
00:03:50que también hay algo de dirección de diseño aquí abajo, como que queremos una sección hero, algo de prueba social, una sección de precios,
00:03:56todas las cosas habituales. Y aquí abajo la dirección de diseño es: estética SaaS limpia y premium,
00:04:00gradientes suaves, tipografía fuerte, tarjetas redondeadas, etcétera. Este es el resultado que obtuve de dos de los
00:04:06modelos, y al final les diré cuál es cuál, pero pueden ver, mientras bajamos, que creo que
00:04:10se ve muy bien y creo que hizo un trabajo bastante bueno. Es un sitio web de startup bastante básico con tu
00:04:15sección normal de precios y demás, y lo mismo a la derecha aquí. Quizás me guste un poco más este estilo,
00:04:20pero pueden ver que ha optado por ese aspecto de IA con gradientes morados, pero creo que hay algo
00:04:25en este sitio web que se ve un poco más limpio y más completo para mí, pero eso es
00:04:29completamente subjetivo. Si tienes un favorito, dímelo en los comentarios de abajo y suscríbete
00:04:33mientras estás allí. El de la izquierda fue en realidad GLM 5.2 y este fue Claude Opus 4.8.
00:04:39Para completar, esto es lo que Kimi k 2.7 Code me dio, y sí creo que este cae en ese tipo de
00:04:43look y sensación de IA con esos gradientes morados. Es un poco similar al de Claude, solo que con menos
00:04:48animaciones y menos pulido. También quería ver rápidamente aquí qué haría GLM 5.2 si no le diera ninguna
00:04:53dirección de diseño, así que le di la parte inicial del prompt y no creo que
00:04:56el resultado se vea mal, pero no estoy seguro de estar de acuerdo con Design Arena en que esto no tiene el
00:05:01look habitual de IA; realmente está usando esos gradientes morados al máximo. Para la siguiente prueba,
00:05:05pensé en probarlos haciendo aplicaciones de Three.js en un solo intento, y simplemente dije: “construye un juego de Three.js
00:05:10donde pueda correr un coche de F1 alrededor de Silverstone”. Puedes ver que este se puso a trabajar aquí, y esto tomó
00:05:15en total unos 10 minutos. Si bajamos hasta el final, usó 40,000 tokens y costó 32
00:05:20centavos. Este es el resultado que GLM 5.2 nos dio; puedes ver que dice “Silverstone F1” y “enciende tus
00:05:25motores”. Por cierto, Lewis Hamilton acaba de ganar para Ferrari, ¡eso es absolutamente increíble! Me alegra ver que tenemos
00:05:30un coche rojo aquí como Ferrari, aunque definitivamente somos un poco más lentos de lo que me gustaría ser
00:05:35y una cosa que noto aquí es que si presiono 'A' parezco ir a la derecha y 'D' a la izquierda, así que los controles están
00:05:40invertidos, pero no en las teclas de flecha, y esto definitivamente no es la velocidad a la que me gustaría que
00:05:45un Ferrari fuera alrededor de Silverstone, pero oye, no está tan mal para un primer intento, en realidad
00:05:51parece que voy más rápido si voy en reversa, así que tal vez si solo voy en reversa alrededor de la pista sea mejor. Probé
00:05:55la misma prueba con Kimi k 2.7 Code, pero en realidad no obtuve un ejemplo funcional en un solo
00:05:59prompt. En algún lugar aquí abajo tuve algunos errores de consola que se repetían constantemente, así que tuve
00:06:04que decirle que tuve algunos errores, pero luego los arregló en el segundo prompt, y puedes ver
00:06:08que este usó más tokens, 110,000, y costó 81 centavos. El resultado que obtuve también fue
00:06:14un poco menos jugable. Parece que tenemos un poco más de velocidad, pero nuestro radio de giro es terrible. No
00:06:19creo haber visto nunca a un conductor de F1 girar así, y también podemos conducir a través de algunos edificios
00:06:23aquí. Es genial que tuvieran los nombres de las curvas en Silverstone, pero no hay pista, es
00:06:27aparentemente solo bolardos. El último entonces es Claude Opus 4.8, y este es un poco más jugable
00:06:33aparte del hecho de que no creo que haya árboles en medio de la pista de Silverstone. Quiero decir,
00:06:37la última vez que revisé no los había. Y sí, en general es un juego bastante bueno, tenemos algunos controles de cámara
00:06:42aquí. A mis ruedas probablemente no les gustaría si fuera un conductor de F1, pero parece estar manejando
00:06:47bien, y la pista en sí, sin embargo, es también una de las pistas más confusas que creo que he visto
00:06:52que alguien haya corrido. Hay muchas superposiciones ocurriendo aquí y en realidad no sé hacia dónde
00:06:57ir, pero diría que Opus 4.8 nos dio la demostración más jugable en un solo prompt. La prueba final que hice
00:07:02es un poco más compleja: un frontend y un backend desde cero de una gestión de finanzas personales,
00:07:07un dashboard con algunas características que puedes ver listadas aquí. Y la idea general aquí es
00:07:11ver qué stack elige cuando empieza desde cero y también si puede conectar un frontend y un backend
00:07:16todo en ese único prompt sin errores. Aquí está el intento de GLM 5.2, y tengo que decir que sí, es un
00:07:22dashboard con un aspecto bastante básico, no hay nada lujoso, pero tampoco hay muchas cosas lujosas que puedas
00:07:26hacer con el tipo de prompt que le di. Todo parece estar funcionando, he añadido cosas a la base de datos,
00:07:32pagué mi suscripción de Claude 3.5 aquí. Todas estas páginas son clicables y todo se transfiere
00:07:37entre ellas cuando hago clic en estas. Lo he probado, así que parece haber hecho un muy buen trabajo a partir
00:07:41de ese único prompt. Siempre tengo curiosidad por ver qué stack eligió también, y este eligió una aplicación Next.js
00:07:46y usó Prisma para la base de datos, y podemos ver que aquí también tenemos una base de datos de desarrollo.
00:07:50Probablemente hubiera preferido que usara Drizzle y quizás TanStack, pero realmente no puedo
00:07:55quejarme, no le di ninguna dirección. Esto es lo que Kimi k 2.7 Code me dio, y puedes ver que es
00:07:59casi exactamente la misma aplicación, solo que diría que no es tan elegante. Definitivamente tienen algunas de
00:08:04las mismas plantillas en sus datos de entrenamiento en alguna parte que se ven exactamente así, y de nuevo, sí, no puedo
00:08:09quejarme demasiado sobre esto, pero le faltan todos los extras con los botones para poder
00:08:13transferir. Tengo las funciones de añadir cuenta y añadir transacciones, funcionan, pero simplemente diría que la
00:08:18interfaz de usuario general de esto y la experiencia del usuario es un poco peor, ya que no tiene esa información
00:08:23clicable aquí arriba. El stack predeterminado que eligió también diría que es un poco peor: usó React aquí con
00:08:28una configuración normal de Vite y React Router, con lo cual no tengo problemas, pero en el backend fue con
00:08:33Express, y si echamos un vistazo al archivo real de base de datos, simplemente está usando node-sqlite para escribir en ella y
00:08:39escribir los esquemas en el texto aquí, lo cual creo que será un poco menos escalable. Si yo estuviera
00:08:43completamente “vibe coding” y no supiera nada sobre el stack, probablemente querría GLM 5.2, pero si estuviera
00:08:48usando Kimi k 2.7 Code, probablemente le habría dado instrucciones para usar Drizzle, Next.js y
00:08:53otras cosas también, así que simplemente varía según lo que te guste. Hablando de ser subjetivo también, este
00:08:58es en realidad lo que Claude Opus 4.8 me dio. Definitivamente fue con un estilo completamente diferente
00:09:03a los que hemos visto antes, pero es una especie de estilo de texto que a Claude parece gustarle en
00:09:07este momento. Definitivamente es lo que pusieron en los datos de entrenamiento o hacia lo que lo están empujando, y todo
00:09:11esto funciona realmente bien, y sí, creo que se ve muy bien. Probablemente le pediría que tal vez usara
00:09:16fuentes diferentes y un esquema de colores diferente, pero la base general es muy buena. No
00:09:20hizo páginas separadas para esto, solo hizo secciones separadas, así que tal vez eso sea peor, pero de nuevo,
00:09:25eso depende del prompt. Todas las características y todo eso funcionan. Echando un vistazo
00:09:29al código real que Opus me dio, de hecho creo que GLM 5.2 pudo haber ganado esta vez. Lo que Opus
00:09:34hizo es que simplemente usó una aplicación de React normal, ni siquiera se molestó con React Router ya que estaba
00:09:38todo en esa única página allí, y también fue con Express para su backend, pero luego no
00:09:43hizo ninguna conexión a una base de datos. Todo es en realidad solo un almacén en memoria que podemos ver
00:09:48aquí, donde introduce los datos y simplemente ejecuta todo desde un objeto de JavaScript, lo cual de nuevo, probablemente
00:09:53no es lo que quiero si voy a escalar esto en el futuro, pero sí depende del prompt. Creo
00:09:58que esa es mi conclusión clave al probar este modelo durante los últimos días. Creo que para muchas
00:10:02tareas podrías intercambiar secretamente a GLM 5.2 en lugar de Sonnet o incluso Opus para tareas más simples y
00:10:07probablemente no lo notaría. Es un modelo realmente capaz y si le das la orientación correcta obtienes
00:10:12resultados realmente buenos. Es uno de los primeros modelos abiertos que no he sentido que estoy luchando por
00:10:16usar, y también uno de los primeros modelos abiertos donde al usarlo no he tenido esa sensación de “sé que Claude
00:10:21podría hacer esto mejor o más rápido”. Lo último que hay que mencionar para completar esto son los tokens, el costo y
00:10:25la velocidad. Una de las desventajas de GLM 5.2 podría ser que es un poco más hambriento de tokens cuando se compara con
00:10:31otros modelos de su clase; utilizó un promedio de 43,000 tokens por tarea, que es más que Kimi k 2.6,
00:10:37Minimax y DeepSeek, pero la buena noticia es que en realidad no cuesta tanto, dependiendo del
00:10:41proveedor; es alrededor de 1.40 dólares por un millón de tokens de entrada y 4.40 dólares por un millón de tokens de salida. Y en los
00:10:47benchmarks de Artificial Analysis, de hecho cuesta alrededor de 50 centavos por tarea, y puedes ver que este es un
00:10:52punto bastante bueno cuando comparamos costo versus inteligencia. Ignora la etiqueta de Gemini aquí, es en realidad este punto azul,
00:10:57y puedes ver que es un gráfico bastante lleno, pero lo que esto muestra realmente es que a su nivel de
00:11:02inteligencia, GLM 5.2 es el modelo más barato, aunque diré aquí que si puedes permitirte sacrificar un poco de inteligencia,
00:11:07creo que Minimax y especialmente DeepSeek V4 son muy buenos por ese precio. Cuando se trata de velocidad,
00:11:12GLM 5.2 no está nada mal. Superó a la mayoría de los modelos abiertos cercanos a su nivel de inteligencia
00:11:17como DeepSeek V4, Kimi 2.7 Code y Minimax, y está un poco detrás de un modelo frontera como Gemini 3.1 Pro,
00:11:24que tiene el mismo nivel de inteligencia, pero ese es un modelo frontera. También me encantaría ver a Gemini
00:11:283.5 Pro añadido a esta lista, ¡Google, por favor publícalo! Cuando se trata de velocidad también, Design Arena
00:11:33aparentemente obtuvo un resultado un poco diferente, donde dicen que GLM 5.2 obtiene la puntuación más alta en
00:11:38preferencia de usuario del diseño, pero fue también el más lento de los mejores modelos, aunque también
00:11:42vale la pena señalar que todos esos mejores modelos son de frontera y no abiertos. En general, realmente
00:11:47parece que estamos en un punto donde estos modelos abiertos están, digamos, de cuatro a seis meses atrás, así que
00:11:51quizás de manera demasiado optimista podríamos estar viendo un modelo Claude para el próximo año, y quiero decir, ellos mismos
00:11:56están prometiendo para el primer trimestre. Y odio estar de acuerdo con esta siguiente persona en algo, pero hace un
00:12:01buen punto aquí de que tal vez en los benchmarks podrían alcanzar a Claude, pero la utilidad real se siente
00:12:06un poco diferente, y esto es en lo que Anthropic es muy bueno. Es muy raro verlo realmente
00:12:10haciéndoles un cumplido allí, pero tengo que estar de acuerdo con ese sentimiento, donde realmente usar
00:12:14estos modelos se siente un poco diferente, pero creo que GLM 5.2 es uno de los primeros que ha roto
00:12:19ese ciclo para mí. Creo que si me hubieras dicho hace un año que estos modelos abiertos estarían cerca de
00:12:23ser así de buenos, me habría quedado absolutamente sorprendido y probablemente no te habría creído. Y en realidad no soy
00:12:27un prepper del fin del mundo, pero siento que con la reciente prohibición de Claude, solo quiero descargar GLM 5.2 y guardarlo
00:12:31en un SSD, por si acaso lo necesito más tarde. Déjame saber qué piensas de este modelo en los comentarios
00:12:36aquí abajo, y también dime cuál es tu modelo abierto favorito para usar. Mientras estás ahí, suscríbete
00:12:40y, como siempre, nos vemos en el próximo video.

Key Takeaway

GLM 5.2 se posiciona como el modelo abierto más capaz y económicamente eficiente actualmente, logrando igualar el rendimiento de modelos frontera en tareas de programación y diseño web a pesar de carecer de modalidades multimodales.

Highlights

  • GLM 5.2 de Zhipu es un modelo abierto con 744 mil millones de parámetros totales y 40 mil millones de parámetros activos bajo licencia MIT.

  • El modelo alcanzó una puntuación de 51 en el índice de inteligencia de Artificial Analysis, superando a su predecesor por 11 puntos.

  • GLM 5.2 lidera el leaderboard de diseño web de Design Arena, convirtiéndose en el primer modelo en superar el rendimiento de Claude 3.5 en esa categoría.

  • El costo de ejecución de GLM 5.2 es de aproximadamente 1.40 dólares por millón de tokens de entrada y 4.40 dólares por millón de salida.

  • GLM 5.2 consume un promedio de 43,000 tokens por tarea, lo cual es superior al consumo de modelos como Kimi k 2.6 o DeepSeek.

  • El modelo supera a competidores cercanos como DeepSeek V4 y Kimi k 2.7 Code en velocidad de procesamiento manteniendo una inteligencia competitiva.

Timeline

Arquitectura y rendimiento en benchmarks

  • GLM 5.2 mantiene el tamaño de 744 mil millones de parámetros de la versión 5.1 pero incrementa su inteligencia notablemente.
  • El modelo se sitúa en la misma categoría de rendimiento que Gemini 3.5 Flash y GPT 5.4.
  • En el índice de código, el modelo iguala a Gemini 3.1 Pro y supera a Sonnet 4.6.

Zhipu ha logrado un salto significativo en la eficiencia de su modelo, alcanzando una puntuación de 51 en el índice de Artificial Analysis. Este rendimiento permite que el modelo compita directamente con modelos propietarios de gran escala, superando incluso a GPT 5.5 en benchmarks específicos como GPQA. A pesar de su potencia, el modelo está limitado a entradas de texto, lo que impide el procesamiento directo de imágenes o capturas de pantalla.

Capacidades de diseño y desarrollo web

  • GLM 5.2 lidera el leaderboard de diseño HTML de Design Arena gracias a plantillas expertas optimizadas.
  • El modelo demuestra alta competencia en la creación de aplicaciones con librerías como Chart.js, Three.js y Tailwind.
  • Las pruebas de creación de juegos en Three.js mostraron resultados funcionales en un solo prompt, aunque con controles iniciales invertidos.

El enfoque en el diseño web permite que este modelo evite patrones visuales anti-IA comunes, como el uso excesivo de gradientes morados. Las recreaciones de interfaces de usuario como el sitio web de Linear y prototipos de productos demuestran una capacidad superior para capturar la esencia estética solicitada mediante prompts. En tareas de juegos 3D, el modelo generó código funcional en 10 minutos con un costo de 32 centavos, destacando frente a alternativas que requirieron múltiples intentos para corregir errores de consola.

Stack tecnológico y eficiencia económica

  • GLM 5.2 elige automáticamente stacks modernos como Next.js y Prisma para desarrollo de dashboards.
  • El modelo ofrece el mejor equilibrio entre costo e inteligencia frente a otros modelos abiertos.
  • La velocidad de GLM 5.2 es superior a la de modelos equivalentes como DeepSeek V4 y Kimi k 2.7 Code.

Al realizar tareas complejas de frontend y backend, el modelo organiza la lógica de manera escalable, priorizando herramientas actuales del ecosistema web. Aunque su consumo de tokens es elevado, su bajo costo operativo por millón de tokens lo convierte en una opción financieramente viable para desarrolladores. La capacidad de este modelo para integrarse en flujos de trabajo sin la constante sensación de inferioridad frente a modelos frontera marca una transición importante en la utilidad de las soluciones de código abierto.

Community Posts

View all posts