GLM 5.2 es mi nuevo modelo favorito...
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00El mejor modelo abierto del mundo ahora mismo no viene de una empresa llamada OpenAI, sino, por supuesto, de
00:00:04un laboratorio chino, y se trata de GLM 5.2 de Zhipu. Este modelo es realmente impresionante, iguala a GPT 5.5 en
00:00:10ciertos benchmarks e incluso hay una categoría donde parece superar a Claude, todo ello mientras
00:00:15tiene licencia MIT abierta. Vamos a echarle un vistazo. GLM 5.2 es un modelo de 744 mil millones de parámetros totales
00:00:26con 40 mil millones de parámetros activos, y en realidad tiene el mismo tamaño que su predecesor, el GLM 5.1,
00:00:31por lo que es muy impresionante que hayan logrado tal salto en el índice de inteligencia
00:00:35de Artificial Analysis. Esta es una puntuación combinada de varios benchmarks, como razonamiento, programación,
00:00:40ciencia y todo lo demás. GLM 5.2 obtuvo una puntuación de 51, que es 11 puntos superior a su iteración anterior
00:00:45y es el mejor modelo abierto por un margen bastante saludable. Puedes ver que Qwen 3.7 es el siguiente, luego Minimax M3,
00:00:51seguido de Kimi k 2.6. Esto lo coloca en el mismo terreno que Gemini 3.5 Flash y GPT 5.4
00:00:57en esfuerzo máximo, lo cual es una locura, y en algunos de los benchmarks incluidos en este índice, como GPQA,
00:01:03supera a GPT 5.5. Si nos centramos específicamente en la programación, también es excelente en el índice de código
00:01:09alcanzando la misma puntuación que Gemini 3.1 Pro y superando a Sonnet 4.6, y ni siquiera está tan lejos de
00:01:14los mejores modelos frontera. También está un poco por delante de Kimi k 2.7 Code, que es nuestro modelo más nuevo, del cual sé que
00:01:19mucha gente, incluyéndome a mí, somos grandes fans. Siempre he encontrado que los modelos Kimi tienen un toque
00:01:23realmente agradable. Fuera del índice de programación, otro benchmark que a la gente parece gustarle mucho estos
00:01:27días es SWE-bench, así que si echamos un vistazo, supera a Opus 4.7 en esfuerzo medio,
00:01:33lo cual es genuinamente impresionante. Cabe señalar aquí, sin embargo, que no todos los modelos han sido probados
00:01:38en este benchmark, y el arnés utilizado fue Claude Code; solo necesitas un poco de truco de API
00:01:42para apuntar a Zhipu en lugar de Anthropic. El último grupo de benchmarks que me gusta es Design Arena,
00:01:47y aquí es donde las cosas se ponen interesantes. GLM 5.2 acaba de tomar el primer lugar general en el leaderboard
00:01:53de diseño web HTML de un solo turno de Design Arena, convirtiéndose en el primer modelo en superar la línea de Claude,
00:01:58incluyendo a Claude 3.5. Parece que esta pudo haber sido un área de enfoque para el modelo, ya que una investigación adicional
00:02:02por parte de Design Arena parece mostrar que GLM 5.2 tiene un fuerte conjunto de plantillas expertas que evitan los
00:02:08patrones de diseño anti-IA comunes, así que deberías obtener menos degradados morados, y también parece funcionar muy bien
00:02:12con librerías comunes como Chart.js, Three.js y Tailwind. Viene con un pequeño inconveniente,
00:02:18que es un poco más lento, pero volveré a eso más tarde. Tampoco es el número uno en todas partes en Design Arena;
00:02:22ocupa el segundo lugar en desarrollo de juegos, visualización de datos y 3D, y cuarto en cuanto a componentes de interfaz de usuario, pero eso es
00:02:28todavía súper impresionante. Pensé en probar esto en algunas aplicaciones de demostración, y la primera fue en realidad
00:02:32recrear Linear. Pero una de las cosas molestas de GLM 5.2, que es una desventaja,
00:02:37es que solo acepta modalidades de texto, así que no puedes subir una captura de pantalla y decir “recrea esto”.
00:02:42así que lo que hice fue enviarle una captura de pantalla a Claude y pedirle que me diera una instrucción para recrear esto
00:02:46y ese es el prompt que terminé dándole a GLM 5.2. Independientemente de eso, los resultados que obtuve fueron súper
00:02:51impresionantes. A la izquierda aquí tengo la página web real de Linear y a la derecha tenemos la recreación de GLM;
00:02:55puedes ver que captó los elementos generales, y para la captura de pantalla de hecho simplemente
00:02:59recreó la interfaz, lo cual creo que fue genial. Mientras bajamos, puedes ver que captó en general
00:03:04la sensación del sitio web de Linear, y realmente creo que se ve muy bien. Así que tiene fuertes habilidades
00:03:09de diseño de interfaz. Obviamente no es perfecto, ya que no pudo tomar una captura de pantalla, así que está haciendo esto como
00:03:14una recreación de ese prompt de texto que te mostré, pero esta página web se ve muy bien. Para comparar,
00:03:19a la izquierda tengo lo que Claude Opus 4.8 me dio con el mismo prompt, y este es
00:03:23Kimi k 2.7 Code, y de nuevo, todos hicieron un buen trabajo recreando el sitio web solo a partir de ese
00:03:29prompt. Y de hecho creo que quizás me guste más el de Kimi k 2.7, simplemente tiene la
00:03:34mejor sensación general y se ve más completo, en mi opinión. Lo siguiente que pensé es que sería bueno
00:03:38darles a estos modelos un nuevo sitio web que probablemente no hayan visto antes, ya que Linear probablemente está en
00:03:42los datos de entrenamiento de muchos de estos modelos, así que dije: “diseña y construye un hermoso sitio web de una página
00:03:46para un producto ficticio llamado North Star”. Es una aplicación de planificación personal impulsada por IA. Puedes ver
00:03:50que también hay algo de dirección de diseño aquí abajo, como que queremos una sección hero, algo de prueba social, una sección de precios,
00:03:56todas las cosas habituales. Y aquí abajo la dirección de diseño es: estética SaaS limpia y premium,
00:04:00gradientes suaves, tipografía fuerte, tarjetas redondeadas, etcétera. Este es el resultado que obtuve de dos de los
00:04:06modelos, y al final les diré cuál es cuál, pero pueden ver, mientras bajamos, que creo que
00:04:10se ve muy bien y creo que hizo un trabajo bastante bueno. Es un sitio web de startup bastante básico con tu
00:04:15sección normal de precios y demás, y lo mismo a la derecha aquí. Quizás me guste un poco más este estilo,
00:04:20pero pueden ver que ha optado por ese aspecto de IA con gradientes morados, pero creo que hay algo
00:04:25en este sitio web que se ve un poco más limpio y más completo para mí, pero eso es
00:04:29completamente subjetivo. Si tienes un favorito, dímelo en los comentarios de abajo y suscríbete
00:04:33mientras estás allí. El de la izquierda fue en realidad GLM 5.2 y este fue Claude Opus 4.8.
00:04:39Para completar, esto es lo que Kimi k 2.7 Code me dio, y sí creo que este cae en ese tipo de
00:04:43look y sensación de IA con esos gradientes morados. Es un poco similar al de Claude, solo que con menos
00:04:48animaciones y menos pulido. También quería ver rápidamente aquí qué haría GLM 5.2 si no le diera ninguna
00:04:53dirección de diseño, así que le di la parte inicial del prompt y no creo que
00:04:56el resultado se vea mal, pero no estoy seguro de estar de acuerdo con Design Arena en que esto no tiene el
00:05:01look habitual de IA; realmente está usando esos gradientes morados al máximo. Para la siguiente prueba,
00:05:05pensé en probarlos haciendo aplicaciones de Three.js en un solo intento, y simplemente dije: “construye un juego de Three.js
00:05:10donde pueda correr un coche de F1 alrededor de Silverstone”. Puedes ver que este se puso a trabajar aquí, y esto tomó
00:05:15en total unos 10 minutos. Si bajamos hasta el final, usó 40,000 tokens y costó 32
00:05:20centavos. Este es el resultado que GLM 5.2 nos dio; puedes ver que dice “Silverstone F1” y “enciende tus
00:05:25motores”. Por cierto, Lewis Hamilton acaba de ganar para Ferrari, ¡eso es absolutamente increíble! Me alegra ver que tenemos
00:05:30un coche rojo aquí como Ferrari, aunque definitivamente somos un poco más lentos de lo que me gustaría ser
00:05:35y una cosa que noto aquí es que si presiono 'A' parezco ir a la derecha y 'D' a la izquierda, así que los controles están
00:05:40invertidos, pero no en las teclas de flecha, y esto definitivamente no es la velocidad a la que me gustaría que
00:05:45un Ferrari fuera alrededor de Silverstone, pero oye, no está tan mal para un primer intento, en realidad
00:05:51parece que voy más rápido si voy en reversa, así que tal vez si solo voy en reversa alrededor de la pista sea mejor. Probé
00:05:55la misma prueba con Kimi k 2.7 Code, pero en realidad no obtuve un ejemplo funcional en un solo
00:05:59prompt. En algún lugar aquí abajo tuve algunos errores de consola que se repetían constantemente, así que tuve
00:06:04que decirle que tuve algunos errores, pero luego los arregló en el segundo prompt, y puedes ver
00:06:08que este usó más tokens, 110,000, y costó 81 centavos. El resultado que obtuve también fue
00:06:14un poco menos jugable. Parece que tenemos un poco más de velocidad, pero nuestro radio de giro es terrible. No
00:06:19creo haber visto nunca a un conductor de F1 girar así, y también podemos conducir a través de algunos edificios
00:06:23aquí. Es genial que tuvieran los nombres de las curvas en Silverstone, pero no hay pista, es
00:06:27aparentemente solo bolardos. El último entonces es Claude Opus 4.8, y este es un poco más jugable
00:06:33aparte del hecho de que no creo que haya árboles en medio de la pista de Silverstone. Quiero decir,
00:06:37la última vez que revisé no los había. Y sí, en general es un juego bastante bueno, tenemos algunos controles de cámara
00:06:42aquí. A mis ruedas probablemente no les gustaría si fuera un conductor de F1, pero parece estar manejando
00:06:47bien, y la pista en sí, sin embargo, es también una de las pistas más confusas que creo que he visto
00:06:52que alguien haya corrido. Hay muchas superposiciones ocurriendo aquí y en realidad no sé hacia dónde
00:06:57ir, pero diría que Opus 4.8 nos dio la demostración más jugable en un solo prompt. La prueba final que hice
00:07:02es un poco más compleja: un frontend y un backend desde cero de una gestión de finanzas personales,
00:07:07un dashboard con algunas características que puedes ver listadas aquí. Y la idea general aquí es
00:07:11ver qué stack elige cuando empieza desde cero y también si puede conectar un frontend y un backend
00:07:16todo en ese único prompt sin errores. Aquí está el intento de GLM 5.2, y tengo que decir que sí, es un
00:07:22dashboard con un aspecto bastante básico, no hay nada lujoso, pero tampoco hay muchas cosas lujosas que puedas
00:07:26hacer con el tipo de prompt que le di. Todo parece estar funcionando, he añadido cosas a la base de datos,
00:07:32pagué mi suscripción de Claude 3.5 aquí. Todas estas páginas son clicables y todo se transfiere
00:07:37entre ellas cuando hago clic en estas. Lo he probado, así que parece haber hecho un muy buen trabajo a partir
00:07:41de ese único prompt. Siempre tengo curiosidad por ver qué stack eligió también, y este eligió una aplicación Next.js
00:07:46y usó Prisma para la base de datos, y podemos ver que aquí también tenemos una base de datos de desarrollo.
00:07:50Probablemente hubiera preferido que usara Drizzle y quizás TanStack, pero realmente no puedo
00:07:55quejarme, no le di ninguna dirección. Esto es lo que Kimi k 2.7 Code me dio, y puedes ver que es
00:07:59casi exactamente la misma aplicación, solo que diría que no es tan elegante. Definitivamente tienen algunas de
00:08:04las mismas plantillas en sus datos de entrenamiento en alguna parte que se ven exactamente así, y de nuevo, sí, no puedo
00:08:09quejarme demasiado sobre esto, pero le faltan todos los extras con los botones para poder
00:08:13transferir. Tengo las funciones de añadir cuenta y añadir transacciones, funcionan, pero simplemente diría que la
00:08:18interfaz de usuario general de esto y la experiencia del usuario es un poco peor, ya que no tiene esa información
00:08:23clicable aquí arriba. El stack predeterminado que eligió también diría que es un poco peor: usó React aquí con
00:08:28una configuración normal de Vite y React Router, con lo cual no tengo problemas, pero en el backend fue con
00:08:33Express, y si echamos un vistazo al archivo real de base de datos, simplemente está usando node-sqlite para escribir en ella y
00:08:39escribir los esquemas en el texto aquí, lo cual creo que será un poco menos escalable. Si yo estuviera
00:08:43completamente “vibe coding” y no supiera nada sobre el stack, probablemente querría GLM 5.2, pero si estuviera
00:08:48usando Kimi k 2.7 Code, probablemente le habría dado instrucciones para usar Drizzle, Next.js y
00:08:53otras cosas también, así que simplemente varía según lo que te guste. Hablando de ser subjetivo también, este
00:08:58es en realidad lo que Claude Opus 4.8 me dio. Definitivamente fue con un estilo completamente diferente
00:09:03a los que hemos visto antes, pero es una especie de estilo de texto que a Claude parece gustarle en
00:09:07este momento. Definitivamente es lo que pusieron en los datos de entrenamiento o hacia lo que lo están empujando, y todo
00:09:11esto funciona realmente bien, y sí, creo que se ve muy bien. Probablemente le pediría que tal vez usara
00:09:16fuentes diferentes y un esquema de colores diferente, pero la base general es muy buena. No
00:09:20hizo páginas separadas para esto, solo hizo secciones separadas, así que tal vez eso sea peor, pero de nuevo,
00:09:25eso depende del prompt. Todas las características y todo eso funcionan. Echando un vistazo
00:09:29al código real que Opus me dio, de hecho creo que GLM 5.2 pudo haber ganado esta vez. Lo que Opus
00:09:34hizo es que simplemente usó una aplicación de React normal, ni siquiera se molestó con React Router ya que estaba
00:09:38todo en esa única página allí, y también fue con Express para su backend, pero luego no
00:09:43hizo ninguna conexión a una base de datos. Todo es en realidad solo un almacén en memoria que podemos ver
00:09:48aquí, donde introduce los datos y simplemente ejecuta todo desde un objeto de JavaScript, lo cual de nuevo, probablemente
00:09:53no es lo que quiero si voy a escalar esto en el futuro, pero sí depende del prompt. Creo
00:09:58que esa es mi conclusión clave al probar este modelo durante los últimos días. Creo que para muchas
00:10:02tareas podrías intercambiar secretamente a GLM 5.2 en lugar de Sonnet o incluso Opus para tareas más simples y
00:10:07probablemente no lo notaría. Es un modelo realmente capaz y si le das la orientación correcta obtienes
00:10:12resultados realmente buenos. Es uno de los primeros modelos abiertos que no he sentido que estoy luchando por
00:10:16usar, y también uno de los primeros modelos abiertos donde al usarlo no he tenido esa sensación de “sé que Claude
00:10:21podría hacer esto mejor o más rápido”. Lo último que hay que mencionar para completar esto son los tokens, el costo y
00:10:25la velocidad. Una de las desventajas de GLM 5.2 podría ser que es un poco más hambriento de tokens cuando se compara con
00:10:31otros modelos de su clase; utilizó un promedio de 43,000 tokens por tarea, que es más que Kimi k 2.6,
00:10:37Minimax y DeepSeek, pero la buena noticia es que en realidad no cuesta tanto, dependiendo del
00:10:41proveedor; es alrededor de 1.40 dólares por un millón de tokens de entrada y 4.40 dólares por un millón de tokens de salida. Y en los
00:10:47benchmarks de Artificial Analysis, de hecho cuesta alrededor de 50 centavos por tarea, y puedes ver que este es un
00:10:52punto bastante bueno cuando comparamos costo versus inteligencia. Ignora la etiqueta de Gemini aquí, es en realidad este punto azul,
00:10:57y puedes ver que es un gráfico bastante lleno, pero lo que esto muestra realmente es que a su nivel de
00:11:02inteligencia, GLM 5.2 es el modelo más barato, aunque diré aquí que si puedes permitirte sacrificar un poco de inteligencia,
00:11:07creo que Minimax y especialmente DeepSeek V4 son muy buenos por ese precio. Cuando se trata de velocidad,
00:11:12GLM 5.2 no está nada mal. Superó a la mayoría de los modelos abiertos cercanos a su nivel de inteligencia
00:11:17como DeepSeek V4, Kimi 2.7 Code y Minimax, y está un poco detrás de un modelo frontera como Gemini 3.1 Pro,
00:11:24que tiene el mismo nivel de inteligencia, pero ese es un modelo frontera. También me encantaría ver a Gemini
00:11:283.5 Pro añadido a esta lista, ¡Google, por favor publícalo! Cuando se trata de velocidad también, Design Arena
00:11:33aparentemente obtuvo un resultado un poco diferente, donde dicen que GLM 5.2 obtiene la puntuación más alta en
00:11:38preferencia de usuario del diseño, pero fue también el más lento de los mejores modelos, aunque también
00:11:42vale la pena señalar que todos esos mejores modelos son de frontera y no abiertos. En general, realmente
00:11:47parece que estamos en un punto donde estos modelos abiertos están, digamos, de cuatro a seis meses atrás, así que
00:11:51quizás de manera demasiado optimista podríamos estar viendo un modelo Claude para el próximo año, y quiero decir, ellos mismos
00:11:56están prometiendo para el primer trimestre. Y odio estar de acuerdo con esta siguiente persona en algo, pero hace un
00:12:01buen punto aquí de que tal vez en los benchmarks podrían alcanzar a Claude, pero la utilidad real se siente
00:12:06un poco diferente, y esto es en lo que Anthropic es muy bueno. Es muy raro verlo realmente
00:12:10haciéndoles un cumplido allí, pero tengo que estar de acuerdo con ese sentimiento, donde realmente usar
00:12:14estos modelos se siente un poco diferente, pero creo que GLM 5.2 es uno de los primeros que ha roto
00:12:19ese ciclo para mí. Creo que si me hubieras dicho hace un año que estos modelos abiertos estarían cerca de
00:12:23ser así de buenos, me habría quedado absolutamente sorprendido y probablemente no te habría creído. Y en realidad no soy
00:12:27un prepper del fin del mundo, pero siento que con la reciente prohibición de Claude, solo quiero descargar GLM 5.2 y guardarlo
00:12:31en un SSD, por si acaso lo necesito más tarde. Déjame saber qué piensas de este modelo en los comentarios
00:12:36aquí abajo, y también dime cuál es tu modelo abierto favorito para usar. Mientras estás ahí, suscríbete
00:12:40y, como siempre, nos vemos en el próximo video.