00:00:00Los chicos de ZAI acaban de lanzar GLM 4.7,
00:00:03y a $29 al año,
00:00:04esto es ridículamente barato para un modelo que afirman alcanza el 73% en SWE bench,
00:00:10al nivel de Sonnet 4.5.
00:00:11El timing no es casualidad.
00:00:12Están saliendo a bolsa y necesitan demostrar tracción en occidente..
00:00:15Incluso hicieron un Q&A en vivo en Reddit,
00:00:17algo que nunca he visto que un laboratorio de IA chino haga.
00:00:19Pero 4.6 tenía problemas reales.
00:00:21¿Está 4.7 realmente arreglado?.
00:00:23Hola a todos,
00:00:23si son nuevos aquí,
00:00:24esto es AI Labs,
00:00:25y bienvenidos a otro episodio de Debunked,
00:00:27una serie donde tomamos herramientas de IA y modelos de IA,
00:00:30eliminamos el marketing exagerado y mostramos qué pueden hacer realmente con pruebas reales y resultados honestos.
00:00:35El nuevo modelo se mejoró principalmente a través del post-entrenamiento,
00:00:38no de cambios de arquitectura.
00:00:40Está muy optimizado para Claude Code,
00:00:41y el equipo de ZAI dijo explícitamente que este es su framework prioritario.
00:00:46Actualmente,
00:00:46está superando a muchos de los modelos de primer nivel,
00:00:49incluyendo GPT-5,
00:00:50especialmente en benchmarks de codificación.
00:00:52En todos sus planes de codificación,
00:00:53hay algo adicional que añadieron: estas nuevas herramientas MCP,
00:00:57que no están integradas directamente.
00:00:58Son servidores MCP separados.
00:01:00Tienen listados tres por ahora..
00:01:02Y para que todos funcionen, solo necesitas una clave API.
00:01:04Por eso están incluidos en el plan,
00:01:06pero separados del modelo..
00:01:07En cuanto a los límites de uso,
00:01:09son prácticamente iguales a los de 4.6.
00:01:11Pero si no sabes cuáles eran antes,
00:01:13acabo de generar un informe sobre eso.
00:01:15Lo gracioso es que primero intenté generarlo con Gemini 3,
00:01:18y por alguna razón no pudo darme una comparación adecuada de los planes.
00:01:22Volví a Claude, e hizo la investigación muy bien.
00:01:24Básicamente,
00:01:24lo único que necesitas saber es que para el plan de entrada,
00:01:27obtienes 10 a 40 prompts en Claude Code,
00:01:29mientras que en GLM coding,
00:01:31obtienes 120 prompts por solo $3,
00:01:32lo cual es una enorme diferencia.
00:01:34Esto solo aumenta conforme subes a niveles más altos,
00:01:38donde el plan de $200 te da hasta 800 prompts en esa ventana de 5 horas con Claude,
00:01:42mientras que $30 te da 2,
00:01:44400.
00:01:44Todas estas tarifas están rebajadas el primer mes,
00:01:47luego se duplican.
00:01:48Pero si estás en el plan anual, es mucho más asequible.
00:01:50Otro benchmark significativo fue el último examen de la humanidad.
00:01:53Para quienes no lo sepan,
00:01:54es uno de esos benchmarks no saturados,
00:01:56y la mayoría de los modelos nuevos aún puntúan bajo porque es genuinamente difícil.
00:02:00Para probar realmente la UI,
00:02:02tenemos este prompt,
00:02:03que no se enfoca realmente en la arquitectura.
00:02:05Se enfoca principalmente en la lógica de diseño que el modelo debe implementar,
00:02:09mientras también proporciona algunas opciones de diseño.
00:02:11Podemos ver entonces,
00:02:12basándonos en la empresa que estoy proponiendo,
00:02:14que en este caso es una plataforma de revisión de código impulsada por IA,
00:02:17qué es lo que crea.
00:02:18También nos suscribimos al plan MAX,
00:02:19y hay dos formas en que puedes conectarlo con Claude Code.
00:02:22En ambos casos,
00:02:23cambias el settings.json,
00:02:25pero uno está ubicado en la raíz de tu proyecto,
00:02:27lo que cambia la configuración global.
00:02:29Si lo haces dentro de tu proyecto,
00:02:31entonces solo lo cambia para ese proyecto.
00:02:33Hicimos esto para que pudiéramos compararlo con Sonnet 4.5.
00:02:36Esto es lo que Sonnet 4.5 creó.
00:02:38El prompt es bastante bueno,
00:02:39y lo hemos estado usando para identificar realmente cuál de estos modelos construye UI y cuán creativos son haciéndolo.
00:02:45Es vanilla JS simple,
00:02:46así que no estamos mirando la arquitectura ahora mismo,
00:02:48solo el diseño.
00:02:49Esto es lo que GLM 4.7 creó.
00:02:52En términos de diseño,
00:02:53está bastante bien,
00:02:53pero cometió un error aquí donde no realmente no contabilizó la longitud,
00:02:57por eso los artefactos se están rompiendo un poco.
00:02:59Aparte de eso,
00:03:00el diseño es sólido,
00:03:00pero estos emojis definitivamente no me gustan.
00:03:02Sonnet no usó ningún emoji,
00:03:04lo cual es bueno y coincide con el lenguaje de diseño.
00:03:06Para probar ambos,
00:03:07tengo este proyecto Next.js prearmado,
00:03:10que tiene este contexto inicializado que necesita construir una UI escalable y lista para backend.
00:03:15Esta parte es importante porque,
00:03:17conforme voy a evaluar las razones por las que GLM sorpresivamente tuvo mejor rendimiento,
00:03:21va a volver a este punto.
00:03:22Framer Motion y componentes de ShadCN han sido pre-instalados para construir la UI.
00:03:27A ambos se les pidió que construyan la página principal del navegador para una plataforma de streaming tipo Netflix.
00:03:32Se especificó qué construir y qué necesita estar en la página.
00:03:35Si hablamos de la usabilidad del modelo GLM con Claude Code,
00:03:39un problema con GLM 4.6 era que era extremadamente lento en generación de código.
00:03:43Aquí,
00:03:44ese problema,
00:03:45según mi experiencia,
00:03:45no ha sido resuelto.
00:03:46Sigue siendo extremadamente lento..
00:03:48Pero hay un cambio.
00:03:49Con GLM 4.6,
00:03:50el modelo realmente no pensaba,
00:03:52es decir,
00:03:52no pensaba dentro de Claude Code..
00:03:54La transcripción detallada que obtienes aquí claramente muestra pensamiento,
00:03:58pero eso no se mostraba en 4.6.
00:03:59Claramente puedes ver aquí que sí piensa con el modelo 4.7,
00:04:02así que eso ha sido arreglado.
00:04:04Aparte de eso, hay algunos detalles que necesitas saber.
00:04:07GLM 4.7 no es muy autónomo..
00:04:09Descubrí esto durante mis pruebas.
00:04:10Como puedes ver aquí,
00:04:11esta carpeta de GLM ya tiene una carpeta de benchmark de UI en la que debe implementar la app,
00:04:16pero optó por ignorarla..
00:04:18Aunque claramente estaba escrito en el contexto,
00:04:20fue y creó otra app Next.js por su cuenta.
00:04:22Ni siquiera la inicializó, solo comenzó a escribir código.
00:04:25A veces actúa realmente de forma tonta..
00:04:27Pero después de que la corregí y la orienté en la dirección correcta,
00:04:30en términos de implementación,
00:04:31esto es lo que Claude creó.
00:04:32De nuevo,
00:04:33siendo el modelo superior,
00:04:34es bastante bueno en UI.
00:04:35Esto es lo que GLM 4.7 creó.
00:04:37Claude obviamente creó una UI mejor porque,
00:04:39en nuestra opinión,
00:04:40sigue siendo mejor en diseño..
00:04:42Para el precio, está bien.
00:04:43Pero después de que analicé el código y profundicé en él,
00:04:46como se les dijo que se suponía que era back-end ready y que por ahora necesitan usar datos simulados,
00:04:51el modelo GLM implementó una arquitectura mejor colocando todos los datos simulados en un archivo..
00:04:56Entonces cuando necesitamos intercambiarlo,
00:04:58solo necesitamos cambiar ese archivo porque los imports están conectados ahí,
00:05:01a diferencia de lo que implementó Claude donde cada otro componente tiene su propio import.
00:05:05Cuando realmente implementemos el backend,
00:05:07tendremos que cambiar todos esos archivos uno por uno.
00:05:09En términos de arquitectura básica y calidad de código,
00:05:12GLM realmente lo hizo bien,
00:05:14y me sorprendió porque 4.6 no era así de bueno en mis pruebas.
00:05:17El plan anterior realmente no estaba justificado por cuánto tuve que orientarlo y cuántos errores cometió,
00:05:22pero este definitivamente es un salto enorme.
00:05:24Esos benchmarks definitivamente están justificados por las pruebas que he hecho.
00:05:27También he mirado algunas otras cosas pequeñas en el código,
00:05:30y GLM 4.7 es realmente un buen modelo.
00:05:32Dados estos resultados inesperados,
00:05:34honestamente estamos recomendando que todos obtengan el plan de $29 por año.
00:05:38Si ya tienes el plan de $20 de Claude,
00:05:40esto es básicamente nada en comparación.
00:05:42Dicho esto,
00:05:43sigue sin ser un modelo que usarías para codificación completamente autónoma.
00:05:46Aunque Claude realmente se equivocó en la arquitectura aquí,
00:05:49es lo suficientemente bueno para que pueda corregir y mejorar eso más tarde.
00:05:52Pero con los pequeños detalles que GLM aún tiene,
00:05:54no creemos que sea una buena idea depender únicamente de él.
00:05:57Eso nos lleva al final de este video.
00:05:58Si deseas apoyar el canal y ayudarnos a seguir haciendo videos como este,
00:06:02puedes hacerlo usando el botón de Super Thanks abajo.
00:06:05Como siempre, gracias por ver y nos vemos en el próximo.