GLM 4.7 es INCREÍBLE para Desarrollo de Software...

AAI LABS
컴퓨터/소프트웨어창업/스타트업재택/원격 근무AI/미래기술

Transcript

00:00:00Los chicos de ZAI acaban de lanzar GLM 4.7,
00:00:03y a $29 al año,
00:00:04esto es ridículamente barato para un modelo que afirman alcanza el 73% en SWE bench,
00:00:10al nivel de Sonnet 4.5.
00:00:11El timing no es casualidad.
00:00:12Están saliendo a bolsa y necesitan demostrar tracción en occidente..
00:00:15Incluso hicieron un Q&A en vivo en Reddit,
00:00:17algo que nunca he visto que un laboratorio de IA chino haga.
00:00:19Pero 4.6 tenía problemas reales.
00:00:21¿Está 4.7 realmente arreglado?.
00:00:23Hola a todos,
00:00:23si son nuevos aquí,
00:00:24esto es AI Labs,
00:00:25y bienvenidos a otro episodio de Debunked,
00:00:27una serie donde tomamos herramientas de IA y modelos de IA,
00:00:30eliminamos el marketing exagerado y mostramos qué pueden hacer realmente con pruebas reales y resultados honestos.
00:00:35El nuevo modelo se mejoró principalmente a través del post-entrenamiento,
00:00:38no de cambios de arquitectura.
00:00:40Está muy optimizado para Claude Code,
00:00:41y el equipo de ZAI dijo explícitamente que este es su framework prioritario.
00:00:46Actualmente,
00:00:46está superando a muchos de los modelos de primer nivel,
00:00:49incluyendo GPT-5,
00:00:50especialmente en benchmarks de codificación.
00:00:52En todos sus planes de codificación,
00:00:53hay algo adicional que añadieron: estas nuevas herramientas MCP,
00:00:57que no están integradas directamente.
00:00:58Son servidores MCP separados.
00:01:00Tienen listados tres por ahora..
00:01:02Y para que todos funcionen, solo necesitas una clave API.
00:01:04Por eso están incluidos en el plan,
00:01:06pero separados del modelo..
00:01:07En cuanto a los límites de uso,
00:01:09son prácticamente iguales a los de 4.6.
00:01:11Pero si no sabes cuáles eran antes,
00:01:13acabo de generar un informe sobre eso.
00:01:15Lo gracioso es que primero intenté generarlo con Gemini 3,
00:01:18y por alguna razón no pudo darme una comparación adecuada de los planes.
00:01:22Volví a Claude, e hizo la investigación muy bien.
00:01:24Básicamente,
00:01:24lo único que necesitas saber es que para el plan de entrada,
00:01:27obtienes 10 a 40 prompts en Claude Code,
00:01:29mientras que en GLM coding,
00:01:31obtienes 120 prompts por solo $3,
00:01:32lo cual es una enorme diferencia.
00:01:34Esto solo aumenta conforme subes a niveles más altos,
00:01:38donde el plan de $200 te da hasta 800 prompts en esa ventana de 5 horas con Claude,
00:01:42mientras que $30 te da 2,
00:01:44400.
00:01:44Todas estas tarifas están rebajadas el primer mes,
00:01:47luego se duplican.
00:01:48Pero si estás en el plan anual, es mucho más asequible.
00:01:50Otro benchmark significativo fue el último examen de la humanidad.
00:01:53Para quienes no lo sepan,
00:01:54es uno de esos benchmarks no saturados,
00:01:56y la mayoría de los modelos nuevos aún puntúan bajo porque es genuinamente difícil.
00:02:00Para probar realmente la UI,
00:02:02tenemos este prompt,
00:02:03que no se enfoca realmente en la arquitectura.
00:02:05Se enfoca principalmente en la lógica de diseño que el modelo debe implementar,
00:02:09mientras también proporciona algunas opciones de diseño.
00:02:11Podemos ver entonces,
00:02:12basándonos en la empresa que estoy proponiendo,
00:02:14que en este caso es una plataforma de revisión de código impulsada por IA,
00:02:17qué es lo que crea.
00:02:18También nos suscribimos al plan MAX,
00:02:19y hay dos formas en que puedes conectarlo con Claude Code.
00:02:22En ambos casos,
00:02:23cambias el settings.json,
00:02:25pero uno está ubicado en la raíz de tu proyecto,
00:02:27lo que cambia la configuración global.
00:02:29Si lo haces dentro de tu proyecto,
00:02:31entonces solo lo cambia para ese proyecto.
00:02:33Hicimos esto para que pudiéramos compararlo con Sonnet 4.5.
00:02:36Esto es lo que Sonnet 4.5 creó.
00:02:38El prompt es bastante bueno,
00:02:39y lo hemos estado usando para identificar realmente cuál de estos modelos construye UI y cuán creativos son haciéndolo.
00:02:45Es vanilla JS simple,
00:02:46así que no estamos mirando la arquitectura ahora mismo,
00:02:48solo el diseño.
00:02:49Esto es lo que GLM 4.7 creó.
00:02:52En términos de diseño,
00:02:53está bastante bien,
00:02:53pero cometió un error aquí donde no realmente no contabilizó la longitud,
00:02:57por eso los artefactos se están rompiendo un poco.
00:02:59Aparte de eso,
00:03:00el diseño es sólido,
00:03:00pero estos emojis definitivamente no me gustan.
00:03:02Sonnet no usó ningún emoji,
00:03:04lo cual es bueno y coincide con el lenguaje de diseño.
00:03:06Para probar ambos,
00:03:07tengo este proyecto Next.js prearmado,
00:03:10que tiene este contexto inicializado que necesita construir una UI escalable y lista para backend.
00:03:15Esta parte es importante porque,
00:03:17conforme voy a evaluar las razones por las que GLM sorpresivamente tuvo mejor rendimiento,
00:03:21va a volver a este punto.
00:03:22Framer Motion y componentes de ShadCN han sido pre-instalados para construir la UI.
00:03:27A ambos se les pidió que construyan la página principal del navegador para una plataforma de streaming tipo Netflix.
00:03:32Se especificó qué construir y qué necesita estar en la página.
00:03:35Si hablamos de la usabilidad del modelo GLM con Claude Code,
00:03:39un problema con GLM 4.6 era que era extremadamente lento en generación de código.
00:03:43Aquí,
00:03:44ese problema,
00:03:45según mi experiencia,
00:03:45no ha sido resuelto.
00:03:46Sigue siendo extremadamente lento..
00:03:48Pero hay un cambio.
00:03:49Con GLM 4.6,
00:03:50el modelo realmente no pensaba,
00:03:52es decir,
00:03:52no pensaba dentro de Claude Code..
00:03:54La transcripción detallada que obtienes aquí claramente muestra pensamiento,
00:03:58pero eso no se mostraba en 4.6.
00:03:59Claramente puedes ver aquí que sí piensa con el modelo 4.7,
00:04:02así que eso ha sido arreglado.
00:04:04Aparte de eso, hay algunos detalles que necesitas saber.
00:04:07GLM 4.7 no es muy autónomo..
00:04:09Descubrí esto durante mis pruebas.
00:04:10Como puedes ver aquí,
00:04:11esta carpeta de GLM ya tiene una carpeta de benchmark de UI en la que debe implementar la app,
00:04:16pero optó por ignorarla..
00:04:18Aunque claramente estaba escrito en el contexto,
00:04:20fue y creó otra app Next.js por su cuenta.
00:04:22Ni siquiera la inicializó, solo comenzó a escribir código.
00:04:25A veces actúa realmente de forma tonta..
00:04:27Pero después de que la corregí y la orienté en la dirección correcta,
00:04:30en términos de implementación,
00:04:31esto es lo que Claude creó.
00:04:32De nuevo,
00:04:33siendo el modelo superior,
00:04:34es bastante bueno en UI.
00:04:35Esto es lo que GLM 4.7 creó.
00:04:37Claude obviamente creó una UI mejor porque,
00:04:39en nuestra opinión,
00:04:40sigue siendo mejor en diseño..
00:04:42Para el precio, está bien.
00:04:43Pero después de que analicé el código y profundicé en él,
00:04:46como se les dijo que se suponía que era back-end ready y que por ahora necesitan usar datos simulados,
00:04:51el modelo GLM implementó una arquitectura mejor colocando todos los datos simulados en un archivo..
00:04:56Entonces cuando necesitamos intercambiarlo,
00:04:58solo necesitamos cambiar ese archivo porque los imports están conectados ahí,
00:05:01a diferencia de lo que implementó Claude donde cada otro componente tiene su propio import.
00:05:05Cuando realmente implementemos el backend,
00:05:07tendremos que cambiar todos esos archivos uno por uno.
00:05:09En términos de arquitectura básica y calidad de código,
00:05:12GLM realmente lo hizo bien,
00:05:14y me sorprendió porque 4.6 no era así de bueno en mis pruebas.
00:05:17El plan anterior realmente no estaba justificado por cuánto tuve que orientarlo y cuántos errores cometió,
00:05:22pero este definitivamente es un salto enorme.
00:05:24Esos benchmarks definitivamente están justificados por las pruebas que he hecho.
00:05:27También he mirado algunas otras cosas pequeñas en el código,
00:05:30y GLM 4.7 es realmente un buen modelo.
00:05:32Dados estos resultados inesperados,
00:05:34honestamente estamos recomendando que todos obtengan el plan de $29 por año.
00:05:38Si ya tienes el plan de $20 de Claude,
00:05:40esto es básicamente nada en comparación.
00:05:42Dicho esto,
00:05:43sigue sin ser un modelo que usarías para codificación completamente autónoma.
00:05:46Aunque Claude realmente se equivocó en la arquitectura aquí,
00:05:49es lo suficientemente bueno para que pueda corregir y mejorar eso más tarde.
00:05:52Pero con los pequeños detalles que GLM aún tiene,
00:05:54no creemos que sea una buena idea depender únicamente de él.
00:05:57Eso nos lleva al final de este video.
00:05:58Si deseas apoyar el canal y ayudarnos a seguir haciendo videos como este,
00:06:02puedes hacerlo usando el botón de Super Thanks abajo.
00:06:05Como siempre, gracias por ver y nos vemos en el próximo.

Key Takeaway

GLM 4.7 es un modelo de codificación significativamente mejorado que ofrece rendimiento comparable a Sonnet 4.5 a una fracción del costo, lo que lo hace una opción recomendada para desarrolladores, aunque requiere orientación y no es completamente autónomo.

Highlights

GLM 4.7 de ZAI alcanza el 73% en SWE bench, comparable a Sonnet 4.5, a un precio muy competitivo de $29 anuales

El modelo mejora principalmente en post-entrenamiento con mejor integración en Claude Code y herramientas MCP separadas

GLM 4.7 ahora demuestra pensamiento explícito dentro de Claude Code, a diferencia de 4.6, aunque sigue siendo lento en generación de código

En arquitectura de código, GLM 4.7 implementó soluciones superiores a Sonnet 4.5, como centralizar datos simulados en un archivo para facilitar cambios futuros

El modelo no es completamente autónomo y requiere orientación, pero ofrece una relación precio-valor excepcional para desarrollo de software

GLM 4.7 superó expectativas en diseño de UI y estructura de código, aunque comete errores ocasionales de contabilización en elementos visuales

Se recomienda obtener el plan de $29 anuales para desarrolladores que buscan herramientas de codificación económicas y efectivas

Timeline

Introducción a GLM 4.7 y contexto de lanzamiento

Se presenta el nuevo modelo GLM 4.7 lanzado por ZAI a $29 anuales, afirmando alcanzar el 73% en SWE bench, equivalente a Sonnet 4.5. El contexto comercial es relevante: ZAI se va a bolsa y busca demostrar tracción en mercados occidentales a través de actividades como un Q&A en vivo en Reddit, algo inusual en laboratorios de IA chinos. El video promete debunking honesto del marketing exagerado para mostrar qué puede realmente hacer el modelo. Este lanzamiento estratégico y agresivo despertó dudas sobre si GLM 4.7 realmente resuelve los problemas reales que tenía su versión anterior.

Especificaciones técnicas y características del modelo

GLM 4.7 fue mejorado principalmente a través de post-entrenamiento sin cambios arquitectónicos significativos, optimizándose especialmente para Claude Code como framework prioritario. El modelo incluye nuevas herramientas MCP que funcionan como servidores separados (tres disponibles actualmente) que requieren solo una clave API para operar. En benchmarks de codificación, GLM 4.7 actualmente supera muchos modelos de primer nivel, incluyendo GPT-5, demostrando ventajas competitivas en esta área específica. Las herramientas MCP están integradas en los planes de pago pero separadas del modelo mismo, proporcionando funcionalidad adicional sin afectar el núcleo del sistema.

Análisis comparativo de planes de precios y límites de uso

Se comparan detalladamente los planes de precios entre Claude Code y GLM coding, revelando diferencias dramáticas en el valor por dinero. En el plan de entrada, Claude Code ofrece 10-40 prompts a $3, mientras GLM proporciona 120 prompts en el mismo rango de precio, una diferencia enorme. En el plan de $200, Claude ofrece 800 prompts en una ventana de 5 horas, pero GLM en plan de $30 ofrece 2,400 prompts, demostrando una ventaja económica considerable. Todas las tarifas están rebajadas el primer mes y se duplican después, pero el plan anual proporciona precios mucho más asequibles, haciendo GLM 4.7 una opción excepcionalmente económica para desarrolladores.

Benchmarks y pruebas de generación de UI

Se utiliza un prompt enfocado en lógica de diseño para probar la capacidad de ambos modelos en crear una plataforma de revisión de código impulsada por IA. Sonnet 4.5 genera vanilla JavaScript simple sin emojis, logrando un diseño coherente y profesional. GLM 4.7 crea un diseño sólido con buena arquitectura visual, pero comete errores de contabilización de longitud que causa ruptura de artefactos y usa emojis que no coinciden con el lenguaje de diseño. A pesar de estos detalles menores, GLM demuestra capacidad competitiva en diseño de UI, mostrando mejora significativa respecto a su versión anterior.

Pruebas de implementación en proyecto Next.js real

Se prueba ambos modelos en un proyecto Next.js prearmado con contexto inicializado, incluyendo Framer Motion y componentes de ShadCN, con la tarea de construir la página principal de una plataforma de streaming tipo Netflix. Se revela que GLM 4.7 sigue siendo extremadamente lento en generación de código, un problema heredado de 4.6 que no fue resuelto. Sin embargo, GLM 4.7 ahora demuestra pensamiento explícito dentro de Claude Code, mostrado en transcripciones detalladas, mientras que 4.6 no lo hacía, representando una mejora importante en la arquitectura del modelo. Esta capacidad de razonamiento visible es un cambio significativo que sugiere mejoras en la comprensión del modelo.

Autonomía del modelo y análisis de calidad de arquitectura

Se descubre que GLM 4.7 no es completamente autónomo: ignora contexto claro sobre carpetas existentes y crea su propia estructura de proyecto innecesariamente, demostrando falta de atención al contexto. Sin embargo, después de orientación correctiva, GLM implementa una arquitectura superior a Sonnet 4.5 al centralizar datos simulados en un archivo único, facilitando cambios backend futuros a través de imports conectados, versus el enfoque de Claude que requiere cambios en múltiples archivos. Este análisis profundo de código revela que GLM 4.7 excedió expectativas en términos de decisiones arquitectónicas y estructura, sorprendiendo al analista considerando los pobres resultados de 4.6 en pruebas anteriores.

Conclusiones y recomendaciones finales

El análisis concluye que GLM 4.7 representa un salto enorme en calidad respecto a 4.6, con los benchmarks justificados por pruebas prácticas realizadas. Se recomienda ampliamente obtener el plan de $29 anual, especialmente para usuarios del plan de $20 de Claude, considerándolo una inversión mínima por la funcionalidad adicional. Se advierte que GLM 4.7 no es adecuado para codificación completamente autónoma: aunque Claude cometió errores arquitectónicos, puede corregirse después, pero los detalles menores de GLM aún impiden dependencia total. El video cierra recomendando el modelo como herramienta complementaria económica para desarrolladores profesionales que busquen valor.

Community Posts

View all posts