Probé GLM 5.2 vs Opus 4.8 vs GPT 5.5

CChase AI
컴퓨터/소프트웨어게임/e스포츠AI/미래기술

Transcript

00:00:00GLM 5.2 acaba de salir esta semana y es el modelo de código abierto más potente que hemos
00:00:04visto. Y en algunos puntos de referencia, como ven aquí, este modelo incluso supera a los gigantes
00:00:10como Opus 4.8 de Anthropic y 5.5 de OpenAI. ¿Pero son legítimos estos puntos de referencia? ¿Cómo se compara este
00:00:18modelo cara a cara con Opus 4.8 y GPT 5.5? Bueno, eso es exactamente lo que vamos a responder
00:00:25en el video de hoy, mientras realizo múltiples pruebas con estos tres grandes modelos y veo
00:00:31cómo se desempeña realmente en el mundo real. Además de eso, haremos un análisis profundo de uno
00:00:35de los puntos de referencia en particular que creo que es bastante importante, así como desglosar lo que realmente
00:00:40queremos decir con que GLM 5.2 es mejor en algunos casos que Opus y GPT 5.5. ¿Estamos hablando de que
00:00:47es más eficiente, que cuesta menos, o que realmente hace mejor todas esas cosas al mismo
00:00:51tiempo? Así que, sin más preámbulos, entremos de lleno. Ahora, antes de empezar con la prueba
00:00:56cara a cara, primero veamos algunos de los puntos de referencia que ya existen comparando estos
00:00:59tres modelos. El que realmente quiero destacar es DeepSuite. Ahora, DeepSuite es
00:01:04un punto de referencia relativamente nuevo, y pretende ser una mejora sobre cosas como Terminal
00:01:08Bench y Terminal Bench Pro. No voy a profundizar demasiado en este punto de referencia, pueden
00:01:12visitar su sitio web o su repositorio de GitHub, que lo explica con más detalle. Pero se centra
00:01:17en tareas agenticas de larga duración, específicamente 113 tareas en TypeScript, Go, Python, JavaScript
00:01:23y Rust con entornos aislados y verificadores basados en programas. Y aquí en este gráfico podemos ver
00:01:29la puntuación, el porcentaje que obtiene correcto en el lado izquierdo, así como el costo promedio
00:01:34por tarea. Queremos estar en la parte superior derecha. El área más eficiente está por aquí en la parte
00:01:39superior derecha. Ahí es donde obtenemos la puntuación más alta al menor costo. Y podemos ver aquí que GLM 5.2
00:01:44Max nos da un 44% a 3,92 dólares por tarea. Si comparamos eso con Opus 4.8 y GPT 5.5, podemos ver
00:01:55que lo hacen mucho mejor. En el máximo, Opus 4.8 está obteniendo un 59% y 5.5 un 67% en extra alto. Obviamente,
00:02:04en extra alto y máximo, tenemos un costo bastante elevado. Para GPT 5.5 son 7,23 dólares, 13 dólares para Opus,
00:02:12y en GLM son 3,92 dólares. Mucho más barato. Sin embargo, cuando observamos diferentes niveles de esfuerzo
00:02:19en 5.5 y en Opus, si estamos en nivel medio, por ejemplo, con Opus 4.8, vamos a obtener
00:02:25una puntuación más alta que con GLM 5.2, y seremos menos costosos. Es decir, 49% a 3,44 frente a 44% a 3,92. Y eso es
00:02:36significativo en 5.5 con un 54% a 2,75 dólares frente a 44% a 3,92 dólares. Así que, de entrada, en este punto de referencia,
00:02:47si lo tomamos al pie de la letra, 4.8 y 5.5 están un paso por encima de GLM 5.2. Y eso no es sorprendente. Estos
00:02:55son los mejores modelos de frontera. No son de código abierto. Y si realmente nos ponemos manos
00:03:01a la obra, van a dejar a GLM 5.2 muy atrás en este tipo de tareas de largo alcance,
00:03:07algo esperado. Lo que quizás no esperaban es el hecho de que pueda ser mejor y más barato,
00:03:11que es un problema. Y solo quiero decir esto porque sé que hay mucha conversación
00:03:16y mucho entusiasmo en este momento sobre GLM 5.2 y el hecho de que es de código abierto. Y, ya saben,
00:03:21eso implica inmediatamente algo como, oh, es súper súper barato. Y podemos hacer cosas muy buenas.
00:03:25Bueno, quiero decir, según los números, es bueno, pero no supera a 4.8 ni a 5.5 según este punto de referencia. Y recuerden,
00:03:33que estos números de 4.8 y 5.5 se basan en costos de API. Si estoy en el plan máximo, es como 10 veces más barato que
00:03:40esto. Lo mismo si solo estoy en el plan de 100 dólares al mes o 200 dólares al mes de OpenAI. Así que
00:03:46eso es otra cosa a tener en cuenta. Así que solo quería frenar un poco cualquier idea
00:03:50que diga que GLM es mucho más barato porque en realidad no lo es. Y aunque es de código abierto,
00:03:56GLM 5.2, el modelo de código abierto que está obteniendo estos números, no es de código abierto. Como si
00:04:01pudieras descargarlo en tu computadora. Es de código abierto en el sentido de que puedes ver el código,
00:04:05puedes ver los pesos. No es de código abierto en el sentido de, oh, puedo ir a buscarlo
00:04:09a Ollama. Puedo ejecutarlo en mi PC personal. No, no puedes. Esto tiene casi un
00:04:14billón de parámetros. Esto requiere una tonelada de hardware para ejecutarse. Así que no se confundan porque sé
00:04:20que hay un segmento de la población que lo hace, pero esto es solo para preparar el escenario. Y de nuevo,
00:04:24esto es sobre cosas de DeepSuite. Esto es como tareas muy intensas las que se están dando. Y
00:04:30hoy vamos a hacer algunas pruebas diferentes que son un poco más de bajo nivel y que son
00:04:35probablemente más un reflejo de lo que ustedes, el usuario promedio, está ejecutando. Así que algo que tener
00:04:39en cuenta. Y solo para que todos estemos en la misma página, esto es lo que estamos viendo en términos de costos
00:04:44por tokens. Recuerden que la razón por la que fue más barato para Opus 4.8 y 5.5 es porque usó muchos menos
00:04:50tokens para hacer lo que necesitaba hacer. Fue, en última instancia, más eficiente, pero sobre una base por token.
00:04:55Y recuerden que para entrada y salida, esto es por millón de tokens, GLM 5.2, 1,40 dólares por entrada,
00:05:014,40 dólares por salida. Y Opus 4.8 es 5,7 veces más caro. Y 5.5 de GPT es 6,8 veces más
00:05:10caro. Así que sobre una base por token, es mucho más barato. Pero recuerden, nos importan los resultados de una tarea,
00:05:16no necesariamente una comparación de uno a uno de tokens. Y ahora, antes de pasar a las pruebas reales,
00:05:21unas breves palabras del patrocinador de hoy, yo. Acabo de lanzar mi clase magistral de Cloud Code dentro de
00:05:26Chase AI Plus y es la mejor manera de pasar de cero a desarrollador de IA, especialmente si no vienes
00:05:30de un entorno técnico. Actualizo esto cada semana e incluye clases magistrales de codecs
00:05:35y para crear tu propio sistema operativo agentico. Así que si esto es algo sobre lo que quieres aprender más y no
00:05:40estás seguro de por dónde empezar, Chase AI Plus es el lugar para ti. Hay un enlace en los comentarios fijados.
00:05:46Así que así es como ejecutaremos esta prueba. Le daremos a cada modelo el mismo
00:05:49aviso y modo de plan. Nos dará el plan. Podemos hacer algo de ida y vuelta,
00:05:53dependiendo de lo que pensemos del plan que se le ocurra. Y después de eso, dejaremos que ejecute.
00:05:58Después de ejecutar, aplicaré mis criterios de evaluación extremadamente subjetivos al resultado final y les haré saber
00:06:03cuál me gusta más. Si no les gustan mis criterios de evaluación o lo que decido que es mejor, asegúrense de
00:06:08dejar un comentario. También me aseguraré de borrar su comentario. Ahora, aquí a la izquierda, tenemos
00:06:14GPT 5.5 dentro de Codex en extra alto. Tenemos OpenCode en el medio ejecutando GLM 5.2 en extra alto
00:06:21siendo enrutado a través de OpenRouter. Y aquí a la derecha, tenemos Cloud Code ejecutando Opus 4.8
00:06:26en alto. Ahora, ¿por qué elegí esta configuración de esfuerzo en particular? Porque así es como la mayoría de la gente
00:06:32usa esto en la vida real. Y lo más probable es que estés en el plan máximo o que estés en algún tipo de
00:06:37plan de OpenAI y probablemente no lo estés ejecutando en medio. Seamos honestos. Así que creo que este es un
00:06:42mejor reflejo de cómo su usuario promedio está usando realmente estos modelos día a día.
00:06:47Así que para nuestra primera solicitud, le pediremos que cree un juego de carreras en 3D jugable que se ejecute en el
00:06:51navegador. Y, lo que es más importante, mantendremos esta solicitud un poco vaga. Les estoy diciendo que tienen total libertad para
00:06:56ir a la web y elegir la pila y la biblioteca que crean que es mejor para ejecutar esto. Así que
00:07:02sigamos adelante y ejecutémoslo a ver qué pasa. Así que tenemos los tres modelos ejecutándose en modo plan.
00:07:08Y, de nuevo, la idea detrás de hacer la solicitud un poco vaga es que queremos ver tanta
00:07:12divergencia de estos modelos como sea posible. Si les diera la hoja de ruta exacta, cómo hacer cada cosa,
00:07:18bueno, entonces realmente no podemos ver cómo piensan estos modelos y cómo abordan más
00:07:23problemas complicados. Así que, después de 13 minutos, Opus 4.8 fue el primero en terminar de crear el juego de carreras.
00:07:29Así que echemos un vistazo a lo que hizo. Aquí estamos, algo de baja poligonización. Tiene
00:07:37algo de sonido. Se mueve bastante suave. Parece que tenemos la capacidad de derrapar también aquí.
00:07:44Está bien, la hierba en realidad interfiere con la física. En general, bastante suave, pero, ya saben,
00:07:54relativamente aburrido, ¿verdad? Es una pista de carreras bastante básica. Nada loco, no añadió
00:07:59ningún tipo de IA ni nada por el estilo. Así que estoy interesado en ver cómo lo hacen los otros modelos en términos de
00:08:04complejidad y lo que probablemente haré después de esta primera prueba, si todos tienen el mismo tipo de
00:08:09visión sosa. Probablemente les daremos otra solicitud que suba la apuesta. A continuación,
00:08:13está GLM 5.2. Tardó unos cinco minutos más que Claude Code. Para referencia, GPT 5.5 sigue
00:08:20trabajando, lo cual no me sorprende mucho. Tiende a ser un poco más lento. En términos de comparación de tokens,
00:08:26Claude Code utilizó unos 100,000 tokens para crear eso. Y GLM 5.2 tomó más de un millón. Y podemos echar un vistazo
00:08:33dentro de Open Router para esta ejecución, donde el gasto total fue de 1,21 dólares. Y el volumen total de tokens fue de 1,35
00:08:41millones para crear este juego. Así que, de inmediato, interesante tipo de pista que tenemos aquí.
00:08:48Los controles son bastante saltarines, en comparación con lo que teníamos con Claude Code. Como que me muevo
00:08:53muy rápido en relación con la pista misma. Muy rápido. Como si estuviera gritando a través de esto. Y también
00:09:00como que simplemente no hay una diferenciación real entre la pista y el campo en sí. Y en
00:09:09ciertos casos, pude, como vieron ahí, atravesar la pista, pero no realmente.
00:09:15Así que, también, el auto en sí está un poco menos detallado de lo que vimos dentro de Claude Code. Es decir,
00:09:23hay una pista, tiene un temporizador. En términos de jugabilidad real, un poco chapucero para lo que es,
00:09:30ni de lejos tan suave. Y también, de nuevo, un poco con la situación de baja poligonización como vimos con
00:09:36Opus. Y me encantaría ver qué hace si le decimos que realmente cree algo que se vea
00:09:40mejor. Y también esta pista en sí no tiene mucho sentido. Así que ahora estamos viendo
00:09:44lo que creó GPT 5.5. Lo llama el circuito de fundición, la contrarreloj del turno de noche de tres vueltas
00:09:50a través de la acería. Así que algo diferente, supongo, de la pista genérica que hemos visto en las
00:09:54últimas dos. Así que vamos a empezar esto. Y vamos allá. Bueno, en realidad no sé adónde se supone
00:10:04que debo ir. Oh, supongo que esta es la pista. Las ruedas se ven algo interesantes. Están como
00:10:10girando al revés. Así que eso es algo. Está bien, tiene ruidos muy molestos, en realidad.
00:10:21Y no puedo superar el hecho de que las ruedas vayan horizontalmente, o como sea que se describiría esto.
00:10:28La pista en sí está bien, puedes moverte. Sí, puedes pasar la pista y te ralentiza. Pero no es
00:10:35claro que esto sea una pista pavimentada, como vimos con lo que construyó Opus. Y el resto es,
00:10:41ya saben, el campo. Así que gráficos bastante extraños, honestamente. También, cuando consideras
00:10:48el hecho de que tardó el doble de tiempo que Opus es un poco raro. Sí, honestamente, bastante extraño. De nuevo,
00:10:55¿por qué hizo eso con las ruedas? No tengo idea. De nuevo, fue por lo de baja poligonización.
00:11:00Y es simplemente muy oscuro, por ninguna razón aparente. Así que quiero decir, siento que
00:11:06esto es más funcional que lo que obtuvimos con GLM 5.2, pero no mucho mejor. Y también
00:11:12consideren que esto fue en extra alto en 5.5. Ahora, en términos de uso de tokens para 5.5,
00:11:17llegó a ser aproximadamente lo que vimos con Claude Code. Utilizó el 7% de su ventana de cinco horas. Así que casi
00:11:22nada. Ahora, en el ranking general, habría puesto a Opus 4.8 claramente por delante de GLM 5.2 y 5.5. Pensé
00:11:28que los últimos dos fueron algo chapuceros, pero en realidad les daremos otra oportunidad porque
00:11:32vamos a decirles que le den otro vistazo al código, hagan otra pasada. Y también queremos
00:11:36que lo hagan mucho mejor en términos de los gráficos. No quiero las cosas de baja poligonización. Quiero que esto parezca
00:11:40un juego triple A o lo más cerca posible. Así que veamos qué pasa cuando les damos
00:11:46el intento número dos. Opus y GLM terminaron su segunda pasada y 5.5 está terminando. Así que
00:11:50echemos un vistazo primero a Opus 4.8. Entonces, de inmediato, vemos un auto mucho mejor. Esto es una gran
00:11:58mejora con respecto al auto de lo que vimos antes. También vemos una iluminación muy diferente.
00:12:04Se puede ver el sol reflejado en el suelo mismo y todo se ve mucho más suave. Es decir,
00:12:10los árboles en sí son de tipo baja poligonización, pero la iluminación y especialmente el auto
00:12:15son un gran paso adelante. Y todavía mantiene el mismo tipo de jugabilidad fluida. Quiero decir, además del
00:12:20hecho de que tenemos árboles en la carretera, pero los árboles en sí también tienen sombras. Y por una pasada adicional
00:12:26que tomó 10 minutos y unos 50,000 tokens, nada mal. Ahora miraremos a GLM. Y en este punto,
00:12:32tomó alrededor de otros 1,2 millones de tokens para hacer esta actualización, poniendo nuestro gasto total en 1,83 dólares.
00:12:38Así que vamos a ponerlo en marcha. Y parece que intentó añadir algún tipo de iluminación diferente. El auto se ve
00:12:46un poco mejor, pero la iluminación en sí es algo extraña. Es muy brillante. La pista
00:12:52en sí no ha cambiado mucho. Sigue siendo hierba por todas partes. Y los
00:12:57controles siguen siendo muy saltarines. Voy muy rápido en relación con la pista. El mismo tipo de problema
00:13:04que tenía antes donde puedo atravesar parte de la pista, parte de ella no. Así que
00:13:10los gráficos para el auto se ven mejor, pero argumentaría que la iluminación y el resplandor distraen mucho.
00:13:15Probablemente sea un retroceso respecto a lo que teníamos antes. Y aquí está la segunda pasada con 5.5. Ahora
00:13:21el auto se ve un poco mejor, pero mirando todo lo demás, es lo mismo. Bueno,
00:13:29las ruedas están mejor. Arreglamos el problema de las ruedas. Están girando como deberían,
00:13:34pero todavía tiene ruidos molestos. Y no hay una diferenciación real, de nuevo, entre el camino
00:13:42y la hierba. Así que se siente como lo mismo que hizo la primera vez con un
00:13:49auto ligeramente mejor. Pero cuando le dijimos que buscara una estética triple A, no diría que
00:13:55dio en el blanco. Y de nuevo, siento que, en general, mirando estos tres, GLM y 5.5, están un paso
00:14:02debajo de Opus. Ahora, para nuestra siguiente prueba, vamos a pedirle que cree un sitio web. Y la solicitud que vamos
00:14:07a utilizar es esta. Queremos que cree una página de aterrizaje falsa para un producto, que son unas gafas
00:14:12inteligentes con IA. Piensen en algo como las Ray-Bans de Meta. De nuevo, damos a estos modelos total libertad en
00:14:16términos de pila y diseño. Les decimos que elijan lo que crean que es mejor, instalen lo que
00:14:20necesitemos y busquen las mejores prácticas para crear páginas de aterrizaje. Les decimos, oigan, busquen
00:14:25imágenes y tomas de productos. Y no confíen solo en crear sus propias cosas HTML. Y, lo que es más importante,
00:14:31decimos, hagan que parezca un sitio de premios. No queremos que parezca basura de IA. Queremos una
00:14:35jerarquía visual real, tipografía intencional y movimiento donde tenga sentido. Así que, página de aterrizaje para gafas
00:14:42inteligentes, queremos que sea estilo premios. Veamos qué se les ocurre. Los tres
00:14:46terminaron. Como referencia, GLM usó cerca de un millón de tokens para ejecutar esto mientras que Opus y 5.5
00:14:53usaron cerca de cien mil, más o menos. Primero tenemos lo que construyó Opus, fondo muy oscuro.
00:14:58Tiene estas gafas que creó, y el texto está algo cortado aquí, lo cual es
00:15:04desafortunado. A medida que bajamos, esto también está colocado de forma extraña porque podemos ver el texto de desplazamiento
00:15:12como superpuesto encima. Pero a medida que paso el mouse, se puede ver que se mueve y
00:15:18cambia de color, lo cual es genial. A medida que bajamos, tenemos algunas animaciones de desplazamiento
00:15:24para todo. Pero, en general, se ve bien para las gafas que usan HTML.
00:15:31Así que es como, ¿qué estás sacando realmente de esto? Ni siquiera encontró unas gafas
00:15:35para usar. Y tiene, oye, aquí está cómo puedes reservarlas y cómo puedes comprarlas. Así que
00:15:41está bien. De nuevo, no le dimos mucha dirección, pero le dijimos que buscara un estilo de
00:15:45premios. No lo consideraría a ese nivel. Ahora veamos lo que GLM nos construyó.
00:15:51Y en realidad no sé qué está pasando aquí. De hecho, esto apenas cargó.
00:15:59Nos muestra unas gafas, pero este sitio web es un desastre. Es como si ni siquiera
00:16:04hubiera terminado esto. Es como si simplemente lo hubiera juntado. Sí. Sí, la solicitud no fue súper
00:16:13detallada, pero debería ser capaz de hacer más que esto según lo que le di. Esto es realmente
00:16:19terrible. No tengo idea de qué estaba tratando de lograr aquí. Y, por último, tenemos GPT 5.5. Así que
00:16:25esto es un poco interesante. Creo que se ve genial, aunque las gafas
00:16:30se superponen un poco al texto. Y tenemos mucho espacio muerto, lo cual se podría argumentar que es
00:16:34una decisión de diseño. Y tenemos el banner que realmente se mueve, recordarán que la
00:16:39versión de Opus tenía un banner, pero no se movía. Y luego, a medida que bajamos, también notarán que
00:16:44el cursor es multicolor. Y al bajar, parece que creó algunos activos
00:16:50HTML. Es decir, raro, ¿verdad? Le dijimos, oye, puedes ir a buscar lo que necesites buscar en línea
00:16:55si quieres. Pero, en general, probablemente sea el mejor de los tres. Pero, ya saben, no diría que
00:17:04me encantara ninguno de estos, lo que muestra lo firme que debes ser al hacer
00:17:09cualquier tipo de diseño visual o UI; incluso estos modelos más avanzados luchan, como
00:17:14que realmente no tengo idea de qué está pasando. Es un desastre. Así que, en general, Opus estaba
00:17:21bien. 5.5 fue el mejor del grupo y GLM fue realmente un fracaso total. Y, igual que hicimos con
00:17:26la versión del juego, les daremos una segunda oportunidad para ver si pueden limpiar
00:17:30lo que salió mal. Y además de eso, vamos a pedirles que integren, similar a, de nuevo, el juego que les pedimos
00:17:36crear algunos elementos Three.js, queremos ver cómo pueden impulsar sus capacidades con
00:17:42movimiento y gráficos. Y esa nueva solicitud se ve así, tomen la página de aterrizaje de gafas
00:17:46inteligentes que acaban de construir y reconstruyanla como una experiencia 3D inmersiva usando
00:17:51Three.js. Así que queremos una escena 3D interactiva real. Y, de nuevo, les damos total libertad para
00:17:56ejecutarla como crean conveniente. Y esto es lo que obtuvimos con Opus 4.8. Pueden ver que ahora añadió
00:18:02algunos Three.js, estas gafas se mueven. Pero, más allá de eso, tenemos algunos de los problemas originales,
00:18:08el texto cortado, la superposición aquí mismo. Y el resto de esto es bastante, es
00:18:13obvio que la IA creó esto. Ah, nota al margen, los costos de tokens
00:18:21fueron prácticamente iguales en la segunda ejecución para todos. A continuación,
00:18:27tenemos GLM 5.2. Y esta vez realmente creó un sitio web que tiene sentido. Tenemos estas gafas,
00:18:32aunque las gafas que creó son algo raras, ninguna gafa se vería
00:18:36así y el texto también está cortado aquí. Pero tenemos un banner
00:18:42que se desplaza cuando paso el mouse por encima y se detiene. Y diría que, en general, en términos de
00:18:48cómo diseñó el sitio web, probablemente le daría la ventaja sobre Opus. Ahora, no creo que
00:18:55ninguno de ellos sea particularmente bueno. Les dimos libertad para hacer lo que quisieran. Pero
00:18:59pondría esto por encima de la otra configuración. Aunque en términos de la sección principal,
00:19:05me gusta más Opus 4.8. Ahora, GPT 5.5, creo que es el ganador aquí. Creo que esto se ve mejor
00:19:10en general desde un punto de vista de diseño subjetivo. Y creo que los gráficos de movimiento Three.js
00:19:18que añadió aquí son bastante geniales. Creo que tienen sentido en el contexto de lo que creó. Tenemos
00:19:22todo este espacio blanco arriba y las gafas pueden vivir ahí. Y en cuanto al
00:19:27resto del sitio web, creo que se ve bien. De nuevo, se ve muy, entre comillas,
00:19:32basura de IA en el sentido de que la IA definitivamente creó esto, pero no se ve mal. Y de arriba
00:19:37a abajo, prefiero lo que nos dio 5.5 sobre todos los demás. Y así, cuando observamos todo
00:19:42esto, holísticamente trayendo estos puntos de referencia más sofisticados, como DeepSuite junto a
00:19:48lo que acabamos de hacer hoy, creo que esto es más o menos lo que esperábamos. No creo que GLM lo hiciera extremadamente mal
00:19:56en ningún sentido, pero definitivamente se sintió como si estuviera un paso por debajo de GPT 5.5 o 4.8 o en
00:20:03escenarios donde, ya saben, en la primera sección donde Opus era mejor que todos ellos. Y en
00:20:07la segunda sección donde GPT era mejor que todos ellos, GLM siempre estaba cerca del fondo. No era
00:20:12groseramente peor que ninguno, pero ciertamente no era mejor. Y también usó infinitamente más tokens.
00:20:17Y así, cuando observamos algo como esto, la puntuación de DeepSuite, donde es como,
00:20:21oye, GLM está en el fondo y en realidad es menos eficiente que 5.5 y 4.8, tanto en términos de
00:20:27costo como de desempeño. Tiene sentido. Creo que esto es lo que vemos. Y así, gran
00:20:35imagen, ¿es GLM un gran modelo de código abierto? Definitivamente. ¿Pero se encuentra con algunos problemas que los modelos de código abierto
00:20:41tienen en general, a saber, que no son tan potentes? Sí. Y, además, si eres alguien que está
00:20:47maximizando el código abierto, entiende que esto no es algo que ejecutarías en tu PC, ¿verdad? Esto requiere una
00:20:52tonelada de hardware para usar. Y creo que lo que se pierde en la conversación es lo que hablamos al
00:20:57principio, que es como, okay, los costos ya son un problema para GLM 5.2. Aún así, esto ni siquiera
00:21:05toma en cuenta la gran subvención que obtienes en el plan máximo de Anthropic o en el plan máximo de OpenAI.
00:21:12Así que ten eso en cuenta y, como que, okay, esto no es un debate.
00:21:16Realmente no lo es. Así que, ¿sugeriría usar GLM 5.2 para una persona promedio? No,
00:21:24realmente no. Creo que tal vez si estás haciendo tareas de bajo nivel y eres alguien que está comparando
00:21:29puramente los precios de API, tal vez, tal vez. Pero es, ya sabes, creo que es difícil argumentar eso
00:21:38porque, entonces, ¿qué hacemos cuando salga Sonnet 5 la próxima semana? Como,
00:21:42¿simplemente vas a saltar de uno a otro? Como hay algo que decir acerca de simplemente
00:21:46quedarse con el modelo, especialmente cuando hablamos de cosas a nivel de equipo empresarial,
00:21:50donde los costos de API realmente comienzan a sumarse. Porque, de nuevo, para el usuario individual promedio que va a
00:21:55usar uno de los planes subvencionados y no está pagando costos directos de API, no veo un argumento para
00:22:01GLM 5.2. Así que ahí es donde los dejaré por hoy. Espero haber arrojado algo de luz sobre todo este
00:22:05debate sobre GLM y todo el entusiasmo que ven a su alrededor. Como siempre, déjenme saber lo que
00:22:09pensaron en los comentarios. Asegúrense de revisar Chase AI Plus si quieren poner sus manos en la
00:22:13clase magistral de Cloud Code, y nos veremos por ahí.

Key Takeaway

Aunque GLM 5.2 ofrece un costo menor por token, los modelos de frontera como Opus 4.8 y GPT 5.5 superan su desempeño real, eficiencia y coherencia en tareas complejas de desarrollo técnico.

Highlights

  • GLM 5.2 obtuvo un 44% de éxito en tareas de DeepSuite a un costo de 3,92 dólares por tarea, frente al 59% de Opus 4.8 y el 67% de GPT 5.5 en sus niveles máximos.

  • El costo por millón de tokens para GLM 5.2 es de 1,40 dólares en entrada y 4,40 dólares en salida, notablemente menor que sus competidores directos.

  • En pruebas de desarrollo de juegos en el navegador, Claude Code con Opus 4.8 generó resultados más pulidos y estables en comparación con la alta tasa de consumo de tokens y los errores técnicos de GLM 5.2.

  • La construcción de una página de aterrizaje con elementos Three.js demostró que GPT 5.5 supera a los otros modelos en calidad de diseño visual y coherencia de interfaz.

  • GLM 5.2, a pesar de ser etiquetado como de código abierto, requiere hardware masivo para su ejecución, lo que impide su uso en computadoras personales estándar.

  • El uso de tokens para GLM 5.2 fue desproporcionadamente alto, consumiendo 1,35 millones de tokens para tareas que modelos como GPT 5.5 resolvieron con una fracción de esa cantidad.

Timeline

Análisis comparativo de DeepSuite

  • DeepSuite evalúa la capacidad de los modelos para ejecutar tareas de larga duración en lenguajes como TypeScript, Go y Python.
  • Opus 4.8 y GPT 5.5 superan a GLM 5.2 tanto en precisión porcentual como en eficiencia operativa dentro de entornos controlados.
  • El costo por API de los modelos de frontera disminuye drásticamente para los usuarios suscritos a planes máximos de Anthropic u OpenAI.

El punto de referencia DeepSuite mide el rendimiento en 113 tareas complejas. GLM 5.2 logra un 44% de éxito, pero es superado por el 59% de Opus y el 67% de GPT 5.5. Si bien los números de costo de API parecen favorecer a GLM, la mayor eficiencia en el uso de tokens de los modelos cerrados los hace más competitivos en el costo final por tarea realizada.

Prueba de desarrollo de juegos en 3D

  • Opus 4.8 creó la experiencia de juego más fluida y estable tras la primera solicitud.
  • GLM 5.2 presentó controles erráticos y fallos en la física de colisiones, además de un consumo superior a un millón de tokens.
  • GPT 5.5 generó gráficos inconsistentes, incluyendo una rotación anómala de las ruedas en el vehículo del juego.

Se solicitó la creación de un juego de carreras en 3D en el navegador sin especificaciones técnicas rígidas. Opus 4.8 entregó el resultado más jugable desde el primer intento. GLM 5.2 y GPT 5.5 tuvieron dificultades significativas para diferenciar los elementos de la pista y mostraron errores de diseño que requirieron intentos adicionales de corrección.

Evaluación de diseño web con Three.js

  • GPT 5.5 demostró una mayor capacidad para estructurar interfaces visuales complejas y jerarquías tipográficas.
  • GLM 5.2 falló en la carga inicial y en la organización visual, requiriendo múltiples iteraciones para producir algo funcional.
  • La integración de animaciones con Three.js reveló limitaciones en la capacidad de todos los modelos para mantener la integridad del texto durante el diseño.

La creación de una página de aterrizaje para gafas inteligentes puso a prueba el sentido estético y técnico. GPT 5.5 destacó al incorporar animaciones funcionales de Three.js y gestionar mejor el espacio en blanco. Los otros modelos sufrieron problemas de superposición de texto y activos visuales mal integrados, consolidando el liderazgo de GPT 5.5 en diseño.

Conclusión sobre el uso práctico

  • GLM 5.2 funciona correctamente, pero no supera a los modelos de frontera en precisión, eficiencia ni calidad de resultado final.
  • El acceso a planes de suscripción subvencionados en GPT y Claude hace que el costo por API de GLM sea irrelevante para el usuario promedio.
  • La exigencia de hardware para ejecutar GLM 5.2 limita su utilidad fuera de entornos empresariales masivos.

El análisis holístico indica que GLM 5.2 es un modelo robusto de código abierto, pero carece de la potencia necesaria para reemplazar a GPT 5.5 o Opus 4.8. Para el usuario individual que no gestiona costos directos de API, los modelos cerrados ofrecen una experiencia de usuario superior sin las complicaciones de rendimiento observadas en la evaluación de GLM.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video