00:00:00Anthropic acaba de lanzar Claude Opus 4.6 y logra la puntuación más alta en Terminal Bench 2.0 de todos los modelos hasta ahora.
00:00:06Siento interrumpir su programación habitual,
00:00:10pero resulta que acaba de salir GPT 5.3 Codecs y supera a Opus 4.6 en Terminal Bench por más del 10 %.
00:00:16Así que parece que el reinado de Anthropic duró apenas unos minutos. La competencia entre estos dos se está poniendo al rojo vivo.
00:00:23Tengo mucha curiosidad por ver las novedades de estos modelos y descubrir cuál se siente mejor al usarlo, ya que últimamente...
00:00:29en realidad es GPT 5.2 el que me ha convencido más.
00:00:31Me intriga ver si Claude puede recuperar algo de ventaja o si OpenAI ya estaba preparado con GPT 5.3 Codecs.
00:00:37Primero, un resumen rápido de las novedades, ya que todos sabemos que superarán a sus versiones anteriores en las comparativas.
00:00:48Mostraré los resultados al final, pero ¿ha cambiado algo más en los modelos?
00:00:52Bueno, en cuanto a Opus...
00:00:53afirman que ahora puede planificar con más cuidado, mantener tareas de agentes por más tiempo y operar con mayor fiabilidad en bases de código grandes...
00:01:00con mejores habilidades de revisión y depuración para detectar sus propios errores.
00:01:02Precisamente, estos eran algunos de los puntos débiles de Opus frente a GPT 5.2. En mi experiencia,
00:01:08solía empezar a programar más rápido, pero cometía bastantes más errores.
00:01:12En cambio, GPT 5.2 tardaba un poco más en arrancar, pero entendía mejor el contexto del repositorio.
00:01:17Espero que estos cambios mejoren a Opus en ese aspecto; además, probablemente se beneficie de su nueva ventana de contexto...
00:01:23de un millón de tokens en total.
00:01:24Aunque mencionan que esto está en fase beta y, al igual que otros proveedores,
00:01:27tendrá un coste extra: los prompts que superen los 200,000 tokens costarán 10 $ por millón de tokens de entrada y...
00:01:3337,50 $ por millón de tokens de salida. Pasando a Codecs 5.3,
00:01:38OpenAI afirma que este modelo lleva al límite el rendimiento en programación de GPT 5.2 Codecs y el razonamiento...
00:01:45y conocimientos profesionales de GPT 5.2 en un solo modelo, que además es un 25 % más rápido.
00:01:51Esto debería permitirle realizar tareas largas que requieran investigación, uso de herramientas y una ejecución compleja.
00:01:57Parece que lo han diseñado para ser un todoterreno, uniendo el conocimiento de GPT 5.2 con capacidades de código mejoradas.
00:02:03Pero todo eso es palabrería de marketing.
00:02:05Vamos a poner estos modelos a prueba con tests reales. El primero fue actualizar un paquete de agentes de Convex para que soporte el AI SDK v6.
00:02:11Últimamente me gusta mucho usar Convex como base de datos, y este paquete básicamente ayuda a vincular el AI SDK con ella.
00:02:19Se obtiene un rendimiento muy bueno, pero el problema es que no estaba actualizado a la última versión.
00:02:23Como ven en la documentación, la migración de la v5 a la v6 no es nada sencilla.
00:02:28Hicieron muchos cambios que rompen la compatibilidad y modificaron muchísimos tipos.
00:02:32Así que creé una app de chat básica en Convex que funcionaba con el paquete de agentes,
00:02:36pero al actualizar los paquetes a la v6, me saltaron un montón de errores de compilación y de tipos.
00:02:40Simplemente les pedí a los modelos que los arreglaran. Aquí pueden ver el prompt que usé en Codecs.
00:02:44Dije: “Estoy creando una app de chat con Convex y tenía una versión que funcionaba,
00:02:46pero he actualizado a la v6 y necesito corregir los errores de tipos y de compilación”.
00:02:50Le pasé la guía de migración para que la usara como contexto y le pedí que todos los tests...
00:02:55pasaran correctamente, evitando trucos de TypeScript como “as any” siempre que fuera posible, ya que los modelos suelen abusar de esto.
00:02:59Quise recalcar esto porque el AI SDK ahora tiene tipos bastante complejos.
00:03:03Ya que estamos en Codecs, veamos cómo se desempeñó 5.3. Empezó por...
00:03:09entender el repositorio; detectó que era un monorepo con la carpeta “packages/agent”. Luego identificó varias...
00:03:15causas raíz y algunos paquetes que debían actualizarse, y detalló exactamente cómo iba a abordar la tarea.
00:03:22Después de eso, se puso a programar, haciendo cambios y ejecutando la compilación cada poco tiempo para...
00:03:27ir arreglando todos esos errores de tipos. En total, estuvo trabajando unos 40 minutos sin interrupciones,
00:03:32lo cual me impresionó mucho. De hecho, añadió 545 líneas de código y eliminó 111. En el caso de Claude...
00:03:35le di exactamente el mismo proyecto y el mismo prompt. De nuevo, trabajó en la tarea durante unos 40...
00:03:39minutos, pero al intentar arrancarlo me dio algunos errores de compilación.
00:03:44Tuve que enviarle un segundo prompt para que Opus me diera una versión del código que funcionara.
00:03:48Aun así, la experiencia fue muy parecida a la que tuvimos con Codecs.
00:03:53Pero debo decir que me gusta mucho la interfaz de Codecs. La prefiero a una interfaz de terminal, lo siento.
00:03:56En fin, puedo confirmar que tras un intento con Codecs 5.3 y dos con Opus 4.6,
00:04:02ambos lograron actualizar el paquete de agentes a la nueva versión del AI SDK sin errores de tipos,
00:04:06sin errores de compilación y pasando todos los tests. Sin embargo, lo resolvieron de formas distintas.
00:04:11Aquí tengo a Codecs a la izquierda y los cambios de Opus a la derecha.
00:04:16Se nota que Opus hizo bastantes más cambios en el proyecto que Codecs.
00:04:19Implementaron algunas funciones de manera algo diferente.
00:04:23Algo que Codecs hizo muy bien fue incluir la lógica de solicitud de aprobación de herramientas.
00:04:25Esto era una novedad del AI SDK v6, pero no he visto ni rastro de ello en Opus.
00:04:30Parece que simplemente lo pasó por alto y no lo añadió al código.
00:04:35Pero algo que Codecs hizo fatal fue que, en los mensajes de la interfaz, añadió...
00:04:40su propia función personalizada para convertir un mensaje de la UI en un mensaje del modelo.
00:04:46Completely own function for converting a UI message to a model message now
00:04:50If you don't know the AI SDK actually just has a function to do this for you and it should definitely use that instead
00:04:57En la comparativa se ve que Opus sí lo hizo correctamente.
00:05:00Simplemente usó la función “convert To Model Messages” que viene con el AI SDK.
00:05:04Y esto significa que, si en el futuro actualizan el paquete,
00:05:07no tendré que preocuparme por modificar mi propia versión, ya que estaré usando la oficial.
00:05:14Esto me resultó algo molesto y fue una señal de alerta al revisar el código.
00:05:19Para tener una segunda opinión en mi revisión del código,
00:05:20le pasé el resultado a Codecs 5.3 y le pedí que lo analizara conmigo. Enumeró las...
00:05:26ventajas y desventajas de cada enfoque.
00:05:29Pero al final dio una conclusión: Codecs 5.3 prefiere la versión del chat de Opus porque tiene una mejor arquitectura de migración.
00:05:36Si tuviera que elegir una base para publicar el código de forma segura,
00:05:39elegiría el chat de Opus y luego incorporaría el manejo de aprobación y denegación de Codecs.
00:05:43Es decir, esa función extra que vimos para la solicitud de aprobación de herramientas.
00:05:46Dice que basta con tomar eso de la versión de Codecs y añadirlo a la de Opus para tener una migración superior.
00:05:51Al menos es bueno ver que Codecs 5.3 no es parcial y no se eligió a sí mismo.
00:05:55Pero reconozco que la forma en que ambos manejaron la migración fue muy similar y probablemente podría guiarlos mejor con más prompts.
00:06:01Pero una sola prueba no es suficiente.
00:06:03Para el siguiente test, algo menos serio: les pedí que crearan un clon de Club Penguin...
00:06:08usando Three.js. No diré cuál es cuál todavía, pero este es el primer juego que obtuvimos.
00:06:13Aquí tenemos el creador de pingüinos y vemos cómo cambia el avatar arriba.
00:06:17Puedo ponerle sombreros: un gorro de fiesta, una gorra con hélice, una corona...
00:06:21Voy a elegir la gorra con hélice y dar a jugar. Si conocen Club Penguin,
00:06:26diría que ha hecho un trabajo decente imitando el centro de la ciudad, aunque la pizzería no está donde debería.
00:06:32Normalmente hay una discoteca por aquí, y de momento no se puede entrar en los edificios.
00:06:35Se nota que no tienen colisiones todavía.
00:06:37Pero lo que hizo muy bien es que, si vamos al mapa, podemos ir a diferentes zonas.
00:06:41Como la villa de esquí. Si hago clic para moverme por aquí...
00:06:44creo que mi pingüino se ve bastante bien para ser algo hecho en Three.js sin haberle dado ningún recurso gráfico.
00:06:49Lo ha hecho todo basándose en su entrenamiento. Incluso podemos entrar y jugar a las carreras de trineos,
00:06:54que era mi juego favorito de Club Penguin. Faltan algunas cosas,
00:06:59debo admitirlo, pero es un primer intento muy bueno hecho con un solo prompt.
00:07:04Incluso puedo confirmar que esta versión intenta recrear el juego de Carrito Surfero,
00:07:07que también me encantaba, pero este parece un poco roto.
00:07:11Solo vas de lado a lado y creo que me he caído bajo el mapa. Además, ahora todo está muy oscuro.
00:07:15Esto es lo que me dio el otro modelo, y quiero que pongan en los comentarios...
00:07:18¿qué modelo creen que lo hizo mejor y si pueden adivinar cuál hizo cada versión?
00:07:22Se lo diré al final de este test. Como ven, en este...
00:07:25tenemos los mismos selectores de colores que pedí en el prompt.
00:07:27También el sombrero y el accesorio. Elegiré la corona esta vez y daremos a empezar a explorar.
00:07:31El pingüino es un poco más robusto en esta versión. Es más gracioso, pero de nuevo, no le di ningún recurso.
00:07:36Todo está hecho desde cero en Three.js.
00:07:38Tiene el mismo problema de atravesar los edificios,
00:07:41pero tenemos el mapa y todas las diferentes zonas.
00:07:44Si voy a la villa de esquí...
00:07:46debería poder jugar, así que probemos las carreras de trineos.
00:07:50Para ser sincero, es muy parecido a la otra versión que vimos.
00:07:53Se ven algunos árboles apareciendo a lo lejos.
00:07:56Tenemos tres vidas y el contador de vidas funciona correctamente.
00:07:58Pero parece que en esta versión no se puede saltar.
00:08:01Este modelo también me dio una versión del Carrito Surfero,
00:08:04pero otra vez, es un poco extraño.
00:08:06Aunque supongo que es más funcional porque al menos se ve algo y puedes saltar, pero...
00:08:11no estoy muy seguro de por dónde estoy surfeando. No hay raíles y, en general, no es el Carrito Surfero que recuerdo.
00:08:19Aun así, siempre me impresiona lo que logran estos modelos con un solo prompt, sobre todo con Three.js. Por si se lo preguntan,
00:08:25el primero era Opus 4.6 y el segundo Codecs 5.3, y creo que prefiero el primero.
00:08:30Así que diría que Opus 4.6 gana en el test de Club Penguin. La última prueba...
00:08:34fue para ver qué tan buenos son diseñando interfaces, algo en lo que están mejorando mucho.
00:08:38Les pedí que crearan una página de aterrizaje para una red social solo para IAs.
00:08:42Algo parecido a “Molt Book”. La página debía ser sarcástica, enfatizar el futuro y ser exclusiva para IAs, todo en un solo archivo HTML.
00:08:49Este es el resultado de ambos y debo admitir que Codecs me ha impresionado mucho.
00:08:55Tenemos a Codecs 5.3 a la izquierda y a Opus 4.6 a la derecha, y me encanta el estilo que...
00:09:00Codecs 5.3 eligió para el sitio.
00:09:01Ha optado por un diseño neobrutalista, que es un poco más divertido que esos sitios con “estética genérica”.
00:09:06Creo que Opus 4.6, aunque tiene un buen diseño, parece la típica app genérica. Lo ha hecho muy bien,
00:09:13hay que reconocerlo, pero...
00:09:14esos degradados púrpuras y todo el conjunto gritan que es un diseño estándar, mientras que la versión de Codecs 5.3...
00:09:20parece que ha tenido un toque más manual, como si lo hubiera guiado en esa dirección,
00:09:25a pesar de que usé el mismo prompt.
00:09:27Lo único que creo que Opus 4.6 hizo un poco mejor es que la página es algo más funcional.
00:09:32Vemos una pestaña de tendencias, reglas, mejores modelos de la semana,
00:09:36subreddits populares y un feed de actividad, mientras que la de Codecs 5.3 es más simple.
00:09:41Básicamente solo tenemos la pestaña de tendencias y poco más.
00:09:44Tengo curiosidad por ver cómo puntúan en el Design Arena, ya que acaban de salir.
00:09:47Aún no están en el ranking, pero de momento GLM 4.7 es el líder.
00:09:51Habrá que ver si 5.3 Codecs o Opus 4.6 pueden arrebatarle el puesto. En general,
00:09:55ambos modelos son muy capaces y es difícil decir cuál será el mejor.
00:09:59Personalmente, me inclino un poco por 5.3 Codecs,
00:10:03más que nada porque me gusta la aplicación de Codecs y mi experiencia general con los modelos de OpenAI. Si comparamos...
00:10:09los benchmarks, como dije al principio, Codecs tiene una ventaja enorme en Terminal Bench 2.0.
00:10:15Es un salto increíble y, de momento, es el único benchmark que podemos comparar directamente, ya que...
00:10:21no creo que Anthropic esperara que OpenAI lanzara este modelo todavía, y por desgracia no usan los mismos tests en sus blogs.
00:10:28Revisé Artificial Analysis y hasta ahora solo han analizado Opus 4.6 para código en su versión sin razonamiento.
00:10:35Aun así, es impresionante que la versión sin razonamiento de 4.6 rinda tan bien como la versión con razonamiento de Opus 4.5.
00:10:42Mi sensación actual es que el salto de Opus 4.5 a 4.6 es más sutil que el de Codecs 5.2 a 5.3.
00:10:49Pero tendré que usarlos más para ver cómo se comportan en el mundo real.
00:10:53Hay algunos detalles extra en ambos lanzamientos.
00:10:55Uno de los más interesantes es que ambos parecen haber mejorado en ciberseguridad. OpenAI dice que GPT...
00:11:015.3 Codecs es el primer modelo que clasifican de alta capacidad para tareas de ciberseguridad y el primero entrenado específicamente para identificar...
00:11:09vulnerabilidades de software. Anthropic dice básicamente lo mismo en su blog. Una función de Codecs que creo que me va a encantar...
00:11:16es que se le puede guiar mientras está trabajando. Dicen que, en lugar de esperar al resultado final,
00:11:21puedes interactuar en tiempo real, haciendo preguntas, debatiendo enfoques y orientándolo hacia la solución.
00:11:27Creo que este enfoque es mucho mejor, porque siempre dudo entre dejar que el modelo termine o...
00:11:32interrumpirlo y pararlo cuando quiero que haga cambios.
00:11:35Considerando que ahora tenemos tareas que pueden durar bastante tiempo,
00:11:40esto va a mejorar mucho la experiencia de usuario. Poder hablar con él mientras trabaja.
00:11:44Por último, tenemos funciones nuevas para Claude. La primera es Claude Code.
00:11:48Ahora puedes usar equipos de agentes para trabajar juntos, es decir, subagentes. Richard hizo un vídeo sobre esto hace poco,
00:11:55así que échenle un vistazo si quieren saber más. También hay novedades en la API, como la función de compactación...
00:12:01integrada en la API de Claude para resumir el contexto y realizar tareas de larga duración.
00:12:06Y también hay un nuevo modo de pensamiento adaptativo.
00:12:08Básicamente, dejas que el modelo use pistas contextuales para decidir cuánto razonamiento extendido debe aplicar.
00:12:13Y ahí lo tienen. Los modelos de programación han avanzado una barbaridad.
00:12:16Por si no lo sabían, no hace ni un año que se lanzó Claude Code.
00:12:20Díganme qué opinan de estos modelos en los comentarios. Suscríbanse y, como siempre, nos vemos en el próximo vídeo.
00:12:31(Música animada)