OpenAI está ganando... (Opus 4.6 + Codex 5.3)

BBetter Stack
컴퓨터/소프트웨어경제 뉴스게임/e스포츠AI/미래기술

Transcript

00:00:00Anthropic acaba de lanzar Claude Opus 4.6 y logra la puntuación más alta en Terminal Bench 2.0 de todos los modelos hasta ahora.
00:00:06Siento interrumpir su programación habitual,
00:00:10pero resulta que acaba de salir GPT 5.3 Codecs y supera a Opus 4.6 en Terminal Bench por más del 10 %.
00:00:16Así que parece que el reinado de Anthropic duró apenas unos minutos. La competencia entre estos dos se está poniendo al rojo vivo.
00:00:23Tengo mucha curiosidad por ver las novedades de estos modelos y descubrir cuál se siente mejor al usarlo, ya que últimamente...
00:00:29en realidad es GPT 5.2 el que me ha convencido más.
00:00:31Me intriga ver si Claude puede recuperar algo de ventaja o si OpenAI ya estaba preparado con GPT 5.3 Codecs.
00:00:37Primero, un resumen rápido de las novedades, ya que todos sabemos que superarán a sus versiones anteriores en las comparativas.
00:00:48Mostraré los resultados al final, pero ¿ha cambiado algo más en los modelos?
00:00:52Bueno, en cuanto a Opus...
00:00:53afirman que ahora puede planificar con más cuidado, mantener tareas de agentes por más tiempo y operar con mayor fiabilidad en bases de código grandes...
00:01:00con mejores habilidades de revisión y depuración para detectar sus propios errores.
00:01:02Precisamente, estos eran algunos de los puntos débiles de Opus frente a GPT 5.2. En mi experiencia,
00:01:08solía empezar a programar más rápido, pero cometía bastantes más errores.
00:01:12En cambio, GPT 5.2 tardaba un poco más en arrancar, pero entendía mejor el contexto del repositorio.
00:01:17Espero que estos cambios mejoren a Opus en ese aspecto; además, probablemente se beneficie de su nueva ventana de contexto...
00:01:23de un millón de tokens en total.
00:01:24Aunque mencionan que esto está en fase beta y, al igual que otros proveedores,
00:01:27tendrá un coste extra: los prompts que superen los 200,000 tokens costarán 10 $ por millón de tokens de entrada y...
00:01:3337,50 $ por millón de tokens de salida. Pasando a Codecs 5.3,
00:01:38OpenAI afirma que este modelo lleva al límite el rendimiento en programación de GPT 5.2 Codecs y el razonamiento...
00:01:45y conocimientos profesionales de GPT 5.2 en un solo modelo, que además es un 25 % más rápido.
00:01:51Esto debería permitirle realizar tareas largas que requieran investigación, uso de herramientas y una ejecución compleja.
00:01:57Parece que lo han diseñado para ser un todoterreno, uniendo el conocimiento de GPT 5.2 con capacidades de código mejoradas.
00:02:03Pero todo eso es palabrería de marketing.
00:02:05Vamos a poner estos modelos a prueba con tests reales. El primero fue actualizar un paquete de agentes de Convex para que soporte el AI SDK v6.
00:02:11Últimamente me gusta mucho usar Convex como base de datos, y este paquete básicamente ayuda a vincular el AI SDK con ella.
00:02:19Se obtiene un rendimiento muy bueno, pero el problema es que no estaba actualizado a la última versión.
00:02:23Como ven en la documentación, la migración de la v5 a la v6 no es nada sencilla.
00:02:28Hicieron muchos cambios que rompen la compatibilidad y modificaron muchísimos tipos.
00:02:32Así que creé una app de chat básica en Convex que funcionaba con el paquete de agentes,
00:02:36pero al actualizar los paquetes a la v6, me saltaron un montón de errores de compilación y de tipos.
00:02:40Simplemente les pedí a los modelos que los arreglaran. Aquí pueden ver el prompt que usé en Codecs.
00:02:44Dije: “Estoy creando una app de chat con Convex y tenía una versión que funcionaba,
00:02:46pero he actualizado a la v6 y necesito corregir los errores de tipos y de compilación”.
00:02:50Le pasé la guía de migración para que la usara como contexto y le pedí que todos los tests...
00:02:55pasaran correctamente, evitando trucos de TypeScript como “as any” siempre que fuera posible, ya que los modelos suelen abusar de esto.
00:02:59Quise recalcar esto porque el AI SDK ahora tiene tipos bastante complejos.
00:03:03Ya que estamos en Codecs, veamos cómo se desempeñó 5.3. Empezó por...
00:03:09entender el repositorio; detectó que era un monorepo con la carpeta “packages/agent”. Luego identificó varias...
00:03:15causas raíz y algunos paquetes que debían actualizarse, y detalló exactamente cómo iba a abordar la tarea.
00:03:22Después de eso, se puso a programar, haciendo cambios y ejecutando la compilación cada poco tiempo para...
00:03:27ir arreglando todos esos errores de tipos. En total, estuvo trabajando unos 40 minutos sin interrupciones,
00:03:32lo cual me impresionó mucho. De hecho, añadió 545 líneas de código y eliminó 111. En el caso de Claude...
00:03:35le di exactamente el mismo proyecto y el mismo prompt. De nuevo, trabajó en la tarea durante unos 40...
00:03:39minutos, pero al intentar arrancarlo me dio algunos errores de compilación.
00:03:44Tuve que enviarle un segundo prompt para que Opus me diera una versión del código que funcionara.
00:03:48Aun así, la experiencia fue muy parecida a la que tuvimos con Codecs.
00:03:53Pero debo decir que me gusta mucho la interfaz de Codecs. La prefiero a una interfaz de terminal, lo siento.
00:03:56En fin, puedo confirmar que tras un intento con Codecs 5.3 y dos con Opus 4.6,
00:04:02ambos lograron actualizar el paquete de agentes a la nueva versión del AI SDK sin errores de tipos,
00:04:06sin errores de compilación y pasando todos los tests. Sin embargo, lo resolvieron de formas distintas.
00:04:11Aquí tengo a Codecs a la izquierda y los cambios de Opus a la derecha.
00:04:16Se nota que Opus hizo bastantes más cambios en el proyecto que Codecs.
00:04:19Implementaron algunas funciones de manera algo diferente.
00:04:23Algo que Codecs hizo muy bien fue incluir la lógica de solicitud de aprobación de herramientas.
00:04:25Esto era una novedad del AI SDK v6, pero no he visto ni rastro de ello en Opus.
00:04:30Parece que simplemente lo pasó por alto y no lo añadió al código.
00:04:35Pero algo que Codecs hizo fatal fue que, en los mensajes de la interfaz, añadió...
00:04:40su propia función personalizada para convertir un mensaje de la UI en un mensaje del modelo.
00:04:46Completely own function for converting a UI message to a model message now
00:04:50If you don't know the AI SDK actually just has a function to do this for you and it should definitely use that instead
00:04:57En la comparativa se ve que Opus sí lo hizo correctamente.
00:05:00Simplemente usó la función “convert To Model Messages” que viene con el AI SDK.
00:05:04Y esto significa que, si en el futuro actualizan el paquete,
00:05:07no tendré que preocuparme por modificar mi propia versión, ya que estaré usando la oficial.
00:05:14Esto me resultó algo molesto y fue una señal de alerta al revisar el código.
00:05:19Para tener una segunda opinión en mi revisión del código,
00:05:20le pasé el resultado a Codecs 5.3 y le pedí que lo analizara conmigo. Enumeró las...
00:05:26ventajas y desventajas de cada enfoque.
00:05:29Pero al final dio una conclusión: Codecs 5.3 prefiere la versión del chat de Opus porque tiene una mejor arquitectura de migración.
00:05:36Si tuviera que elegir una base para publicar el código de forma segura,
00:05:39elegiría el chat de Opus y luego incorporaría el manejo de aprobación y denegación de Codecs.
00:05:43Es decir, esa función extra que vimos para la solicitud de aprobación de herramientas.
00:05:46Dice que basta con tomar eso de la versión de Codecs y añadirlo a la de Opus para tener una migración superior.
00:05:51Al menos es bueno ver que Codecs 5.3 no es parcial y no se eligió a sí mismo.
00:05:55Pero reconozco que la forma en que ambos manejaron la migración fue muy similar y probablemente podría guiarlos mejor con más prompts.
00:06:01Pero una sola prueba no es suficiente.
00:06:03Para el siguiente test, algo menos serio: les pedí que crearan un clon de Club Penguin...
00:06:08usando Three.js. No diré cuál es cuál todavía, pero este es el primer juego que obtuvimos.
00:06:13Aquí tenemos el creador de pingüinos y vemos cómo cambia el avatar arriba.
00:06:17Puedo ponerle sombreros: un gorro de fiesta, una gorra con hélice, una corona...
00:06:21Voy a elegir la gorra con hélice y dar a jugar. Si conocen Club Penguin,
00:06:26diría que ha hecho un trabajo decente imitando el centro de la ciudad, aunque la pizzería no está donde debería.
00:06:32Normalmente hay una discoteca por aquí, y de momento no se puede entrar en los edificios.
00:06:35Se nota que no tienen colisiones todavía.
00:06:37Pero lo que hizo muy bien es que, si vamos al mapa, podemos ir a diferentes zonas.
00:06:41Como la villa de esquí. Si hago clic para moverme por aquí...
00:06:44creo que mi pingüino se ve bastante bien para ser algo hecho en Three.js sin haberle dado ningún recurso gráfico.
00:06:49Lo ha hecho todo basándose en su entrenamiento. Incluso podemos entrar y jugar a las carreras de trineos,
00:06:54que era mi juego favorito de Club Penguin. Faltan algunas cosas,
00:06:59debo admitirlo, pero es un primer intento muy bueno hecho con un solo prompt.
00:07:04Incluso puedo confirmar que esta versión intenta recrear el juego de Carrito Surfero,
00:07:07que también me encantaba, pero este parece un poco roto.
00:07:11Solo vas de lado a lado y creo que me he caído bajo el mapa. Además, ahora todo está muy oscuro.
00:07:15Esto es lo que me dio el otro modelo, y quiero que pongan en los comentarios...
00:07:18¿qué modelo creen que lo hizo mejor y si pueden adivinar cuál hizo cada versión?
00:07:22Se lo diré al final de este test. Como ven, en este...
00:07:25tenemos los mismos selectores de colores que pedí en el prompt.
00:07:27También el sombrero y el accesorio. Elegiré la corona esta vez y daremos a empezar a explorar.
00:07:31El pingüino es un poco más robusto en esta versión. Es más gracioso, pero de nuevo, no le di ningún recurso.
00:07:36Todo está hecho desde cero en Three.js.
00:07:38Tiene el mismo problema de atravesar los edificios,
00:07:41pero tenemos el mapa y todas las diferentes zonas.
00:07:44Si voy a la villa de esquí...
00:07:46debería poder jugar, así que probemos las carreras de trineos.
00:07:50Para ser sincero, es muy parecido a la otra versión que vimos.
00:07:53Se ven algunos árboles apareciendo a lo lejos.
00:07:56Tenemos tres vidas y el contador de vidas funciona correctamente.
00:07:58Pero parece que en esta versión no se puede saltar.
00:08:01Este modelo también me dio una versión del Carrito Surfero,
00:08:04pero otra vez, es un poco extraño.
00:08:06Aunque supongo que es más funcional porque al menos se ve algo y puedes saltar, pero...
00:08:11no estoy muy seguro de por dónde estoy surfeando. No hay raíles y, en general, no es el Carrito Surfero que recuerdo.
00:08:19Aun así, siempre me impresiona lo que logran estos modelos con un solo prompt, sobre todo con Three.js. Por si se lo preguntan,
00:08:25el primero era Opus 4.6 y el segundo Codecs 5.3, y creo que prefiero el primero.
00:08:30Así que diría que Opus 4.6 gana en el test de Club Penguin. La última prueba...
00:08:34fue para ver qué tan buenos son diseñando interfaces, algo en lo que están mejorando mucho.
00:08:38Les pedí que crearan una página de aterrizaje para una red social solo para IAs.
00:08:42Algo parecido a “Molt Book”. La página debía ser sarcástica, enfatizar el futuro y ser exclusiva para IAs, todo en un solo archivo HTML.
00:08:49Este es el resultado de ambos y debo admitir que Codecs me ha impresionado mucho.
00:08:55Tenemos a Codecs 5.3 a la izquierda y a Opus 4.6 a la derecha, y me encanta el estilo que...
00:09:00Codecs 5.3 eligió para el sitio.
00:09:01Ha optado por un diseño neobrutalista, que es un poco más divertido que esos sitios con “estética genérica”.
00:09:06Creo que Opus 4.6, aunque tiene un buen diseño, parece la típica app genérica. Lo ha hecho muy bien,
00:09:13hay que reconocerlo, pero...
00:09:14esos degradados púrpuras y todo el conjunto gritan que es un diseño estándar, mientras que la versión de Codecs 5.3...
00:09:20parece que ha tenido un toque más manual, como si lo hubiera guiado en esa dirección,
00:09:25a pesar de que usé el mismo prompt.
00:09:27Lo único que creo que Opus 4.6 hizo un poco mejor es que la página es algo más funcional.
00:09:32Vemos una pestaña de tendencias, reglas, mejores modelos de la semana,
00:09:36subreddits populares y un feed de actividad, mientras que la de Codecs 5.3 es más simple.
00:09:41Básicamente solo tenemos la pestaña de tendencias y poco más.
00:09:44Tengo curiosidad por ver cómo puntúan en el Design Arena, ya que acaban de salir.
00:09:47Aún no están en el ranking, pero de momento GLM 4.7 es el líder.
00:09:51Habrá que ver si 5.3 Codecs o Opus 4.6 pueden arrebatarle el puesto. En general,
00:09:55ambos modelos son muy capaces y es difícil decir cuál será el mejor.
00:09:59Personalmente, me inclino un poco por 5.3 Codecs,
00:10:03más que nada porque me gusta la aplicación de Codecs y mi experiencia general con los modelos de OpenAI. Si comparamos...
00:10:09los benchmarks, como dije al principio, Codecs tiene una ventaja enorme en Terminal Bench 2.0.
00:10:15Es un salto increíble y, de momento, es el único benchmark que podemos comparar directamente, ya que...
00:10:21no creo que Anthropic esperara que OpenAI lanzara este modelo todavía, y por desgracia no usan los mismos tests en sus blogs.
00:10:28Revisé Artificial Analysis y hasta ahora solo han analizado Opus 4.6 para código en su versión sin razonamiento.
00:10:35Aun así, es impresionante que la versión sin razonamiento de 4.6 rinda tan bien como la versión con razonamiento de Opus 4.5.
00:10:42Mi sensación actual es que el salto de Opus 4.5 a 4.6 es más sutil que el de Codecs 5.2 a 5.3.
00:10:49Pero tendré que usarlos más para ver cómo se comportan en el mundo real.
00:10:53Hay algunos detalles extra en ambos lanzamientos.
00:10:55Uno de los más interesantes es que ambos parecen haber mejorado en ciberseguridad. OpenAI dice que GPT...
00:11:015.3 Codecs es el primer modelo que clasifican de alta capacidad para tareas de ciberseguridad y el primero entrenado específicamente para identificar...
00:11:09vulnerabilidades de software. Anthropic dice básicamente lo mismo en su blog. Una función de Codecs que creo que me va a encantar...
00:11:16es que se le puede guiar mientras está trabajando. Dicen que, en lugar de esperar al resultado final,
00:11:21puedes interactuar en tiempo real, haciendo preguntas, debatiendo enfoques y orientándolo hacia la solución.
00:11:27Creo que este enfoque es mucho mejor, porque siempre dudo entre dejar que el modelo termine o...
00:11:32interrumpirlo y pararlo cuando quiero que haga cambios.
00:11:35Considerando que ahora tenemos tareas que pueden durar bastante tiempo,
00:11:40esto va a mejorar mucho la experiencia de usuario. Poder hablar con él mientras trabaja.
00:11:44Por último, tenemos funciones nuevas para Claude. La primera es Claude Code.
00:11:48Ahora puedes usar equipos de agentes para trabajar juntos, es decir, subagentes. Richard hizo un vídeo sobre esto hace poco,
00:11:55así que échenle un vistazo si quieren saber más. También hay novedades en la API, como la función de compactación...
00:12:01integrada en la API de Claude para resumir el contexto y realizar tareas de larga duración.
00:12:06Y también hay un nuevo modo de pensamiento adaptativo.
00:12:08Básicamente, dejas que el modelo use pistas contextuales para decidir cuánto razonamiento extendido debe aplicar.
00:12:13Y ahí lo tienen. Los modelos de programación han avanzado una barbaridad.
00:12:16Por si no lo sabían, no hace ni un año que se lanzó Claude Code.
00:12:20Díganme qué opinan de estos modelos en los comentarios. Suscríbanse y, como siempre, nos vemos en el próximo vídeo.
00:12:31(Música animada)

Key Takeaway

La competencia entre OpenAI y Anthropic alcanza un nuevo nivel de intensidad con el lanzamiento simultáneo de modelos especializados en programación que ofrecen capacidades de razonamiento, ciberseguridad y gestión de contexto sin precedentes.

Highlights

OpenAI lanza GPT 5.3 Codecs

Timeline

Lanzamiento y Competencia en Benchmarks

El video comienza con la noticia del lanzamiento de Claude Opus 4.6 de Anthropic, que inicialmente alcanza la puntuación más alta en Terminal Bench 2.0. Sin embargo, OpenAI responde casi de inmediato con GPT 5.3 Codecs, superando a su rival por un margen superior al 10 %. El analista expresa su curiosidad por probar ambos modelos debido a la rapidez con la que cambia el liderazgo en el sector. Se menciona que GPT 5.2 ya era un modelo muy sólido, lo que eleva las expectativas para estas nuevas versiones. Esta sección establece el tono de una carrera tecnológica frenética entre las dos compañías líderes en inteligencia artificial.

Novedades Técnicas y Costes de Opus y Codecs

Se detallan las mejoras técnicas de Claude Opus 4.6, destacando su capacidad de planificación cuidadosa y una ventana de contexto masiva de un millón de tokens. Anthropic ha optimizado el modelo para la depuración en grandes repositorios, aunque se menciona un coste extra para prompts que excedan los 200,000 tokens. Por otro lado, GPT 5.3 Codecs unifica el conocimiento profesional de la serie 5.2 con una ejecución un 25 % más rápida. OpenAI busca que su modelo sea un "todoterreno" capaz de realizar investigaciones complejas y uso de herramientas en tareas largas. El presentador advierte que, más allá del marketing, lo fundamental es el rendimiento en pruebas reales.

Test Real 1: Migración de Código con Convex y AI SDK

El primer desafío consiste en actualizar un paquete de agentes de Convex para soportar la versión 6 del AI SDK, una tarea compleja debido a cambios que rompen la compatibilidad. Codecs 5.3 trabajó de forma autónoma durante 40 minutos, identificando la estructura del monorepo y realizando más de 500 adiciones de líneas de código. Opus 4.6 requirió un segundo prompt para ofrecer una versión funcional, aunque el tiempo de trabajo fue similar. Ambos modelos lograron pasar los tests de compilación y corregir los errores de tipos de TypeScript sin abusar de soluciones fáciles. Este test demuestra que las IAs ya pueden gestionar migraciones de software profundas que antes requerirían horas de trabajo humano.

Análisis de Código y Arquitectura Comparada

Al comparar los resultados de la migración, se observa que Opus 4.6 fue más preciso al utilizar funciones oficiales del SDK, como "convertToModelMessages". En contraste, Codecs 5.3 creó funciones personalizadas innecesarias, lo que podría dificultar el mantenimiento futuro del código. Curiosamente, al pedirle a Codecs que analizara ambos resultados, el modelo de OpenAI reconoció que la arquitectura de Opus era superior para esta tarea específica. Sin embargo, Codecs integró mejor nuevas funciones de aprobación de herramientas que Opus omitió por completo. El analista concluye que una combinación de ambos enfoques daría como resultado la migración perfecta.

Test Real 2: Creación de un Clon de Club Penguin

En una prueba más creativa, se solicitó a los modelos crear un clon del juego Club Penguin utilizando la librería Three.js sin recursos gráficos externos. Opus 4.6 generó una versión con un mapa funcional, diferentes zonas como la villa de esquí y minijuegos como carreras de trineos. La versión de Codecs 5.3 presentó un pingüino con un diseño más robusto y un sistema de selección de colores, pero con mecánicas de juego ligeramente inferiores. A pesar de algunos fallos visuales y falta de colisiones, el presentador queda impresionado por lo que ambos logran con un solo prompt. Finalmente, se revela que Opus 4.6 es el ganador de este test por la fidelidad general de la recreación.

Test de Diseño Web y Liderazgo en el Sector

La última prueba evalúa la capacidad de diseño de interfaces creando una página de aterrizaje para una red social exclusiva de IAs. Codecs 5.3 destaca con un estilo neobrutalista muy original, alejándose de la estética genérica de muchas aplicaciones actuales. Opus 4.6 opta por un diseño profesional con degradados púrpuras, que aunque es funcional y completo en secciones, se siente menos innovador. El narrador menciona que, según los benchmarks, Codecs mantiene una ventaja clara en programación pura, pero la diferencia entre versiones es sutil. Actualmente, modelos como GLM 4.7 todavía lideran los rankings de diseño, pero estos nuevos lanzamientos prometen cambiar la jerarquía pronto.

Nuevas Funciones de API y Ciberseguridad

El video concluye detallando funciones avanzadas como el entrenamiento específico en ciberseguridad para detectar vulnerabilidades en el software. Se destaca la nueva capacidad de interactuar con GPT 5.3 Codecs en tiempo real, permitiendo al usuario debatir enfoques mientras el modelo escribe código. Anthropic, por su parte, introduce "Claude Code" para el trabajo con subagentes y un modo de pensamiento adaptativo que ajusta el nivel de razonamiento según la tarea. El analista reflexiona sobre el increíble avance en menos de un año desde el lanzamiento de las primeras herramientas de agentes. Se invita a la audiencia a compartir sus preferencias entre OpenAI y Anthropic antes del cierre del video.

Community Posts

View all posts