Claude Code + Codex = EL DIOS DE LA IA

CChase AI
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Así que ahora podemos usar Codex dentro de Claude Code.
00:00:03OpenAI lo ha hecho posible.
00:00:04Así que el competidor número uno de Opus 4.6
00:00:08es ahora algo que puedes usar
00:00:09dentro del ecosistema de Anthropic.
00:00:11Y esto es una gran noticia para todos los que disfrutan de Claude Code,
00:00:15especialmente si eres alguien que ha estado luchando
00:00:18con las tasas de uso, porque francamente,
00:00:20Codex te da mucho más por tu dinero
00:00:23en términos de relación dólar a créditos o tokens.
00:00:26Y así, en este video, te voy a mostrar cómo configurarlo
00:00:28y vamos a revisar lo que Codex realmente puede hacer
00:00:31con la estructura de Claude Code por encima.
00:00:33Y lo más importante, lo que podemos hacer usando Claude Code
00:00:38con Opus 4.6 y Codex juntos, ¿verdad?
00:00:40¿Cómo podemos hacer que estos dos modelos se complementen
00:00:43para obtener un resultado que sea mayor que la suma de sus partes?
00:00:46Ahora, antes de hacer la instalación, hagamos un resumen rápido
00:00:48de lo que nos aporta el plugin de Claude Code,
00:00:50porque hay varias cosas.
00:00:51Ahora, yo diría que las dos cosas más importantes
00:00:54son las revisiones de código, ¿verdad?
00:00:56La capacidad de hacer que, esencialmente, eche un vistazo
00:00:58a algo que Opus ha escrito.
00:00:59Y eso se divide en etapas.
00:01:01Primero, tenemos la revisión estándar de Codex,
00:01:03que es simplemente, ya sabes, una especie de revisión neutral.
00:01:06Ya sabes, le echa un vistazo, es solo de lectura.
00:01:08La segunda es la revisión adversaria, la cual me encanta.
00:01:12Esto es básicamente decirle a Codex algo como:
00:01:13"Oye, echa un vistazo a lo que Opus ha construido,
00:01:15o lo que cualquier agente de programación haya construido,
00:01:17pero ten un ojo muy crítico.
00:01:20Como asumiendo que metieron la pata
00:01:22y averigua qué podemos hacer para mejorarlo".
00:01:25Así que esta es una forma increíble de mejorar realmente nuestros resultados,
00:01:28porque uno de los problemas con Opus,
00:01:31y en realidad con muchos modelos de IA en general,
00:01:33es que suelen hacer un mal trabajo evaluando su propio código.
00:01:36Esto es algo de lo que Anthropic habló
00:01:38en su blog de ingeniería que se publicó la semana pasada.
00:01:40Así que algo como la revisión adversaria es perfecto, me encanta.
00:01:44Aparte de eso, también podemos usar Codex Rescue,
00:01:46que nos permite hacer que Codex cree algo por sí solo,
00:01:49tal como lo harías con Opus dentro de Claude Code.
00:01:52Y más allá de eso, solo algunas cosas de estado,
00:01:54como echar un vistazo a en qué punto está de un trabajo en particular.
00:01:58Así que sumerjámonos en esto y veamos la instalación.
00:02:01Ahora, instalar esto es bastante sencillo.
00:02:02Solo vas a ejecutar este comando
00:02:04para añadirlo al marketplace.
00:02:06Y tendré todos estos comandos abajo en la descripción.
00:02:08Y luego vas a ejecutar este comando de plugin para instalarlo,
00:02:11codex@openai-codex.
00:02:13Como de costumbre, preguntará dónde quieres instalarlo.
00:02:14Yo lo haré en el ámbito de usuario.
00:02:16Y luego solo necesitamos recargar los plugins
00:02:17para que todo esté en funcionamiento.
00:02:18Y por último, queremos ejecutar codex colon setup.
00:02:21Por si no te diste cuenta, también hay un repositorio de GitHub
00:02:24para esto, que también repasa todos los comandos de instalación.
00:02:27Así que también dejaré el enlace en la descripción.
00:02:29Y las tasas de uso están vinculadas a tu cuenta de ChatGPT,
00:02:32incluso si tienes la cuenta gratuita, aparentemente.
00:02:34Así que solo ten en cuenta que va a estar consumiendo
00:02:36de tu uso de Codex.
00:02:37Te preguntará si quieres instalar Codex, di que sí.
00:02:39Para eso, inicias sesión y eso te enviará al navegador,
00:02:42donde te guiará a través del proceso de autenticación.
00:02:44Ahora, hay realmente dos casos de uso obvios
00:02:47para esta herramienta de Codex dentro de Claude Code.
00:02:49El primero es lidiar con los límites de uso
00:02:52dentro de Claude Code.
00:02:53Normalmente, si estás en el plan pro con Anthropic
00:02:55o el de 5 veces el máximo, puedes alcanzar esos límites muy rápido,
00:02:58especialmente con algunos de los errores de la CLI
00:03:00que hemos estado viendo en la última semana.
00:03:02Si ese es el caso, lo que podrías querer hacer
00:03:03es usar Opus 4.6 para planificar y Codex para ejecutar.
00:03:07Y para hacer eso, de nuevo, es muy sencillo.
00:03:09Solo vas a hacer codex rescue.
00:03:11Y a partir de ahí, le vas a dar el prompt.
00:03:14Y también puedes especificar un montón de cosas.
00:03:16Como puedes ver en todos los parámetros aquí,
00:03:18incluyendo el nivel de esfuerzo y todo eso.
00:03:20Y recuerda, Codex es un modelo muy sólido.
00:03:24Y de nuevo, el uso ni siquiera se acerca
00:03:26a lo que cobra Anthropic.
00:03:27Pero creo que el caso de uso más interesante
00:03:28es el que mencioné antes,
00:03:29y ese es la revisión adversaria.
00:03:30Así que pongámoslo a prueba.
00:03:32Voy a hacer que le eche un vistazo
00:03:33a mi bot de investigación y participación en Twitter.
00:03:37Esta es la aplicación web que hice construir a Claude Code.
00:03:39Básicamente, lo que hace es escanear tuits en el espacio de la IA
00:03:43cada 30 o 45 minutos aproximadamente.
00:03:45Tiene un filtro de calidad.
00:03:47Tiene señales de puntuación
00:03:48basadas en varios parámetros diferentes.
00:03:50Está conectado a Supabase
00:03:51para asegurar que los tuits no se repitan.
00:03:53Tiene un sistema de puntuación e integra Softmax, PIX.
00:03:56Todo se envía a Telegram.
00:03:58Y también tengo IA integrada para ayudar con las respuestas.
00:04:00Así que hay bastante movimiento ahí.
00:04:02Y además de eso,
00:04:03también rastrea todas mis respuestas
00:04:06para que podamos tener una especie de bucle de retroalimentación.
00:04:07Así que esto es algo relativamente... no es supercomplicado,
00:04:10pero no es como si estuviéramos mirando una simple landing page.
00:04:13Así que vamos a ver con qué vuelve Codex.
00:04:16¿Cuando hacemos una revisión adversaria del código de esto, verdad?
00:04:20Así que veamos qué tal lo hace.
00:04:22Lo dejaremos bastante abierto a la interpretación.
00:04:23Le decimos a Codex:
00:04:24echa un vistazo al código base y dime qué piensas.
00:04:27Y lo primero que hace es decirnos,
00:04:28oye, vamos a estimar el tamaño de la revisión
00:04:30para determinar el mejor modo.
00:04:32Y a partir de ahí dice, oye,
00:04:33¿quieres ejecutarlo en segundo plano
00:04:34o simplemente quieres esperar por los resultados?
00:04:35Así que simplemente vamos a esperar los resultados.
00:04:37Y nos dice que el alcance de la revisión incluye todo el código base
00:04:39más nueve cambios en el árbol de trabajo, un archivo modificado,
00:04:42y ocho archivos sin seguimiento.
00:04:43Así que sabe que hay bastante,
00:04:44que hay mucho que debe revisar.
00:04:46Y mientras eso trabaja,
00:04:47hablemos de cómo funciona realmente la revisión adversaria.
00:04:49Acabamos de ver las primeras cuatro partes, ¿verdad?
00:04:52Analizó los argumentos.
00:04:54No pasamos ningún parámetro,
00:04:55así que simplemente está usando su configuración predeterminada.
00:04:57Y luego estimó el tamaño de la revisión,
00:04:59resolvió el objetivo y recopiló algo de contexto.
00:05:01Eso fue todo ese texto sobre, oye, ya sabes,
00:05:03tenemos estos cambios sin seguimiento
00:05:04y esto va a tardar un poco.
00:05:05Ahora, después de esos primeros cuatro pasos,
00:05:06va a construir el prompt adversario
00:05:09y hay siete superficies de ataque
00:05:11a las que va a prestar especial atención.
00:05:13Esas son autenticación, pérdida de datos, reversiones,
00:05:17condiciones de carrera, dependencias degradadas,
00:05:20desajuste de versiones y brechas de observabilidad, ¿de acuerdo?
00:05:23Son siete cosas que están un poco bajo la superficie
00:05:26que realmente podrían arruinarnos
00:05:27si intentamos pasar esto a producción
00:05:29y no tenemos el control.
00:05:30A partir de ahí, enviará toda esa información
00:05:31de vuelta al servidor de OpenAI, para que Codex pueda revisarla.
00:05:34Y luego nos dará nuestra salida estructurada en JSON
00:05:37y deberíamos esperar que se vea algo como esto, ¿verdad?
00:05:41Y nos dará algún tipo de severidad de sus hallazgos,
00:05:43comparando entre crítico, alto, medio y bajo,
00:05:46así como recomendaciones y próximos pasos.
00:05:48Pero todo lo que tienes que hacer es sentarte ahí en Claude Code
00:05:51y esperar la respuesta.
00:05:52Entonces Codex regresó con cuatro problemas en nuestro código base
00:05:54y todos ellos tenían una severidad de "alta",
00:05:57y pegué esto en Excalidraw
00:05:58para que nos sea un poco más fácil revisarlo.
00:06:00Para cada uno de ellos, nos da la severidad,
00:06:02el área, el problema real, los archivos,
00:06:06así como las líneas exactas de código
00:06:08que necesitamos revisar.
00:06:09Y lo más importante, ¿cuál es el impacto real aquí
00:06:12así como la solución?
00:06:13Así que, número uno, dice que teníamos un problema
00:06:15con nuestra lógica de de-duplicación.
00:06:16El número dos era cómo estábamos manejando el sondeo de Telegram.
00:06:19El tercero fue nuestra deriva del esquema.
00:06:21Y finalmente fue nuestra construcción del dashboard.
00:06:24Así que estas son cosas relativamente importantes,
00:06:27y afortunadamente no parece que las correcciones
00:06:29sean demasiado difíciles de implementar.
00:06:31Pero lo que me interesa es,
00:06:33bien, esto es lo que Codex nos dio.
00:06:35¿Qué nos daría Claude si pidiéramos una
00:06:40revisión adversaria similar sobre su propio código base?
00:06:43Porque creo que sería bastante revelador
00:06:45verlos frente a frente
00:06:46y ver qué hace Codex realmente diferente del otro.
00:06:48Porque por lo que sabemos, podrían ser exactamente iguales
00:06:50y todo este video no tendría sentido.
00:06:52Así que ahora estoy haciendo que Opus ejecute el mismo
00:06:55tipo de revisión de código adversaria.
00:06:56Hice que Codex creara un prompt en particular.
00:06:59Básicamente lo que dice es,
00:07:00oye, quiero que desafíes la implementación,
00:07:02las decisiones de diseño.
00:07:04Aquí hay algunas cosas que quiero que evalúes.
00:07:05Y aquí está el formato de salida deseado.
00:07:07Así que veamos con qué regresa.
00:07:09Y aquí están los resultados desglosados.
00:07:11En primer lugar, tuvieron un hallazgo compartido.
00:07:13Ambos estuvieron de acuerdo en que el problema de Telegram era un fallo.
00:07:17Este fue el único problema que ambos encontraron
00:07:20y que dijeron que era o alto o crítico.
00:07:23Codex dijo que era simplemente alto,
00:07:24mientras que Opus dijo que era crítico.
00:07:26Opus por su cuenta encontró otros siete problemas adicionales
00:07:30clasificados como altos o críticos que Codex no detectó.
00:07:32Ahora, no estamos diciendo que por el simple hecho de decir
00:07:36que hay más problemas, Opus
00:07:37sea necesariamente mejor que Codex.
00:07:39Solo señalo que encontró siete cosas
00:07:41que quizás queramos revisar y que Codex no vio.
00:07:43Luego, obviamente, por el otro lado,
00:07:45encontramos tres problemas con Codex que Opus pasó por alto.
00:07:48Entonces, ¿qué significa esto
00:07:49si miramos esto en su totalidad?
00:07:50¿Significa que Opus es mejor que Codex
00:07:51porque encontró más, o que Codex es mejor que Opus
00:07:54porque se centró en cuatro
00:07:56y no nos llevó por un camino extraño?
00:07:58Creo que lo que sacas de esto
00:07:59es básicamente lo que tú quieras sacar.
00:08:01Y probablemente sea que hay cierto valor
00:08:04en tener estos dos sistemas.
00:08:05Mirándolo bien, ¿no?
00:08:06Un segundo par de ojos frente a tener a Opus
00:08:09evaluando a Opus todo el tiempo.
00:08:10Creo que hay algún tipo de fallo fundamental
00:08:13en que el mismo sistema de IA haga la planificación,
00:08:16la generación y la evaluación.
00:08:17Y si podemos incorporar a Codex fácilmente,
00:08:20especialmente a ese precio,
00:08:22para hacer cosas así,
00:08:24como una revisión adversarial,
00:08:25de nuevo, es como una de las grandes jugadas
00:08:28de codificación con IA en el margen, que es: ¿por qué no?
00:08:30Si ya estás pagando por ChatGPT,
00:08:34si ya estás pagando los 20 dólares al mes,
00:08:35y ahora puedo traer esto y hacer que Codex
00:08:37le eche un vistazo a cualquier cosa,
00:08:38así de simple, ¿cuál es el inconveniente realmente?
00:08:43Quiero decir, no creo que con pruebas rápidas como esta
00:08:47vayamos a tener respuestas definitivas como:
00:08:48«Oh, Codex es mejor que Opus».
00:08:50Y creo que toda esa conversación
00:08:51en cierto modo pierde el sentido.
00:08:52Esto es solo una herramienta más en nuestra caja
00:08:54y ahora podemos usarla.
00:08:55Así que creo que esto es genial.
00:08:56Ahora podemos ser mucho más específicos
00:08:58también con la revisión adversarial,
00:09:00porque nuestro prompt era bastante abierto y general
00:09:03y pudo interpretarlo de muchas maneras diferentes,
00:09:06pero basándonos solo en los ejemplos de GitHub, ¿verdad?
00:09:08Puedes ser bastante específico
00:09:09sobre lo que quieres que Codex analice.
00:09:11En general, creo que es una gran adición
00:09:13al ecosistema de Cloud Code.
00:09:14Cuantas más herramientas, mejor,
00:09:15especialmente si eres alguien que, o bien A,
00:09:17ya está pagando por ChatGPT,
00:09:19o B, está en el plan Pro de Anthropic,
00:09:22y quizás si pagas por ChatGPT,
00:09:23cien dólares al mes puede ser un poco excesivo,
00:09:25doscientos dólares sin duda sería demasiado.
00:09:28Esto casi nos da como un término medio
00:09:30entre la suscripción de 20 y la de 100 dólares,
00:09:33porque Codex realmente es una gran opción por su valor.
00:09:36Así que definitivamente pruébenlo, la configuración es súper fácil.
00:09:39Cuéntenme qué les ha parecido,
00:09:41y como siempre, nos vemos por aquí.

Key Takeaway

La combinación de Claude Code con el plugin de OpenAI Codex optimiza el flujo de trabajo de programación al permitir revisiones adversarias cruzadas que detectan fallos críticos de seguridad y reducen significativamente el consumo de cuota de Anthropic.

Highlights

La integración de Codex en Claude Code reduce los costos operativos al ofrecer una mejor relación entre dólares y créditos en comparación con el uso exclusivo de tokens de Anthropic.

El comando 'codex rescue' permite delegar la ejecución de tareas a Codex mientras se reserva Opus 4.6 para la fase de planificación estratégica.

La revisión adversaria de Codex analiza siete superficies de ataque críticas: autenticación, pérdida de datos, reversiones, condiciones de carrera, dependencias degradadas, desajuste de versiones y brechas de observabilidad.

En una prueba comparativa sobre un bot de Twitter, Codex identificó cuatro fallos de seguridad de alta severidad que requerían correcciones inmediatas en la lógica de de-duplicación y el sondeo de Telegram.

El uso de dos modelos distintos para evaluar el mismo código base revela errores que un solo modelo pasa por alto, como los siete problemas adicionales detectados por Opus que Codex no visualizó y viceversa.

La instalación se realiza mediante el marketplace de Claude Code con el comando 'plugin install codex@openai-codex' y requiere vinculación con una cuenta de ChatGPT.

Timeline

Integración de Codex en el ecosistema de Anthropic

  • Codex funciona ahora como un complemento interno dentro de la interfaz de línea de comandos de Claude Code.
  • La relación de costo por token de Codex es más eficiente para usuarios que enfrentan límites de uso frecuentes en los planes de Anthropic.
  • La revisión adversaria asume una postura crítica para identificar errores que el modelo original no detecta al evaluar su propia producción.

El acceso a Codex desde Claude Code resuelve el problema de la autoevaluación deficiente en modelos de IA, un fenómeno documentado recientemente por el blog de ingeniería de Anthropic. Esta configuración permite que un modelo actúe como observador neutral o crítico del trabajo del otro. Las funciones principales incluyen revisiones estándar, auditorías adversarias y la generación directa de código mediante Codex Rescue.

Proceso de instalación y configuración técnica

  • La instalación requiere la ejecución de comandos específicos para agregar el plugin al marketplace y realizar el despliegue en el ámbito de usuario.
  • El comando 'codex:setup' inicia el proceso de autenticación vinculando la herramienta con el navegador y la cuenta de ChatGPT del usuario.
  • El consumo de créditos de la herramienta está ligado directamente a la cuenta de OpenAI, incluso en modalidades de acceso gratuito.

El despliegue técnico se simplifica mediante una serie de comandos de CLI que gestionan la descarga desde el repositorio de GitHub y la recarga de plugins activos. Una vez instalado, el sistema solicita permisos de acceso que se gestionan externamente en el navegador para garantizar la seguridad de la cuenta. Los límites de uso se rigen por las políticas vigentes de OpenAI para el modelo Codex.

Estrategias de ejecución y superficies de ataque

  • La delegación de tareas permite usar Opus 4.6 para la arquitectura y Codex para la escritura de código de menor jerarquía.
  • El motor de análisis de Codex se enfoca en siete áreas críticas de producción, incluyendo condiciones de carrera y brechas de observabilidad.
  • Los resultados de la auditoría se entregan en un formato estructurado JSON que clasifica los hallazgos por nivel de severidad desde bajo hasta crítico.

Utilizar Opus para planificar y Codex para ejecutar optimiza el rendimiento y el presupuesto del desarrollador. El sistema adversario no se limita a una revisión superficial, sino que escanea activamente el árbol de trabajo y los archivos sin seguimiento en busca de vulnerabilidades lógicas. El informe final detalla líneas de código exactas, el impacto potencial en el sistema y la recomendación técnica para solucionar el problema.

Comparativa de rendimiento: Codex frente a Opus

  • Ambos modelos coincidieron únicamente en un fallo crítico relacionado con el sondeo de una API de Telegram.
  • Opus detectó siete vulnerabilidades adicionales que Codex omitió, mientras que Codex encontró tres fallos que Opus no pudo ver en su propio código.
  • La redundancia de modelos elimina el fallo fundamental de tener al mismo sistema como planificador, generador y evaluador.

En una prueba real con una aplicación de monitoreo de Twitter conectada a Supabase y Telegram, la divergencia entre los hallazgos de los modelos subraya la necesidad de auditorías cruzadas. Codex se centró en cuatro problemas de alta severidad relacionados con la deriva del esquema y la duplicación de datos. Tener un segundo par de ojos artificiales proporciona una ventaja competitiva en el desarrollo sin incrementar drásticamente los costos operativos para usuarios que ya poseen suscripciones activas.

Community Posts

View all posts