Actualicé /grill-me y resolví Claude Code

Españolالعربية Deutsch English Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00El modo plan no es suficiente. Habilidades como “Grill Me” de Matt Pocock o incluso capas de

00:00:06orquestación más grandes como GSD o “superpowers” intentan resolver el mismo problema. Toma esa idea

00:00:11difusa en tu cabeza y conviértela en algo que Claude Code pueda construir realmente. Pero sin

00:00:16importar el camino que elijas o la habilidad que selecciones, todos se enfrentan al mismo problema:

00:00:21confías en un solo modelo no solo para planificar y construir, sino también para calificar su propio trabajo.

00:00:26Así que, cuando le preguntas a Claude: “Oye, ¿fue este el camino óptimo a seguir?”, ¿qué va a decir?

00:00:31Bueno, dirá que fue excelente sin importar lo que hicieras. Y esto es un problema porque si no

00:00:35tienes un trasfondo técnico, en realidad no sabes si lo que escribió Claude tiene sentido.

00:00:41Pero en este video, te voy a mostrar cómo solucionar eso. Vamos a construir sobre la habilidad

00:00:45“Grill Me” de Matt Pocock y añadiremos una revisión de código adversarial de Codex. Pero es una

00:00:51revisión de código que va mucho más allá del plugin de Codex que has visto en el pasado. Esta

00:00:55revisión es iterativa. Claude Code y Codex estarán hablando entre sí a través de múltiples rondas

00:01:00para llevarte a un punto donde ambas herramientas líderes de IA aprueben tu plan. Así podrás sentirte

00:01:07seguro de que lo que se le ocurrió a Claude Code realmente tiene sentido. Y con esta habilidad,

00:01:12podrás comenzar cada proyecto con dos cosas: primero, un plan que realmente entiendes, y segundo,

00:01:18un plan que múltiples herramientas de IA han aprobado. Así que lo que obtendrás hoy son dos habilidades mías.

00:01:23Y ambas están construidas sobre la base de lo que Matt Pocock nos da en su repositorio de GitHub.

00:01:28Él tiene dos habilidades: “Grill Me” y “Grill with Docs”. Las dos que te voy a dar son “Grill Me Codex”

00:01:35y “Grill with Docs Codex”. ¿Qué está pasando? Bueno, “Grill Me” y “Grill with Docs” son esencialmente

00:01:41un modo plan con esteroides. Al igual que GSD o “superpowers”, va un paso más allá. Las preguntas que

00:01:48hace son más profundas. Te darán una mejor perspectiva de lo que realmente intentas construir, porque

00:01:53quieras admitirlo o no, probablemente no eres bueno articulando lo que quieres. Y si no puedes

00:01:57articular lo que deseas a Claude Code al principio, terminarás con muchas suposiciones por parte

00:02:01de la IA, lo cual da como resultado un producto mediocre. Así que “Grill Me” y “Grill with Docs”

00:02:07te brindan mejores resultados al profundizar en la fase de planificación para asegurarse de que todos

00:02:12estén en la misma página. Lo que mis habilidades te van a dar es una segunda fase, donde después de que

00:02:19tú y Claude Codex se hayan puesto de acuerdo, Codex entra y dice: “Oye, eso tiene sentido. Esto no,

00:02:24arregla aquello”. Y entonces Claude Code y Codex van y vienen. Y creo que esto es importante porque

00:02:28cosas como “Grill Me”, GSD y “superpowers” identificaron este hueco, este espacio entre tú

00:02:34y Claude Code, donde tienes una idea, puedes articularla, vamos a ir y venir,

00:02:38nos vamos a poner de acuerdo, ¿cierto? “Grill Me” (GM) es perfecto para esto.

00:02:44El problema es que, incluso si tú y Claude Codex están en la misma página, ¿significa que estamos

00:02:51automáticamente en camino hacia un código óptimo, hacia lo que realmente debería construirse? Quizás, quizás

00:02:57no, ¿quién sabe? Probablemente tú no puedas decirlo, ¿eres un ingeniero de software experto? Puede

00:03:03que lo seas, pero sospecho que la mayoría de la audiencia que ve esto no cae en esa categoría.

00:03:08Y cosas como la de Matt Pocock, por muy geniales que sean, son habilidades para ingenieros reales.

00:03:13¿Eres un ingeniero real? Probablemente no. Quizás lo seas. Si no lo eres, ¿caerás en el problema

00:03:19donde ni siquiera puedes evaluar lo que ha escrito Claude Codex? Incluso si están en la misma página,

00:03:23podría ser basura, podría ser increíble, ¿quién sabe? Y el otro problema es que no puedes juzgarlo,

00:03:28y tampoco puede Claude Codex, porque Claude Codex, y esto es algo que la propia Anthropic ha dicho,

00:03:34es muy amable y habla muy bien del código que ha escrito, ¿verdad? Le pides a Claude Codex que juzgue

00:03:40lo que escribió, y es como: “Oh, sí, genial, A+”. Entonces, ¿son un narrador confiable y un evaluador

00:03:46confiable en este caso? No, no lo son. Entonces, si no sabes qué está pasando, y no podemos

00:03:50necesariamente confiar en Claude Codex, ¿dónde nos deja eso? Bueno, tenemos este hueco entonces, ¿verdad?

00:03:56Tenemos este hueco entre Claude Code y el “código óptimo”. Y entonces, la solución obvia es:

00:04:02traigamos a un tercero, un tercero neutral para que eche un vistazo a nuestro plan. Aquí entra Codex.

00:04:09Y esta revisión de Codex es lo que añadí a las habilidades de Pocock, y es lo que te daré hoy.

00:04:16Así que la primera mitad es exactamente igual que “Grill Me”. Preguntas de ida y vuelta, elaboramos

00:04:21este plan juntos, todo queda bonito y ordenado aquí. Y una vez que tenemos el plan listo, bueno,

00:04:27entonces Codex entra, ve lo que Claude Codex ha propuesto y dice: “Esto se ve bien, esto se ve mal,

00:04:32¿qué piensas?”. Claude Code lo revisa y dice: “Oh, eso tiene sentido, arreglemos eso, aquí está lo que hice,

00:04:36échale otro vistazo, Codex”. Y va a pasar por un ciclo de, bueno, el límite son cinco turnos,

00:04:41puedes editar eso fácilmente, pero van a tener cinco intercambios, lo cual es un poco diferente al

00:04:48plugin estándar de revisión adversarial de Codex, porque es más iterativo. Y la idea es que, si van

00:04:52y vienen suficientes veces, eventualmente llegaremos, ojalá antes de los cinco turnos, a un punto donde

00:04:57ambos digan: “Oye, pulgar arriba, está listo, sigamos adelante”. Así que todo eso es para decir que lo

00:05:01que te doy hoy tiene el objetivo de solucionar este hueco. Este hueco entre Claude Code y el código

00:05:09óptimo que tú y yo tendremos problemas para identificar porque no somos ingenieros de software expertos

00:05:16y no se puede confiar plenamente en Claude Code para hacerlo. Así que eso es lo que estamos cubriendo.

00:05:21Y ahora todos estamos en la misma página. Pero antes de saltar a la demostración, una breve palabra del

00:05:28patrocinador de hoy: yo. Como saben,

00:05:33Chase AI Plus es el hogar de mi clase magistral de Claude Code. Y es la forma número uno de ir

00:05:37de cero a desarrollador de IA, especialmente si no vienes de un entorno técnico. Nos enfocamos en

00:05:42casos de uso reales. Y recientemente agregué la clase magistral de Claude OS también. Así que si dices: “Oye,

00:05:49también quiero aprender a integrar cosas como Obsidian y crear un centro de mando completo”, este

00:05:54es tu lugar. Puedes encontrar un enlace en el comentario fijado. Para la demostración de hoy, vamos a

00:05:59añadir una página nueva a nuestro sitio web. Este es el sitio web de mi agencia de IA. Y la nueva página

00:06:05dará acceso a algunas habilidades exclusivas. Para acceder a esta página, cuando hagan clic, tendrán

00:06:11que añadir su correo electrónico. Así que está algo restringido, capturamos su email y entonces

00:06:16tienen acceso a las descargas. El correo necesita ser manejado por nuestra base de datos, que ya existe.

00:06:22Así que no estamos creando una función de la nada, necesita revisar la base de código que ya existe

00:06:27y hacerla coherente. Este es el prompt que le doy a Claude Code: “run grill me codex”.

00:06:32Quiero añadir una puerta de captura de email al sitio que desbloquee la habilidad Claude Code “Grill Me Codex”.

00:06:38Si un visitante aterriza en una página donde la descarga de la habilidad está borrosa detrás de

00:06:42una superposición, ingresan su correo para desbloquearla y su email se guarda. Y luego le di contexto adicional.

00:06:49La primera parte será la habilidad “Grill Me”. Es exactamente la misma parte de “Grill Me” que la de

00:06:56Matt Pocock, sobre la cual estamos construyendo. Así que esa parte es igual.

00:07:00Una vez que pasemos por todas las preguntas, Codex entrará. Así que después de que miré a través de

00:07:03la base de código, ahora me hace la primera pregunta: “¿Qué tan real es esta puerta de acceso

00:07:07en cuanto al desenfoque? ¿Es algo cosmético o se va a aplicar realmente?”

00:07:11Y al igual que con “Grill Me”, cada vez que te hace una pregunta y te da posibles respuestas,

00:07:16también te da su recomendación y el porqué. Para esto, solo será cosmético.

00:07:21Es una habilidad gratuita. El objetivo aquí es solo capturar el email. Así que solo diremos:

00:07:25“Cosmético está bien. El archivo es gratis de todos modos”. Luego pregunta dónde vivirán los activos

00:07:30y en qué formato. Y de nuevo, por el bien de esta demo, elegiré la opción recomendada.

00:07:36Y no voy a mostrarte el resto de las preguntas porque esto no pretende ser un video de “Grill Me”.

00:07:40Solo entiende que si no lo has visto antes, esta es la cadencia general.

00:07:44Te hará una serie de preguntas, te dará posibles respuestas y una recomendación.

00:07:48Muy similar al modo plan, solo que un modo plan con esteroides. Como puedes ver aquí,

00:07:51terminamos pasando por 10 preguntas en el lado de “Grill Me”, y luego transicionamos a la parte

00:07:56de Codex. La parte de Codex creará dos archivos markdown para nosotros: el plan.md

00:08:02y el plan_review_log.md. El plan.md es la fuente de verdad de lo que vamos a crear.

00:08:10Este es nuestro entregable final. El plan_review_log.md es donde

00:08:16Claude Code y Codex van a debatir. Codex mirará el plan.md original y

00:08:21revisará el trabajo que Claude Code ha creado. Y es en el plan_review_log donde Codex

00:08:28dirá: “Oye, esto apesta, esto no”, etcétera. También nos da un registro de sus

00:08:33idas y venidas a lo largo de todos los ciclos. Al final de este intercambio entre Codex y Claude Code,

00:08:38tendremos un plan.md actualizado. Así que plan.md es el entregable final. Sobre eso se construirá todo.

00:08:46El plan_review_log es la discusión y donde se cocina todo. Otra

00:08:52nota durante esta revisión adversarial es que aunque es sin cabeza (headless), aún le damos a Codex el ID de sesión.

00:08:59Así que no es como si fuera una pizarra en blanco para Codex en la iteración uno frente a la

00:09:05iteración dos o tres. Siempre tiene memoria de todo el intercambio con Claude Code. Así que podemos

00:09:12ver aquí que en la ronda uno, Codex encontró 11 cosas que consideró problemas. Y también podemos

00:09:18ver que Claude Code procedió y actualizó el plan.md basándose en los hallazgos que aceptó

00:09:25y consideró válidos. En la ronda dos, encontró cuatro hallazgos adicionales. Pasamos de 11 a cuatro. De nuevo,

00:09:31el plan fue actualizado. Y aquí en la ronda tres, vemos que el veredicto es “aprobado”. Es en este

00:09:35punto que Codex y Claude Code ya están en la misma página. Codex todavía ha marcado un par de cosas,

00:09:40pero son solo tres detalles de bajo nivel. Así que no son bloqueadores. Y eso se reitera aquí al final

00:09:45donde dice que está aprobado, la ronda tres de cinco nos dice cómo se ve el plan final,

00:09:50lo que nos dieron los dos actos y específicamente en términos del acto dos, que es la ronda uno y la

00:09:56ronda dos de Codex y Claude Code discutiendo. Descubrimos agujeros reales de seguridad y corrección.

00:10:01Hubo una “slug” de habilidad de cliente sin límites, omisión de deduplicación sensible a mayúsculas, enlace de email relativo,

00:10:06vector de bombardeo de lista sin procesar y límite de velocidad de escaneo de tablas. Y en la segunda ronda, detectó las falsas

00:10:12soluciones. Así que en la ronda uno Codex dijo: “Oye, aquí están los problemas”. Claude Code intentó arreglarlos. Y en la

00:10:18segunda iteración, Codex dice: “Esas no son soluciones reales”. Entonces notó que el doble opt-in

00:10:24decía estar cableado pero no lo estaba, la deduplicación del índice de expresión que Supabase JS no puede apuntar

00:10:30y el “await” antes de la respuesta que aún bloqueaba el desbloqueo se movió después. Solo tres rondas,

00:10:38pero este es un gran ahorro de tiempo frente a intentar ejecutar el primer plan que Claude Code

00:10:44ideó y luego pasar por todo el proceso de resolución de problemas. Al final, también menciona algunos

00:10:49temas abiertos, principalmente como la migración SQL y todo eso. Pero eso también es Claude Code siendo perezoso porque puede

00:10:54hacerlo por su cuenta. Así que arriba en el sitio web, tenemos la habilidad gratuita. Hago clic en ella. Ahora

00:10:58me pide mi email. Y genial. Ahora tengo la habilidad aquí que puedo descargar en un archivo .zip.

00:11:08Obviamente, en realidad, ¿qué querría hacer? Bueno, probablemente querría que el texto y

00:11:12todo coincida con el resto del sitio web, pero puedes ver que creó lo que nos propusimos hacer.

00:11:18El punto de este video no era la demo específica, sino mostrarte esta habilidad en acción. En cuanto a

00:11:23cómo obtener estas habilidades tú mismo, las pondré en el comentario fijado para hacértelo fácil.

00:11:27Pero aparte de eso, eso es prácticamente todo lo que tengo. Obviamente, cosas que necesitas saber para esto es,

00:11:31oye, estamos usando Codex. Así que necesitarás una cuenta de OpenAI. Necesitarás Codex

00:11:35descargado, lo cual es relativamente simple. Y no hay razón para necesitar nada más allá del

00:11:39plan de $20 al mes de OpenAI para sacarle mucho provecho. Este sistema que hemos creado también es algo

00:11:45que podrías cambiar fácilmente por algún modelo local. Así que si dices: “Oye, no quiero

00:11:50pagar a OpenAI $20 al mes. Prefiero usar algo como DeepSeek o cualquier modelo local o más barato

00:11:55que tengas”, es muy fácil de hacer. Como, la base está ahí. Solo tomaría la habilidad que he creado,

00:12:00llevarla dentro de Claude Code y decir: “Oye, ¿podemos cambiar Codex por (inserta el modelo que quieras usar)?”

00:12:07Es así de fácil. Es muy, muy flexible. Así que hay mucho que puedes hacer con

00:12:12eso. Y creo que la base tiene mucho sentido para aquellos de nosotros que no nos consideramos

00:12:16codificadores expertos que pueden mirar rápida y eficientemente lo que Claude Code ha hecho y decir:

00:12:22“Esto tiene sentido. Esto no”. Simplemente no está en el alcance de mucha gente,

00:12:26ni necesita estarlo. Francamente, tenemos herramientas que pueden hacer esto por nosotros. Así que, como siempre,

00:12:32hazme saber qué piensas. Asegúrate de echar un vistazo a Chase AI Plus si quieres tener en tus manos

00:12:35la clase magistral de Claude Code,

00:12:37y nos vemos por ahí.

Key Takeaway

La integración de una revisión adversarial iterativa con Codex sobre el flujo de trabajo de Claude Code permite corregir deficiencias de seguridad y lógica que los usuarios sin conocimientos técnicos no podrían identificar por sí mismos.

Highlights

Claude Code evalúa y califica su propio trabajo de forma sesgada, otorgándose calificaciones positivas sin importar la calidad real del código.
La implementación de 'Grill Me Codex' añade una capa de revisión adversarial donde Codex cuestiona y corrige el plan de Claude Code de forma iterativa.
El proceso de revisión se limita a cinco rondas de intercambio entre ambas inteligencias artificiales para asegurar que el plan sea técnicamente sólido.
La fase de revisión adversarial detectó fallos específicos como la falta de límites en la 'slug' de la habilidad, la omisión de deduplicación sensible a mayúsculas y vectores de bombardeo de lista sin procesar.
El sistema es compatible con modelos locales o alternativos a OpenAI como DeepSeek, permitiendo sustituir Codex fácilmente dentro de la estructura existente.

Timeline

El sesgo de autoevaluación en Claude Code

Claude Code confía excesivamente en su propia capacidad para planificar, ejecutar y evaluar sus resultados.
Los modelos de IA tienden a ser amables y autocomplacientes al revisar el código que ellos mismos generan.

Las herramientas existentes como 'Grill Me' de Matt Pocock, GSD o 'superpowers' mejoran la articulación inicial de las ideas con la IA. Sin embargo, persisten problemas técnicos si el usuario carece de experiencia en ingeniería de software para auditar el resultado final. Claude Code actúa como un narrador no confiable al evaluarse positivamente a sí mismo de manera sistemática.

Revisión iterativa con Codex

Un tercero neutral, Codex, interviene para auditar el plan generado por Claude Code.
El intercambio se realiza mediante un proceso iterativo que puede extenderse hasta cinco rondas de revisión.

El nuevo flujo de trabajo introduce a Codex para auditar el entregable. El proceso genera dos archivos: 'plan.md' como fuente de verdad y 'plan_review_log.md' para registrar los debates y las correcciones solicitadas entre ambos modelos, asegurando que ambos acuerden un plan antes de la construcción.

Demostración: Puerta de captura de email

La implementación de una puerta de acceso para descargar habilidades demostró la capacidad del sistema para detectar fallos de seguridad.
El registro de revisión identificó 11 problemas en la primera ronda y cuatro en la segunda antes de alcanzar la aprobación.

Se aplicó el prompt 'run grill me codex' para integrar una función que solicita correos electrónicos a cambio de acceso a archivos. Codex identificó vectores críticos como enlaces relativos inseguros y problemas de validación de datos en la base de código. Esta capa iterativa redujo significativamente el tiempo necesario para resolver problemas post-implementación.

Flexibilidad del sistema y modelos alternativos

El sistema es altamente flexible y permite la sustitución de Codex por modelos locales o más económicos.
Los usuarios pueden integrar estas habilidades directamente en su flujo de trabajo mediante el repositorio de GitHub proporcionado.

La estructura creada no está ligada exclusivamente a OpenAI. Es posible reemplazar el modelo de revisión por alternativas como DeepSeek o modelos locales mediante cambios simples en la configuración de la habilidad. Esto democratiza la capacidad de realizar auditorías de código complejas sin necesidad de ser un ingeniero experto.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video