J'ai mis à jour /grill-me et j'ai résolu Claude Code

CChase AI
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Le mode plan ne suffit pas. Des compétences comme "Grill Me" de Matt Pocock ou même des
00:00:06couches d'orchestration plus larges comme GSD ou les super-pouvoirs essaient toutes de résoudre le même problème.
00:00:11Prenez cette idée floue que vous avez en tête et transformez-la en quelque chose
00:00:16que Claude Code peut réellement construire. Mais peu importe le chemin que vous choisissez ou la
00:00:21compétence que vous utilisez, elles rencontrent toutes exactement le même problème. Vous comptez sur un seul
00:00:26modèle pour non seulement planifier et construire, mais vous comptez sur ce même modèle pour
00:00:31évaluer son propre travail. Donc, quand vous demandez à Claude : "Hé, était-ce la voie optimale ?
00:00:35Qu'est-ce qu'il va répondre ? Eh bien, il dira que c'était génial, quoi que vous ayez fait.
00:00:41Et c'est un problème, car si vous n'avez pas de bagage technique, vous ne savez pas si ce
00:00:45que Claude a écrit a réellement du sens. Mais dans cette vidéo, je vais vous montrer comment
00:00:51corriger cela. Nous allons nous appuyer sur la compétence "Grill Me" de Matt Pocock et nous
00:00:55allons ajouter une revue de code contradictoire de Codex. Mais c'est une revue de code qui va
00:01:00bien au-delà du plugin Codex que vous avez vu par le passé. Cette revue de code est
00:01:07itérative. Claude Code et Codex vont communiquer entre eux à travers plusieurs rounds pour vous
00:01:12amener à un stade où les deux outils d'IA leaders valident votre plan. Ainsi, vous pouvez avoir
00:01:18confiance dans le fait que ce que Claude Code a proposé a réellement du sens. Avec cette compétence,
00:01:23vous pourrez commencer chaque projet avec deux choses. Un : un plan que vous comprenez vraiment.
00:01:28Et deux : un plan que plusieurs outils d'IA ont validé. Donc, ce que vous obtenez aujourd'hui,
00:01:35ce sont deux compétences de ma part. Et ces deux compétences reposent sur ce que Matt Pocock nous
00:01:41donne ici dans son dépôt GitHub. Il a deux compétences : "Grill Me" et "Grill with Docs".
00:01:48Les deux compétences que je vais vous donner sont "Grill Me Codex" et "Grill with Docs Codex". Alors, que
00:01:53se passe-t-il ? Eh bien, "Grill Me" et "Grill with Docs" sont essentiellement un mode plan sous
00:01:57stéroïdes. Tout comme GSD, tout comme les super-pouvoirs, cela va plus loin. Les questions posées sont
00:02:01plus profondes. Cela vous donnera une meilleure compréhension de ce que vous essayez réellement de
00:02:07construire, car que vous vouliez l'admettre ou non, vous êtes probablement mauvais pour articuler
00:02:12ce que vous voulez. Et si vous ne pouvez pas articuler ce que vous voulez à Claude Code
00:02:19au début, vous allez avoir beaucoup d'hypothèses du côté de l'IA, ce qui vous donnera un produit
00:02:24médiocre à la sortie. Donc, "Grill Me" et "Grill with Docs" vous offrent de meilleurs résultats en
00:02:28approfondissant la phase de planification pour vous assurer que tout le monde est sur la même longueur
00:02:34d'onde. Ce que mes compétences vont vous apporter, c'est une deuxième phase à cela, où après que
00:02:38vous et Claude/Codex vous êtes mis d'accord, Codex intervient et dit : "Hé, ça a du sens.
00:02:44Ça ne va pas, corrigez ceci, corrigez cela." Et ensuite, Claude Code et Codex échangent.
00:02:51Et je pense que c'est important, car des choses comme "Grill Me", GSD et les super-pouvoirs ont
00:02:57identifié ce fossé, ce fossé entre vous et Claude Code, où vous avez une idée, vous pouvez l'articuler,
00:03:03nous allons échanger, nous allons nous mettre sur la même longueur d'onde, n'est-ce pas ? "Grill Me" est parfait pour ça.
00:03:08Le problème, c'est que même si vous et Claude/Codex êtes sur la même longueur d'onde, cela signifie-t-il
00:03:13que nous sommes automatiquement en route vers ce code optimal, ce qui devrait réellement être construit ?
00:03:19Peut-être, peut-être pas. Qui peut le dire ? Vous ne pouvez probablement pas, êtes-vous un ingénieur
00:03:23logiciel expert ? Vous pourriez l'être, mais je parie que la plupart des personnes qui regardent
00:03:28cette vidéo ne font pas partie de ce groupe. Et des choses comme l'outil de Matt Pocock, aussi
00:03:34génial soit-il, je veux dire, c'est des outils pour de vrais ingénieurs. Êtes-vous un vrai ingénieur ?
00:03:40Probablement pas. Peut-être que vous l'êtes. Si ce n'est pas le cas, tomberez-vous dans le problème
00:03:46où vous ne pouvez même pas évaluer ce que Claude/Codex a écrit ? Même si vous êtes sur la même
00:03:50longueur d'onde, cela pourrait être de la poubelle, cela pourrait être incroyable, qui sait ?
00:03:56Et l'autre problème, c'est que vous ne pouvez pas le juger, et Claude/Codex non plus, parce que
00:04:02Claude/Codex - et c'est quelque chose qu'Anthropic a dit lui-même - est très gentil et parle
00:04:09très bien du code qu'il a écrit, n'est-ce pas ? Vous demandez à Claude/Codex de juger ce qu'il
00:04:16a écrit, il répond : "Oh ouais, c'est super, A+". Donc, est-ce un narrateur fiable et un
00:04:21évaluateur fiable dans ce cas ? Non, ils ne le sont pas. Donc, si vous ne savez pas ce qui
00:04:27se passe, et que nous ne pouvons pas nécessairement faire confiance à Claude/Codex, où cela nous
00:04:32laisse-t-il ? Eh bien, nous avons ce fossé ici, n'est-ce pas ? Nous avons ce fossé entre Claude Code
00:04:36et le code "optimal". Et donc, la solution évidente est : "Eh bien, amenons un tiers, un tiers
00:04:41neutre pour examiner notre plan". Voici Codex.
00:04:48Et cette revue Codex est ce que j'ai ajouté aux compétences de Pocock, et c'est ce que je vais vous
00:04:52donner aujourd'hui. Donc, la première moitié est exactement la même que "Grill Me". Des questions
00:04:57dans les deux sens, on établit ce plan ensemble, tout est bien propre ici.
00:05:01Et une fois que le plan est gravé dans le marbre, eh bien, Codex va intervenir, il va voir ce que
00:05:09Claude Code a proposé et dire : "Ça a l'air bien, ça a l'air mauvais, qu'en penses-tu ?" Claude Code va
00:05:16jeter un œil et dire : "Oh, ça a du sens, corrigeons ça, voici ce que j'ai fait, examine à nouveau,
00:05:21Codex." Et cela va passer par un cycle de... bon, c'est limité à cinq tours, vous pouvez
00:05:28facilement le modifier, mais ça va faire cinq allers-retours, ce qui est un peu différent de
00:05:33la revue contradictoire standard du plugin Codex, parce que c'est plus itératif.
00:05:37Et l'idée est que s'ils font suffisamment d'allers-retours, nous arriverons éventuellement à un stade, espérons-le
00:05:42plus tôt que cinq tours, où ils diront tous les deux : "Hé, pouce levé, c'est bon, on avance."
00:05:49Donc, tout cela pour dire que ce que je vous donne aujourd'hui est destiné à corriger ce fossé ici.
00:05:54Ce fossé entre Claude Code et le code optimal que vous et moi aurons du mal à identifier,
00:05:59parce que nous ne sommes pas des ingénieurs logiciels experts et qu'on ne peut pas faire confiance
00:06:05à Claude Code pour le faire dans une certaine mesure. Donc, c'est ce que nous couvrons. Et maintenant,
00:06:11nous sommes tous sur la même longueur d'onde. Mais avant de passer à la démo, un mot rapide de
00:06:16notre sponsor d'aujourd'hui : moi. Comme vous le savez, Chase AI Plus est le foyer de ma masterclass
00:06:22Claude Code. Et c'est le meilleur moyen de passer de zéro à développeur IA, surtout si vous ne
00:06:27venez pas d'un milieu technique. Nous nous concentrons sur des cas d'utilisation réels.
00:06:32Et j'ai récemment ajouté la masterclass Claude OS aussi. Donc, si vous vous dites : "Hé, je veux aussi
00:06:38apprendre à intégrer des outils comme Obsidian et créer un centre de commande complet", c'est l'endroit
00:06:42pour vous. Vous pouvez trouver un lien dans le commentaire épinglé. Donc pour la démo d'aujourd'hui,
00:06:49nous allons ajouter une nouvelle page à notre site web. C'est le site de mon agence d'IA.
00:06:56Et la nouvelle page va donner aux gens l'accès à des compétences exclusives. Et pour accéder à cette
00:07:00page, quand ils cliqueront dessus, ils devront ajouter leur e-mail. Donc, c'est en quelque sorte
00:07:03verrouillé, on récupère leur e-mail, puis ils ont accès aux choses qu'ils peuvent télécharger.
00:07:07Maintenant, l'e-mail doit ensuite être géré par notre base de données, qui existe déjà.
00:07:11Donc, on ne crée pas juste une fonctionnalité à partir de rien, elle doit examiner la base de
00:07:16code qui existe déjà et la rendre cohérente. C'est donc le prompt que je donne à Claude Code : "Exécute
00:07:21"Grill Me Codex". Je veux ajouter une barrière de capture d'e-mail au site qui déverrouille
00:07:25la compétence "Grill Me Codex" de Claude Code. Si un visiteur arrive sur une page où le
00:07:30téléchargement est flouté derrière une superposition, il saisit son e-mail pour le déverrouiller
00:07:36et son e-mail est stocké." Et ensuite, je lui ai donné quelques informations supplémentaires.
00:07:40Donc la première partie va être la compétence "Grill Me". C'est exactement la même partie "Grill Me"
00:07:44que celle de Matt Pocock, celle sur laquelle nous construisons. Donc cette partie est identique.
00:07:48Et une fois que nous aurons passé en revue toutes les questions, Codex interviendra.
00:07:51Donc, après avoir examiné la base de code, il me pose maintenant la première question et
00:07:56me demande : "À quel point cette barrière est-elle réelle en ce qui concerne le flou ? Est-ce une
00:08:02chose cosmétique ou va-t-elle être réellement appliquée ?" Et tout comme avec "Grill Me", à chaque fois
00:08:10qu'il vous pose une question et vous donne des réponses potentielles, il donne aussi sa
00:08:16recommandation et pourquoi. Donc, pour celle-ci, ce sera juste cosmétique.
00:08:21C'est une compétence gratuite. L'objectif ici est juste de capturer l'e-mail. Donc nous allons juste
00:08:28dire : "Cosmétique, c'est bon. Le fichier est de toute façon gratuit." Ensuite, il demande où les
00:08:33ressources vont vivre et dans quel format. Et encore une fois, pour les besoins de cette démo,
00:08:38je vais simplement choisir l'option recommandée. Et je ne vais pas vous montrer le reste de ces
00:08:46questions, car ce n'est pas censé être une vidéo "Grill Me". Comprenez juste que si vous ne l'avez
00:08:52jamais vu auparavant, c'est la cadence générale. Il va vous poser une série de questions, vous donner
00:08:59des réponses potentielles et une recommandation. Très similaire au mode plan, juste le mode plan sous
00:09:05stéroïdes. Donc vous pouvez voir ici que nous avons fini par passer par 10 questions du côté de
00:09:12"Grill Me", puis nous avons fait la transition vers la partie Codex.
00:09:18Maintenant, la partie Codex va créer deux fichiers markdown pour nous. Nous avons "plan.md"
00:09:25et le "plan_review_log.md". Le "plan.md" est la source de vérité pour ce que nous allons créer.
00:09:31C'est ce que sera notre livrable final. Le "plan_review_log.md", c'est là où
00:09:35Claude Code et Codex vont s'affronter. Codex va jeter un œil au "plan.md" original et
00:09:40examiner l'ensemble de ce que Claude Code a créé. Et c'est dans le "plan_review_log.md" que Codex
00:09:45va dire : "Hé, ça craint, ça ne va pas, etc." Cela nous donne aussi un journal de leurs allers-retours
00:09:50à travers tous les cycles. Et à la fin de cet échange entre Codex et Claude Code,
00:09:56nous aurons un "plan.md" mis à jour. Donc le "plan.md" est le livrable final.
00:10:01C'est sur cela que tout sera basé. Le "plan_review_log.md" est l'échange et l'endroit où la
00:10:06saucisse est réellement fabriquée. Une autre remarque lors de cette revue contradictoire est que
00:10:12bien que ce soit en arrière-plan, nous donnons toujours à Codex l'ID de session.
00:10:18Donc ce n'est pas comme si c'était une page blanche pour Codex sur l'itération une versus
00:10:24l'itération deux versus l'itération trois. Il a toujours la mémoire de tout l'échange avec Claude Code.
00:10:30Nous pouvons voir ici qu'au round un, Codex a trouvé 11 points qu'il considérait comme des problèmes.
00:10:38Et nous pouvons aussi voir que Claude Code a mis à jour le "plan.md" basé sur les découvertes
00:10:44qu'il a acceptées et jugées valides. Au round deux, il a trouvé quatre découvertes supplémentaires.
00:10:49Nous sommes passés de 11 à quatre. Et encore une fois, le plan a été mis à jour.
00:10:54Et ici au round trois, nous voyons que le verdict est maintenant approuvé. C'est à ce moment-là
00:10:58que Codex et Claude Code sont sur la même longueur d'onde. Codex a toujours signalé quelques points,
00:11:08mais ce sont juste trois petits détails de bas niveau. Donc ce ne sont pas des bloqueurs. Et c'est réitéré ici
00:11:12à la fin où il dit que c'est approuvé au round trois sur cinq, nous dit à quoi ressemble le plan final,
00:11:18ce que les deux actes nous ont apporté et spécifiquement en termes d'acte deux, qui sont les rounds un
00:11:23et deux de Codex et Claude Code qui s'affrontent. Nous avons détecté de vraies failles de sécurité
00:11:27et d'exactitude. Il y avait des problèmes de slug de compétence client non borné,
00:11:31de contournement de déduplication sensible à la casse, de lien e-mail relatif, de vecteur de
00:11:35bombardement de liste brute et de limite de débit de balayage de table.
00:11:39Et au second round, il a détecté les faux correctifs. Donc au round un, Codex a dit : "Hé, voici
00:11:45les problèmes." Claude Code a essayé de les corriger. Et dans la seconde itération, Codex a dit :
00:11:50"Ce ne sont pas de vrais correctifs, n'est-ce pas ?" Donc il a remarqué que la double validation
00:11:55était réclamée mais pas connectée, que l'index de déduplication d'expression que Superbase JS
00:12:00ne peut pas cibler, et que le "await" avant la réponse qui bloquait toujours le déverrouillage
00:12:07a été déplacé après. Donc juste trois rounds, mais c'est un excellent gain de temps par rapport
00:12:12à essayer d'exécuter le premier plan que Claude Code a proposé et ensuite passer par tout
00:12:16le processus de dépannage. À la fin, il soulève aussi quelques points ouverts, principalement comme
00:12:22la migration SQL et tout ça. Mais c'est aussi Claude Code qui est paresseux car il peut le faire
00:12:26tout seul. Donc sur le site web, tout en haut, nous avons la compétence gratuite. Je clique dessus.
00:12:32Maintenant il me demande mon e-mail. Et cool. Maintenant j'ai la compétence ici que je peux télécharger
00:12:35dans un fichier .zip. Évidemment, en réalité, que voudrais-je faire ? Eh bien, je voudrais
00:12:37probablement que le texte et tout corresponde au reste du site, mais vous pouvez voir qu'il a créé ce que nous avions prévu. Le but de cette vidéo n'était pas la démo spécifique, mais juste de vous montrer cette compétence en action. Pour ce qui est de comment obtenir ces compétences vous-même, je les mettrai dans le commentaire épinglé pour vous faciliter la tâche. Mais à part ça, c'est à peu près tout ce que j'ai. Évidemment, ce que vous devez savoir pour cela, c'est : "Hé, nous utilisons Codex." Donc vous aurez besoin d'un compte OpenAI. Vous aurez besoin de télécharger Codex, ce qui est relativement simple à faire. Et il n'y a aucune raison que vous ayez besoin de quoi que ce soit au-delà du plan OpenAI à 20 $ par mois pour en tirer beaucoup. Ce système que nous avons créé est aussi quelque chose que vous pourriez facilement échanger pour une sorte de modèle local. Donc si vous vous dites : "Hé, je ne veux pas payer 20 $ par mois à OpenAI. Je préférerais utiliser quelque chose comme DeepSeek ou autre", n'importe quel modèle local ou moins cher que vous avez, c'est vraiment facile à faire. Les bases sont là. Je prendrais juste la compétence que j'ai créée, je l'apporterais dans Claude Code et je dirais : "Hé, peut-on remplacer Codex par [insérer le modèle que vous essayez d'utiliser] ?" C'est vraiment aussi simple que ça. C'est très, très flexible. Donc il y a beaucoup de choses que vous pouvez faire avec. Et je pense que les bases ont beaucoup de sens pour ceux d'entre nous qui ne se considèrent pas comme des codeurs experts, qui peuvent jeter un œil rapidement et efficacement à ce que Claude Code a fait et dire : "Ça a du sens. Ça, non." Ce n'est tout simplement pas dans les cordes de beaucoup de gens, et ça n'a pas besoin de l'être. Franchement, nous avons des outils qui peuvent le faire pour nous. Donc comme toujours, faites-moi savoir ce que vous en avez pensé. Assurez-vous de consulter Chase AI Plus si vous voulez mettre la main sur la masterclass Claude Code, et je vous verrai autour.

Key Takeaway

L'ajout d'une revue de code contradictoire via Codex à la compétence « Grill Me » permet d'automatiser la validation technique d'un projet, garantissant un code optimal sans nécessiter d'expertise logicielle approfondie.

Highlights

  • Claude Code et Codex s'affrontent sur 5 cycles itératifs pour valider la pertinence technique d'un plan avant sa mise en œuvre.

  • L'utilisation de Codex permet d'identifier automatiquement des failles de sécurité, telles que le bombardement de listes brutes et la validation incomplète des données.

  • Le système génère deux fichiers Markdown : un plan source de vérité (plan.md) et un journal de revue contradictoire (plan_review_log.md).

  • La revue itérative a permis de détecter des correctifs inefficaces proposés par Claude Code, notamment une double validation non connectée.

  • Cette méthode remplace l'auto-évaluation biaisée de Claude Code par un tiers neutre, rendant le processus accessible aux développeurs non experts.

Timeline

La problématique de l'auto-évaluation par l'IA

  • Claude Code ne peut pas évaluer objectivement la qualité optimale de son propre travail.
  • La phase de planification standard est souvent insuffisante pour articuler précisément les besoins techniques.
  • Le fossé entre l'idée de l'utilisateur et le code généré crée un risque de produits médiocres.

Les outils de planification actuels reposent sur un seul modèle qui évalue son propre travail, ce qui conduit à une complaisance artificielle. Sans bagage technique, l'utilisateur est incapable de juger la qualité du code produit. L'IA a tendance à valider positivement ses propres propositions, ce qui rend nécessaire l'intervention d'un tiers neutre pour garantir l'exactitude.

Intégration d'une revue contradictoire avec Codex

  • Codex intervient après la phase de planification pour valider ou corriger le plan de Claude Code.
  • Le processus est limité à cinq tours de communication pour atteindre un consensus technique.
  • Ce système est compatible avec des modèles locaux ou moins coûteux en remplaçant Codex par d'autres API.

La solution consiste à introduire Codex comme évaluateur neutre dans un cycle itératif. Claude Code et Codex communiquent à travers des fichiers Markdown pour raffiner le livrable final. Cette interaction permet d'atteindre un état validé où les deux outils s'accordent sur la stratégie de développement.

Démonstration pratique : ajout d'un système de capture d'e-mails

  • Codex a identifié 11 failles potentielles lors du premier round, puis 4 lors du second.
  • La validation par Codex a détecté des problèmes spécifiques comme la sensibilité à la casse et la gestion des promesses asynchrones.
  • Le processus a abouti à un plan approuvé et sécurisé après trois tours de revue.

Le projet consistait à ajouter une barrière de capture d'e-mail sur un site web existant. Après l'utilisation de la compétence « Grill Me » pour définir les besoins, Codex a analysé la cohérence du code avec la base de données existante. Il a corrigé les erreurs de Claude Code en temps réel, notamment le déplacement incorrect de fonctions 'await' et les vecteurs de bombardement de données.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video