Claude Code + Codex = Le DIEU de l'IA

CChase AI
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Nous pouvons désormais utiliser Codex au sein de Claude Code.
00:00:03OpenAI l'a rendu possible.
00:00:04Le concurrent numéro un d'Opus 4.6
00:00:08est maintenant un outil utilisable
00:00:09dans l'écosystème d'Anthropic.
00:00:11C'est une excellente nouvelle pour les adeptes de Claude Code,
00:00:15surtout si vous avez eu du mal
00:00:18avec les quotas d'utilisation, car franchement,
00:00:20Codex offre un bien meilleur rapport qualité-prix
00:00:23en termes de dollars par crédit ou jeton.
00:00:26Dans cette vidéo, je vais vous montrer comment le configurer
00:00:28et nous verrons ce que Codex peut réellement faire
00:00:31avec l'interface de Claude Code par-dessus.
00:00:33Et plus important encore, ce que nous pouvons faire
00:00:38en utilisant Opus 4.6 et Codex ensemble, n'est-ce pas ?
00:00:40Comment faire interagir ces deux modèles
00:00:43pour obtenir un résultat supérieur à la somme de leurs parties ?
00:00:46Avant l'installation, passons rapidement en revue
00:00:48ce que le plugin Claude Code nous apporte,
00:00:50car il y a plusieurs nouveautés.
00:00:51Les deux points les plus importants, selon moi,
00:00:54sont les revues de code, d'accord ?
00:00:56La capacité de lui faire examiner
00:00:58ce qu'Opus a écrit.
00:00:59Et cela se passe en plusieurs étapes.
00:01:01D'abord, nous avons la revue Codex standard,
00:01:03qui est juste une sorte de revue neutre.
00:01:06Il examine le code, c'est en lecture seule.
00:01:08La seconde est la revue contradictoire, que j'adore.
00:01:12Il s'agit essentiellement de dire à Codex :
00:01:13"Hé, regarde ce qu'Opus a construit"
00:01:15"ou ce que n'importe quel agent de code a construit,"
00:01:17"mais fais preuve d'un œil très critique."
00:01:20"Pars du principe qu'ils se sont plantés"
00:01:22"et trouve ce que nous pouvons faire pour l'améliorer."
00:01:25C'est un moyen génial d'améliorer nos résultats,
00:01:28car l'un des problèmes d'Opus,
00:01:31et de beaucoup de modèles d'IA en général,
00:01:33est qu'ils évaluent mal leur propre code.
00:01:36C'est un sujet abordé par Anthropic
00:01:38dans leur blog d'ingénierie publié la semaine dernière.
00:01:40Donc, une revue contradictoire, c'est parfait, j'adore ça.
00:01:44En dehors de cela, nous pouvons utiliser Codex Rescue,
00:01:46qui permet à Codex de créer quelque chose de lui-même
00:01:49tout comme vous le feriez avec Opus dans Claude Code.
00:01:52Et au-delà, il y a des informations de statut,
00:01:54comme voir l'avancement d'une tâche particulière.
00:01:58Plongeons là-dedans et regardons l'installation.
00:02:01L'installation est assez simple.
00:02:02Il suffit de lancer cette commande
00:02:04pour l'ajouter à la marketplace.
00:02:06Je mettrai toutes ces commandes dans la description.
00:02:08Ensuite, lancez cette commande de plugin pour l'installer :
00:02:11codex@openai-codex.
00:02:13Comme d'habitude, on vous demande où l'installer.
00:02:14Je choisis le périmètre utilisateur.
00:02:16Ensuite, il suffit de recharger les plugins
00:02:17pour que tout soit opérationnel.
00:02:18Et enfin, nous voulons lancer "codex colon setup".
00:02:21Au cas où, il existe aussi un dépôt GitHub
00:02:24pour cela, qui reprend toutes les commandes d'installation.
00:02:27Je mettrai également le lien en description.
00:02:29Les tarifs d'utilisation sont liés à votre compte ChatGPT,
00:02:32même si vous avez un compte gratuit, apparemment.
00:02:34Sachez donc que cela sera décompté
00:02:36de votre consommation Codex.
00:02:37Il vous demandera si vous voulez installer Codex, oui.
00:02:39Pour cela, connectez-vous, ce qui vous renverra vers le navigateur
00:02:42pour suivre le processus d'authentification.
00:02:44Il y a deux cas d'utilisation évidents
00:02:47pour cet outil Codex dans Claude Code.
00:02:49Le premier concerne la gestion des limites d'utilisation
00:02:52au sein de Claude Code.
00:02:53Normalement, si vous avez le forfait Pro d'Anthropic
00:02:55ou le max 5x, vous pouvez atteindre ces limites très vite,
00:02:58surtout avec certains bugs du CLI
00:03:00observés la semaine dernière.
00:03:02Dans ce cas, ce que vous pourriez vouloir faire,
00:03:03c'est utiliser Opus 4.6 pour planifier et Codex pour exécuter.
00:03:07Et pour cela, encore une fois, c'est très simple.
00:03:09Vous allez juste faire "codex rescue".
00:03:11Ensuite, vous lui donnez l'instruction.
00:03:14Et vous pouvez aussi spécifier tout un tas de choses.
00:03:16Comme vous voyez toutes les options ici,
00:03:18y compris le niveau d'effort et tout le reste.
00:03:20Et n'oubliez pas, le modèle Codex est très solide.
00:03:24Et encore une fois, le coût n'a rien à voir
00:03:26avec ce qu'Anthropic facture.
00:03:27Mais je pense que le cas le plus intéressant
00:03:28est celui dont j'ai parlé plus tôt :
00:03:29la revue contradictoire.
00:03:30Mettons cela à l'épreuve.
00:03:32Je vais lui faire examiner
00:03:33mon bot de recherche et d'engagement Twitter.
00:03:37C'est l'application web que j'ai fait construire par Claude Code.
00:03:39En gros, elle scanne les tweets dans le domaine de l'IA
00:03:43toutes les 30 à 45 minutes environ.
00:03:45Il y a un filtre de qualité.
00:03:47Il y a des signaux de notation
00:03:48basés sur un certain nombre de paramètres différents.
00:03:50C'est connecté à Supabase
00:03:51pour s'assurer que les tweets ne se répètent pas.
00:03:53Il y a un système de score et une intégration softmax, PIX.
00:03:56Tout est envoyé sur Telegram.
00:03:58Et j'ai aussi intégré de l'IA pour aider aux réponses.
00:04:00Il se passe donc pas mal de choses.
00:04:02Et en plus de cela,
00:04:03il suit toutes mes réponses
00:04:06pour qu'on puisse avoir une boucle de rétroaction.
00:04:07C'est donc un projet relativement... pas hyper complexe,
00:04:10mais ce n'est pas une simple page de présentation.
00:04:13Nous allons voir ce que Codex propose.
00:04:16Quand on fait une revue contradictoire sur ce code, n'est-ce pas ?
00:04:20Voyons comment il s'en sort.
00:04:22Nous allons rester assez ouverts dans l'interprétation.
00:04:23On dit à Codex :
00:04:24"Examine la base de code et dis-moi ce que tu en penses."
00:04:27La première chose qu'il fait, c'est de nous dire :
00:04:28"Hé, nous allons estimer la taille de la revue"
00:04:30"pour déterminer le meilleur mode."
00:04:32Puis il demande :
00:04:33"Voulez-vous l'exécuter en arrière-plan"
00:04:34"ou préférez-vous attendre les résultats ?"
00:04:35Nous allons simplement attendre les résultats.
00:04:37Il nous indique que le périmètre inclut toute la base de code
00:04:39plus neuf changements en cours, un fichier modifié,
00:04:42et huit fichiers non suivis.
00:04:43Il sait donc qu'il y a pas mal
00:04:44de choses à examiner.
00:04:46Et pendant que ça travaille,
00:04:47voyons comment fonctionne réellement la revue contradictoire.
00:04:49Nous venons de voir les quatre premières parties.
00:04:52Il a analysé les arguments.
00:04:54Comme nous n'avons passé aucune option,
00:04:55il utilise ses paramètres par défaut.
00:04:57Ensuite, il a estimé la taille de la revue,
00:04:59défini la cible et collecté du contexte.
00:05:01C'était tout ce texte disant :
00:05:03"Nous avons ces changements non suivis"
00:05:04"et cela va prendre un certain temps."
00:05:05Après ces quatre premières étapes,
00:05:06il va construire le prompt contradictoire
00:05:09et il y a sept surfaces d'attaque
00:05:11auxquelles il va prêter une attention particulière.
00:05:13L'authentification, la perte de données, les retours en arrière,
00:05:17les situations de compétition, les dépendances dégradées,
00:05:20les écarts de version et les manques de visibilité, d'accord ?
00:05:23Sept points qui sont un peu sous la surface
00:05:26et qui pourraient vraiment nous poser problème
00:05:27si on déploie ça en production
00:05:29sans bien les maîtriser.
00:05:30À partir de là, il envoie toutes ces informations
00:05:31au serveur d'OpenAI pour que Codex les examine.
00:05:34Ensuite, il nous donnera un résultat JSON structuré
00:05:37qui devrait ressembler à quelque chose comme ça.
00:05:41Il indiquera le niveau de gravité de ses découvertes,
00:05:43entre critique, élevé, moyen et faible,
00:05:46ainsi que des recommandations et les prochaines étapes.
00:05:48Il ne vous reste qu'à rester dans Claude Code
00:05:51et à attendre la réponse.
00:05:52Codex est revenu avec quatre problèmes dans notre base de code
00:05:54et tous avaient une gravité élevée.
00:05:57J'ai copié cela dans Excalidraw
00:05:58pour qu'il soit plus facile de les passer en revue.
00:06:00Pour chacun d'eux, il donne la gravité,
00:06:02le domaine, le problème réel, les fichiers,
00:06:06ainsi que les lignes de code exactes
00:06:08que nous devons examiner.
00:06:09Et point important : quel est l'impact réel ici
00:06:12ainsi que le correctif ?
00:06:13Numéro un, il signale un problème
00:06:15avec notre logique de dédoublonnage.
00:06:16Numéro deux, la façon dont on gère le polling Telegram.
00:06:19Troisièmement, notre dérive de schéma.
00:06:21Et enfin, la construction de notre dashboard actuel.
00:06:24Ce sont des éléments relativement importants
00:06:27et heureusement, il semble que les correctifs
00:06:29ne seraient pas trop difficiles à mettre en œuvre.
00:06:31Mais ce qui m'intéresse, c'est :
00:06:33D'accord, c'est ce que Codex nous a donné.
00:06:35Qu'est-ce que Claude nous donnerait si on demandait
00:06:40une revue contradictoire similaire sur sa propre base de code ?
00:06:43Je pense que ce serait assez instructif
00:06:45de les voir face à face
00:06:46et de voir ce que Codex fait vraiment différemment de l'autre.
00:06:48Car pour ce qu'on en sait, ils sont peut-être identiques
00:06:50et toute cette vidéo n'aurait servi à rien.
00:06:52Je fais donc tourner à Opus la même
00:06:55sorte de revue de code contradictoire.
00:06:56J'ai fait générer un prompt spécifique par Codex.
00:06:59En gros, cela dit :
00:07:00"Hé, je veux que tu remettes en question l'implémentation"
00:07:02"et les choix de conception."
00:07:04"Voici les points que je veux que tu évalues."
00:07:05"Et voici le format de sortie attendu."
00:07:07Voyons ce qu'il en ressort.
00:07:09Et voici les résultats détaillés.
00:07:11Tout d'abord, ils ont eu un résultat commun.
00:07:13Ils ont tous deux convenu que le souci Telegram était un problème.
00:07:17C'est le seul problème qu'ils ont tous deux trouvé
00:07:20et qu'ils ont jugé comme étant soit élevé, soit critique.
00:07:23Codex a dit que c'était juste élevé,
00:07:24et Opus a dit que c'était critique.
00:07:26Opus a trouvé de son côté sept autres problèmes supplémentaires
00:07:30classés comme élevés ou critiques que Codex n'a pas vus.
00:07:32Maintenant, nous ne disons pas que par le simple fait
00:07:36qu'il y ait plus de problèmes, Opus
00:07:37était nécessairement meilleur que Codex.
00:07:39Je souligne juste qu'il a trouvé sept points
00:07:41que nous pourrions vouloir examiner et que Codex n'a pas relevés.
00:07:43Ensuite, évidemment, à l'inverse,
00:07:45nous avons trouvé trois problèmes avec Codex qu'Opus a ratés.
00:07:48Alors, qu'est-ce que cela signifie
00:07:49si nous regardons tout cela dans l'ensemble ?
00:07:50Est-ce qu'Opus est meilleur que Codex
00:07:51parce qu'il en a trouvé plus, ou Codex est-il meilleur qu'Opus
00:07:54parce qu'il s'est concentré sur quatre points
00:07:56et ne nous a pas entraînés sur une piste bizarre ?
00:07:58Je pense que ce que vous en tirez
00:07:59dépend un peu de ce que vous voulez en tirer.
00:08:01Et c'est probablement qu'il y a une certaine valeur
00:08:04à avoir ces deux systèmes.
00:08:05Qu'ils y jettent un œil, n'est-ce pas ?
00:08:06Un deuxième regard, plutôt que d'avoir Opus qui note Opus
00:08:09tout le temps.
00:08:10Il y a une sorte de faille fondamentale, je pense,
00:08:13à laisser le même système d'IA s'occuper de la planification,
00:08:16de la génération et de l'évaluation.
00:08:17Et si nous sommes capables d'intégrer très facilement Codex,
00:08:20surtout à ce niveau de prix,
00:08:22pour faire ne serait-ce que des choses comme ça,
00:08:24comme une révision contradictoire,
00:08:25encore une fois, c'est l'un de ces excellents coups à jouer
00:08:28avec l'IA pour coder, alors pourquoi pas ?
00:08:30Si vous payez déjà pour ChatGPT,
00:08:34si vous payez déjà les 20 dollars par mois,
00:08:35et que je peux maintenant ajouter ceci et laisser Codex
00:08:37jeter un œil à n'importe quoi,
00:08:38aussi simplement, quel est l'inconvénient, vraiment ?
00:08:43Je ne pense pas qu'avec un test rapide comme celui-ci,
00:08:47nous allons obtenir des réponses définitives du genre :
00:08:48« Oh, Codex est meilleur qu'Opus ».
00:08:50Et je pense que toute cette conversation
00:08:51passe un peu à côté de l'essentiel.
00:08:52C'est juste un outil de plus dans notre boîte à outils
00:08:54et maintenant nous pouvons l'utiliser.
00:08:55Donc je trouve ça génial.
00:08:56Maintenant, nous pouvons être beaucoup plus spécifiques
00:08:58avec la révision contradictoire également,
00:09:00car notre instruction était assez ouverte et vague
00:09:03et il a pu l'interpréter de plein de manières différentes,
00:09:06mais juste en se basant sur les exemples GitHub, n'est-ce pas ?
00:09:08Vous pouvez être très précis
00:09:09sur ce que vous voulez que Codex examine.
00:09:11Dans l'ensemble, je pense que c'est un excellent ajout
00:09:13à l'écosystème Cloud Code.
00:09:14Plus il y a d'outils, mieux c'est,
00:09:15surtout si vous êtes quelqu'un qui, soit A,
00:09:17paie déjà pour ChatGPT,
00:09:19soit B, possède le forfait Anthropic Pro,
00:09:22et que si vous payez aussi pour ChatGPT,
00:09:23cent dollars par mois, ça peut faire un peu beaucoup,
00:09:25deux cents dollars serait certainement trop.
00:09:28Ceci nous offre presque ce terrain d'entente
00:09:30entre l'abonnement à 20 $ et celui à 100 $,
00:09:33car Codex offre vraiment un excellent rapport qualité-prix.
00:09:36Alors n'hésitez pas à tester, l'installation est super facile.
00:09:39Dites-moi ce que vous en avez pensé,
00:09:41et comme toujours, on se retrouve bientôt.

Key Takeaway

L'ajout du plugin Codex à Claude Code permet de réduire les coûts opérationnels et d'améliorer la fiabilité du logiciel en utilisant un second modèle d'IA pour effectuer des revues de code contradictoires sur sept vecteurs de vulnérabilité technique.

Highlights

L'intégration d'OpenAI Codex dans Claude Code offre un rapport qualité-prix supérieur en termes de coût par jeton par rapport aux quotas standard d'Anthropic.

La revue de code contradictoire de Codex cible sept surfaces d'attaque spécifiques, dont l'authentification, la perte de données et les écarts de version.

L'installation s'effectue via la commande 'codex@openai-codex' et lie directement les coûts d'utilisation au compte ChatGPT de l'utilisateur.

Une analyse comparative révèle que Codex et Opus 4.6 identifient des vulnérabilités différentes, avec un seul point critique commun concernant le polling Telegram.

L'utilisation combinée d'Opus 4.6 pour la planification et de Codex pour l'exécution permet de contourner les limites de débit du CLI d'Anthropic.

Timeline

Synergie entre Codex et l'écosystème Anthropic

  • L'intégration de Codex fournit une alternative économique pour les utilisateurs atteignant leurs quotas sur Opus 4.6.
  • La revue contradictoire part du principe que le code initial est erroné pour forcer une analyse critique plus profonde.
  • Les modèles d'IA évaluent souvent mal leur propre production de code selon les données d'ingénierie d'Anthropic.

L'accès à Codex au sein de l'interface Claude Code résout le problème de l'auto-évaluation biaisée des modèles. Cette configuration permet de déléguer la relecture à un système tiers neutre. Deux modes principaux émergent : la revue standard en lecture seule et la revue contradictoire agressive.

Procédure d'installation et configuration technique

  • La commande 'codex:setup' initialise la liaison entre l'outil CLI et le compte OpenAI de l'utilisateur.
  • L'authentification s'effectue via une redirection vers un navigateur web pour valider les droits d'accès.
  • Le plugin s'installe dans le périmètre utilisateur pour une disponibilité globale dans l'environnement de développement.

Le processus commence par l'ajout du plugin à la marketplace suivi de la commande d'installation codex@openai-codex. Une fois les plugins rechargés, l'utilisateur doit lier son compte ChatGPT, même gratuit, pour que les jetons soient décomptés de sa consommation Codex habituelle. Un dépôt GitHub dédié répertorie l'ensemble des commandes nécessaires.

Optimisation des ressources et exécution de tâches

  • La commande 'codex rescue' permet à Codex de générer du code de manière autonome en suivant des instructions spécifiques.
  • L'attribution des rôles entre Opus pour la planification et Codex pour l'exécution optimise la consommation des forfaits Pro.
  • Le niveau d'effort et les paramètres d'exécution sont configurables manuellement lors de l'appel de l'outil.

L'utilisation stratégique consiste à exploiter l'intelligence de planification d'Opus 4.6 tout en laissant Codex gérer les tâches d'écriture volumineuses. Cette méthode est particulièrement efficace pour éviter les blocages liés aux bugs récents du CLI d'Anthropic qui épuisent rapidement les crédits. L'exemple d'un bot Twitter complexe montre que Codex peut gérer des intégrations multiples comme Supabase, Telegram et des systèmes de score Softmax.

Analyse comparative des revues contradictoires

  • Codex identifie quatre problèmes de gravité élevée dans une base de code existante, incluant la logique de dédoublonnage et le polling Telegram.
  • Le processus d'analyse se décompose en étapes d'estimation de taille, de collecte de contexte et de construction de prompt contradictoire.
  • Les résultats sont exportés dans un format JSON structuré détaillant l'impact réel et le correctif suggéré pour chaque ligne de code.

Lors du test sur une application réelle, Codex analyse les changements non suivis et les fichiers modifiés avant de lancer son inspection. Il se concentre sur des points critiques comme la dérive de schéma et les situations de compétition (race conditions). Cette approche systématique fournit une feuille de route claire pour la maintenance sans quitter l'interface de ligne de commande.

Complémentarité des modèles et conclusion

  • Opus 4.6 détecte sept problèmes supplémentaires là où Codex n'en voit que quatre, démontrant une sensibilité différente aux erreurs.
  • La faille fondamentale réside dans le fait de laisser un même système gérer la planification, la génération et l'évaluation.
  • L'intégration de Codex offre un compromis financier entre les abonnements à 20 $et 100$ par mois.

La comparaison directe montre qu'aucun modèle n'est infaillible, car ils ne s'accordent que sur une seule erreur critique. Avoir deux regards distincts pour le prix d'un seul abonnement ChatGPT existant constitue un avantage compétitif majeur pour les développeurs. La précision de Codex peut être affinée via des instructions spécifiques basées sur des exemples GitHub pour cibler des zones précises du code.

Community Posts

View all posts