00:00:00Au cours des derniers mois, nous avons abordé de nombreux frameworks de codage IA, notamment BMAD, GSD, Speckit et Superpowers,
00:00:08et beaucoup d'entre vous ont d'ailleurs commencé à les utiliser. Mais Anthropic vient de mener des expériences sur son propre banc d'essai,
00:00:14en supprimant les composants un par un pour mesurer ce qui comptait réellement. Leur conclusion est que la majeure partie n'est plus qu'un poids mort.
00:00:17Chaque composant d'un framework encode une hypothèse sur ce que le modèle ne peut pas faire seul, et avec Opus 4.6, ces hypothèses sont devenues obsolètes.
00:00:25Nous avons tout passé en revue pour identifier ce qui compte encore, ce que vous pouvez supprimer et à quoi votre configuration devrait réellement ressembler.
00:00:32Les structures d'agents jouent un rôle crucial pour permettre aux agents de fonctionner nettement mieux sur de longs horizons.
00:00:37Anthropic a déjà publié un harnais d'agent, que nous avons détaillé dans une vidéo précédente, expliquant comment le configurer et l'utiliser.
00:00:43Nous avons également couvert d'autres frameworks dans ce même contexte, et bien que leurs implémentations diffèrent, ils tentent tous de faire la même chose.
00:00:50Mais lors de la sortie de ces frameworks, les modèles n'étaient pas aussi performants qu'Opus 4.6 l'est aujourd'hui.
00:00:55Par exemple, des frameworks comme GSD se concentrent sur l'isolation du contexte, mais ce n'est plus un problème avec Opus 4.6.
00:01:01Non seulement grâce à la fenêtre de contexte d'un million de tokens, mais aussi pour une autre raison dont nous parlerons dans un instant.
00:01:06Par conséquent, de nombreux frameworks précédemment implémentés constituent désormais une surcharge inutile face aux nouvelles capacités du modèle.
00:01:11Anthropic a testé différents aspects de son harnais, en supprimant chaque élément pour mesurer son impact réel.
00:01:17Leurs conclusions montrent qu'un harnais d'agent n'a besoin que d'agents pour la planification, la génération et l'évaluation.
00:01:24Le reste n'est que du poids mort, compte tenu de la puissance actuelle des modèles.
00:01:29La théorie centrale est que chaque composant d'un harnais d'agent, quel qu'il soit, repose sur le même principe.
00:01:35Chaque composant encode une hypothèse sur ce que le modèle peut accomplir par lui-même.
00:01:38Ces hypothèses doivent être testées car elles peuvent être erronées ou devenir obsolètes à mesure que le modèle s'améliore, et c'est ce qu'ils ont fait.
00:01:46Ainsi, avec l'évolution des modèles, votre harnais doit aussi évoluer ; si vous suivez les principes d'il y a quelques mois, vous n'êtes plus à jour.
00:01:54La planification est la première étape qui reste inchangée dans chaque framework, mais la méthode de planification doit s'adapter aux modèles plus performants.
00:02:01Les anciens harnais d'Anthropic exigeaient que l'utilisateur fournisse des spécifications détaillées dès le départ.
00:02:06Des frameworks comme BeMad et SpecKit découpent littéralement la tâche en fragments et micro-tâches pour aider l'agent à l'exécuter facilement.
00:02:14Et ce n'étaient pas de simples tâches, mais des étapes détaillées que les agents devaient suivre sans réfléchir.
00:02:20C'est parce qu'à l'époque, les modèles n'étaient pas assez capables et devaient être guidés minutieusement pour obtenir le résultat voulu.
00:02:27Mais avec Opus 4.5 et 4.6, la donne a changé.
00:02:30Anthropic a découvert que si le planificateur spécifiait trop de détails techniques, une seule erreur se propageait partout, empêchant l'agent de corriger le tir.
00:02:43Tout reposait sur la qualité de rédaction du plan initial.
00:02:45Par conséquent, la planification est devenue de haut niveau plutôt qu'une implémentation technique détaillée.
00:02:50Les agents sont beaucoup plus intelligents et il suffit maintenant de leur indiquer les livrables attendus.
00:02:55Ils peuvent désormais trouver le chemin par eux-mêmes pour y parvenir.
00:02:57Avec ce changement, les approches de planification comme celles de BeMad et SpecKit ne sont plus aussi pertinentes.
00:03:02Vous pouvez limiter BeMad à la phase de planification jusqu'à la génération du PRD, sans avoir besoin de passer par le découpage technique.
00:03:08Comme mentionné, la génération de PRD avec BeMad est efficace car elle utilise des agents spécialisés pour mieux comprendre les besoins que Claude seul.
00:03:18C'est parce que ces agents disposent du contexte externe spécifique aux tâches ajouté par l'auteur.
00:03:23Alternativement, vous pouvez utiliser la session de questions de Superpowers, conçue pour identifier les cas limites, ce qui est plus efficace qu'une doc multi-niveaux.
00:03:32Le problème majeur d'une planification trop détaillée est qu'elle enferme l'agent et ne laisse aucune place à la découverte ou à l'initiative de l'IA.
00:03:40Anthropic a fourni un exemple de plan généré par l'agent planificateur, que vous pouvez utiliser pour configurer votre propre agent.
00:03:46Il souligne que le plan doit viser large et repousser les limites de l'idée d'application que vous fournissez.
00:03:52L'idée centrale est de maintenir le projet au niveau du produit, et non au niveau de l'implémentation.
00:03:56C'est crucial car si l'on planifie l'implémentation technique, on risque de perdre de vue l'objectif d'un produit complet.
00:04:06Vous pourriez penser que le mode plan intégré de Claude fait déjà cela en posant des questions et en fournissant un plan détaillé.
00:04:12Mais voici la différence : bien qu'il ait un agent planificateur, il se focalise trop sur l'implémentation technique au détriment de la vision produit.
00:04:22Une fois cela en place, demandez simplement à Claude d'utiliser votre agent pour planifier votre application ; il générera un plan complet au fur et à mesure.
00:04:31Ce plan inclut une décomposition complète des fonctionnalités et, pour chaque phase, des "user stories" reflétant la perspective de l'utilisateur.
00:04:40Cela aide Claude à implémenter les flux de travail corrects que les utilisateurs attendent réellement.
00:04:44Mais avant de continuer, un mot de notre sponsor, Minimax.
00:04:47Configurer des agents IA est un cauchemar : clés API, serveurs, Docker... et votre assistant oublie tout dès que vous fermez l'onglet.
00:04:56La solution est MaxClaw, une IA propulsée par le cloud à portée de main.
00:04:59Pas d'installation, pas de maux de tête, vous pouvez déployer votre propre OpenClaw.
00:05:02Cliquez sur déployer et vous êtes en ligne en moins de 10 secondes. Il crée des sites, code, fait des recherches et automatise vos tâches via de simples prompts.
00:05:12MaxClaw se connecte à Telegram, Slack, Discord et plus, vous permettant d'automatiser vos flux, de naviguer sur le web ou de générer des images et vidéos.
00:05:21Il fait partie de Minimax Agent, un espace de travail natif IA où chacun devient concepteur d'agents.
00:05:27Disponible sur Mac et Windows, propulsé par M 2.7, il égale Claude Opus 4.6 sur Sweetbench.
00:05:33Arrêtez de lutter avec des configurations complexes, laissez faire MaxClaw et cliquez sur le lien en commentaire épinglé pour commencer.
00:05:39L'agent qui écrit le code ne devrait pas être celui qui l'évalue.
00:05:42C'est le deuxième problème le plus courant, et on n'en parle pas assez.
00:05:46L'auto-évaluation est problématique : l'agent qui a écrit le code a tendance à être trop confiant et à s'auto-féliciter, même si la qualité est médiocre.
00:05:56C'est gérable pour des tâches avec des métriques quantitatives, comme vérifier si une API implémentée fonctionne réellement.
00:06:03Mais le problème s'accentue pour les tâches sans résultats clairement vérifiables.
00:06:08L'exemple le plus flagrant est l'interface utilisateur (UI).
00:06:10Ce qui constitue une bonne interface est subjectif, et l'IA pourrait ne pas saisir pleinement vos intentions.
00:06:15Elle peut juger son propre travail comme réussi, même s'il ne répond pas à vos standards.
00:06:19Ce problème a été reconnu par les créateurs de nombreux frameworks, qui ont mis en place leurs propres mécanismes d'évaluation.
00:06:26Tous les frameworks cités, comme GSD, BMAD et Superpowers, garantissent que l'agent rédacteur n'est pas l'évaluateur.
00:06:34Cette approche améliore considérablement la précision et la fiabilité des évaluations de l'agent.
00:06:39Que vous utilisiez un framework existant ou le vôtre, l'évaluateur doit être totalement séparé de l'implémenteur.
00:06:47Avant l'implémentation, le générateur et l'évaluateur négocient un contrat, s'accordant sur la définition d'un travail "terminé".
00:06:54Cela aide car les deux agents savent exactement ce qu'il faut accomplir et vérifier.
00:06:58Malgré une planification de haut niveau, il faut toujours des étapes exploitables et applicables.
00:07:02Mais lors des tests avec le harnais, ils ont essayé de supprimer le contrat de sprint.
00:07:06Ils ont constaté qu'Opus 4.5 était moins efficace car l'évaluateur devait intervenir pour corriger les problèmes.
00:07:12Mais avec Opus 4.6, les capacités du modèle ont tellement progressé que le contrat n'était plus nécessaire.
00:07:18L'agent générateur était assez capable de gérer l'essentiel du travail par lui-même.
00:07:22Ainsi, pour des modèles plus petits comme Sonnet ou Haiku, il faut toujours documenter les tâches.
00:07:27Décomposez-les en structures de sprint et faites en sorte que chaque agent s'accorde sur ce que signifie "terminé".
00:07:32Mais avec des modèles plus puissants, vous pouvez compter sur Opus pour exécuter le plan de haut niveau sans ces étapes.
00:07:38Nous avons dit qu'il y a une raison pour laquelle l'isolation du contexte est importante.
00:07:42C'est parce que les petits modèles souffrent d'anxiété contextuelle, perdant en cohérence sur les tâches longues quand le contexte se remplit.
00:07:51Dans ce cas, ils bâclent le travail prématurément en affirmant avoir terminé les tâches, même si ce n'est pas le cas.
00:07:57La solution consistait à réinitialiser le contexte avant de commencer l'implémentation.
00:08:02L'agent s'appuyait alors sur une décomposition des tâches documentée en externe, persistant après la réinitialisation.
00:08:08Mais l'anxiété contextuelle était telle que la simple compression ne suffisait pas toujours.
00:08:13Des mesures supplémentaires étaient nécessaires pour éviter les erreurs sur les tâches de longue haleine.
00:08:17Cependant, depuis Opus 4.5, les modèles ne présentent plus ce comportement.
00:08:21Ces agents peuvent fonctionner en continu sur une session entière, et la gestion de la compression par Claude suffit à leur bon fonctionnement.
00:08:28Les réinitialisations de contexte et les décompositions détaillées comme dans BMAD ou SpecKit sont donc devenues inutiles.
00:08:37L'agent générateur est le principal maître d'œuvre qui construit l'application fonctionnalité par fonctionnalité.
00:08:42Il suit les spécifications du plan, les implémente en continu et s'intègre à Git pour le contrôle de version.
00:08:47Le générateur travaille en étroite coordination avec l'agent évaluateur.
00:08:50Après avoir créé une fonctionnalité, il la transmet pour test et reçoit des retours pour améliorer son implémentation.
00:08:56Son flux de travail est organisé en étapes : comprendre la tâche, l'implémenter, puis affiner le résultat.
00:09:02Même l'implémentation est divisée en quatre sous-phases couvrant différents aspects.
00:09:07L'agent suit la direction de conception, vérifie son travail, puis le soumet à l'évaluateur.
00:09:11Cela crée un modèle structuré permettant à l'agent de développer une application entière de manière autonome et systématique.
00:09:18L'agent évaluateur joue le rôle d'adversaire pour le générateur.
00:09:21Sa mission est de garantir la qualité de l'implémentation, non pas via un simple scan de bugs, mais avec une approche critique.
00:09:30Il peut utiliser Playwright pour tester l'application via des interactions simulées, identifier les bugs et renvoyer ses retours au générateur.
00:09:39En lisant le plan, l'évaluateur sait exactement ce qui est attendu et vérifie tout scrupuleusement avant de donner son feu vert.
00:09:46Chaque framework possède son propre validateur, mais les approches varient énormément.
00:09:50BMAD utilise des agents de revue de code et de QA spécialisés qui génèrent et exécutent des tests sous plusieurs angles.
00:09:57GSD utilise un sous-agent vérificateur qui confronte l'implémentation au plan existant et produit un rapport de documentation.
00:10:04Superpowers s'appuie sur de nouveaux sous-agents et impose un TDD strict : aucun code ne peut être écrit avant les cas de test.
00:10:10Si l'agent tente de contourner cette règle, il est immédiatement bloqué.
00:10:13SpecKit traite les spécifications comme source de vérité et permet à l'agent de vérifier le code par rapport à la doc.
00:10:18Mais aucun de ces frameworks n'offre un système de notation aussi rigoureux que celui visé par Anthropic.
00:10:24L'évaluateur du harnais d'Anthropic est celui qui se rapproche le plus d'un contrôle strict pour Claude, avec un mécanisme d'évaluation noté.
00:10:35Si vous appréciez notre contenu, n'hésitez pas à cliquer sur le bouton hype pour nous aider à toucher plus de monde.
00:10:43L'agent ne peut pas deviner seul quel est le résultat idéal pour vous, surtout quand l'implémentation n'est pas quantifiable.
00:10:49C'est pourquoi on utilise des mécanismes d'évaluation notés, afin qu'ils sachent ce qui compte à vos yeux.
00:10:54Anthropic a noté que pour le front-end, l'IA a tendance à produire des résultats très similaires la plupart du temps.
00:11:02Ils ont donc établi quatre critères d'évaluation pour les agents générateurs et évaluateurs.
00:11:06Le premier est la qualité du design : le rendu est-il cohérent ou s'agit-il juste de composants disparates ?
00:11:12Ensuite, l'originalité, car l'IA utilise souvent par défaut les mêmes dégradés violet et blanc pour ses interfaces.
00:11:19Cela diffère de la conception humaine où chaque choix est délibéré, ce qui rend un mauvais design immédiatement identifiable.
00:11:27Le troisième est le soin apporté aux détails : typographie, espacements, harmonie des couleurs et contrastes équilibrés.
00:11:37Enfin, la fonctionnalité, car en UI, chaque composant visuel doit améliorer l'expérience de l'utilisateur.
00:11:44Claude s'en sort déjà bien sur la technique, mais peine sur le reste ; les prompts doivent donc insister sur la qualité esthétique.
00:11:54Lors de la création de votre app, vous pouvez définir des critères similaires pour l'architecture du code, le front-end ou l'UX.
00:12:02Attribuez un score dédié à chaque critère pour que le modèle identifie l'importance de sa performance.
00:12:10Ces fichiers servent de référence à l'agent évaluateur, dont le rôle est de noter en suivant cette grille précise.
00:12:17Après tout ce que nous avons vu, vous vous demandez peut-être quelle direction prendre maintenant.
00:12:21Si vous voulez un framework simple, choisissez GSD car il utilise par défaut la boucle planificateur-générateur-évaluateur.
00:12:35Cependant, il utilise un système succès/échec. Vous pouvez donc y intégrer les meilleurs éléments d'Anthropic, comme les critères de notation.
00:12:49Si vous préférez le framework d'Anthropic, créez des agents basés sur leurs rôles respectifs et faites-les travailler en équipe.
00:12:58Utilisez un membre de l'équipe comme générateur et un autre comme évaluateur.
00:13:03L'avantage des équipes d'agents est qu'ils communiquent entre eux, contrairement aux sous-agents qui créent de la lourdeur via des documents.
00:13:10Claude crée donc les agents simultanément à partir du plan : l'un implémente, l'autre teste via Playwright en attendant les mises à jour.
00:13:24L'évaluateur vérifie le travail et communique les soucis au générateur pour aboutir à une application conforme à vos standards.
00:13:33Tous les agents et ressources sont disponibles sur AI Labs Pro pour cette vidéo et les précédentes, téléchargeables pour vos projets.
00:13:43Si vous appréciez notre travail et souhaitez nous soutenir, c'est le meilleur moyen. Le lien est dans la description.
00:13:48C'est la fin de cette vidéo. Pour nous soutenir et nous aider à continuer, vous pouvez aussi utiliser le bouton Super Thanks.
00:13:57Comme toujours, merci de nous avoir suivis et à la prochaine !