Anthropic vient de rendre vos structures d'agents IA obsolètes

AAI LABS
컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00Au cours des derniers mois, nous avons abordé de nombreux frameworks de codage IA, notamment BMAD, GSD, Speckit et Superpowers,
00:00:08et beaucoup d'entre vous ont d'ailleurs commencé à les utiliser. Mais Anthropic vient de mener des expériences sur son propre banc d'essai,
00:00:14en supprimant les composants un par un pour mesurer ce qui comptait réellement. Leur conclusion est que la majeure partie n'est plus qu'un poids mort.
00:00:17Chaque composant d'un framework encode une hypothèse sur ce que le modèle ne peut pas faire seul, et avec Opus 4.6, ces hypothèses sont devenues obsolètes.
00:00:25Nous avons tout passé en revue pour identifier ce qui compte encore, ce que vous pouvez supprimer et à quoi votre configuration devrait réellement ressembler.
00:00:32Les structures d'agents jouent un rôle crucial pour permettre aux agents de fonctionner nettement mieux sur de longs horizons.
00:00:37Anthropic a déjà publié un harnais d'agent, que nous avons détaillé dans une vidéo précédente, expliquant comment le configurer et l'utiliser.
00:00:43Nous avons également couvert d'autres frameworks dans ce même contexte, et bien que leurs implémentations diffèrent, ils tentent tous de faire la même chose.
00:00:50Mais lors de la sortie de ces frameworks, les modèles n'étaient pas aussi performants qu'Opus 4.6 l'est aujourd'hui.
00:00:55Par exemple, des frameworks comme GSD se concentrent sur l'isolation du contexte, mais ce n'est plus un problème avec Opus 4.6.
00:01:01Non seulement grâce à la fenêtre de contexte d'un million de tokens, mais aussi pour une autre raison dont nous parlerons dans un instant.
00:01:06Par conséquent, de nombreux frameworks précédemment implémentés constituent désormais une surcharge inutile face aux nouvelles capacités du modèle.
00:01:11Anthropic a testé différents aspects de son harnais, en supprimant chaque élément pour mesurer son impact réel.
00:01:17Leurs conclusions montrent qu'un harnais d'agent n'a besoin que d'agents pour la planification, la génération et l'évaluation.
00:01:24Le reste n'est que du poids mort, compte tenu de la puissance actuelle des modèles.
00:01:29La théorie centrale est que chaque composant d'un harnais d'agent, quel qu'il soit, repose sur le même principe.
00:01:35Chaque composant encode une hypothèse sur ce que le modèle peut accomplir par lui-même.
00:01:38Ces hypothèses doivent être testées car elles peuvent être erronées ou devenir obsolètes à mesure que le modèle s'améliore, et c'est ce qu'ils ont fait.
00:01:46Ainsi, avec l'évolution des modèles, votre harnais doit aussi évoluer ; si vous suivez les principes d'il y a quelques mois, vous n'êtes plus à jour.
00:01:54La planification est la première étape qui reste inchangée dans chaque framework, mais la méthode de planification doit s'adapter aux modèles plus performants.
00:02:01Les anciens harnais d'Anthropic exigeaient que l'utilisateur fournisse des spécifications détaillées dès le départ.
00:02:06Des frameworks comme BeMad et SpecKit découpent littéralement la tâche en fragments et micro-tâches pour aider l'agent à l'exécuter facilement.
00:02:14Et ce n'étaient pas de simples tâches, mais des étapes détaillées que les agents devaient suivre sans réfléchir.
00:02:20C'est parce qu'à l'époque, les modèles n'étaient pas assez capables et devaient être guidés minutieusement pour obtenir le résultat voulu.
00:02:27Mais avec Opus 4.5 et 4.6, la donne a changé.
00:02:30Anthropic a découvert que si le planificateur spécifiait trop de détails techniques, une seule erreur se propageait partout, empêchant l'agent de corriger le tir.
00:02:43Tout reposait sur la qualité de rédaction du plan initial.
00:02:45Par conséquent, la planification est devenue de haut niveau plutôt qu'une implémentation technique détaillée.
00:02:50Les agents sont beaucoup plus intelligents et il suffit maintenant de leur indiquer les livrables attendus.
00:02:55Ils peuvent désormais trouver le chemin par eux-mêmes pour y parvenir.
00:02:57Avec ce changement, les approches de planification comme celles de BeMad et SpecKit ne sont plus aussi pertinentes.
00:03:02Vous pouvez limiter BeMad à la phase de planification jusqu'à la génération du PRD, sans avoir besoin de passer par le découpage technique.
00:03:08Comme mentionné, la génération de PRD avec BeMad est efficace car elle utilise des agents spécialisés pour mieux comprendre les besoins que Claude seul.
00:03:18C'est parce que ces agents disposent du contexte externe spécifique aux tâches ajouté par l'auteur.
00:03:23Alternativement, vous pouvez utiliser la session de questions de Superpowers, conçue pour identifier les cas limites, ce qui est plus efficace qu'une doc multi-niveaux.
00:03:32Le problème majeur d'une planification trop détaillée est qu'elle enferme l'agent et ne laisse aucune place à la découverte ou à l'initiative de l'IA.
00:03:40Anthropic a fourni un exemple de plan généré par l'agent planificateur, que vous pouvez utiliser pour configurer votre propre agent.
00:03:46Il souligne que le plan doit viser large et repousser les limites de l'idée d'application que vous fournissez.
00:03:52L'idée centrale est de maintenir le projet au niveau du produit, et non au niveau de l'implémentation.
00:03:56C'est crucial car si l'on planifie l'implémentation technique, on risque de perdre de vue l'objectif d'un produit complet.
00:04:06Vous pourriez penser que le mode plan intégré de Claude fait déjà cela en posant des questions et en fournissant un plan détaillé.
00:04:12Mais voici la différence : bien qu'il ait un agent planificateur, il se focalise trop sur l'implémentation technique au détriment de la vision produit.
00:04:22Une fois cela en place, demandez simplement à Claude d'utiliser votre agent pour planifier votre application ; il générera un plan complet au fur et à mesure.
00:04:31Ce plan inclut une décomposition complète des fonctionnalités et, pour chaque phase, des "user stories" reflétant la perspective de l'utilisateur.
00:04:40Cela aide Claude à implémenter les flux de travail corrects que les utilisateurs attendent réellement.
00:04:44Mais avant de continuer, un mot de notre sponsor, Minimax.
00:04:47Configurer des agents IA est un cauchemar : clés API, serveurs, Docker... et votre assistant oublie tout dès que vous fermez l'onglet.
00:04:56La solution est MaxClaw, une IA propulsée par le cloud à portée de main.
00:04:59Pas d'installation, pas de maux de tête, vous pouvez déployer votre propre OpenClaw.
00:05:02Cliquez sur déployer et vous êtes en ligne en moins de 10 secondes. Il crée des sites, code, fait des recherches et automatise vos tâches via de simples prompts.
00:05:12MaxClaw se connecte à Telegram, Slack, Discord et plus, vous permettant d'automatiser vos flux, de naviguer sur le web ou de générer des images et vidéos.
00:05:21Il fait partie de Minimax Agent, un espace de travail natif IA où chacun devient concepteur d'agents.
00:05:27Disponible sur Mac et Windows, propulsé par M 2.7, il égale Claude Opus 4.6 sur Sweetbench.
00:05:33Arrêtez de lutter avec des configurations complexes, laissez faire MaxClaw et cliquez sur le lien en commentaire épinglé pour commencer.
00:05:39L'agent qui écrit le code ne devrait pas être celui qui l'évalue.
00:05:42C'est le deuxième problème le plus courant, et on n'en parle pas assez.
00:05:46L'auto-évaluation est problématique : l'agent qui a écrit le code a tendance à être trop confiant et à s'auto-féliciter, même si la qualité est médiocre.
00:05:56C'est gérable pour des tâches avec des métriques quantitatives, comme vérifier si une API implémentée fonctionne réellement.
00:06:03Mais le problème s'accentue pour les tâches sans résultats clairement vérifiables.
00:06:08L'exemple le plus flagrant est l'interface utilisateur (UI).
00:06:10Ce qui constitue une bonne interface est subjectif, et l'IA pourrait ne pas saisir pleinement vos intentions.
00:06:15Elle peut juger son propre travail comme réussi, même s'il ne répond pas à vos standards.
00:06:19Ce problème a été reconnu par les créateurs de nombreux frameworks, qui ont mis en place leurs propres mécanismes d'évaluation.
00:06:26Tous les frameworks cités, comme GSD, BMAD et Superpowers, garantissent que l'agent rédacteur n'est pas l'évaluateur.
00:06:34Cette approche améliore considérablement la précision et la fiabilité des évaluations de l'agent.
00:06:39Que vous utilisiez un framework existant ou le vôtre, l'évaluateur doit être totalement séparé de l'implémenteur.
00:06:47Avant l'implémentation, le générateur et l'évaluateur négocient un contrat, s'accordant sur la définition d'un travail "terminé".
00:06:54Cela aide car les deux agents savent exactement ce qu'il faut accomplir et vérifier.
00:06:58Malgré une planification de haut niveau, il faut toujours des étapes exploitables et applicables.
00:07:02Mais lors des tests avec le harnais, ils ont essayé de supprimer le contrat de sprint.
00:07:06Ils ont constaté qu'Opus 4.5 était moins efficace car l'évaluateur devait intervenir pour corriger les problèmes.
00:07:12Mais avec Opus 4.6, les capacités du modèle ont tellement progressé que le contrat n'était plus nécessaire.
00:07:18L'agent générateur était assez capable de gérer l'essentiel du travail par lui-même.
00:07:22Ainsi, pour des modèles plus petits comme Sonnet ou Haiku, il faut toujours documenter les tâches.
00:07:27Décomposez-les en structures de sprint et faites en sorte que chaque agent s'accorde sur ce que signifie "terminé".
00:07:32Mais avec des modèles plus puissants, vous pouvez compter sur Opus pour exécuter le plan de haut niveau sans ces étapes.
00:07:38Nous avons dit qu'il y a une raison pour laquelle l'isolation du contexte est importante.
00:07:42C'est parce que les petits modèles souffrent d'anxiété contextuelle, perdant en cohérence sur les tâches longues quand le contexte se remplit.
00:07:51Dans ce cas, ils bâclent le travail prématurément en affirmant avoir terminé les tâches, même si ce n'est pas le cas.
00:07:57La solution consistait à réinitialiser le contexte avant de commencer l'implémentation.
00:08:02L'agent s'appuyait alors sur une décomposition des tâches documentée en externe, persistant après la réinitialisation.
00:08:08Mais l'anxiété contextuelle était telle que la simple compression ne suffisait pas toujours.
00:08:13Des mesures supplémentaires étaient nécessaires pour éviter les erreurs sur les tâches de longue haleine.
00:08:17Cependant, depuis Opus 4.5, les modèles ne présentent plus ce comportement.
00:08:21Ces agents peuvent fonctionner en continu sur une session entière, et la gestion de la compression par Claude suffit à leur bon fonctionnement.
00:08:28Les réinitialisations de contexte et les décompositions détaillées comme dans BMAD ou SpecKit sont donc devenues inutiles.
00:08:37L'agent générateur est le principal maître d'œuvre qui construit l'application fonctionnalité par fonctionnalité.
00:08:42Il suit les spécifications du plan, les implémente en continu et s'intègre à Git pour le contrôle de version.
00:08:47Le générateur travaille en étroite coordination avec l'agent évaluateur.
00:08:50Après avoir créé une fonctionnalité, il la transmet pour test et reçoit des retours pour améliorer son implémentation.
00:08:56Son flux de travail est organisé en étapes : comprendre la tâche, l'implémenter, puis affiner le résultat.
00:09:02Même l'implémentation est divisée en quatre sous-phases couvrant différents aspects.
00:09:07L'agent suit la direction de conception, vérifie son travail, puis le soumet à l'évaluateur.
00:09:11Cela crée un modèle structuré permettant à l'agent de développer une application entière de manière autonome et systématique.
00:09:18L'agent évaluateur joue le rôle d'adversaire pour le générateur.
00:09:21Sa mission est de garantir la qualité de l'implémentation, non pas via un simple scan de bugs, mais avec une approche critique.
00:09:30Il peut utiliser Playwright pour tester l'application via des interactions simulées, identifier les bugs et renvoyer ses retours au générateur.
00:09:39En lisant le plan, l'évaluateur sait exactement ce qui est attendu et vérifie tout scrupuleusement avant de donner son feu vert.
00:09:46Chaque framework possède son propre validateur, mais les approches varient énormément.
00:09:50BMAD utilise des agents de revue de code et de QA spécialisés qui génèrent et exécutent des tests sous plusieurs angles.
00:09:57GSD utilise un sous-agent vérificateur qui confronte l'implémentation au plan existant et produit un rapport de documentation.
00:10:04Superpowers s'appuie sur de nouveaux sous-agents et impose un TDD strict : aucun code ne peut être écrit avant les cas de test.
00:10:10Si l'agent tente de contourner cette règle, il est immédiatement bloqué.
00:10:13SpecKit traite les spécifications comme source de vérité et permet à l'agent de vérifier le code par rapport à la doc.
00:10:18Mais aucun de ces frameworks n'offre un système de notation aussi rigoureux que celui visé par Anthropic.
00:10:24L'évaluateur du harnais d'Anthropic est celui qui se rapproche le plus d'un contrôle strict pour Claude, avec un mécanisme d'évaluation noté.
00:10:35Si vous appréciez notre contenu, n'hésitez pas à cliquer sur le bouton hype pour nous aider à toucher plus de monde.
00:10:43L'agent ne peut pas deviner seul quel est le résultat idéal pour vous, surtout quand l'implémentation n'est pas quantifiable.
00:10:49C'est pourquoi on utilise des mécanismes d'évaluation notés, afin qu'ils sachent ce qui compte à vos yeux.
00:10:54Anthropic a noté que pour le front-end, l'IA a tendance à produire des résultats très similaires la plupart du temps.
00:11:02Ils ont donc établi quatre critères d'évaluation pour les agents générateurs et évaluateurs.
00:11:06Le premier est la qualité du design : le rendu est-il cohérent ou s'agit-il juste de composants disparates ?
00:11:12Ensuite, l'originalité, car l'IA utilise souvent par défaut les mêmes dégradés violet et blanc pour ses interfaces.
00:11:19Cela diffère de la conception humaine où chaque choix est délibéré, ce qui rend un mauvais design immédiatement identifiable.
00:11:27Le troisième est le soin apporté aux détails : typographie, espacements, harmonie des couleurs et contrastes équilibrés.
00:11:37Enfin, la fonctionnalité, car en UI, chaque composant visuel doit améliorer l'expérience de l'utilisateur.
00:11:44Claude s'en sort déjà bien sur la technique, mais peine sur le reste ; les prompts doivent donc insister sur la qualité esthétique.
00:11:54Lors de la création de votre app, vous pouvez définir des critères similaires pour l'architecture du code, le front-end ou l'UX.
00:12:02Attribuez un score dédié à chaque critère pour que le modèle identifie l'importance de sa performance.
00:12:10Ces fichiers servent de référence à l'agent évaluateur, dont le rôle est de noter en suivant cette grille précise.
00:12:17Après tout ce que nous avons vu, vous vous demandez peut-être quelle direction prendre maintenant.
00:12:21Si vous voulez un framework simple, choisissez GSD car il utilise par défaut la boucle planificateur-générateur-évaluateur.
00:12:35Cependant, il utilise un système succès/échec. Vous pouvez donc y intégrer les meilleurs éléments d'Anthropic, comme les critères de notation.
00:12:49Si vous préférez le framework d'Anthropic, créez des agents basés sur leurs rôles respectifs et faites-les travailler en équipe.
00:12:58Utilisez un membre de l'équipe comme générateur et un autre comme évaluateur.
00:13:03L'avantage des équipes d'agents est qu'ils communiquent entre eux, contrairement aux sous-agents qui créent de la lourdeur via des documents.
00:13:10Claude crée donc les agents simultanément à partir du plan : l'un implémente, l'autre teste via Playwright en attendant les mises à jour.
00:13:24L'évaluateur vérifie le travail et communique les soucis au générateur pour aboutir à une application conforme à vos standards.
00:13:33Tous les agents et ressources sont disponibles sur AI Labs Pro pour cette vidéo et les précédentes, téléchargeables pour vos projets.
00:13:43Si vous appréciez notre travail et souhaitez nous soutenir, c'est le meilleur moyen. Le lien est dans la description.
00:13:48C'est la fin de cette vidéo. Pour nous soutenir et nous aider à continuer, vous pouvez aussi utiliser le bouton Super Thanks.
00:13:57Comme toujours, merci de nous avoir suivis et à la prochaine !

Key Takeaway

Le passage à Opus 4.6 transforme les agents IA en partenaires autonomes capables d'exécuter des plans de haut niveau sans découpage technique détaillé ni gestion manuelle du contexte.

Highlights

Les modèles Opus 4.5 et 4.6 rendent obsolètes les frameworks de découpage technique des tâches comme BeMad et SpecKit en gérant seuls l'implémentation.

L'isolation du contexte n'est plus nécessaire grâce à la fenêtre de un million de tokens et à la disparition de l'anxiété contextuelle depuis la version 4.5.

Un harnais d'agent moderne se limite désormais à trois rôles essentiels : la planification de haut niveau, la génération de code et l'évaluation critique.

L'agent évaluateur doit être distinct de l'agent générateur pour éviter l'auto-satisfaction et peut utiliser Playwright pour des tests d'interface simulés.

L'intégration d'un système de notation basé sur quatre critères précis (design, originalité, détails, fonctionnalité) améliore la qualité esthétique du front-end.

Le cadre GSD reste une option viable car il utilise nativement la boucle planificateur-générateur-évaluateur tout en permettant l'ajout de critères de score.

Les agents communiquant en équipe sont préférables aux sous-agents car ils réduisent la lourdeur administrative liée à l'échange de documents externes.

Timeline

Obsolescence des frameworks d'agents traditionnels

  • Les composants des frameworks encodent des hypothèses sur les limites des modèles qui ne sont plus d'actualité.
  • La majeure partie des structures complexes comme BMAD ou Speckit constitue désormais un poids mort inutile.
  • Un harnais d'agent efficace ne nécessite plus que trois fonctions : planifier, générer et évaluer.

Les expériences menées par Anthropic sur leur propre banc d'essai démontrent que les capacités natives des nouveaux modèles surpassent les béquilles logicielles créées précédemment. L'augmentation de la fenêtre de contexte et la puissance de calcul d'Opus 4.6 éliminent le besoin d'isoler artificiellement les segments de données. La complexité architecturale des agents doit être réduite pour laisser le modèle exploiter son intelligence sans contraintes superflues.

Évolution de la planification vers le haut niveau

  • La planification technique détaillée emprisonne l'agent et propage les erreurs initiales sur l'ensemble du projet.
  • Les modèles actuels nécessitent uniquement des spécifications de livrables et de produits au lieu d'instructions étape par étape.
  • L'utilisation de user stories permet à l'IA de comprendre les flux de travail attendus par l'utilisateur final.

Le passage d'une approche d'implémentation technique à une vision produit libère l'initiative de l'IA et favorise la découverte de solutions optimales par le modèle lui-même. Contrairement au mode plan standard de Claude qui reste trop technique, l'agent planificateur idéal doit viser large et définir des phases basées sur l'expérience utilisateur. Cette méthode garantit que le résultat final ressemble à un produit complet plutôt qu'à une simple suite de fonctions codées.

Solution alternative simplifiée avec MaxClaw

  • Le déploiement d'agents IA via MaxClaw s'effectue en moins de 10 secondes sans installation de serveurs ou de Docker.
  • Le modèle M 2.7 égale les performances d'Opus 4.6 sur le benchmark Sweetbench pour les tâches de codage.
  • L'automatisation des flux web et la génération multimédia sont intégrées nativement dans cet espace de travail cloud.

La configuration manuelle des agents représente souvent un obstacle technique majeur impliquant la gestion de clés API et d'environnements isolés. MaxClaw propose une alternative prête à l'emploi permettant de créer des sites et d'automatiser des tâches sur Telegram ou Discord sans maintenance complexe. Cette plateforme transforme chaque utilisateur en concepteur d'agents grâce à une interface simplifiée sous Windows et Mac.

Séparation stricte de la génération et de l'évaluation

  • L'auto-évaluation mène à une confiance excessive et à une stagnation de la qualité du code produit.
  • Les modèles puissants n'ont plus besoin de contrats de sprint ou de documentation de tâches intermédiaire pour réussir.
  • L'anxiété contextuelle qui forçait les petits modèles à bâcler le travail a disparu avec la version 4.5.

L'agent qui rédige le code a tendance à valider son propre travail même en présence de défauts subjectifs, particulièrement dans la conception d'interfaces utilisateur. Pour garantir la fiabilité, l'évaluateur doit agir comme un adversaire indépendant qui confronte l'implémentation au plan initial. Alors que les modèles Haiku ou Sonnet exigent encore une décomposition stricte, Opus peut désormais gérer des sessions continues sans réinitialisation de contexte.

Mécanismes de notation et critères esthétiques

  • L'évaluateur utilise des outils comme Playwright pour simuler des interactions réelles et détecter des bugs non visibles statiquement.
  • Quatre critères de notation définissent la réussite : qualité du design, originalité, soin des détails et fonctionnalité.
  • Les scores numériques permettent au modèle de prioriser les aspects esthétiques souvent délaissés au profit de la technique.

L'IA produit souvent des interfaces génériques utilisant les mêmes palettes de couleurs par défaut, ce qui nécessite une intervention via des prompts esthétiques. En imposant une grille d'évaluation précise sur la typographie, les contrastes et la cohérence visuelle, on force l'agent générateur à sortir des sentiers battus. L'agent évaluateur devient alors un garant du standard de qualité fixé par l'utilisateur humain.

Mise en œuvre pratique et collaboration en équipe

  • La structure d'équipe où les agents communiquent directement est plus agile que l'utilisation de sous-agents documentaires.
  • Le framework GSD peut être amélioré en y injectant le système de notation rigoureux d'Anthropic.
  • Claude génère les agents de manière simultanée pour que le testeur soit prêt dès que le premier bloc de code est produit.

Pour les projets actuels, la recommandation est de privilégier des agents spécialisés travaillant de concert plutôt que des architectures rigides. L'agent générateur implémente les fonctionnalités pendant que l'évaluateur prépare les scripts de test, créant ainsi une boucle de rétroaction rapide. Cette organisation permet d'aboutir à des applications conformes aux standards professionnels de manière autonome et systématique.

Community Posts

View all posts