L'essaim d'agents CACHÉ de Claude Code (Mieux que Kimi K2.5 ?)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Tout le monde s'emballe pour Kimi 2.5. C'est un modèle open-source qui affiche de meilleurs benchmarks
00:00:05qu'Opus et un mode "Agent Swarm" incroyablement ingénieux où un orchestrateur peut générer jusqu'à 100
00:00:11agents spécialisés pour une tâche complexe. Mais saviez-vous que cette fonction existe aussi dans le code de Claude,
00:00:17cachée derrière un flag et découverte par un utilisateur sur Twitter ? Comment a-t-on pu trouver ça ? Et est-ce qu'Anthropic
00:00:23a simplement volé l'idée de Kimi ? Abonnez-vous et voyons ça de plus près. Anthropic a annoncé
00:00:30des sous-agents personnalisés en juillet dernier et, depuis, les gens les utilisent pour toutes sortes de
00:00:35tâches spécialisées. Nous avions d'ailleurs fait une vidéo à ce sujet à l'époque. Mais ces sous-agents
00:00:41n'ont accès qu'à une fraction du contexte global puisqu'ils sont conçus pour une tâche précise. Ils accomplissent
00:00:48leur mission, renvoient les données et repartent de zéro. Les utilisateurs ont donc dû ruser pour la mémoire
00:00:54en demandant aux sous-agents d'écrire leurs conclusions dans un fichier Markdown et de mettre à jour un fichier de contexte principal.
00:01:01Ainsi, si un agent devait intervenir à nouveau, il lui suffisait de lire ces fichiers pour voir où en étaient ses collègues.
00:01:06Mais il fallait encore créer manuellement chaque sous-agent en lui attribuant un rôle, des compétences et des permissions.
00:01:12C'est là que le mode Swarm de Kimi change la donne, car c'est l'orchestrateur qui crée dynamiquement
00:01:19un sous-agent spécialisé pour chaque tâche spécifique, sans que vous n'ayez rien à faire.
00:01:25Ces sous-agents peuvent travailler en parallèle et, une fois leur part du travail terminée, ils transmettent
00:01:31le résultat à l'orchestrateur. Celui-ci décide alors si de nouveaux agents doivent être lancés avec ces données
00:01:36pour finaliser le projet. Le Swarm de Kimi est encore un projet de recherche, mais il montre déjà
00:01:42de nettes améliorations par rapport à un flux de travail avec un seul agent. Regardez ce graphique :
00:01:48peu importe la complexité de la tâche, le temps d'exécution reste stable grâce au travail en parallèle.
00:01:53Pour être honnête, on peut déjà faire un peu la même chose avec Claude Code.
00:01:58Grâce à la fonction "task", vous pouvez lister des tâches et les répartir entre différents sous-agents.
00:02:04Le problème, c'est que ces agents restent généralistes et ne sont pas optimisés pour la tâche précise.
00:02:10Je ne suis pas non plus certain que Claude sache attribuer automatiquement les tâches au bon agent personnalisé.
00:02:15Dites-moi en commentaire si vous avez déjà testé. Quoi qu'il en soit, il semble que l'équipe de Claude
00:02:21travaille sur un système d'orchestration capable de créer des sous-agents à la volée selon les besoins.
00:02:25Cette fonctionnalité était cachée derrière un flag découvert par Mike Kelly, qui montre comment ça marche dans ce tweet.
00:02:31Il y partage aussi un lien vers un dépôt, un fork de CC Mirror appelé "Claude Sneak Peek". Testons-le.
00:02:37Voici un plan rédigé par l'IA pour créer une interface web pour XDL, un outil de téléchargement de vidéos X/Twitter
00:02:42via le terminal. J'ai déjà installé et lancé Claude Sneak Peek, qui ressemble à une version minimaliste de Claude Code.
00:02:48Je vais lui demander de lire le fichier plan.md et de créer des tâches exécutables par un essaim d'agents.
00:02:55Je le laisse générer les tâches, et maintenant qu'il a fini, je vais lui demander de les exécuter via les sous-agents.
00:03:00Avant ça, pour vous confirmer que je n'ai aucun agent personnalisé configuré, je lance la commande /agent
00:03:05et vous voyez qu'il n'y a absolument rien. C'est maintenant qu'il lance l'exécution :
00:03:11il a automatiquement ajouté un agent "Front-end Builder" pour les tâches d'interface. On voit ici
00:03:16qu'une équipe se forme. Si on regarde le détail, on a cinq agents : un chef d'équipe, un testeur QA,
00:03:21un développeur back-end, un créateur de composants et un développeur front-end, tous au travail simultanément.
00:03:26On peut même suivre l'activité de chacun en temps réel. Le testeur QA cherche des patterns,
00:03:32le dev back-end fait de même tout en lisant les fichiers, idem pour les autres.
00:03:37Si on veut voir précisément ce qu'un agent fabrique, on appuie sur Entrée pour accéder à sa vue
00:03:42et consulter son prompt système. En revenant en arrière, on voit qu'on a maintenant huit agents :
00:03:48un créateur d'API, quelqu'un sur la config Vite, un autre pour l'intégration API et même un pour le CSS.
00:03:53L'équipe ne cesse de s'agrandir. En cliquant sur le chef d'équipe, on revient à la vue principale de Claude Code ;
00:03:57le chef d'équipe est l'orchestrateur central. Sur l'écran principal, chaque sous-agent nous donne son statut.
00:04:02En dézoomant un peu, on peut voir les messages envoyés précédemment par tous les agents.
00:04:07Une fois terminé, on reçoit un fichier de fin de projet, mais aussi un rapport d'exécution du Swarm
00:04:13indiquant le nombre d'agents utilisés, leurs rôles et s'ils ont rempli leur mission. On peut
00:04:18descendre pour voir le détail de chaque action. Vu le travail déjà accompli sur cette fonction,
00:04:24je ne pense pas qu'Anthropic ait copié Kimi. Ils ont dû voir des projets comme OpenDevin et ont voulu
00:04:29l'intégrer nativement à Claude Code, mais je comprends pourquoi ce n'est pas encore public.
00:04:34D'abord, l'orchestrateur n'a sans doute pas encore les heures d'entraînement de celui de Kimi 2.5.
00:04:41Ensuite, ça devient complexe pour l'utilisateur qui a déjà ses propres agents. Par exemple,
00:04:47comment l'orchestrateur décide-t-il de créer un nouvel agent front-end plutôt que d'utiliser celui du client ?
00:04:52Sur quelles données se base-t-il pour juger ? Et les compétences (skills) ajoutent une couche de complexité.
00:04:59Si l'utilisateur a déjà des bibliothèques de skills, l'orchestrateur doit-il piocher dedans ou en télécharger de nouvelles
00:05:04plus adaptées ? S'ils sortent cet orchestrateur, il devra analyser une tonne de données utilisateur
00:05:10(agents, outils, skills) avant même de décider s'il doit créer son propre agent. J'ignore s'ils y travaillent
00:05:16en ce moment ou s'ils ont jugé cela trop complexe pour une sortie officielle. À suivre.
00:05:22D'ailleurs, si vous ajoutez des fonctionnalités à un rythme effréné et que vous voulez éviter les bugs,
00:05:28allez voir Betastack. Il surveille les logs de vos serveurs et utilise la détection d'anomalies
00:05:35pour vous alerter avant que ça ne casse. Il suit aussi les erreurs front-end grâce à l'IA.
00:05:42Testez Betastack dès aujourd'hui.
00:05:49to use them for a new agent or to download its own ones which may even be more appropriate for the
00:05:56task at hand? I mean this orchestrator if anthropic ever release it will have to go through a bunch of
00:06:02user data already, agents, tools, skills just before it can decide if it needs to make its own sub-agent
00:06:10and what things it should add to it. I actually don't know if the team are working on this feature
00:06:16right now as I speak or if they've decided it's too complicated and won't release it. I don't know.
00:06:22Speaking of features if you're using an AI or a human to rapidly add features to a project and you
00:06:28want to make sure things don't break then you really need to check out Betastack because it's able to
00:06:33monitor logs on your servers and use anomaly detection to tell you if anything goes wrong
00:06:38before it does. And it also has AI native error tracking to let you know if anything goes wrong
00:06:44on your front end. So go and check out Betastack today.

Key Takeaway

Anthropic expérimente discrètement une architecture d'essaim d'agents dynamiques dans Claude Code, capable d'orchestrer une équipe de sous-agents spécialisés pour automatiser des projets de développement complexes en parallèle.

Highlights

Découverte d'un mode "Agent Swarm" caché dans Claude Code via un flag expérimental.

Comparaison avec Kimi 2.5 qui utilise un orchestrateur pour générer jusqu'à 100 agents spécialisés.

Capacité de Claude Sneak Peek à créer dynamiquement des rôles (QA

Timeline

Introduction et comparaison avec Kimi 2.5

L'orateur introduit le modèle open-source Kimi 2.5 qui suscite l'enthousiasme grâce à son mode "Agent Swarm" performant. Il révèle qu'une fonctionnalité similaire a été découverte dans le code de Claude par un utilisateur sur Twitter, cachée derrière un flag spécifique. Cette section pose la question de savoir si Anthropic a copié l'idée de Kimi ou s'il s'agit d'un développement indépendant. Le concept de sous-agents personnalisés, annoncé initialement en juillet dernier, sert de base à cette évolution. L'enjeu est de passer de simples agents à une structure orchestrée beaucoup plus puissante.

Les limites des sous-agents actuels et l'innovation Swarm

Cette partie explique que les sous-agents actuels de Claude ont un contexte limité et doivent souvent utiliser des fichiers Markdown pour simuler une mémoire partagée. À l'inverse, le mode Swarm de Kimi permet à un orchestrateur de créer dynamiquement des agents spécialisés sans intervention manuelle de l'utilisateur. Ces agents travaillent en parallèle, ce qui permet de stabiliser le temps d'exécution quelle que soit la difficulté de la tâche. L'orateur présente un graphique montrant l'efficacité de ce travail collaboratif par rapport à un agent unique. Cette approche transforme radicalement la gestion des flux de travail complexes en IA.

Démonstration de Claude Sneak Peek et de l'essaim d'agents

L'auteur teste un fork appelé "Claude Sneak Peek" pour démontrer le fonctionnement de l'orchestrateur caché. Il utilise un projet de création d'interface web pour un outil nommé XDL comme étude de cas. Bien que Claude Code permette déjà de répartir des tâches, ce nouveau mode crée des agents réellement optimisés pour des rôles précis. L'utilisateur lance la commande d'exécution après avoir vérifié qu'aucun agent n'était configuré au préalable. C'est ici que l'orchestrateur commence à générer automatiquement les premiers membres de l'équipe de développement.

Analyse en temps réel de l'activité des sous-agents

L'essaim s'agrandit rapidement pour inclure des rôles tels que "Front-end Builder", "QA Tester", et "Back-end Developer". On observe jusqu'à huit agents travaillant simultanément sur des aspects variés comme le CSS, la configuration Vite ou l'intégration d'API. L'interface permet de basculer entre les vues de chaque agent pour consulter leur prompt système et leur progression spécifique. Le chef d'équipe centralise les retours et coordonne l'ensemble du projet de manière fluide. À la fin du processus, un rapport détaillé indique le succès des missions et le rôle de chaque participant de l'essaim.

Défis d'implémentation et conclusion sur la sortie officielle

L'orateur estime qu'Anthropic n'a pas copié Kimi mais s'est inspiré de projets comme OpenDevin pour une intégration native. Il explique que la fonctionnalité reste cachée car elle pose des problèmes de complexité majeure pour l'utilisateur final. L'orchestrateur doit décider s'il doit créer un nouvel agent ou utiliser un agent personnalisé déjà existant, tout en gérant les bibliothèques de compétences (skills). Cette analyse de données utilisateur massive avant chaque décision rend le système difficile à stabiliser pour le grand public. La vidéo se termine sur une note d'incertitude quant à la sortie officielle de cet outil d'orchestration.

Promotion de Betastack pour la surveillance de serveurs

Pour conclure, l'auteur présente Betastack, un outil essentiel pour les développeurs utilisant l'IA pour générer du code rapidement. Betastack surveille les logs des serveurs et utilise la détection d'anomalies pour prévenir les pannes avant qu'elles ne surviennent. Il propose également un suivi des erreurs front-end optimisé par l'intelligence artificielle pour garantir la stabilité des déploiements. Cette solution est présentée comme le complément idéal à un cycle de développement accéléré par des agents. L'orateur encourage les spectateurs à tester le service pour sécuriser leurs projets.

Community Posts

View all posts