Les Skills n'avaient qu'UNE mission (et c'est un échec)

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Il s'avère que l'utilisation des « skills » n'est peut-être pas la meilleure solution pour donner du contexte à vos agents ; vous auriez plus de succès en revenant au fichier agents.md.
00:00:08C'est le résultat surprenant que Vercel a découvert en cherchant la meilleure méthode pour fournir la documentation Next.js à des agents de codage.
00:00:15Entrons directement dans le vif du sujet pour analyser ce qui s'est passé, pourquoi, et ce que cela nous apprend sur l'utilisation efficace des agents.
00:00:26Comme je l'ai dit, l'objectif de Vercel était de fournir à un agent de codage un contexte supplémentaire, ici la doc Next.js, pour qu'il connaisse les dernières API absentes de ses données d'entraînement.
00:00:41À l'inverse, il peut s'agir d'une ancienne version de Next.js, et vous voulez vous assurer qu'il n'utilise que les méthodes disponibles dans cette version spécifique.
00:00:47Ils voulaient un système de documentation indexé sur la version que l'agent pourrait exploiter.
00:00:51Pour ce faire, ils ont testé deux approches courantes.
00:00:54D'abord, les « skills » (compétences).
00:00:56Elles sont devenues très populaires récemment, avec de nombreux frameworks et outils qui en proposent.
00:01:01Ironiquement, Vercel est l'un de ceux qui ont popularisé ce concept avec leur CLI et leur répertoire de skills.
00:01:08Je vous recommande vivement d'aller y jeter un œil.
00:01:09Si vous ne savez pas ce que sont les skills, c'est un standard ouvert d'Anthropic : des bundles modulaires d'instructions, de scripts et de contextes qu'un agent charge à la demande.
00:01:20Mais voici le détail crucial : c'est l'agent qui décide quand charger ces informations.
00:01:26Et c'est là que le bât blesse. En lançant des évaluations, Vercel a constaté que dans 56 % des cas, le skill n'était jamais appelé.
00:01:35L'agent décidait tout simplement de ne pas s'en servir.
00:01:37Étonnamment, fournir le skill n'apportait aucune amélioration par rapport à un agent qui n'en avait pas.
00:01:44Plus surprenant encore, ils ont découvert que le skill pouvait avoir un effet négatif.
00:01:48L'agent était parfois moins performant que la version de base, suggérant qu'un skill inutilisé introduit du bruit ou de la distraction.
00:01:57Pour corriger cela, ils ont essayé de préciser explicitement dans le prompt : « S'il vous plaît, utilisez ce skill ».
00:02:02Cela a aidé : le taux de déclenchement est passé à 95 % et le taux de réussite aux tests a bondi à 79 %.
00:02:09Mais cela a créé d'autres problèmes. Ils ont remarqué que des formulations différentes produisaient des résultats radicalement opposés.
00:02:15Par exemple, si vous disiez « Vous devez utiliser le skill », l'agent s'exécutait mais ignorait alors le contexte du projet.
00:02:21Il fallait donc dire « Utilisez à la fois le skill et le contexte du projet ».
00:02:24Vercel a jugé ce système trop fragile : si de légers changements de mots provoquent de tels écarts de comportement, l'approche n'est pas fiable pour la production.
00:02:33Ils avaient besoin d'une solution plus robuste, où l'agent n'a pas à prendre cette décision lui-même.
00:02:40C'est là qu'ils ont testé le fichier agents.md.
00:02:42C'est un format ouvert utilisé par beaucoup d'agents. Si vous aimez Claude, c'est l'équivalent du fichier Claude.md.
00:02:49Il sert à fournir des instructions aux agents de codage qui sont systématiquement incluses dans le prompt système.
00:02:53Contrairement aux skills, l'agent n'est pas responsable de décider d'aller chercher l'information.
00:02:58Elle est déjà là, dans son prompt. Mais cela peut créer un problème de saturation du contexte.
00:03:03Plus votre contexte s'alourdit, plus la qualité de la réponse diminue.
00:03:06Alors, comment mettre toute la doc Next.js dans un fichier agents.md sans tout casser ?
00:03:10Pour contrer cela, Vercel a simplement utilisé un index de documentation dans le fichier agents.md.
00:03:17C'est juste une liste de chemins vers les fichiers de documentation individuels stockés sur votre système.
00:03:22L'autre élément clé a été d'ajouter l'instruction : « Préférez le raisonnement basé sur la récupération au raisonnement basé sur l'entraînement pour toute tâche Next.js ».
00:03:31Personnellement, je pensais que cela donnerait le même résultat que les skills, puisqu'il doit quand même aller lire le fichier.
00:03:38Mais lors des tests, les agents ont obtenu 100 % de réussite partout, avec des scores parfaits sur la compilation, le lint et les tests.
00:03:47C'est nettement plus fiable et précis que les skills. C'est un cas classique d'ingénierie logicielle.
00:03:53L'approche la plus simple, presque « bête », s'avère être la meilleure, sans avoir besoin de sur-ingénierie.
00:03:58Mais pourquoi ? Pourquoi le fichier agents est-il plus efficace ? C'est difficile à dire avec certitude.
00:04:03L'IA est une boîte noire, mais Vercel avance trois facteurs, tous liés à la prise de décision.
00:04:10Avec le fichier agents, il n'y a aucun point de décision pour l'agent.
00:04:14On lui dit dès le départ, dans le prompt système, d'utiliser la doc et on lui indique l'emplacement exact de chaque fichier.
00:04:20La connaissance devient un contexte persistant au lieu d'être une ressource à la demande que le modèle choisirait ou non d'utiliser.
00:04:27C'est déjà intégré dans son raisonnement car fourni d'entrée de jeu.
00:04:31Cela ne signifie pas que les skills sont inutiles. Vercel a trouvé qu'ils sont en fait complémentaires.
00:04:36Les skills fonctionnent mieux pour des flux de travail explicites déclenchés par l'utilisateur, comme « mets à jour ma version de Next.js »,
00:04:41« migre vers l'App Router » ou « applique les bonnes pratiques du framework ».
00:04:45Mais pour avoir une connaissance générale du framework au sein de votre agent de codage,
00:04:48le contexte passif du fichier agents.md surpasse les skills, du moins avec les modèles actuels.
00:04:54À l'avenir, les modèles seront sûrement optimisés pour la récupération par skills, mais nous n'y sommes pas encore.
00:04:59Pour l'instant, les recommandations de Vercel pour les auteurs de frameworks ou ceux qui créent ces fichiers sont claires :
00:05:06N'attendez pas que les skills s'améliorent. Compressez votre contexte au maximum.
00:05:10Concevez pour la récupération, pas pour la mémoire. Et surtout, testez tout avec des évaluations (evals).
00:05:16Si vous n'êtes qu'utilisateur, Vercel propose un outil pour télécharger la doc
00:05:21ainsi qu'un fichier agents.md pré-configuré pour votre version de Next.js, afin d'en profiter immédiatement.
00:05:29Je suis curieux de voir si d'autres outils adopteront cette approche. Et vous, qu'en pensez-vous ?
00:05:34Dites-moi dans les commentaires ce que vous pensez des agents et des skills.
00:05:37Et n'oubliez pas de vous abonner. On se retrouve dans la prochaine vidéo !

Key Takeaway

Pour optimiser la performance des agents de codage, il est préférable d'intégrer la documentation via un fichier agents.md persistant plutôt que de compter sur le déclenchement incertain des skills.

Highlights

Les « skills » (compétences) échouent souvent car l'agent IA décide de ne pas les utiliser dans 56 % des cas.

L'approche classique du fichier « agents.md » surpasse les skills en fournissant un contexte persistant au système.

L'ajout d'un index de documentation dans le prompt système permet d'atteindre un taux de réussite de 100 % aux tests.

Une trop grande insistance sur l'usage d'un skill peut rendre l'IA « aveugle » au contexte global du projet.

Vercel recommande de privilégier le raisonnement basé sur la récupération (retrieval) plutôt que sur l'entraînement du modèle.

Les skills restent utiles pour des actions explicites déclenchées par l'utilisateur, comme les migrations de version.

La simplicité technique l'emporte sur la sur-ingénierie pour garantir la fiabilité des agents de codage en production.

Timeline

Introduction et l'expérience de Vercel

L'auteur introduit une découverte surprenante de Vercel concernant la meilleure façon de donner du contexte aux agents IA. L'objectif était de fournir la documentation Next.js la plus récente à un agent de codage pour combler les lacunes de son entraînement initial. Le narrateur explique que Vercel a comparé l'utilisation des « skills » par rapport au traditionnel fichier « agents.md ». Cette section souligne l'importance de contrôler précisément les API et les versions utilisées par l'IA. Cette mise en contexte est essentielle pour comprendre pourquoi les méthodes actuelles peuvent échouer en production.

L'échec des « skills » et la fragilité des prompts

Cette partie détaille l'utilisation des skills, un standard ouvert d'Anthropic consistant en des modules d'instructions chargés à la demande. Les tests de Vercel révèlent un défaut majeur : l'agent ne sollicite pas le skill dans 56 % des cas, le rendant inutile ou distrayant. Forcer l'utilisation via le prompt améliore le taux de déclenchement à 95 %, mais crée une fragilité comportementale inquiétante. Un changement mineur de formulation peut pousser l'agent à ignorer totalement le contexte du projet au profit du skill. Finalement, Vercel conclut que cette approche est trop aléatoire pour être considérée comme fiable et robuste.

La supériorité du fichier agents.md

Le narrateur présente ensuite l'alternative : l'utilisation d'un fichier agents.md dont le contenu est systématiquement inclus dans le prompt système. Pour éviter la saturation du contexte, Vercel utilise un index de chemins vers les fichiers de documentation plutôt que le texte intégral. L'instruction clé ajoutée est de préférer systématiquement la récupération documentaire au raisonnement issu de l'entraînement de base. Les résultats sont sans appel avec un score de réussite de 100 % sur la compilation et les tests unitaires. Cette approche « simple » s'avère bien plus efficace que la sur-ingénierie complexe des skills modulaires.

Analyse du succès et complémentarité des outils

L'auteur explore les raisons de ce succès, suggérant que l'absence de point de décision pour l'IA est le facteur déterminant. En fournissant l'information dès le départ, la connaissance devient persistante et intégrée nativement au raisonnement du modèle. Cependant, l'analyse précise que les skills ne sont pas obsolètes mais servent des objectifs différents. Ils sont parfaits pour des tâches ponctuelles et explicites comme une migration de routeur ou une mise à jour de version. Pour une connaissance générale et constante d'un framework, le contexte passif reste le choix optimal pour les modèles actuels.

Recommandations finales et conclusion

En conclusion, Vercel livre ses conseils pour les développeurs de frameworks et les créateurs de fichiers de configuration. Il est conseillé de compresser au maximum le contexte et de concevoir des systèmes orientés vers la récupération immédiate. L'utilisation systématique d'évaluations (evals) est présentée comme le seul moyen de garantir l'efficacité réelle des instructions. Le narrateur mentionne également l'existence d'un outil Vercel pour générer automatiquement ces fichiers agents.md optimisés pour Next.js. La vidéo se termine sur un appel à l'interaction pour recueillir l'avis de la communauté sur ces deux méthodes.

Community Posts

View all posts