Le nouvel outil de Nvidia vient de perfectionner les compétences des agents
AAI LABS
컴퓨터/소프트웨어창업/스타트업AI/미래기술
Transcript
00:00:00En ce moment, les compétences des agents IA sont partout. Chaque agent les exécute et vous leur faites confiance sans
00:00:05aucune vérification. Mais voici la partie effrayante. Des chercheurs ont étudié plus de 30 000 de ces compétences et plus d'
00:00:10un quart d'entre elles présentaient une vulnérabilité de sécurité. NVIDIA a donc créé un outil appelé Skill Spectre qui
00:00:15analyse toute compétence avant que vous ne l'installiez et vous indique exactement à quel point elle est dangereuse. Mais c'est là que
00:00:20ça devient intéressant. Un type d'attaque peut passer à travers les mailles du filet et le paramètre qui
00:00:24permet de la détecter est désactivé par défaut, donc la plupart des gens ne savent même pas qu'il existe. L'activer coûte normalement
00:00:29de l'argent, mais nous avons trouvé un moyen de contourner cela. Et à la fin, nous n'avons pas seulement scanné les compétences. Nous avons construit un
00:00:34flux de travail complet qui change durablement la façon dont vous les trouvez et les installez. Avant d'entrer dans le
00:00:39détail du flux, faisons un tour rapide de l'outil et de ce dont vous avez besoin pour l'utiliser. Voici les commandes
00:00:44d'installation dans le dépôt GitHub. Vous pouvez simplement les copier et les donner à Claude Code, qui se chargera essentiellement d'
00:00:49installer et de tout configurer pour vous. Claude Code va installer toutes les dépendances que vous
00:00:54pouvez voir ici. Une fois que tout est terminé, vous pouvez commencer à utiliser Skill Spectre. Dans le dépôt GitHub,
00:00:59il y a un dossier de test contenant des compétences dangereuses sur lesquelles vous pouvez réellement lancer l'outil pour
00:01:04confirmer qu'il fonctionne. Nous l'avons testé sur ces compétences et pour chacune d'elles, il vous conseille de ne pas
00:01:09l'installer. Plus le score est élevé, plus la compétence est dangereuse. Et avec chaque test, il ne donne pas seulement
00:01:14un chiffre. Il vous montre le numéro de ligne exact, l'emplacement précis et le nom du fichier où se trouve le conflit,
00:01:19ce qui est essentiellement ce qui a fait grimper le score. Ce n'est pas la seule façon d'utiliser l'outil, il possède
00:01:24un autre mode. Mais avant de comprendre pourquoi nous avons besoin de ce second mode, vous devez savoir deux choses : comment une compétence
00:01:30vous attaque et comment cet outil détecte réellement cette attaque. Il existe 14 catégories,
00:01:34mais pour simplifier, nous les avons regroupées en six catégories similaires. La première façon dont une compétence peut vous attaquer
00:01:39est via des instructions cachées. Une compétence n'est qu'un fichier texte rempli d'instructions et votre agent lit
00:01:45l'ensemble et les traite comme des ordres. Le problème est qu'une mauvaise compétence peut y cacher des instructions supplémentaires
00:01:50que vous ne verrez jamais, mais que l'agent détecte. Elles sont insérées dans des commentaires, ou utilisent des caractères invisibles,
00:01:55ou brouillent le texte dans un code qui semble absurde pour vous, mais que l'IA lit sans problème.
00:02:01Le scanner est donc spécifiquement conçu pour traquer ces instructions cachées et les trouver. La deuxième
00:02:06méthode est l'usurpation d'identité. Votre agent dispose d'outils auxquels il fait confiance et qu'il utilise par leur nom. Disons qu'il en existe un
00:02:12appelé “read” qui lit un fichier. Une compétence malveillante donne à son propre outil exactement le même nom,
00:02:17et votre agent utilise le mauvais, pensant qu'il s'agit du sûr qu'il connaît déjà. Et la façon dont ils y parviennent
00:02:22c'est en remplaçant une lettre par un sosie provenant d'un autre alphabet. Ils l'appellent donc "read",
00:02:27mais le “A” est en réalité une lettre russe qui ressemble à s'y méprendre à la nôtre. Pour vous et pour votre agent, à
00:02:33coup d'œil, c'est le même mot, mais en dessous, c'est un outil complètement différent. Le scanner attrape
00:02:38cela en vérifiant l'identité réelle de chaque caractère, il repère donc cette fausse lettre et
00:02:43la signale. La troisième façon est lorsque la compétence ment simplement sur ce qu'elle fait. La description dit une chose,
00:02:48le code en fait une autre. Elle se présente comme un simple formateur puis accède discrètement à
00:02:53internet en arrière-plan. Ou elle prétend n'avoir besoin que de l'autorisation de lire vos fichiers, mais le code
00:02:58écrit en réalité des fichiers et exécute aussi des commandes. C'est beaucoup plus difficile à détecter. C'est là que
00:03:03intervient le second mode, nous y reviendrons plus tard. La quatrième méthode est le vol d'identifiants.
00:03:08Cela peut concerner vos clés API, vos mots de passe. Une compétence parcourt toutes les clés enregistrées sur votre
00:03:13machine, les récupère et les envoie vers un serveur. La cinquième méthode est simplement l'exécution
00:03:18de logiciels malveillants. Cela inclut des choses comme un reverse shell, qui donne essentiellement à un inconnu
00:03:23le contrôle à distance de tout votre ordinateur. Comme ce type de logiciel malveillant a des empreintes connues,
00:03:28le scanner compare simplement le code à une grande bibliothèque de ces empreintes. La sixième méthode est
00:03:32l'empoisonnement des dépendances. Une compétence utilise souvent un outil en ligne de commande, un petit programme externe qu'elle exécute dans
00:03:39le terminal pour gérer une partie de son travail. Une mauvaise compétence récupère un élément réellement malveillant.
00:03:44Peut-être s'agit-il d'un faux paquet dont le nom ne diffère que d'une lettre d'un vrai très populaire. Vous téléchargez donc le mauvais
00:03:49et il exécute un logiciel malveillant comme dans le dernier cas. Le scanner vérifie donc chaque paquet que la compétence télécharge
00:03:54par rapport à une base de données en direct des paquets malveillants connus. Il signale les faux noms et ces commandes de téléchargement et d'exécution
00:03:59pour assurer la sécurité de votre système. Dans ce premier mode, il fait simplement de la recherche de motifs sans contexte,
00:04:05ce qui signifie qu'il finit par signaler des choses tout à fait inoffensives. Ce sont ce que nous appelons des faux
00:04:09positifs. C'est là qu'intervient le second mode, le scan par IA, et l'activer est simple. Il suffit d'ajouter
00:04:14ce drapeau “no LLM” et il effectue le second scan. Mais si vous regardez dans le code, vous découvrirez
00:04:20que pour exécuter une vérification par IA sur une compétence, vous devez brancher une clé OpenAI. Pour éviter ce coût,
00:04:26nous utilisons simplement Claude Code lui-même pour exécuter cette vérification par IA. L'agent principal de Claude Code ne le fait pas
00:04:32lui-même. Nous utilisons le mode “headless” de Claude, qui est essentiellement Claude Code tournant en arrière-plan
00:04:38sans fenêtre de chat, exécutant juste des commandes de son propre chef. Et nous sommes sûrs que la plupart d'entre vous savent que ce n'est pas gratuit,
00:04:43mais vous obtenez des crédits mensuels avec vos abonnements Anthropic. Et vous pouvez simplement demander à Claude Code de
00:04:48faire le changement dont nous venons de parler et il le fera pour vous. Bien sûr, vous pourriez rencontrer un bug ou deux,
00:04:52mais c'est juste une invite d'une ligne que Claude peut configurer pour vous. Et si vous appréciez la vidéo jusqu'ici,
00:04:57abonnez-vous à la chaîne et appuyez sur le bouton “hype”. Ce petit geste de soutien signifie beaucoup pour nous.
00:05:03Ils ont aussi des compétences dangereuses dans leur dossier de test qui nécessitent réellement la vérification par IA. Lorsque vous
00:05:07exécutez la vérification “no LLM” sur l'une d'elles, le score est de zéro, ce qui signifie qu'elle est parfaitement sûre.
00:05:12Mais dès que vous l'exécutez avec la vérification par IA, le score grimpe à 100, elle vous conseille de ne pas l'installer,
00:05:17et elle explique exactement pourquoi. Mais que se passerait-il si au lieu de simplement détecter les problèmes dans une compétence,
00:05:22le scanner vous aidait aussi à les corriger ? C'est exactement pourquoi nous avons transformé le scanner en une compétence. Et
00:05:27vous vous demandez peut-être pourquoi cela s'appelle “Discover Skills” ? Eh bien, parce que nous n'avons pas juste créé une
00:05:31compétence séparée. Nous avons créé tout un processus qui nous aide à découvrir plus de compétences et à nous assurer qu'elles sont sûres
00:05:36avant de les installer. Nous utilisons skills.sh pour trouver de nouvelles compétences depuis un moment déjà. C'est essentiellement un
00:05:42dépôt git construit spécifiquement pour les compétences. Donc une grande bibliothèque partagée dans laquelle vous pouvez puiser. Et nous pensons qu'ils
00:05:47ont récemment publié une mise à jour CLI. Donc maintenant Claude peut simplement exécuter des requêtes de recherche directement via la ligne de commande
00:05:53et récupérer les meilleures compétences dont il a besoin avant d'installer quoi que ce soit. Et nous voulions que notre scanner
00:05:57tourne par-dessus cela. Donc ici, nous avons scan.sh, qui est le script qui exécute réellement
00:06:02Skill Spectre. Puisque Skill Spectre est un outil CLI, il doit être exécuté comme une commande. Nous avons donc fait tout un
00:06:08script et nous y avons intégré le correctif du mode “headless” de Claude. Par défaut, il exécute la vérification normale,
00:06:13mais si vous le souhaitez, il exécutera aussi la vérification par IA. Et si vous ouvrez skill.md, vous pouvez voir les étapes
00:06:19de base. Il identifie la cible, puis la scanne, puis il vous montre les résultats. Et une fois qu'il connaît
00:06:24quels sont les problèmes, il les corrige, puis exécute à nouveau toute la boucle pour s'assurer
00:06:28que tout est propre. Par exemple, ce dossier que nous vous montrons en ce moment est notre dossier de conception AI labs.
00:06:34C'est essentiellement tout notre processus de conception compressé dans un dossier avec un tas de compétences
00:06:39à l'intérieur. Nous avons une vidéo entière là-dessus. Et en plus de cela, tout le système est disponible dans AI labs
00:06:44pro, qui est notre communauté. Donc si vous voulez soutenir la chaîne et obtenir tout ce système de design,
00:06:49allez y jeter un œil. Et cette compétence de découverte va aussi y être téléchargée. Le lien sera
00:06:54dans la description, mais nous construisons par-dessus ici. Donc nous ajoutons une nouvelle compétence make design.md,
00:06:59qui expose le moyen le plus rapide d'extraire des jetons de conception d'une application que vous avez déjà construite, essentiellement les
00:07:04couleurs, les polices et les règles d'espacement, et de les fusionner dans un fichier design.md. Donc ici nous voulions créer
00:07:10le fichier design.md. Nous lui avons donc dit que nous voulions l'améliorer et qu'il devait chercher d'autres
00:07:15outils là-dehors. Il a donc utilisé skills.sh, puis nous avons chargé la compétence de découverte et cela a ramené une
00:07:21poignée de compétences. Ce sont les compétences qu'il a ramenées et les deux premières semblaient intéressantes. Nous voulions donc
00:07:26creuser. Nous lui avons demandé d'installer et de tester les deux. Et tout comme le dit le flux de travail des compétences de découverte,
00:07:31il n'installera aucune compétence sans la scanner d'abord. Il les a donc installées et lues
00:07:36et nous a dit tout net qu'aucune des deux n'allait aider pour la compétence make design.md. Mais d'un
00:07:41point de vue sécurité, la première a obtenu un score de 10, ce qui signifiait qu'elle était sûre, et la seconde a obtenu un
00:07:46100, ce qui signifiait “ne pas l'installer”. Nous lui avons donc dit d'exécuter la vérification par IA sur cette seconde compétence. Il l'a repassée
00:07:52via le mode “headless” de Claude et cette fois le score est revenu à zéro. Cela signifie que la compétence
00:07:56était sûre à utiliser. Et c'est tout le but de ce système. Vous n'êtes pas juste en train d'attraper des compétences aveuglément sur
00:08:01internet. Vous avez tout un processus que vous pouvez lancer juste en utilisant une compétence. Maintenant, ayons un
00:08:06mot de notre sponsor. Nimblist. Si vous utilisez Claude Code ou Codex, vous connaissez le problème. Vous avez plusieurs
00:08:12sessions en cours, des fichiers qui changent partout, et vous basculez constamment entre le terminal, le navigateur,
00:08:17et l'éditeur juste pour suivre ce que font vos agents. Nimblist est un espace de travail visuel open source
00:08:23qui met tout au même endroit. J'avais trois agents travaillant sur différentes parties d'un projet à
00:08:28la même fois et au lieu de sauter d'une fenêtre à l'autre, je pouvais tous les voir sur un tableau Kanban, sauter dans
00:08:33n'importe quelle session, examiner les changements de code sous forme de diffs rouges et verts, et les approuver ou les rejeter individuellement. J'éditais
00:08:38des documents markdown, des maquettes d'interface et des diagrammes d'architecture visuellement juste à côté de mon agent. Quand j'avais
00:08:45fini, je n'avais pas à nettoyer les commits manuellement car il générait les messages de commit git automatiquement
00:08:50basés sur ce qui avait changé. Les tâches restaient connectées aux sessions réelles et il y a même une application mobile pour
00:08:56continuer la session pendant que vous êtes loin de votre bureau. Nimblist est complètement gratuit et open source
00:09:00et vous pouvez le découvrir en utilisant le lien dans le commentaire épinglé. Cela nous amène à la fin de cette
00:09:05vidéo. Si vous souhaitez soutenir la chaîne et nous aider à continuer de faire des vidéos comme celle-ci, vous pouvez le faire en
00:09:10utilisant le bouton “super thanks” ci-dessous. Comme toujours, merci d'avoir regardé et je vous verrai dans la prochaine.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video