00:00:00Si vous aimez économiser de l'argent ou si vous détestez la façon dont parlent les LLM,
00:00:03cette vidéo pourrait vous plaire. C'est une nouvelle compétence tendance appelée « Caveman »
00:00:07et elle promet de réduire jusqu'à 75 % des tokens de sortie
00:00:10tout en conservant une précision technique totale. Tout cela grâce aux sages paroles de Kevin.
00:00:12Pourquoi perdre temps ?
00:00:13Dire beaucoup mots quand peu mots suffisent.
00:00:16Cela fonctionne sur Claude, Codex et ailleurs, et transforme vos réponses pleines de mots de remplissage,
00:00:20trop longues pour être lues, en de parfaits résumés avec la même précision technique.
00:00:24C'est même personnalisable et propose des extras comme le mode Wenyan, des commits concis,
00:00:29des revues de code en une ligne et un outil de compression d'entrée.
00:00:30Cela peut sembler un peu fou au début, mais il y a même une base scientifique derrière tout ça,
00:00:34alors plongeons dans le vif du sujet.
00:00:40Je testais cela plus tôt dans Claude Code avec une démo d'application Next.js
00:00:44qui possède un faux système d'authentification, et j'ai simplement demandé :
00:00:48« Peux-tu expliquer comment l'authentification est implémentée dans cette application ? »
00:00:49Voici Claude Code normal sans la compétence installée. On voit tout de suite
00:00:53qu'il utilise des mots de remplissage en disant : « C'est un système d'authentification simulé ».
00:00:56On a un tiret cadratin qui dit : « Pas de backend, pas de mots de passe, pas de réelle sécurité »,
00:01:00existant pour démontrer le suivi utilisateur RUM de Better Stack.
00:01:03Après cela, il explique les fichiers principaux, le fonctionnement, et tout est
00:01:06rédigé dans un anglais fluide et lisible.
00:01:08Si nous posons la même question mais en utilisant cette fois la compétence Caveman,
00:01:11vous voyez qu'il va droit au but et qu'il est beaucoup plus concis.
00:01:13La première phrase est : « Démo uniquement, auth côté client, pas de réelle sécurité »,
00:01:17conçu pour les démos de suivi RUM de Better Stack.
00:01:18Il n'y a aucun de ces mots de remplissage, de tirets ou quoi que ce soit d'autre.
00:01:21Il n'a pas besoin de faire une phrase correcte, il peut simplement vous donner
00:01:25les informations techniques immédiatement.
00:01:26Il en va de même pour la section sur le fonctionnement, le flux et les points d'intégration.
00:01:29Ici, au lieu d'expliquer le fonctionnement dans une phrase en anglais simple,
00:01:33il dit juste « chargement app » puis met une flèche vers « vérifier stockage local pour utilisateur sauvé ».
00:01:36C'est donc bien plus concis, et pour être honnête, c'est ce qui m'importe.
00:01:39Je me fiche que ce soit en bon anglais, je voulais juste obtenir
00:01:43les informations techniques.
00:01:44Cette concision est la raison principale pour laquelle j'aime cette compétence, mais l'autre argument
00:01:47est qu'elle devrait réduire les tokens de sortie. Théoriquement, vous pouvez donc
00:01:51tirer davantage de votre abonnement Claude Code ou économiser sur vos tokens API.
00:01:55Mais je pense qu'il y a un petit bémol.
00:01:57Voici le résultat d'un test comparatif que j'ai effectué plus tôt, comparant
00:02:00la réponse de base de Claude Code, une réponse concise où je dis littéralement
00:02:04à Claude Code d'être bref, et l'utilisation de notre compétence Caveman.
00:02:07C'était sur 10 requêtes simples, comme : « Quelle est la différence entre git rebase et git merge ? »
00:02:11Vous pouvez voir que les résultats sont très positifs.
00:02:14Avec Caveman par rapport à la réponse de base, nous avons une réduction de 45 % des tokens de sortie,
00:02:18et de 39 % par rapport au simple fait de dire « sois concis » à Claude Code.
00:02:22Cela va évidemment impacter le coût : il y aura une économie de 45 %
00:02:26sur les tokens de sortie. La réponse de base coûte environ 8 cents,
00:02:31contre environ 4 cents pour Caveman.
00:02:32Au premier abord, tout semble donc excellent.
00:02:34Cependant, cela devient plus intéressant quand on prend en compte le coût
00:02:37des tokens d'entrée.
00:02:38Comme nous utilisons la compétence Caveman, nous chargeons un fichier Markdown
00:02:41qui contient beaucoup plus de texte que nos requêtes d'une seule phrase. Pour la base,
00:02:45où nous envoyons juste une phrase, cela coûte des fractions de centime. Mais avec notre compétence,
00:02:49on arrive à environ 4 cents.
00:02:50Si on combine les coûts des tokens d'entrée et de sortie, on voit qu'en moyenne,
00:02:54Caveman est 10 % plus cher que la base, car les économies réalisées sur les tokens de sortie
00:02:58ont été perdues dans les tokens d'entrée.
00:03:01Mais cela ne signifie pas que Caveman est perdant, car ce n'est vrai
00:03:04que dans des scénarios très spécifiques.
00:03:05C'est seulement vrai si on envoie une seule petite requête sans poser de questions de suivi.
00:03:10Si vous commencez à poser des questions de suivi, vous profitez du prompt caching,
00:03:14et là, la situation bascule en faveur de Caveman avec une économie réelle
00:03:19de 39 % sur les coûts.
00:03:20C'était une analyse un peu technique, mais cela prouve qu'il y a une logique à utiliser
00:03:23Caveman. Et c'est sans compter un autre avantage possible :
00:03:27une étude parue cette année montre que forcer les grands modèles à répondre brièvement
00:03:31améliore la précision de 26 % sur certains tests de référence.
00:03:34Finalement, Kevin était peut-être le plus malin, et vous le seriez aussi en vous abonnant.
00:03:38Vous pouvez tester cette compétence vous-même via le pack v-acel-skill en lançant
00:03:41une commande comme celle-ci. On peut voir ici ce qu'elle demande à l'agent.
00:03:45Il y a des règles comme : supprimer les articles (un, une, le), les mots de remplissage,
00:03:49les politesses et les précautions oratoires.
00:03:50Elle demande aussi d'utiliser des synonymes courts : « gros » au lieu de « considérable »,
00:03:54ou « fixe » au lieu de « implémenter une solution pour ». Elle définit aussi ce qu'il faut garder :
00:03:58termes techniques, blocs de code et erreurs.
00:04:00Ensuite, on a le modèle de structure à suivre : on doit avoir
00:04:03une chose, une action, une raison et une étape suivante.
00:04:05Simple et concis.
00:04:07Il y a même des modes d'intensité pour ajuster le niveau de langage « homme des cavernes ».
00:04:10Cela va du mode « Light » au mode « Ultra ».
00:04:12J'utilisais le mode « Full » par défaut, mais en « Ultra », il abrège tout,
00:04:17supprime les conjonctions, utilise des flèches pour la causalité et n'utilise qu'un mot
00:04:21quand un mot suffit.
00:04:22Il existe aussi un mode Wenyan qui utilise des caractères chinois classiques,
00:04:26car ils sont les plus économes en tokens.
00:04:27Malheureusement, je ne sais pas les lire, donc ce n'est pas très utile pour moi.
00:04:30Et ce n'est pas tout ce que Caveman propose ; il y a d'autres compétences
00:04:33pour des scénarios spécifiques.
00:04:34On a « caveman commit » pour écrire des messages de commit courts au format conventionnel.
00:04:38On a « caveman review » pour des commentaires de revue de code en une seule ligne par trouvaille.
00:04:42Et on a aussi une compétence « compress » pour transformer vos fichiers en langage naturel
00:04:46au format Caveman afin de les réutiliser avec moins de tokens d'entrée.
00:04:49Dites-moi en commentaire si l'une de ces options vous intéresse, et profitez-en
00:04:52pour vous abonner. Comme toujours, on se retrouve dans la prochaine vidéo.