Cette astuce Claude réduit vos coûts de tokens de MOITIÉ

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Si vous aimez économiser de l'argent ou si vous détestez la façon dont parlent les LLM,
00:00:03cette vidéo pourrait vous plaire. C'est une nouvelle compétence tendance appelée « Caveman »
00:00:07et elle promet de réduire jusqu'à 75 % des tokens de sortie
00:00:10tout en conservant une précision technique totale. Tout cela grâce aux sages paroles de Kevin.
00:00:12Pourquoi perdre temps ?
00:00:13Dire beaucoup mots quand peu mots suffisent.
00:00:16Cela fonctionne sur Claude, Codex et ailleurs, et transforme vos réponses pleines de mots de remplissage,
00:00:20trop longues pour être lues, en de parfaits résumés avec la même précision technique.
00:00:24C'est même personnalisable et propose des extras comme le mode Wenyan, des commits concis,
00:00:29des revues de code en une ligne et un outil de compression d'entrée.
00:00:30Cela peut sembler un peu fou au début, mais il y a même une base scientifique derrière tout ça,
00:00:34alors plongeons dans le vif du sujet.
00:00:40Je testais cela plus tôt dans Claude Code avec une démo d'application Next.js
00:00:44qui possède un faux système d'authentification, et j'ai simplement demandé :
00:00:48« Peux-tu expliquer comment l'authentification est implémentée dans cette application ? »
00:00:49Voici Claude Code normal sans la compétence installée. On voit tout de suite
00:00:53qu'il utilise des mots de remplissage en disant : « C'est un système d'authentification simulé ».
00:00:56On a un tiret cadratin qui dit : « Pas de backend, pas de mots de passe, pas de réelle sécurité »,
00:01:00existant pour démontrer le suivi utilisateur RUM de Better Stack.
00:01:03Après cela, il explique les fichiers principaux, le fonctionnement, et tout est
00:01:06rédigé dans un anglais fluide et lisible.
00:01:08Si nous posons la même question mais en utilisant cette fois la compétence Caveman,
00:01:11vous voyez qu'il va droit au but et qu'il est beaucoup plus concis.
00:01:13La première phrase est : « Démo uniquement, auth côté client, pas de réelle sécurité »,
00:01:17conçu pour les démos de suivi RUM de Better Stack.
00:01:18Il n'y a aucun de ces mots de remplissage, de tirets ou quoi que ce soit d'autre.
00:01:21Il n'a pas besoin de faire une phrase correcte, il peut simplement vous donner
00:01:25les informations techniques immédiatement.
00:01:26Il en va de même pour la section sur le fonctionnement, le flux et les points d'intégration.
00:01:29Ici, au lieu d'expliquer le fonctionnement dans une phrase en anglais simple,
00:01:33il dit juste « chargement app » puis met une flèche vers « vérifier stockage local pour utilisateur sauvé ».
00:01:36C'est donc bien plus concis, et pour être honnête, c'est ce qui m'importe.
00:01:39Je me fiche que ce soit en bon anglais, je voulais juste obtenir
00:01:43les informations techniques.
00:01:44Cette concision est la raison principale pour laquelle j'aime cette compétence, mais l'autre argument
00:01:47est qu'elle devrait réduire les tokens de sortie. Théoriquement, vous pouvez donc
00:01:51tirer davantage de votre abonnement Claude Code ou économiser sur vos tokens API.
00:01:55Mais je pense qu'il y a un petit bémol.
00:01:57Voici le résultat d'un test comparatif que j'ai effectué plus tôt, comparant
00:02:00la réponse de base de Claude Code, une réponse concise où je dis littéralement
00:02:04à Claude Code d'être bref, et l'utilisation de notre compétence Caveman.
00:02:07C'était sur 10 requêtes simples, comme : « Quelle est la différence entre git rebase et git merge ? »
00:02:11Vous pouvez voir que les résultats sont très positifs.
00:02:14Avec Caveman par rapport à la réponse de base, nous avons une réduction de 45 % des tokens de sortie,
00:02:18et de 39 % par rapport au simple fait de dire « sois concis » à Claude Code.
00:02:22Cela va évidemment impacter le coût : il y aura une économie de 45 %
00:02:26sur les tokens de sortie. La réponse de base coûte environ 8 cents,
00:02:31contre environ 4 cents pour Caveman.
00:02:32Au premier abord, tout semble donc excellent.
00:02:34Cependant, cela devient plus intéressant quand on prend en compte le coût
00:02:37des tokens d'entrée.
00:02:38Comme nous utilisons la compétence Caveman, nous chargeons un fichier Markdown
00:02:41qui contient beaucoup plus de texte que nos requêtes d'une seule phrase. Pour la base,
00:02:45où nous envoyons juste une phrase, cela coûte des fractions de centime. Mais avec notre compétence,
00:02:49on arrive à environ 4 cents.
00:02:50Si on combine les coûts des tokens d'entrée et de sortie, on voit qu'en moyenne,
00:02:54Caveman est 10 % plus cher que la base, car les économies réalisées sur les tokens de sortie
00:02:58ont été perdues dans les tokens d'entrée.
00:03:01Mais cela ne signifie pas que Caveman est perdant, car ce n'est vrai
00:03:04que dans des scénarios très spécifiques.
00:03:05C'est seulement vrai si on envoie une seule petite requête sans poser de questions de suivi.
00:03:10Si vous commencez à poser des questions de suivi, vous profitez du prompt caching,
00:03:14et là, la situation bascule en faveur de Caveman avec une économie réelle
00:03:19de 39 % sur les coûts.
00:03:20C'était une analyse un peu technique, mais cela prouve qu'il y a une logique à utiliser
00:03:23Caveman. Et c'est sans compter un autre avantage possible :
00:03:27une étude parue cette année montre que forcer les grands modèles à répondre brièvement
00:03:31améliore la précision de 26 % sur certains tests de référence.
00:03:34Finalement, Kevin était peut-être le plus malin, et vous le seriez aussi en vous abonnant.
00:03:38Vous pouvez tester cette compétence vous-même via le pack v-acel-skill en lançant
00:03:41une commande comme celle-ci. On peut voir ici ce qu'elle demande à l'agent.
00:03:45Il y a des règles comme : supprimer les articles (un, une, le), les mots de remplissage,
00:03:49les politesses et les précautions oratoires.
00:03:50Elle demande aussi d'utiliser des synonymes courts : « gros » au lieu de « considérable »,
00:03:54ou « fixe » au lieu de « implémenter une solution pour ». Elle définit aussi ce qu'il faut garder :
00:03:58termes techniques, blocs de code et erreurs.
00:04:00Ensuite, on a le modèle de structure à suivre : on doit avoir
00:04:03une chose, une action, une raison et une étape suivante.
00:04:05Simple et concis.
00:04:07Il y a même des modes d'intensité pour ajuster le niveau de langage « homme des cavernes ».
00:04:10Cela va du mode « Light » au mode « Ultra ».
00:04:12J'utilisais le mode « Full » par défaut, mais en « Ultra », il abrège tout,
00:04:17supprime les conjonctions, utilise des flèches pour la causalité et n'utilise qu'un mot
00:04:21quand un mot suffit.
00:04:22Il existe aussi un mode Wenyan qui utilise des caractères chinois classiques,
00:04:26car ils sont les plus économes en tokens.
00:04:27Malheureusement, je ne sais pas les lire, donc ce n'est pas très utile pour moi.
00:04:30Et ce n'est pas tout ce que Caveman propose ; il y a d'autres compétences
00:04:33pour des scénarios spécifiques.
00:04:34On a « caveman commit » pour écrire des messages de commit courts au format conventionnel.
00:04:38On a « caveman review » pour des commentaires de revue de code en une seule ligne par trouvaille.
00:04:42Et on a aussi une compétence « compress » pour transformer vos fichiers en langage naturel
00:04:46au format Caveman afin de les réutiliser avec moins de tokens d'entrée.
00:04:49Dites-moi en commentaire si l'une de ces options vous intéresse, et profitez-en
00:04:52pour vous abonner. Comme toujours, on se retrouve dans la prochaine vidéo.

Key Takeaway

L'adoption de la compétence Caveman permet d'économiser 45 % sur les tokens de sortie et d'augmenter la précision technique de 26 % en éliminant les mots de remplissage au profit d'une structure minimaliste.

Highlights

La compétence Caveman réduit jusqu'à 75 % des tokens de sortie tout en conservant une précision technique totale.

L'utilisation de Caveman diminue les coûts de tokens de sortie de 45 % par rapport à une réponse standard de Claude.

Le forçage de réponses brèves améliore la précision des grands modèles de langage de 26 % sur certains tests de référence.

L'économie réelle sur les coûts atteint 39 % lors de l'utilisation du prompt caching pour des questions de suivi.

Le mode Wenyan utilise des caractères chinois classiques pour maximiser l'économie de tokens grâce à leur densité informative.

L'outil inclut des fonctions spécifiques comme caveman-review pour des commentaires de code limités à une seule ligne.

Timeline

Fonctionnement et efficacité de la méthode Caveman

  • Le style Caveman élimine les articles, les politesses et les précautions oratoires pour ne garder que la substance technique.
  • Les explications fluides sont remplacées par des structures directes utilisant des flèches de causalité.
  • La précision des informations reste intacte malgré la suppression des structures grammaticales complexes.

Une réponse standard sur l'authentification Next.js utilise des phrases complètes et des termes de liaison superflus. En mode Caveman, le système produit des listes concises telles que « démo uniquement, auth côté client, pas de réelle sécurité ». Cette approche privilégie le transfert immédiat d'informations techniques brutes plutôt que la politesse linguistique.

Analyse comparative des coûts et des tokens

  • Les tokens de sortie chutent de 45 % par rapport à une réponse de base et de 39 % par rapport à une instruction de concision simple.
  • Le coût d'entrée est initialement plus élevé en raison du chargement du fichier de compétences Markdown.
  • Le prompt caching rend la méthode rentable dès que l'utilisateur pose des questions de suivi dans la même session.

Sur un test de 10 requêtes git, le coût de sortie passe de 8 cents à 4 cents. Bien que l'envoi d'une requête unique puisse s'avérer 10 % plus cher à cause du volume du prompt initial, l'avantage financier bascule nettement en faveur de Caveman lors de sessions prolongées. L'efficacité est renforcée par une étude indiquant que la brièveté imposée accroît la précision des réponses de 26 %.

Personnalisation et outils spécialisés du pack

  • L'intensité du langage varie de Light à Ultra selon les besoins de compression de l'utilisateur.
  • Des synonymes courts remplacent systématiquement les expressions longues pour économiser chaque token.
  • Le système intègre des modules pour les messages de commit, les revues de code et la compression de fichiers.

Le mode Ultra supprime toutes les conjonctions et utilise des termes comme « gros » à la place de « considérable ». Chaque réponse suit un modèle rigide composé d'une chose, d'une action, d'une raison et d'une étape suivante. Des outils complémentaires comme caveman-commit appliquent ces règles aux flux de travail de développement pour maintenir une documentation concise.

Community Posts

View all posts