Caveman Claude Code est la nouvelle méta (Preuves scientifiques à l'appui)

Françaisالعربية Deutsch English Español हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Faire parler votre code cloud comme un homme des cavernes pourrait ne pas seulement vous faire économiser des tokens.

00:00:04Cela pourrait en fait améliorer vos performances également. À première vue,

00:00:07cela ressemble à un pur mème. Nous avons un dépôt GitHub appelé caveman.

00:00:12Qui a obtenu 5 000 étoiles en 72 heures.

00:00:15Et tout ce qu'il fait, c'est forcer le code cloud à parler comme un Néandertalien.

00:00:19Il supprime tout le superflu. L'idée est qu'en le rendant plus concis,

00:00:24nous économisons une tonne de tokens au passage,

00:00:27mais caché dans ce dépôt se trouve un lien vers cette étude de recherche qui vient de sortir il y a quelques

00:00:31semaines,

00:00:31qui nous dit que si nous forçons nos grands modèles de langage à être plus concis,

00:00:36nous n'économisons pas seulement des tokens, mais nous pouvons considérablement améliorer leurs performances.

00:00:40Alors aujourd'hui, je vais décortiquer toute cette compétence caveman.

00:00:42Je vais expliquer ce que cela vous apporte réellement parce que les chiffres dans le dépôt

00:00:46sont un peu trompeurs et nous allons analyser cette étude de recherche pour que vous

00:00:50puissiez comprendre ce que cela signifie concrètement pour vous. Voici donc caveman,

00:00:54notre dépôt « pourquoi dire beaucoup mots quand peu mots suffisent ».

00:00:58Alors, d'entrée de jeu, que fait-il ? C'est assez simple,

00:01:02il supprime le superflu du code cloud. Maintenant, il parle comme un homme des cavernes.

00:01:07Il donne quelques exemples avant et après, montre la différence de tokens et propose même

00:01:11une liste complète de benchmarks montrant la tâche. Il a donné au code cloud :

00:01:15expliquer React, bug de rendu, les tokens normaux utilisés,

00:01:19les tokens caveman et la quantité économisée.

00:01:21Maintenant, les chiffres avancés dans ce dépôt sont un peu fous.

00:01:23Ils affirment qu'avec cette compétence,

00:01:26nous allons réduire de 75 % les tokens de sortie tout en conservant une précision

00:01:30technique totale.

00:01:31Ce caveman ne change pas la façon dont le code cloud raisonne en interne.

00:01:35Il ne change pas la manière dont il génère réellement le code. Rien de tout cela n'est modifié.

00:01:38C'est juste la sortie. Ce que vous voyez en guise de réponse.

00:01:41Il inclut également un outil compagnon qui compresse vos fichiers de mémoire.

00:01:45Pensez à claud.md transformé en langage caveman.

00:01:47Et c'est censé réduire nos tokens d'entrée de 45 % à chaque session.

00:01:52Soyons clairs. Vous ne réduisez pas 75 % de vos tokens de sortie globaux,

00:01:57ni 45 % de vos tokens d'entrée globaux. Ce n'est absolument pas vrai.

00:02:01Même si nous voyons ces affirmations disant : « Hé,

00:02:03ça économise 87 % de tokens sur l'explication d'un bug de rendu React. »

00:02:07L'invite que vous recevez du code cloud, la réponse elle-même,

00:02:11le texte n'est qu'une petite portion des tokens de sortie globaux,

00:02:15tout comme les fichiers de mémoire,

00:02:17comme claud.md, ne sont qu'une petite portion de l'entrée globale.

00:02:21Soyons donc très clairs sur ce que cela nous apporte réellement à l'échelle des tokens.

00:02:25Vous n'économisez pas 80 % de vos tokens totaux. Et pour clarifier un peu,

00:02:28décomposons une session moyenne de 100 000 tokens sur claud code. Alors,

00:02:32je sais que chaque session est un peu différente, mais suivez-moi là-dessus.

00:02:36Nous avons une session de 100 000 tokens, et elle est divisée en deux parties.

00:02:40L'entrée, qui représente la part du lion.

00:02:42C'est 75 000 tokens, et la sortie représente 25 %.

00:02:46Maintenant, caveman prétend que nous allons réduire la sortie de 75 %.

00:02:51Ce n'est pas vrai. Si nous regardons la sortie, elle est en réalité en trois parties, n'est-ce pas ?

00:02:56Nous avons les appels d'outils, qui en prennent une partie, les blocs de code,

00:02:59comme la génération réelle de code, qui en prennent une autre partie.

00:03:02Et ensuite les réponses textuelles réelles, cette réponse,

00:03:06cette réponse textuelle interne, c'est ce que caveman ajuste.

00:03:10C'est ce qu'il réduit. Il peut réduire 75 % de cela. Vous savez,

00:03:13si nous regardons ici, on voit, d'accord,

00:03:16normalement le texte prend 6 000 tokens ; avec caveman,

00:03:20nous économisons 4 000 tokens. Nous obtenons donc une réduction de 4 %. C'est quand même très bien.

00:03:25Si nous économisons 4 % de nos tokens totaux sur une semaine,

00:03:29cela finit par compter,

00:03:30surtout dans l'environnement actuel où nous sommes tous si attentifs à notre consommation.

00:03:33Mais comprenez que ce n'est pas 87 %. C'est 70 %,

00:03:3860 % d'une partie d'une partie de la session totale.

00:03:43De plus,

00:03:44si vous regardez les entrées et qu'il est dit que la compression caveman économise 45 %,

00:03:49encore une fois, pas vraiment.

00:03:50Nous parlons de la zone de l'invite système et seulement de certaines parties de l'invite

00:03:54système. Donc au total, ici, n'est-ce pas ? On économise quoi ? Peut-être 1 000 tokens,

00:03:58peut-être 2 000 tokens. Et sur l'ensemble, encore une fois, d'une session entière.

00:04:03Si j'économise 5 000 tokens, 5 % de chaque session, c'est génial, c'est du bon boulot,

00:04:07mais ce ne sont pas ces chiffres mirobolants. Comprenez-le bien avant de commencer,

00:04:13c'est une optimisation marginale. Ça ne change pas tout radicalement.

00:04:15Vous n'allez pas passer d'un forfait max 5x à un forfait max 20x

00:04:19parce qu'on économise 75 %. Non, non, non,

00:04:22mais il y a quand même énormément de valeur ajoutée ici et encore plus de valeur à

00:04:25extraire. Une fois qu'on regarde l'étude, elle est un peu enfouie ici.

00:04:29Il y a une petite section qui lui est dédiée,

00:04:31mais c'est une étude intitulée « Brevity constraints,

00:04:34reverse performance hierarchies in language models ».

00:04:36Et elle est sortie au début du mois de mars de cette année.

00:04:38Je mettrai donc un lien vers l'étude dans la description si vous voulez la consulter,

00:04:41mais parlons-en rapidement car c'est vraiment intéressant.

00:04:45Parce que l'idée et l'attente, c'est que plus le modèle est gros,

00:04:49meilleur il est par rapport à un petit modèle, toujours. Eh bien,

00:04:53pas exactement, pas selon cette étude.

00:04:56Dans cette étude, ils ont évalué 31 modèles sur 1 500

00:05:01problèmes,

00:05:02et ils ont identifié le mécanisme comme une verbosité spontanée dépendant de l'échelle qui

00:05:07introduit des erreurs par une sur-élaboration. Qu'est-ce que ça veut dire ?

00:05:11Cela signifie que sur près de 8 % des problèmes à travers ces 1 500 problèmes et

00:05:1631 modèles, les plus grands modèles de langage,

00:05:19ceux avec le plus de paramètres, ont été moins performants que les plus petits de 28

00:05:24points de pourcentage, malgré 100 fois plus de paramètres dans certains cas.

00:05:28On a eu des scénarios où, encore une fois, c'est avec des modèles en open weight.

00:05:32On avait un modèle de 2 milliards de paramètres qui surpassait un modèle de

00:05:37400 milliards de paramètres. C'est arrivé plusieurs fois. C'est fou.

00:05:41Pourquoi donc ? Eh bien,

00:05:43ils postulent que la raison est que ces grands

00:05:49modèles de langage parlent beaucoup trop.

00:05:51Ils sont tellement verbeux qu'ils finissent par s'embrouiller tout seuls

00:05:55et donnent la mauvaise réponse à cause de cela. Et dans l'étude,

00:05:58ils ont découvert qu'en forçant les grands modèles à produire des réponses brèves,

00:06:02des réponses « caveman », on améliore la précision de 26 points de pourcentage et on réduit

00:06:07les écarts de performance jusqu'aux deux tiers.

00:06:09Et dans bien des cas, en forçant ces grands modèles de langage à devenir plus concis,

00:06:14plus proches de l'homme des cavernes, cela a complètement inversé la dynamique : alors qu'avant

00:06:18ils perdaient face aux petits modèles, ils se mettaient soudain à les battre.

00:06:21C'est assez incroyable, surtout dans le contexte de ce dépôt GitHub. Maintenant,

00:06:26évidemment, ce sont des modèles open weight. Ce n'est pas Opus 4.6.

00:06:29Ce n'est pas Codex 5.4.

00:06:30Est-ce que ces modèles de pointe présentent exactement le même type de comportement ?

00:06:34Nous ne le savons pas forcément avec certitude,

00:06:36mais si vous avez suivi ces études, vous comprenez que ce que l'on voit ici

00:06:40tend généralement à se répéter à un certain niveau avec les modèles de pointe.

00:06:44Peut-être que ce n'est pas aussi extrême, mais il y a probablement du vrai.

00:06:47Le reste de l'étude détaille beaucoup la manière dont ils ont mené les tests,

00:06:51comment ils essaient de distinguer corrélation et causalité et pourquoi ils pensent

00:06:55que c'est un problème. Et comme je l'ai dit plus tôt,

00:06:57ils font l'hypothèse que les grands modèles génèrent des réponses excessivement verbeuses qui

00:07:02obscurcissent le raisonnement correct, un phénomène qu'ils ont nommé « overthinking ».

00:07:06Il essaie juste d'en dire trop.

00:07:07Au lieu de simplement donner la réponse et de s'effacer,

00:07:10il se convainc littéralement de la mauvaise réponse en parlant trop.

00:07:13Et ils disent spécifiquement que la tendance apprise vers l'exhaustivité devient

00:07:17contre-productive, introduisant une accumulation d'erreurs ;

00:07:21les contraintes de brièveté aident énormément les grands modèles tout en affectant à peine

00:07:25les plus petits modèles. Et une question évidente que vous devriez vous poser est : pourquoi ?

00:07:28Pourquoi est-ce le cas ? Pourquoi ces modèles plus grands ont-ils ce problème ?

00:07:31Ils pointent du doigt l'apprentissage par renforcement.

00:07:34Alors, quand on entraîne un nouveau modèle,

00:07:36imaginez qu'Opus 5.0 soit en cours d'entraînement.

00:07:40Une partie de ce qu'ils font est de l'apprentissage par renforcement.

00:07:42Maintenant, je ne sais pas si Anthropic le fait spécifiquement,

00:07:44mais c'est ainsi que cela se fait pour de nombreux modèles.

00:07:45Essentiellement, ils prennent le nouveau modèle et font appel à un humain pour noter ses

00:07:50réponses. On lui montre plusieurs réponses et il dit :

00:07:52« Je préfère celle-ci à celle-là. » Et ils disent dans l'étude que,

00:07:55selon toute vraisemblance, les humains ont tendance à préférer les réponses plus verbeuses, plus exhaustives.

00:08:00Et à cause de cela,

00:08:01ces modèles plus grands sont essentiellement entraînés pour être plus verbeux plutôt que

00:08:05concis et même parfois corrects dans certains cas.

00:08:08Mais la grande leçon ici, c'est que les contraintes de brièveté ont complètement inversé

00:08:12les hiérarchies de performance. Là où ils perdaient auparavant,

00:08:14ils gagnaient désormais simplement en leur disant : « Sois plus concis. »

00:08:18Ils n'ont pas changé leur façon de réfléchir ni rien en interne.

00:08:20Ils ont juste dit : « Agis comme un homme des cavernes. » Ils n'utilisaient pas littéralement ce GitHub,

00:08:25mais c'est exactement la même chose.

00:08:28C'est pourquoi je pense que c'est en fait assez intéressant,

00:08:31pas juste un pur mème, vous savez,

00:08:32au-delà du fait qu'il y a des points positifs concernant les tokens,

00:08:37économiser 5 % de tokens n'est pas négligeable,

00:08:39surtout si vous n'aviez pas de forfait max 20.

00:08:41Mais s'il y a un scénario potentiel où nous obtenons de meilleures réponses

00:08:44grâce à cela, surtout sur des questions plus directes...

00:08:47parce que si vous plongez dans cette étude,

00:08:49elle détaille quelles questions posaient ce problème

00:08:53et cette dynamique. C'est intéressant, très intéressant,

00:08:56c'est pourquoi je pense que cela vaut le coup d'œil.

00:08:58Et c'est aussi super simple à utiliser. C'est juste un ensemble de compétences.

00:09:02L'installer prend littéralement une ligne, puis on l'exécute.

00:09:06Soit on l'appelle avec /caveman, soit on dit quelque chose comme :

00:09:09« parle comme un caveman », « mode caveman » ou « moins de tokens, s'il te plaît ». Il y a aussi des niveaux.

00:09:13On peut faire du « ultra caveman », d'accord ? Genre on vient de sortir de l'océan.

00:09:17On tient à peine debout. Et puis on a le mode léger.

00:09:21On peut donc avoir différents niveaux de caveman au fil des ans.

00:09:24Et ce n'est pas une mesure uniforme non plus.

00:09:25Par exemple, les messages d'erreur sont cités exactement. Et encore une fois,

00:09:29tout ce qui concerne le code, la génération,

00:09:31tout ce qui est interne reste inchangé. On ne change pas sa façon de réfléchir.

00:09:35Donc, globalement, je pense que cela vaut le coup d'essayer. C'est une seule compétence.

00:09:37Cela économise des tokens et il n'y a pas vraiment d'inconvénient. Et d'après l'étude,

00:09:42il y a en fait un avantage potentiel en termes de résultats.

00:09:45Et si vous n'aimez pas tout ce délire d'homme des cavernes,

00:09:48je pense que cela suggère au moins de mettre une ligne dans votre

00:09:52spot.md qui dit : « sois concis, pas de superflu,

00:09:56droit au but, utilise moins de mots »,

00:09:59car il y a clairement un avantage à cela, pas seulement en tokens,

00:10:03mais comme nous l'avons vu, potentiellement dans les réponses réelles qu'il nous donne.

00:10:06C'est donc là-dessus que je vais vous laisser pour aujourd'hui.

00:10:07Ce qui semblait à première vue n'être qu'un pur projet de mème,

00:10:11Caveman Claude a en fait du poids et une certaine, vous savez,

00:10:15rigueur scientifique derrière le « pourquoi »,

00:10:17ce qui, je pense, en fait quelque chose qui vaut vraiment la peine d'être mis en œuvre.

00:10:21Alors, comme toujours, dites-moi dans les commentaires ce que vous en avez pensé,

00:10:25n'oubliez pas d'aller voir Chase AI Plus

00:10:26si vous voulez accéder à ma masterclass sur Claude code,

00:10:29d'autres mises à jour arrivent dans ce domaine dans les prochains jours.

00:10:33Mais à part ça, on se voit plus tard.

Key Takeaway

Forcer Claude Code à adopter un langage concis de type homme des cavernes permet d'économiser environ 5 % de tokens totaux tout en corrigeant les erreurs de raisonnement liées à la sur-élaboration des grands modèles de langage.

Highlights

L'utilisation du mode Caveman réduit les tokens de sortie de 75 % sur les réponses textuelles tout en conservant une précision technique totale.

Une étude de mars 2026 sur 31 modèles et 1 500 problèmes démontre que la concision forcée augmente la précision des grands modèles de langage de 26 points de pourcentage.

Les modèles de 2 milliards de paramètres surpassent parfois des modèles de 400 milliards de paramètres à cause de la verbosité spontanée qui génère des erreurs de raisonnement.

Le gain réel sur une session de 100 000 tokens se situe autour de 5 % d'économie globale après déduction des blocs de code et des appels d'outils inchangés.

L'entraînement par renforcement avec feedback humain (RLHF) pousse les modèles vers une sur-élaboration contre-productive car les évaluateurs préfèrent naturellement les réponses longues.

L'outil compagnon pour les fichiers de mémoire comme claud.md réduit les tokens d'entrée de 45 % par session via la compression en langage simplifié.

Timeline

Fonctionnement et promesses du dépôt Caveman

Le dépôt GitHub caveman a atteint 5 000 étoiles en seulement 72 heures.
Cette méthode supprime tout le superflu des réponses de Claude pour ne garder que l'essentiel technique.
Le raisonnement interne et la génération du code source restent strictement identiques au mode normal.

Le système repose sur une modification de la sortie textuelle sans altérer les capacités logiques de l'IA. Les exemples de benchmarks sur des explications de bugs React montrent une réduction massive des tokens utilisés pour le texte pur. L'objectif principal est de rendre la communication plus directe en éliminant les formules de politesse et les explications redondantes.

Analyse réelle des économies de tokens

Les affirmations de réduction globale de 75 % sont trompeuses car elles ne concernent que la portion textuelle de la sortie.
Une session type de 100 000 tokens ne bénéficie que d'une économie nette d'environ 4 % à 5 %.
Les blocs de code et les appels d'outils représentent la majorité de la consommation et ne sont pas compressibles par cette méthode.

Dans une session de 100 000 tokens, l'entrée représente 75 000 tokens et la sortie 25 000. Le texte pur ne constituant qu'une fraction de la sortie, passer de 6 000 à 2 000 tokens texte ne change pas radicalement le coût total. L'optimisation est qualifiée de marginale mais reste précieuse pour les utilisateurs intensifs atteignant leurs limites quotidiennes.

Preuves scientifiques de la supériorité de la brièveté

L'étude Brevity constraints montre que les grands modèles échouent souvent par excès de verbosité.
La contrainte de brièveté réduit les écarts de performance entre petits et grands modèles de deux tiers.
Le phénomène d'overthinking amène l'IA à se convaincre d'une mauvaise réponse à force de trop parler.

L'analyse de 31 modèles révèle que les modèles massifs sont parfois moins performants que des modèles 100 fois plus petits à cause de la sur-élaboration. En forçant la concision, la hiérarchie de performance s'inverse et les grands modèles retrouvent leur supériorité technique. Ce gain de précision de 26 points de pourcentage constitue l'avantage majeur, dépassant la simple économie de tokens.

Origine du problème et mise en œuvre

Le biais de verbosité provient de l'apprentissage par renforcement où les humains notent mieux les réponses longues.
L'installation de la compétence Caveman se fait via une seule ligne de commande dans l'interface de Claude.
L'ajout d'instructions de concision dans le fichier de configuration spot.md produit des résultats similaires sans le style homme des cavernes.

Les modèles sont entraînés pour satisfaire les préférences humaines qui confondent souvent longueur et exhaustivité. Caveman propose plusieurs niveaux d'intensité, du mode léger au mode ultra, pour s'adapter aux besoins de l'utilisateur. Même sans utiliser le style spécifique, l'intégration de directives de brièveté est recommandée pour améliorer la qualité des réponses et l'efficacité de l'outil.

Community Posts

La méthode du prompt « Homme des cavernes » pour réduire de 30 % les jetons de sortie de Claude

makedreamil y a 15 jours6680

Write about this video