00:00:00Faire parler votre code cloud comme un homme des cavernes pourrait ne pas seulement vous faire économiser des tokens.
00:00:04Cela pourrait en fait améliorer vos performances également. À première vue,
00:00:07cela ressemble à un pur mème. Nous avons un dépôt GitHub appelé caveman.
00:00:12Qui a obtenu 5 000 étoiles en 72 heures.
00:00:15Et tout ce qu'il fait, c'est forcer le code cloud à parler comme un Néandertalien.
00:00:19Il supprime tout le superflu. L'idée est qu'en le rendant plus concis,
00:00:24nous économisons une tonne de tokens au passage,
00:00:27mais caché dans ce dépôt se trouve un lien vers cette étude de recherche qui vient de sortir il y a quelques
00:00:31semaines,
00:00:31qui nous dit que si nous forçons nos grands modèles de langage à être plus concis,
00:00:36nous n'économisons pas seulement des tokens, mais nous pouvons considérablement améliorer leurs performances.
00:00:40Alors aujourd'hui, je vais décortiquer toute cette compétence caveman.
00:00:42Je vais expliquer ce que cela vous apporte réellement parce que les chiffres dans le dépôt
00:00:46sont un peu trompeurs et nous allons analyser cette étude de recherche pour que vous
00:00:50puissiez comprendre ce que cela signifie concrètement pour vous. Voici donc caveman,
00:00:54notre dépôt « pourquoi dire beaucoup mots quand peu mots suffisent ».
00:00:58Alors, d'entrée de jeu, que fait-il ? C'est assez simple,
00:01:02il supprime le superflu du code cloud. Maintenant, il parle comme un homme des cavernes.
00:01:07Il donne quelques exemples avant et après, montre la différence de tokens et propose même
00:01:11une liste complète de benchmarks montrant la tâche. Il a donné au code cloud :
00:01:15expliquer React, bug de rendu, les tokens normaux utilisés,
00:01:19les tokens caveman et la quantité économisée.
00:01:21Maintenant, les chiffres avancés dans ce dépôt sont un peu fous.
00:01:23Ils affirment qu'avec cette compétence,
00:01:26nous allons réduire de 75 % les tokens de sortie tout en conservant une précision
00:01:30technique totale.
00:01:31Ce caveman ne change pas la façon dont le code cloud raisonne en interne.
00:01:35Il ne change pas la manière dont il génère réellement le code. Rien de tout cela n'est modifié.
00:01:38C'est juste la sortie. Ce que vous voyez en guise de réponse.
00:01:41Il inclut également un outil compagnon qui compresse vos fichiers de mémoire.
00:01:45Pensez à claud.md transformé en langage caveman.
00:01:47Et c'est censé réduire nos tokens d'entrée de 45 % à chaque session.
00:01:52Soyons clairs. Vous ne réduisez pas 75 % de vos tokens de sortie globaux,
00:01:57ni 45 % de vos tokens d'entrée globaux. Ce n'est absolument pas vrai.
00:02:01Même si nous voyons ces affirmations disant : « Hé,
00:02:03ça économise 87 % de tokens sur l'explication d'un bug de rendu React. »
00:02:07L'invite que vous recevez du code cloud, la réponse elle-même,
00:02:11le texte n'est qu'une petite portion des tokens de sortie globaux,
00:02:15tout comme les fichiers de mémoire,
00:02:17comme claud.md, ne sont qu'une petite portion de l'entrée globale.
00:02:21Soyons donc très clairs sur ce que cela nous apporte réellement à l'échelle des tokens.
00:02:25Vous n'économisez pas 80 % de vos tokens totaux. Et pour clarifier un peu,
00:02:28décomposons une session moyenne de 100 000 tokens sur claud code. Alors,
00:02:32je sais que chaque session est un peu différente, mais suivez-moi là-dessus.
00:02:36Nous avons une session de 100 000 tokens, et elle est divisée en deux parties.
00:02:40L'entrée, qui représente la part du lion.
00:02:42C'est 75 000 tokens, et la sortie représente 25 %.
00:02:46Maintenant, caveman prétend que nous allons réduire la sortie de 75 %.
00:02:51Ce n'est pas vrai. Si nous regardons la sortie, elle est en réalité en trois parties, n'est-ce pas ?
00:02:56Nous avons les appels d'outils, qui en prennent une partie, les blocs de code,
00:02:59comme la génération réelle de code, qui en prennent une autre partie.
00:03:02Et ensuite les réponses textuelles réelles, cette réponse,
00:03:06cette réponse textuelle interne, c'est ce que caveman ajuste.
00:03:10C'est ce qu'il réduit. Il peut réduire 75 % de cela. Vous savez,
00:03:13si nous regardons ici, on voit, d'accord,
00:03:16normalement le texte prend 6 000 tokens ; avec caveman,
00:03:20nous économisons 4 000 tokens. Nous obtenons donc une réduction de 4 %. C'est quand même très bien.
00:03:25Si nous économisons 4 % de nos tokens totaux sur une semaine,
00:03:29cela finit par compter,
00:03:30surtout dans l'environnement actuel où nous sommes tous si attentifs à notre consommation.
00:03:33Mais comprenez que ce n'est pas 87 %. C'est 70 %,
00:03:3860 % d'une partie d'une partie de la session totale.
00:03:43De plus,
00:03:44si vous regardez les entrées et qu'il est dit que la compression caveman économise 45 %,
00:03:49encore une fois, pas vraiment.
00:03:50Nous parlons de la zone de l'invite système et seulement de certaines parties de l'invite
00:03:54système. Donc au total, ici, n'est-ce pas ? On économise quoi ? Peut-être 1 000 tokens,
00:03:58peut-être 2 000 tokens. Et sur l'ensemble, encore une fois, d'une session entière.
00:04:03Si j'économise 5 000 tokens, 5 % de chaque session, c'est génial, c'est du bon boulot,
00:04:07mais ce ne sont pas ces chiffres mirobolants. Comprenez-le bien avant de commencer,
00:04:13c'est une optimisation marginale. Ça ne change pas tout radicalement.
00:04:15Vous n'allez pas passer d'un forfait max 5x à un forfait max 20x
00:04:19parce qu'on économise 75 %. Non, non, non,
00:04:22mais il y a quand même énormément de valeur ajoutée ici et encore plus de valeur à
00:04:25extraire. Une fois qu'on regarde l'étude, elle est un peu enfouie ici.
00:04:29Il y a une petite section qui lui est dédiée,
00:04:31mais c'est une étude intitulée « Brevity constraints,
00:04:34reverse performance hierarchies in language models ».
00:04:36Et elle est sortie au début du mois de mars de cette année.
00:04:38Je mettrai donc un lien vers l'étude dans la description si vous voulez la consulter,
00:04:41mais parlons-en rapidement car c'est vraiment intéressant.
00:04:45Parce que l'idée et l'attente, c'est que plus le modèle est gros,
00:04:49meilleur il est par rapport à un petit modèle, toujours. Eh bien,
00:04:53pas exactement, pas selon cette étude.
00:04:56Dans cette étude, ils ont évalué 31 modèles sur 1 500
00:05:01problèmes,
00:05:02et ils ont identifié le mécanisme comme une verbosité spontanée dépendant de l'échelle qui
00:05:07introduit des erreurs par une sur-élaboration. Qu'est-ce que ça veut dire ?
00:05:11Cela signifie que sur près de 8 % des problèmes à travers ces 1 500 problèmes et
00:05:1631 modèles, les plus grands modèles de langage,
00:05:19ceux avec le plus de paramètres, ont été moins performants que les plus petits de 28
00:05:24points de pourcentage, malgré 100 fois plus de paramètres dans certains cas.
00:05:28On a eu des scénarios où, encore une fois, c'est avec des modèles en open weight.
00:05:32On avait un modèle de 2 milliards de paramètres qui surpassait un modèle de
00:05:37400 milliards de paramètres. C'est arrivé plusieurs fois. C'est fou.
00:05:41Pourquoi donc ? Eh bien,
00:05:43ils postulent que la raison est que ces grands
00:05:49modèles de langage parlent beaucoup trop.
00:05:51Ils sont tellement verbeux qu'ils finissent par s'embrouiller tout seuls
00:05:55et donnent la mauvaise réponse à cause de cela. Et dans l'étude,
00:05:58ils ont découvert qu'en forçant les grands modèles à produire des réponses brèves,
00:06:02des réponses « caveman », on améliore la précision de 26 points de pourcentage et on réduit
00:06:07les écarts de performance jusqu'aux deux tiers.
00:06:09Et dans bien des cas, en forçant ces grands modèles de langage à devenir plus concis,
00:06:14plus proches de l'homme des cavernes, cela a complètement inversé la dynamique : alors qu'avant
00:06:18ils perdaient face aux petits modèles, ils se mettaient soudain à les battre.
00:06:21C'est assez incroyable, surtout dans le contexte de ce dépôt GitHub. Maintenant,
00:06:26évidemment, ce sont des modèles open weight. Ce n'est pas Opus 4.6.
00:06:29Ce n'est pas Codex 5.4.
00:06:30Est-ce que ces modèles de pointe présentent exactement le même type de comportement ?
00:06:34Nous ne le savons pas forcément avec certitude,
00:06:36mais si vous avez suivi ces études, vous comprenez que ce que l'on voit ici
00:06:40tend généralement à se répéter à un certain niveau avec les modèles de pointe.
00:06:44Peut-être que ce n'est pas aussi extrême, mais il y a probablement du vrai.
00:06:47Le reste de l'étude détaille beaucoup la manière dont ils ont mené les tests,
00:06:51comment ils essaient de distinguer corrélation et causalité et pourquoi ils pensent
00:06:55que c'est un problème. Et comme je l'ai dit plus tôt,
00:06:57ils font l'hypothèse que les grands modèles génèrent des réponses excessivement verbeuses qui
00:07:02obscurcissent le raisonnement correct, un phénomène qu'ils ont nommé « overthinking ».
00:07:06Il essaie juste d'en dire trop.
00:07:07Au lieu de simplement donner la réponse et de s'effacer,
00:07:10il se convainc littéralement de la mauvaise réponse en parlant trop.
00:07:13Et ils disent spécifiquement que la tendance apprise vers l'exhaustivité devient
00:07:17contre-productive, introduisant une accumulation d'erreurs ;
00:07:21les contraintes de brièveté aident énormément les grands modèles tout en affectant à peine
00:07:25les plus petits modèles. Et une question évidente que vous devriez vous poser est : pourquoi ?
00:07:28Pourquoi est-ce le cas ? Pourquoi ces modèles plus grands ont-ils ce problème ?
00:07:31Ils pointent du doigt l'apprentissage par renforcement.
00:07:34Alors, quand on entraîne un nouveau modèle,
00:07:36imaginez qu'Opus 5.0 soit en cours d'entraînement.
00:07:40Une partie de ce qu'ils font est de l'apprentissage par renforcement.
00:07:42Maintenant, je ne sais pas si Anthropic le fait spécifiquement,
00:07:44mais c'est ainsi que cela se fait pour de nombreux modèles.
00:07:45Essentiellement, ils prennent le nouveau modèle et font appel à un humain pour noter ses
00:07:50réponses. On lui montre plusieurs réponses et il dit :
00:07:52« Je préfère celle-ci à celle-là. » Et ils disent dans l'étude que,
00:07:55selon toute vraisemblance, les humains ont tendance à préférer les réponses plus verbeuses, plus exhaustives.
00:08:00Et à cause de cela,
00:08:01ces modèles plus grands sont essentiellement entraînés pour être plus verbeux plutôt que
00:08:05concis et même parfois corrects dans certains cas.
00:08:08Mais la grande leçon ici, c'est que les contraintes de brièveté ont complètement inversé
00:08:12les hiérarchies de performance. Là où ils perdaient auparavant,
00:08:14ils gagnaient désormais simplement en leur disant : « Sois plus concis. »
00:08:18Ils n'ont pas changé leur façon de réfléchir ni rien en interne.
00:08:20Ils ont juste dit : « Agis comme un homme des cavernes. » Ils n'utilisaient pas littéralement ce GitHub,
00:08:25mais c'est exactement la même chose.
00:08:28C'est pourquoi je pense que c'est en fait assez intéressant,
00:08:31pas juste un pur mème, vous savez,
00:08:32au-delà du fait qu'il y a des points positifs concernant les tokens,
00:08:37économiser 5 % de tokens n'est pas négligeable,
00:08:39surtout si vous n'aviez pas de forfait max 20.
00:08:41Mais s'il y a un scénario potentiel où nous obtenons de meilleures réponses
00:08:44grâce à cela, surtout sur des questions plus directes...
00:08:47parce que si vous plongez dans cette étude,
00:08:49elle détaille quelles questions posaient ce problème
00:08:53et cette dynamique. C'est intéressant, très intéressant,
00:08:56c'est pourquoi je pense que cela vaut le coup d'œil.
00:08:58Et c'est aussi super simple à utiliser. C'est juste un ensemble de compétences.
00:09:02L'installer prend littéralement une ligne, puis on l'exécute.
00:09:06Soit on l'appelle avec /caveman, soit on dit quelque chose comme :
00:09:09« parle comme un caveman », « mode caveman » ou « moins de tokens, s'il te plaît ». Il y a aussi des niveaux.
00:09:13On peut faire du « ultra caveman », d'accord ? Genre on vient de sortir de l'océan.
00:09:17On tient à peine debout. Et puis on a le mode léger.
00:09:21On peut donc avoir différents niveaux de caveman au fil des ans.
00:09:24Et ce n'est pas une mesure uniforme non plus.
00:09:25Par exemple, les messages d'erreur sont cités exactement. Et encore une fois,
00:09:29tout ce qui concerne le code, la génération,
00:09:31tout ce qui est interne reste inchangé. On ne change pas sa façon de réfléchir.
00:09:35Donc, globalement, je pense que cela vaut le coup d'essayer. C'est une seule compétence.
00:09:37Cela économise des tokens et il n'y a pas vraiment d'inconvénient. Et d'après l'étude,
00:09:42il y a en fait un avantage potentiel en termes de résultats.
00:09:45Et si vous n'aimez pas tout ce délire d'homme des cavernes,
00:09:48je pense que cela suggère au moins de mettre une ligne dans votre
00:09:52spot.md qui dit : « sois concis, pas de superflu,
00:09:56droit au but, utilise moins de mots »,
00:09:59car il y a clairement un avantage à cela, pas seulement en tokens,
00:10:03mais comme nous l'avons vu, potentiellement dans les réponses réelles qu'il nous donne.
00:10:06C'est donc là-dessus que je vais vous laisser pour aujourd'hui.
00:10:07Ce qui semblait à première vue n'être qu'un pur projet de mème,
00:10:11Caveman Claude a en fait du poids et une certaine, vous savez,
00:10:15rigueur scientifique derrière le « pourquoi »,
00:10:17ce qui, je pense, en fait quelque chose qui vaut vraiment la peine d'être mis en œuvre.
00:10:21Alors, comme toujours, dites-moi dans les commentaires ce que vous en avez pensé,
00:10:25n'oubliez pas d'aller voir Chase AI Plus
00:10:26si vous voulez accéder à ma masterclass sur Claude code,
00:10:29d'autres mises à jour arrivent dans ce domaine dans les prochains jours.
00:10:33Mais à part ça, on se voit plus tard.