00:00:00Claude Code n'a pas été génial ces derniers temps.
00:00:02Notre équipe l'utilise tous les jours et, ces dernières semaines, nous avons épuisé nos limites
00:00:06bien plus vite que prévu.
00:00:07La fenêtre de contexte d'un million de tokens était censée améliorer les choses, mais elle les a
00:00:12en fait empirées.
00:00:13C'est pourquoi nous avons recherché des optimisations pour que Claude Code dure plus longtemps.
00:00:18Avant de voir comment exploiter au mieux les limites, voyons d'abord
00:00:22comment fonctionne réellement le système de forfaits et de limites de Claude.
00:00:26Cette section sert simplement d'explication pour ceux qui ne savent pas comment les limites
00:00:30fonctionnent vraiment.
00:00:31Claude propose deux forfaits payants : les forfaits Pro et Max.
00:00:34Le Max est le plus cher, et le Pro est plus abordable à seulement 20 $ par mois.
00:00:38Les deux forfaits donnent accès à des fonctionnalités absentes de la version gratuite, dont
00:00:43Claude Code, Co-work et d'autres.
00:00:45Mais ils suivent tous la même règle.
00:00:46Quel que soit le forfait, vous disposez d'un nombre limité de messages par
00:00:51période de 5 heures. Une fois ce délai passé, votre compteur est réinitialisé.
00:00:55Le nombre de messages varie selon le forfait choisi.
00:00:57La période de 5 heures débute dès votre premier message, que ce soit sur desktop,
00:01:01le web ou n'importe quelle interface Claude.
00:01:03Dès le début de cette période, chaque message envoyé est décompté de votre limite.
00:01:08On pourrait croire que le délai ne s'écoule que lors d'une utilisation active.
00:01:11Mais même si vous restez inactif pour n'utiliser l'outil qu'à la 5ème heure, le délai
00:01:15continue de courir et vous devrez attendre la fin des 5 heures pour que votre limite
00:01:20soit réinitialisée.
00:01:21Cette période de 5 heures ne dépend pas non plus de votre appareil.
00:01:23Si vous utilisez plusieurs appareils avec le même compte, toute l'utilisation sera comptée
00:01:27dans la même limite.
00:01:28Avec le forfait Pro, vous obtenez environ 45 messages par période de 5 heures.
00:01:32Le forfait Max en donne 225, et le forfait Max 20x, plus cher que le forfait à
00:01:37100 dollars, offre 900 messages pour la même période.
00:01:41Ces chiffres varient selon le modèle : vous avez plus de messages avec Sonnet
00:01:46et moins avec Opus.
00:01:47On pourrait penser que ce nombre de messages est largement suffisant.
00:01:51Mais c'est une estimation brute et d'autres facteurs entrent en jeu.
00:01:54Le premier facteur est le modèle utilisé.
00:01:56Le modèle Opus consomme environ 3 fois plus de tokens que Sonnet pour la même requête,
00:02:01car il est bien plus puissant et gourmand en calculs.
00:02:03Si vous utilisez Opus en permanence, vous n'aurez pas 45 messages en 5 heures
00:02:08et votre limite sera atteinte beaucoup plus vite.
00:02:10Le forfait Pro a une limite globale plus basse.
00:02:12Quant au forfait Max, s'il peut suffire à un individu, il est souvent acheté
00:02:16par des organisations et partagé entre membres d'une équipe ; il ne tient donc pas
00:02:20le choc avec plusieurs utilisateurs.
00:02:21C'est ce que nous faisons chez AI Labs : nous avons un forfait Max partagé par l'équipe.
00:02:26Malgré cela, nous atteignons souvent la limite, ce qui nous a poussés à chercher
00:02:30des moyens de la faire durer.
00:02:31Le deuxième facteur est le type de tâche effectuée.
00:02:34Les tâches lourdes en calcul ou nécessitant plusieurs outils consomment beaucoup de tokens.
00:02:38La limite sera donc atteinte bien plus tôt et vous n'atteindrez peut-être même pas
00:02:43les 45 messages sur le forfait Pro.
00:02:44De plus, Anthropic a récemment réduit la limite de session plus rapidement lors des heures
00:02:48de pointe, quand de nombreuses personnes utilisent le service intensément.
00:02:52Votre forfait Claude s'épuisera donc encore plus vite, avant d'avoir pu avancer.
00:02:56C'est pourquoi il est temps d'apprendre à optimiser votre quota et à
00:03:00utiliser Claude efficacement toute la journée.
00:03:02Mais avant de continuer, un mot sur notre sponsor, Twin.
00:03:05Si vous avez tenté d'automatiser avec Zapier ou N8N, vous connaissez le problème.
00:03:09Des flux rigides, des pannes constantes et des heures perdues à connecter des applis.
00:03:13Et les agents locaux comme Claudebot sont des cauchemars de sécurité et trop chers.
00:03:17Twin change la donne.
00:03:18C'est un agent IA no-code qui travaille réellement pour vous pendant votre sommeil.
00:03:21Il se connecte via API quand elles existent, et sinon, il crée des intégrations
00:03:26à la volée, vous offrant une bibliothèque d'intégrations infinie.
00:03:29En l'absence d'API, Twin peut naviguer et interagir comme un humain.
00:03:33En plus, vous accédez à des outils comme Perplexity, Gamma, VO3 et Nanobanana.
00:03:38Ils viennent de lancer l'API Twin.
00:03:40Vous pouvez déclencher des agents n'importe où et les intégrer à vos flux existants.
00:03:44Le meilleur dans tout ça ?
00:03:45Ces agents apprennent.
00:03:46Ils se réparent tout seuls, s'améliorent et tournent 24h/24, 7j/7.
00:03:50Arrêtez de surveiller des automatisations défectueuses.
00:03:52Cliquez sur le lien en commentaire épinglé et découvrez Twin.
00:03:55Vous savez peut-être déjà que le code source de Claude Code a fuité.
00:03:58Beaucoup y ont identifié des problèmes qui font que les limites
00:04:02s'épuisent plus vite que prévu.
00:04:04L'un d'eux concerne les réponses tronquées qui restent dans le contexte.
00:04:07Si vous recevez un message d'erreur, comme une limite de débit atteinte, cela peut créer
00:04:12une réponse partielle.
00:04:13Dans ce cas, il réessaie tout en conservant le contexte précédent ainsi que le message
00:04:17partiel rempli d'erreurs.
00:04:18Cela gonfle le contexte avec des infos inutiles et gaspille des tokens.
00:04:22Les listes de compétences sont aussi injectées pour un accès plus rapide, bien qu'elles n'apportent
00:04:27pas grand-chose car une gestion rapide via l'outil de compétences existe déjà.
00:04:31Il existe également d'autres problèmes similaires.
00:04:33À cause de tout cela, beaucoup se plaignent d'atteindre les limites de Claude trop vite.
00:04:38Pour contrer les limites officielles et ces fuites de tokens cachées, vous devez prendre
00:04:43des mesures pour que Claude Code dure plus longtemps lors de vos développements.
00:04:47Nous partageons tout ce que nous trouvons sur la création de produits avec l'IA sur cette chaîne.
00:04:51Si vous voulez plus de vidéos, abonnez-vous et restez à l'affût des prochaines sorties.
00:04:55Commençons par les astuces que vous connaissez peut-être déjà si vous suivez
00:04:59nos précédentes vidéos.
00:05:00La première est la commande « clear ».
00:05:01Utilisez-la dès qu'une tâche est finie et que vous n'avez plus besoin du contexte précédent.
00:05:05Par exemple, après avoir implémenté l'appli et avant de passer à la phase de test,
00:05:09le contexte antérieur est inutile.
00:05:11Mieux vaut le réinitialiser et démarrer la tâche suivante avec une fenêtre de contexte neuve.
00:05:15Parfois, vous souhaitez toutefois conserver une partie de ce contexte.
00:05:18Dans ce cas, vous pouvez lancer la commande « compact » à la place.
00:05:21Elle résume toute l'interaction et libère de l'espace avec un résumé dans le contexte.
00:05:25On vous conseille cela car chaque message envoyé par Claude inclut
00:05:29toute la conversation, les instructions système, vos outils et tout l'historique
00:05:34précédent.
00:05:35À chaque nouveau message, cela croît, ce qui gonfle le contexte et augmente
00:05:40la consommation de tokens par message.
00:05:41Même en compactant, si vous posez des questions annexes dans la fenêtre principale,
00:05:46vous la surchargez avec du contenu non pertinent.
00:05:47Utilisez la commande « by the way » pour poser une question rapide à côté.
00:05:50Elle répond dans un contexte de session séparé.
00:05:53Cette question annexe ne sera pas jointe au prochain message, ce qui réduit les tokens par
00:05:57requête.
00:05:58Bien que la planification semble gourmande en tokens, vous devez commencer
00:06:02vos projets par là.
00:06:03Sans planification, vous devrez rectifier Claude plus tard
00:06:07quand son implémentation ne correspondra plus à vos besoins.
00:06:10Investir des tokens au départ dans le planning évite d'en gaspiller bien plus en corrections
00:06:14par la suite.
00:06:15Il arrive que Claude ne suive pas vos instructions comme prévu.
00:06:18Dans ce cas, on a tendance à relancer un prompt avec la bonne méthode.
00:06:22Mais au lieu de cela, utilisez la commande « rewind » pour restaurer la conversation
00:06:26et le code à un point antérieur au message défaillant, et modifiez
00:06:31directement le prompt.
00:06:32Vous pouvez aussi appuyer deux fois sur la touche Échap pour faire la même chose.
00:06:35Cela retire l'implémentation incorrecte de la fenêtre de contexte et les mauvaises sorties
00:06:39ne sont pas envoyées au modèle.
00:06:41Toutes ces commandes aident à économiser des tokens durant une session.
00:06:44Mais le plus gros impact vient de la structure initiale de votre projet.
00:06:47Vous avez peut-être structuré vos projets avec différents frameworks comme Beemad, SpecKit
00:06:52ou d'autres.
00:06:53Mais la majorité de ces frameworks sont très gourmands en tokens.
00:06:56Si vous les utilisez, attendez-vous à atteindre votre limite de tokens plus vite.
00:07:00Ces frameworks passent sur les forfaits Max, mais certainement pas sur le Pro.
00:07:04Même sans frameworks, vous avez peut-être créé le vôtre.
00:07:07Pour créer un fichier Claude.md, vous avez dû utiliser la commande « init » qui parcourt votre code
00:07:12et génère un fichier Claude.md pour vous.
00:07:14Il le fait, mais il contient beaucoup de défauts.
00:07:17Ce fichier est censé guider l'agent IA, mais il liste des choses
00:07:20que l'IA connaît déjà toute seule.
00:07:22Par exemple, les commandes indiquées servent à lancer n'importe quel serveur de dev, et Claude
00:07:27sait déjà comment faire.
00:07:28À moins d'avoir un flag spécifique pour lancer le serveur, inutile de les
00:07:31ajouter.
00:07:32Quant à l'architecture, Claude peut lire les noms de fichiers et déduire leur rôle
00:07:37car il comprend les systèmes de fichiers et les utilise pour naviguer.
00:07:41Ces instructions ne sont donc pas vraiment nécessaires, sauf cas particuliers
00:07:45nécessitant un guidage supplémentaire.
00:07:47Si vous écrivez votre propre Claude.md, il devrait idéalement faire moins de 300 lignes.
00:07:52Plus le fichier est court, plus Claude sera performant et concentré
00:07:56sur l'essentiel.
00:07:57Il doit servir de guide, pas de manuel détaillé expliquant tout de A à Z.
00:08:01Ce que vous incluez doit être générique et applicable à tout le projet, et non
00:08:05des détails spécifiques de chaque partie regroupés dans un seul fichier.
00:08:08N'incluez dans le Claude.md que ce que Claude ne doit pas faire, vos pratiques de dev
00:08:13et autres instructions que Claude ignore par défaut.
00:08:16Configurez bien ce fichier, car il est chargé dans le contexte
00:08:20à chaque session et y reste.
00:08:22Toute info inutile dans la fenêtre de contexte signifie que vous gaspillez des tokens à chaque tour
00:08:27alors qu'elles ne sont pas nécessaires au départ.
00:08:28Pour des aspects spécifiques (base de données, schéma...), là où d'autres règles
00:08:33s'appliquent, séparez-les en documents distincts et liez-les dans le fichier Claude.md.
00:08:37Cela permet à Claude de ne charger progressivement que les docs dont il a besoin.
00:08:41Nous l'avons déjà mentionné : créer des règles de projet spécifiques à certains
00:08:45chemins (paths) aide Claude à rester focalisé.
00:08:48Ainsi, Claude n'a que les infos pertinentes en contexte et évite le gaspillage de tokens.
00:08:53Séparez donc les fichiers de règles par logique de zone pour que Claude ne charge
00:08:57que le strict nécessaire.
00:08:58Utilisez aussi les compétences (skills) pour les tâches répétitives et ajoutez des scripts
00:09:03et des références pour plus de précision.
00:09:05Les compétences aident au chargement progressif des parties requises, ce qui aide Claude
00:09:10à se concentrer sur l'aspect pertinent de la tâche.
00:09:12Le regroupement par scripts évite de perdre des tokens sur des tâches déterministes qui
00:09:16peuvent être gérées par programme.
00:09:17La raison de la séparation des fichiers est simple.
00:09:19Si Claude travaille sur une partie, il n'a pas besoin d'infos sur des zones non liées.
00:09:24Mais si tout est dans le même Claude.md, tout sera chargé à chaque fois,
00:09:29entraînant une consommation inutile de tokens.
00:09:30Vous pouvez aussi utiliser le flag « append system prompt » pour ajouter des instructions
00:09:35directement au prompt système.
00:09:36La session commence avec ces instructions au lieu de tout mettre dans le fichier
00:09:40Claude.md.
00:09:41Ces instructions sont temporaires et seront supprimées à la fin de la session.
00:09:44Cela peut sembler alourdir le contexte, mais c'est plus efficace que
00:09:48de mettre une instruction ponctuelle dans Claude.md.
00:09:51Sinon, Claude la garde en permanence, gaspillant des tokens inutilement.
00:09:56En les ajoutant ainsi, vous donnez les instructions pile au bon moment.
00:09:59Aussi, si vous aimez notre contenu, n'hésitez pas à cliquer sur le bouton Hype car cela
00:10:03nous aide à en créer davantage et à toucher plus de monde.
00:10:06Vous devez également définir le niveau d'effort du modèle utilisé.
00:10:10Pour une tâche simple ne demandant pas trop de réflexion, réglez-le sur « low » car cela
00:10:14économise des tokens.
00:10:15Par défaut, il est sur « effort auto », ce qui signifie que le modèle décide de l'effort
00:10:20à fournir, mais vous pouvez le changer manuellement.
00:10:21Si la tâche n'est pas complexe, pas besoin d'un réglage d'effort élevé.
00:10:25Comme dit plus tôt, Opus est le modèle le plus gourmand en tokens.
00:10:28Pour des tâches simples, passez sur Haiku.
00:10:31Si la tâche demande un certain niveau de réflexion, utilisez Sonnet.
00:10:34Il n'est peut-être pas aussi puissant qu'Opus, mais il reste efficace et plus économe.
00:10:39Si vous avez configuré plusieurs MCP pour un projet et n'en avez pas besoin d'un,
00:10:43désactivez-le pour ne pas injecter d'infos inutiles dans la fenêtre de contexte.
00:10:48Une autre étape clé est de créer des hooks pour filtrer le contenu qui n'a rien à faire
00:10:52dans la fenêtre de contexte de Claude.
00:10:54Par exemple, j'ai configuré des cas de test pour mon projet.
00:10:57Quand on les lance, ils rapportent les tests réussis et échoués, et tout cela est chargé
00:11:01dans le contexte.
00:11:02Mais ce qui intéresse Claude, ce sont les tests échoués, car ce sont eux qu'il faut corriger.
00:11:05On peut donc créer un hook utilisant un script pour empêcher les tests réussis d'entrer
00:11:10dans le contexte, pour n'inclure que les échecs.
00:11:13Cela économise une quantité énorme de tokens par rapport à l'injection de tous les rapports.
00:11:17Vous pouvez configurer des hooks pour bien d'autres tâches afin d'optimiser les tokens.
00:11:21En plus de cela, certaines configurations dans votre dossier .claude
00:11:25permettent d'améliorer les performances.
00:11:27La première est de mettre « disable prompt caching » sur false.
00:11:30Claude mettra ainsi en cache vos préfixes les plus fréquents, réduisant l'usage de tokens.
00:11:34Anthropic ne facture pas les parties envoyées de manière répétée, vous ne payez que
00:11:38pour le nouveau contenu.
00:11:39Vous pouvez aussi désactiver « auto memory » pour éviter qu'il n'ajoute du contenu
00:11:43et n'augmente la consommation de tokens.
00:11:44« Auto memory » est un processus d'arrière-plan qui analyse vos échanges et consolide
00:11:49les infos utiles dans des fichiers de mémoire propres à votre projet.
00:11:52Le désactiver signifie qu'il ne suivra plus vos habitudes mais économisera des tokens
00:11:56en ne tournant pas en tâche de fond.
00:11:57Il existe aussi un flag nommé « disable background task » qui arrête les processus de fond
00:12:00consommant des tokens en continu.
00:12:02Cela inclut le « dream », le refactoring de mémoire, le nettoyage et l'indexation de fond.
00:12:06Le désactiver aide à économiser car même sans chat actif, ces
00:12:10processus continueraient de travailler sur votre conversation.
00:12:13Désactivez aussi le mode « thinking » quand il est inutile, car il consomme beaucoup
00:12:16de contexte et gaspille des tokens sur des tâches qui n'en ont pas besoin.
00:12:20C'est différent du réglage d'effort dont nous avons parlé.
00:12:23L'effort contrôle le raisonnement de Claude dans une réponse ; un effort bas
00:12:28signifie moins de réflexion, mais il réfléchit quand même.
00:12:30Désactiver complètement le « thinking » coupe l'étape de raisonnement interne et Claude génère
00:12:34la réponse directement.
00:12:35Si la tâche ne demande pas un raisonnement profond, désactivez-le totalement.
00:12:39S'il faut un peu de raisonnement mais pas trop, baissez plutôt le niveau d'effort.
00:12:43Enfin, configurez « max output tokens » à un nombre précis.
00:12:46Il n'y a pas de valeur par défaut, mais limiter cela contrôle la longueur de génération.
00:12:50Baissez-le pour économiser agressivement ou augmentez-le si votre tâche nécessite des
00:12:55réponses plus longues.
00:12:56Le modèle de Claude.md et d'autres ressources sont disponibles sur AI Labs Pro pour cette vidéo
00:13:00ainsi que pour toutes les précédentes, où vous pouvez les télécharger pour vos projets.
00:13:05Si vous appréciez notre travail et souhaitez nous soutenir, c'est le meilleur
00:13:09moyen de le faire.
00:13:10Le lien est dans la description.
00:13:11Nous voici à la fin de cette vidéo.
00:13:13Pour soutenir la chaîne et nous aider à continuer ces vidéos, vous pouvez
00:13:17utiliser le bouton Super Thanks ci-dessous.
00:13:19Comme toujours, merci d'avoir regardé et à la prochaine !