Claude Code coûte cher. Ce serveur MCP règle le problème (Context Mode)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Si vous codez avec Claude Code, vous avez sûrement déjà connu la saturation du contexte. Le problème,
00:00:05c'est que chaque appel d'outil MCP dans Claude Code coûte extrêmement cher, car chacun d'entre
00:00:11eux déverse l'intégralité de ses données directement dans la fenêtre de contexte de 200k du modèle. Et plus
00:00:17vous avez d'outils à votre disposition, plus votre contexte s'épuise rapidement. Dans certains scénarios,
00:00:22on se retrouve avec 30 minutes d'utilisation active de l'agent avant que le contexte ne se compacte. C'est
00:00:28là que l'IA commence à oublier des fichiers, des tâches et des décisions cruciales. Sans oublier que
00:00:34vous dépensez beaucoup d'argent en tokens. Mais un serveur MCP existe pour résoudre ce problème majeur.
00:00:40Il s'appelle "Context Mode". Dans cette vidéo, nous verrons ce qu'il fait,
00:00:44comment il fonctionne, et nous l'essaierons nous-mêmes avec une petite démo.
00:00:48Ça va être passionnant, alors plongeons dans le vif du sujet.
00:00:55Pour comprendre pourquoi cela arrive, regardons les chiffres. Une seule capture Playwright
00:01:00d'une page web pèse environ 56 ko. Lire 20 tickets GitHub représente 59 ko. Si vous répétez
00:01:08ces opérations plusieurs fois lors de la phase de planification, vous aurez consommé 70 % de votre fenêtre avant même
00:01:14que l'agent n'ait écrit la moindre ligne de code. Context Mode agit comme une couche de virtualisation.
00:01:20Au lieu que l'IA communique directement avec votre OS, elle communique avec un bac à sable. Et au lieu de déverser
00:01:26des sorties massives, Context Mode les indexe dans une base SQLite locale via FTS5, soit la recherche plein texte.
00:01:34Le résultat est impressionnant. Par exemple, cette capture Playwright de 56 ko est réduite à 299
00:01:41octets, soit une réduction de 99 %. Ou encore, ce CSV d'analyse est compressé à 222 octets,
00:01:49ce qui frise les 100 % de réduction. Mais économiser des tokens n'est qu'une partie de la solution. La vraie utilité,
00:01:56c'est la continuité de la session. On a tous vu l'agent compacter l'historique et soudainement perdre le fil
00:02:03du code écrit 10 minutes plus tôt. Mais Context Mode utilise des hooks pour surveiller chaque modification, chaque
00:02:09opération Git et tâche d'agent secondaire. Quand votre conversation se compacte, Context Mode génère
00:02:15un instantané hiérarchisé par priorité, souvent sous les 2 ko, et le réinjecte. C'est un véritable point
00:02:22de sauvegarde pour votre session de code. On peut ainsi passer d'une session de 30 minutes
00:02:27à environ 3 heures. Il suit aussi les décisions et les erreurs. Par exemple, si l'IA a tenté
00:02:34un correctif qui a échoué 20 minutes plus tôt, elle ne refera pas l'erreur après la réinitialisation du contexte.
00:02:40L'installation est très simple. Si vous utilisez Claude Code, ajoutez d'abord le marketplace Context Mode
00:02:46en lançant la commande suivante. Ensuite, exécutez la commande d'installation du plugin. Une fois cela fait,
00:02:53vous êtes prêt. Après l'installation, l'outil gère automatiquement le serveur MCP, les hooks et les
00:02:57instructions de routage. Si vous utilisez Gemini CLI ou VS Code Copilot, vous pouvez faire
00:03:03un "npm install context-mode" et ajouter la config à vos paramètres. Voyons maintenant Context Mode en action.
00:03:10J'ai ici une commande Python simple qui crée un faux fichier de log d'accès contenant
00:03:15une liste de requêtes API fictives avec leurs codes de statut. Et toutes les cent lignes se trouve
00:03:22une erreur 500. Lançons maintenant Claude et demandons : "Utilise Context Mode pour indexer access.log."
00:03:30"Je veux trouver tous les motifs d'erreur 500 et résumer les adresses IP associées."
00:03:36En arrière-plan, Context Mode fragmente les 5 000 lignes du fichier access.log dans sa propre base
00:03:44de données SQLite FTS5. Claude reçoit seulement la confirmation que le fichier est indexé, et non
00:03:51les 5 000 lignes brutes. Désormais, Claude peut interroger intelligemment la base indexée pour consulter
00:03:57le contenu au lieu de parcourir tout le fichier. On voit ici les résultats renvoyés par Claude. Mais surtout,
00:04:02regardons les économies réalisées. On peut le faire en lançant la commande "context-mode : cts-stats" pour
00:04:09vérifier la quantité de données sauvegardées par Context Mode durant cette session. Vous pouvez voir les résultats
00:04:15juste ici. Au lieu d'injecter l'intégralité des 20 ko dans la conversation, Context Mode a gardé
00:04:21environ 5 ko de données brutes dans le bac à sable. Ce résultat est déjà impressionnant pour un
00:04:27petit fichier. On a évité l'entrée d'environ 1 200 tokens dans la fenêtre de contexte. Au total, on obtient
00:04:34une belle réduction de 25 % sur ce petit test. Ça n'a l'air de rien, mais n'oubliez pas que
00:04:41dans une session Claude classique, ces données resteraient là indéfiniment, renvoyées avec chaque
00:04:47nouveau message envoyé. En les gardant dans le bac à sable, on commence déjà à prolonger la durée
00:04:53de cette session. Ce fichier de démo est petit, mais sur des fichiers plus volumineux,
00:04:58les économies peuvent être massives. Si vous travaillez sur une recherche de repo géant ou l'analyse
00:05:03de logs de production, ces 1 200 tokens économisés peuvent vite devenir 100 000 tokens. Mais l'objectif
00:05:11n'est pas seulement de réduire les coûts d'API, même si c'est un bonus appréciable. C'est aussi de préserver
00:05:18l'intelligence du modèle. En nettoyant le bruit de la fenêtre de contexte, vous laissez
00:05:24plus de place au raisonnement pur. Vous donnez à Claude l'espace nécessaire pour être un meilleur ingénieur.
00:05:30Si vous bâtissez des projets complexes avec des agents IA, testez cet outil pour voir
00:05:35jusqu'où vous pouvez prolonger vos sessions avant que l'agent ne commence à saturer et à oublier.
00:05:41Si vous avez aimé cette analyse technique, faites-le-moi savoir en cliquant sur le bouton "J'aime"
00:05:45sous la vidéo. Et n'oubliez pas de vous abonner à notre chaîne. C'était
00:05:50Andris de Better Stack, on se retrouve dans les prochaines vidéos.

Key Takeaway

Context Mode optimise l'utilisation de Claude Code en indexant les données volumineuses dans une base locale, réduisant ainsi drastiquement les coûts de tokens et prolongeant la mémoire opérationnelle de l'IA.

Highlights

Le problème de la saturation du contexte dans Claude Code dû aux appels d'outils MCP coûteux.

L'introduction de "Context Mode", un serveur MCP agissant comme une couche de virtualisation.

Réduction massive de la taille des données (jusqu'à 99 %) grâce à l'indexation SQLite FTS5.

Extension de la durée des sessions de travail de 30 minutes à environ 3 heures.

Capacité de l'outil à suivre les décisions et éviter la répétition d'erreurs passées.

Processus d'installation simple via des commandes npm pour Claude Code, Gemini ou VS Code.

Amélioration du raisonnement du modèle en libérant de l'espace dans la fenêtre de contexte.

Timeline

Le problème de la saturation du contexte

L'auteur explique que l'utilisation intensive d'outils MCP dans Claude Code sature rapidement la fenêtre de contexte de 200k tokens. Chaque appel d'outil déverse l'intégralité de ses données, ce qui entraîne une perte de mémoire de l'IA sur les fichiers et tâches cruciales après seulement 30 minutes. Cette inefficacité se traduit non seulement par une baisse de performance, mais aussi par des coûts financiers importants en tokens. La vidéo introduit alors "Context Mode" comme la solution dédiée à ce problème majeur. L'objectif est de stabiliser l'agent IA pour éviter qu'il ne devienne confus lors de sessions de codage prolongées.

Fonctionnement technique et virtualisation

Cette section détaille les chiffres frappants de la consommation de données, comme une capture Playwright pesant 56 ko. Context Mode résout cela en agissant comme un bac à sable (sandbox) qui indexe les sorties massives dans une base SQLite locale via la recherche plein texte FTS5. Les résultats montrent des réductions impressionnantes, transformant 56 ko en seulement 299 octets, soit une compression de 99 %. L'IA ne reçoit plus de données brutes massives, mais des références indexées beaucoup plus légères. Cette approche de virtualisation permet de conserver une fenêtre de contexte propre et focalisée sur le raisonnement.

Continuité de session et points de sauvegarde

Au-delà de l'économie de tokens, l'utilité principale réside dans la continuité de la session de travail. Context Mode utilise des hooks pour surveiller chaque modification de fichier et opération Git, créant ainsi des instantanés hiérarchisés. Lorsqu'une conversation est compactée, un point de sauvegarde de moins de 2 ko est réinjecté pour maintenir le fil conducteur. Cela permet d'étendre la durée de vie d'une session active de 30 minutes à près de 3 heures sans perte d'intelligence. Le système mémorise même les erreurs passées pour éviter que l'IA ne tente des correctifs ayant déjà échoué précédemment.

Installation et configuration

L'installation est présentée comme un processus extrêmement simple pour les développeurs utilisant différents environnements. Pour les utilisateurs de Claude Code, il suffit d'ajouter le marketplace et d'exécuter la commande d'installation du plugin dédiée. L'outil prend ensuite en charge automatiquement le serveur MCP, les hooks et les instructions de routage nécessaires. Les utilisateurs de Gemini CLI ou de VS Code Copilot peuvent également l'intégrer via une simple commande "npm install context-mode". Cette flexibilité permet à une large gamme d'utilisateurs d'optimiser leurs flux de travail avec les agents IA.

Démonstration pratique et statistiques

Une démonstration concrète montre l'indexation d'un fichier de log Python de 5 000 lignes nommé access.log. Au lieu de charger les 20 ko de texte brut, Claude interroge la base indexée pour identifier les erreurs 500 et les adresses IP associées. La commande "context-mode : cts-stats" révèle une réduction immédiate de 25 % du contexte utilisé pour ce petit test. L'auteur souligne que si l'économie semble modeste ici (1 200 tokens), elle devient exponentielle sur des fichiers plus volumineux. L'IA gagne en efficacité en ne traitant que les informations pertinentes extraites du bac à sable.

Conclusion et bénéfices sur le raisonnement

Pour conclure, l'auteur insiste sur le fait que l'objectif ultime n'est pas seulement financier, mais qualitatif. En éliminant le "bruit" de la fenêtre de contexte, on laisse plus de place au pur raisonnement de l'IA. Cela permet à Claude de se comporter comme un meilleur ingénieur sur des projets complexes et de longue durée. Les économies de tokens, qui peuvent atteindre 100 000 sur de gros dépôts, ne sont qu'un bonus face à la préservation de l'intelligence du modèle. La vidéo se termine par une invitation à tester l'outil pour repousser les limites de la saturation du contexte.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video