00:00:00Wenn Sie mit Claude Code gearbeitet haben, kennen Sie wahrscheinlich das Problem der Kontext-Überfüllung.
00:00:05Das Problem ist, dass jeder MCP-Tool-Aufruf in Claude Code extrem teuer ist, da jeder dieser
00:00:11Aufrufe seine vollständige Ausgabe direkt in das 200k-Kontextfenster des Modells schreibt.
00:00:17Je mehr Tools Sie nutzen, desto schneller ist Ihr Kontext erschöpft. In bestimmten Szenarien
00:00:22bleiben Ihnen nur 30 Minuten aktive Nutzung des Agents, bevor der Kontext komprimiert wird.
00:00:28Dann vergisst die KI Dateien, Aufgaben und wichtige Entscheidungen. Zudem geben Sie
00:00:34viel Geld für diese Token aus. Aber es gibt einen MCP-Server, der dieses Problem löst.
00:00:40Er heißt “Context Mode”. Im heutigen Video schauen wir uns an, was Context Mode genau macht,
00:00:44wie er funktioniert, und testen ihn selbst in einer kleinen Demo.
00:00:48Das wird spannend, also legen wir direkt los.
00:00:55Um zu verstehen, warum das passiert, schauen wir uns die Zahlen an. Ein einzelner Playwright-Snapshot
00:01:00einer Webseite verbraucht etwa 56 KB. Das Lesen von 20 GitHub-Issues benötigt 59 KB.
00:01:08Wiederholen wir das in der Planungsphase mehrmals, sind 70 % des Fensters weg, bevor der
00:01:14Agent auch nur eine Zeile Code geschrieben hat. Context Mode fungiert als Virtualisierungsschicht.
00:01:20Anstatt dass die KI direkt mit Ihrem System kommuniziert, nutzt sie eine Sandbox.
00:01:26Statt riesige Ausgaben zu speichern, indiziert Context Mode sie lokal in einer SQLite-Datenbank via FTS5.
00:01:34Das Ergebnis ist beachtlich: Der 56-KB-Playwright-Snapshot schrumpft auf 299
00:01:41Bytes – eine Reduktion um 99 %. Eine Analyse-CSV wird sogar auf 222 Bytes
00:01:49reduziert, was fast 100 % entspricht. Doch Token-Sparen ist nur die halbe Miete.
00:01:56Der wahre Nutzen liegt in der Sitzungskontinuität. Wir alle kennen es: Die Historie wird komprimiert,
00:02:03und plötzlich verliert der Agent den Überblick über Code von vor 10 Minuten. Context Mode nutzt Hooks,
00:02:09um Dateiänderungen, Git-Operationen und Sub-Agent-Aufgaben zu überwachen. Bei einer Komprimierung
00:02:15erstellt Context Mode einen prioritätsbasierten Snapshot unter 2 KB und fügt ihn wieder ein.
00:02:22Es ist wie ein Speicherpunkt für Ihre Coding-Session. So lässt sich die Sitzungsdauer hypothetisch
00:02:27von 30 Minuten auf etwa 3 Stunden verlängern. Auch Entscheidungen und Fehler werden verfolgt.
00:02:34Scheiterte ein Fix vor 20 Minuten, wird die KI diesen Fehler nach dem Kontext-Reset nicht wiederholen.
00:02:40Die Installation ist simpel. Nutzen Sie Claude Code, fügen Sie zuerst den Marketplace hinzu,
00:02:46indem Sie diesen Befehl ausführen. Danach nutzen Sie den Befehl zur Plugin-Installation.
00:02:53Sobald das erledigt ist, sind Sie startklar. Das Tool regelt MCP-Server, Hooks und
00:02:57Routing-Anweisungen automatisch. Nutzen Sie die Gemini CLI oder VS Code Copilot, führen Sie
00:03:03„npm install context-mode“ aus und passen die Einstellungen an. Sehen wir uns das Ganze in Aktion an.
00:03:10Ich habe hier ein Python-Skript, das eine Dummy-Logdatei mit einer Liste von
00:03:15API-Anfragen und Statuscodes erstellt. Jede hundertste Zeile enthält einen 500er-Fehler.
00:03:22Jetzt starten wir Claude und sagen: „Nutze Context Mode, um access.log zu indizieren. Ich möchte
00:03:30alle 500er-Fehlermuster finden und die zugehörigen IP-Adressen zusammenfassen.“
00:03:36Im Hintergrund teilt Context Mode die 5.000 Zeilen der Datei in Chunks auf und speichert sie
00:03:44in der SQLite FTS5-Datenbank. Claude erhält nur die Bestätigung der Indizierung, nicht die 5.000 Zeilen.
00:03:51Jetzt kann Claude die Datenbank intelligent durchsuchen, anstatt die gesamte Datei zu parsen.
00:03:57Hier sehen wir die Ergebnisse von Claude. Aber schauen wir uns vor allem die Kostenersparnis an.
00:04:02Das geht mit dem Befehl „context-mode :cts-stats“. Wir prüfen,
00:04:09wie viele Daten in dieser Sitzung durch Context Mode eingespart wurden.
00:04:15Hier ist das Ergebnis: Statt 20 KB in den Chat zu laden, behielt Context Mode
00:04:21etwa 5 KB der Rohdaten in der Sandbox. Das ist für eine kleine Datei schon sehr beeindruckend.
00:04:27Es wurden etwa 1.200 Token gespart, die sonst das Kontextfenster belastet hätten.
00:04:34Insgesamt ergibt das eine Reduktion von 25 % in diesem Test. Das klingt vielleicht wenig, aber
00:04:41bedenken Sie, dass in einer Standard-Sitzung diese Daten dauerhaft im Kontext bleiben
00:04:47und mit jeder neuen Nachricht erneut gesendet würden. Durch die Sandbox verlängern wir
00:04:53bereits jetzt die Lebensdauer der Sitzung. Diese Beispieldatei ist klein, aber bei größeren Dateien
00:04:58sind die Ersparnisse massiv. Ob bei großen Repo-Recherchen oder der Analyse von
00:05:03Produktions-Logs: Aus 1.200 Token Ersparnis werden schnell 100.000 Token. Doch das Ziel
00:05:11ist nicht nur Geldersparnis bei den API-Kosten, auch wenn das ein schöner Bonus ist.
00:05:18Es geht vor allem darum, die Intelligenz des Modells zu erhalten. Wenn Sie das Rauschen
00:05:24aus dem Kontext entfernen, bleibt mehr Platz für echtes logisches Denken. Claude bekommt Raum,
00:05:30um ein besserer Entwickler zu sein. Wenn Sie also komplexe Projekte mit KI-Agents bauen,
00:05:35probieren Sie dieses Tool aus. Schauen Sie, wie viel länger Sie Sitzungen führen können, bevor
00:05:41der Agent Dinge vergisst. Wenn Ihnen diese Analyse gefallen hat, lassen Sie es mich wissen
00:05:45und klicken Sie auf den Like-Button. Vergessen Sie nicht, den Kanal zu abonnieren. Das war
00:05:50Andris von Better Stack. Wir sehen uns in den nächsten Videos!