Claude Code ist teuer. Dieser MCP-Server löst das Problem (Context Mode)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Wenn Sie mit Claude Code gearbeitet haben, kennen Sie wahrscheinlich das Problem der Kontext-Überfüllung.
00:00:05Das Problem ist, dass jeder MCP-Tool-Aufruf in Claude Code extrem teuer ist, da jeder dieser
00:00:11Aufrufe seine vollständige Ausgabe direkt in das 200k-Kontextfenster des Modells schreibt.
00:00:17Je mehr Tools Sie nutzen, desto schneller ist Ihr Kontext erschöpft. In bestimmten Szenarien
00:00:22bleiben Ihnen nur 30 Minuten aktive Nutzung des Agents, bevor der Kontext komprimiert wird.
00:00:28Dann vergisst die KI Dateien, Aufgaben und wichtige Entscheidungen. Zudem geben Sie
00:00:34viel Geld für diese Token aus. Aber es gibt einen MCP-Server, der dieses Problem löst.
00:00:40Er heißt “Context Mode”. Im heutigen Video schauen wir uns an, was Context Mode genau macht,
00:00:44wie er funktioniert, und testen ihn selbst in einer kleinen Demo.
00:00:48Das wird spannend, also legen wir direkt los.
00:00:55Um zu verstehen, warum das passiert, schauen wir uns die Zahlen an. Ein einzelner Playwright-Snapshot
00:01:00einer Webseite verbraucht etwa 56 KB. Das Lesen von 20 GitHub-Issues benötigt 59 KB.
00:01:08Wiederholen wir das in der Planungsphase mehrmals, sind 70 % des Fensters weg, bevor der
00:01:14Agent auch nur eine Zeile Code geschrieben hat. Context Mode fungiert als Virtualisierungsschicht.
00:01:20Anstatt dass die KI direkt mit Ihrem System kommuniziert, nutzt sie eine Sandbox.
00:01:26Statt riesige Ausgaben zu speichern, indiziert Context Mode sie lokal in einer SQLite-Datenbank via FTS5.
00:01:34Das Ergebnis ist beachtlich: Der 56-KB-Playwright-Snapshot schrumpft auf 299
00:01:41Bytes – eine Reduktion um 99 %. Eine Analyse-CSV wird sogar auf 222 Bytes
00:01:49reduziert, was fast 100 % entspricht. Doch Token-Sparen ist nur die halbe Miete.
00:01:56Der wahre Nutzen liegt in der Sitzungskontinuität. Wir alle kennen es: Die Historie wird komprimiert,
00:02:03und plötzlich verliert der Agent den Überblick über Code von vor 10 Minuten. Context Mode nutzt Hooks,
00:02:09um Dateiänderungen, Git-Operationen und Sub-Agent-Aufgaben zu überwachen. Bei einer Komprimierung
00:02:15erstellt Context Mode einen prioritätsbasierten Snapshot unter 2 KB und fügt ihn wieder ein.
00:02:22Es ist wie ein Speicherpunkt für Ihre Coding-Session. So lässt sich die Sitzungsdauer hypothetisch
00:02:27von 30 Minuten auf etwa 3 Stunden verlängern. Auch Entscheidungen und Fehler werden verfolgt.
00:02:34Scheiterte ein Fix vor 20 Minuten, wird die KI diesen Fehler nach dem Kontext-Reset nicht wiederholen.
00:02:40Die Installation ist simpel. Nutzen Sie Claude Code, fügen Sie zuerst den Marketplace hinzu,
00:02:46indem Sie diesen Befehl ausführen. Danach nutzen Sie den Befehl zur Plugin-Installation.
00:02:53Sobald das erledigt ist, sind Sie startklar. Das Tool regelt MCP-Server, Hooks und
00:02:57Routing-Anweisungen automatisch. Nutzen Sie die Gemini CLI oder VS Code Copilot, führen Sie
00:03:03„npm install context-mode“ aus und passen die Einstellungen an. Sehen wir uns das Ganze in Aktion an.
00:03:10Ich habe hier ein Python-Skript, das eine Dummy-Logdatei mit einer Liste von
00:03:15API-Anfragen und Statuscodes erstellt. Jede hundertste Zeile enthält einen 500er-Fehler.
00:03:22Jetzt starten wir Claude und sagen: „Nutze Context Mode, um access.log zu indizieren. Ich möchte
00:03:30alle 500er-Fehlermuster finden und die zugehörigen IP-Adressen zusammenfassen.“
00:03:36Im Hintergrund teilt Context Mode die 5.000 Zeilen der Datei in Chunks auf und speichert sie
00:03:44in der SQLite FTS5-Datenbank. Claude erhält nur die Bestätigung der Indizierung, nicht die 5.000 Zeilen.
00:03:51Jetzt kann Claude die Datenbank intelligent durchsuchen, anstatt die gesamte Datei zu parsen.
00:03:57Hier sehen wir die Ergebnisse von Claude. Aber schauen wir uns vor allem die Kostenersparnis an.
00:04:02Das geht mit dem Befehl „context-mode :cts-stats“. Wir prüfen,
00:04:09wie viele Daten in dieser Sitzung durch Context Mode eingespart wurden.
00:04:15Hier ist das Ergebnis: Statt 20 KB in den Chat zu laden, behielt Context Mode
00:04:21etwa 5 KB der Rohdaten in der Sandbox. Das ist für eine kleine Datei schon sehr beeindruckend.
00:04:27Es wurden etwa 1.200 Token gespart, die sonst das Kontextfenster belastet hätten.
00:04:34Insgesamt ergibt das eine Reduktion von 25 % in diesem Test. Das klingt vielleicht wenig, aber
00:04:41bedenken Sie, dass in einer Standard-Sitzung diese Daten dauerhaft im Kontext bleiben
00:04:47und mit jeder neuen Nachricht erneut gesendet würden. Durch die Sandbox verlängern wir
00:04:53bereits jetzt die Lebensdauer der Sitzung. Diese Beispieldatei ist klein, aber bei größeren Dateien
00:04:58sind die Ersparnisse massiv. Ob bei großen Repo-Recherchen oder der Analyse von
00:05:03Produktions-Logs: Aus 1.200 Token Ersparnis werden schnell 100.000 Token. Doch das Ziel
00:05:11ist nicht nur Geldersparnis bei den API-Kosten, auch wenn das ein schöner Bonus ist.
00:05:18Es geht vor allem darum, die Intelligenz des Modells zu erhalten. Wenn Sie das Rauschen
00:05:24aus dem Kontext entfernen, bleibt mehr Platz für echtes logisches Denken. Claude bekommt Raum,
00:05:30um ein besserer Entwickler zu sein. Wenn Sie also komplexe Projekte mit KI-Agents bauen,
00:05:35probieren Sie dieses Tool aus. Schauen Sie, wie viel länger Sie Sitzungen führen können, bevor
00:05:41der Agent Dinge vergisst. Wenn Ihnen diese Analyse gefallen hat, lassen Sie es mich wissen
00:05:45und klicken Sie auf den Like-Button. Vergessen Sie nicht, den Kanal zu abonnieren. Das war
00:05:50Andris von Better Stack. Wir sehen uns in den nächsten Videos!

Key Takeaway

Context Mode löst das Problem der teuren und flüchtigen Kontext-Überfüllung in Claude Code, indem es Daten effizient lokal indiziert und so die Sitzungsdauer sowie die Modellintelligenz massiv steigert.

Highlights

Das Problem der Kontext-Überfüllung in Claude Code führt zu hohen Kosten und Gedächtnisverlust der KI nach nur 30 Minuten.

Context Mode fungiert als Virtualisierungsschicht, die Daten lokal in einer SQLite-Datenbank indiziert, statt sie direkt in den Kontext zu schreiben.

Durch die Nutzung von FTS5-Indizierung können Datenmengen wie Playwright-Snapshots um bis zu 99 % reduziert werden.

Das Tool ermöglicht eine Verlängerung der effektiven Sitzungsdauer von 30 Minuten auf bis zu 3 Stunden.

Neben der Kostenersparnis bleibt die logische Leistungsfähigkeit des Modells erhalten, da weniger "Rauschen" den Kontext blockiert.

Die Installation ist über npm oder direkt in Claude Code einfach umsetzbar und unterstützt verschiedene CLIs.

Ein praktisches Beispiel mit 5.000 Log-Zeilen demonstrierte eine Token-Ersparnis von 25 % bei minimalem Aufwand.

Timeline

Das Problem der Kontext-Überfüllung

Der Sprecher erläutert die zentrale Herausforderung bei der Arbeit mit Claude Code und MCP-Tools. Jede Tool-Ausgabe wird direkt in das 200k-Kontextfenster geschrieben, was schnell zu einer Sättigung führt. Dies hat zur Folge, dass der Agent bereits nach 30 Minuten wichtige Informationen oder Dateien vergisst, sobald der Kontext komprimiert wird. Zudem entstehen durch die hohe Token-Anzahl beträchtliche Kosten für den Nutzer. Der vorgestellte "Context Mode" soll genau diese Ineffizienzen beheben und die Arbeitsweise mit KI-Agenten revolutionieren.

Funktionsweise und technische Virtualisierung

In diesem Abschnitt werden die technischen Details der Datenreduktion durch Zahlen untermauert. Ein Playwright-Snapshot verbraucht normalerweise 56 KB, was durch Context Mode auf lediglich 299 Bytes schrumpft. Das Tool nutzt eine lokale SQLite-Datenbank mit FTS5-Indizierung als Sandbox, um die KI vom direkten Systemballast zu isolieren. Anstatt riesige Textmengen zu übertragen, erhält das Modell nur noch kompakte Referenzen. Diese Virtualisierungsschicht sorgt dafür, dass 70 % des Kontextfensters nicht schon vor der eigentlichen Programmierung verbraucht sind.

Sitzungskontinuität und Snapshot-System

Ein entscheidender Vorteil von Context Mode ist die Aufrechterhaltung der Sitzungskontinuität über lange Zeiträume hinweg. Durch den Einsatz von Hooks werden Dateiänderungen, Git-Operationen und Aufgaben von Sub-Agenten kontinuierlich überwacht. Wenn eine Kontext-Komprimierung stattfindet, erstellt das System einen prioritätsbasierten Snapshot von unter 2 KB Größe. Dies verhindert, dass die KI Fehler wiederholt, die sie bereits vor einiger Zeit korrigiert hat. Somit wird die hypothetische Nutzungsdauer einer Session von 30 Minuten auf etwa 3 Stunden versechsfacht.

Installation und Integration

Die Integration des Tools in bestehende Workflows wird als unkompliziert und benutzerfreundlich beschrieben. Nutzer von Claude Code müssen lediglich den Marketplace hinzufügen und einen spezifischen Installationsbefehl für das Plugin ausführen. Auch für Anwender der Gemini CLI oder des VS Code Copilots ist die Einrichtung via npm-Befehl schnell erledigt. Das Tool übernimmt danach automatisch die Verwaltung der MCP-Server sowie das Routing der Anweisungen. Diese Flexibilität erlaubt es Entwicklern, das Tool ohne tiefgreifende Konfigurationsänderungen in ihre tägliche Arbeit einzubauen.

Praxis-Demo: Analyse von Logdateien

Der Sprecher demonstriert die Leistungsfähigkeit anhand eines Python-Skripts, das eine umfangreiche access.log-Datei mit 5.000 Zeilen generiert. Claude wird angewiesen, diese Datei mithilfe von Context Mode zu indizieren und nach spezifischen 500er-Fehlermustern zu suchen. Statt die gesamte Datei in den Chat zu laden, durchsucht Claude die indizierte Datenbank effizient und zielgerichtet. Eine Überprüfung mit dem Befehl ":cts-stats" zeigt, dass in diesem kleinen Test bereits 1.200 Token eingespart wurden. Dies verdeutlicht, wie effektiv die Sandbox-Technologie selbst bei moderaten Datenmengen arbeitet.

Fazit: Token-Ersparnis und Modellintelligenz

Abschließend wird betont, dass die Ersparnis von 25 % in der Demo bei größeren Projekten schnell in die Hunderttausende von Token skalieren kann. Der Fokus liegt jedoch nicht nur auf der Kostenreduktion, sondern vor allem auf dem Erhalt der kognitiven Kapazität von Claude. Indem das "Rauschen" aus dem Kontext entfernt wird, bleibt mehr Raum für logisches Denken und komplexe Problemlösungen. Der Sprecher empfiehlt das Tool jedem, der an anspruchsvollen Projekten mit KI-Agents arbeitet. Das Video endet mit dem Aufruf, den Kanal zu abonnieren und das Tool für eine bessere Entwickler-Erfahrung selbst zu testen.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video