00:00:00Das Closco-Team hat gerade das größte Problem mit MCP behoben,
00:00:03indem es eine Tool-Suche hinzugefügt hat,
00:00:05die den Kontext um bis zu 95 % reduziert – einfach dadurch,
00:00:08dass nach einem Tool-Namen gesucht wird,
00:00:10bevor man es verwendet,
00:00:11anstatt alle verfügbaren Tools vorab in den Kontext zu laden,
00:00:14was Zehntausende von Tokens verbrauchen könnte,
00:00:16noch bevor der erste Prompt geschrieben wird.
00:00:18Aber warum hat es nicht schon vorher so funktioniert?
00:00:21Und haben sie diese Technik von Cloudflare geklaut?
00:00:24Abonniert den Kanal und dann legen wir los.
00:00:26MCP-Server gibt es überall – für GitHub,
00:00:29Docker,
00:00:30Notion,
00:00:30es gibt sogar einen für Better Stack,
00:00:33der wohl richtig gut sein soll.
00:00:35Und da die Leute Clawed Code und LLMs für alles Mögliche außer Code verwenden,
00:00:40sieht es so aus,
00:00:41als würde MCP so schnell nicht verschwinden.
00:00:43Aber es hat seine Probleme: Namenskollisionen,
00:00:46Command Injections und das größte von allen – Token-Ineffizienz,
00:00:49weil alle Tools eines verbundenen Servers normalerweise vorab ins Kontextfenster des Modells geladen werden,
00:00:54um dem Modell vollständige Sichtbarkeit zu geben.
00:00:57Also Tool-Namen,
00:00:58Tool-Beschreibungen,
00:00:59die vollständige JSON-Schema-Dokumentation mit optionalen und erforderlichen Parametern,
00:01:04deren Typen,
00:01:04alle Einschränkungen – kurz gesagt,
00:01:06jede Menge Daten.
00:01:07Das Redis-Team nutzte 167 Tools von vier verschiedenen Servern,
00:01:11was über 60.000 Tokens verbrauchte,
00:01:12noch bevor überhaupt ein Prompt geschrieben wurde.
00:01:15Fast die Hälfte von Opus' 200k-Kontextfenster – und das noch ohne Skills und Plugins.
00:01:21Wenn man also viele Server hat,
00:01:22kann das eine beträchtliche Menge an Tokens verschlingen.
00:01:25Ja,
00:01:26ich weiß,
00:01:26es gibt Modelle wie Gemini mit einem 1-Million-Token-Fenster,
00:01:30aber Modelle werden tendenziell schlechter,
00:01:33je mehr man in ihren Kontext packt.
00:01:35Also, was ist der beste Weg, das zu beheben?
00:01:37Nun,
00:01:37ich habe online zwei beliebte Ansätze gesehen: den programmatischen Ansatz,
00:01:41den Cloudflare gewählt hat,
00:01:43und den Such-Ansatz,
00:01:44den das Clawed-Code-Team umgesetzt hat.
00:01:46Über den programmatischen Ansatz spreche ich gleich,
00:01:50aber zuerst zum Such-Prozess,
00:01:52der so funktioniert:
00:01:53Zuerst prüft Clawed,
00:01:54ob die vorgeladenen MCP-Tools mehr als 10 % des Kontexts ausmachen.
00:01:59Das wären 20k Tokens,
00:02:01wenn das Kontextfenster 200k Tokens hat.
00:02:04Falls nein,
00:02:05passiert keine Änderung und das Modell nutzt die MCP-Tools wie gewohnt.
00:02:10Falls ja,
00:02:11ermittelt Clawed dynamisch die richtigen Tools mithilfe natürlicher Sprache und lädt drei bis fünf der relevantesten Tools basierend auf dem Prompt.
00:02:22Nur diese Tools werden vollständig in den Kontext geladen,
00:02:25damit das Modell sie wie gewohnt nutzen kann.
00:02:27Das war tatsächlich die meistgewünschte Funktion auf GitHub und funktioniert ähnlich wie AgentSkills,
00:02:33das nur Skill-Namen und -Beschreibungen in den Kontext lädt.
00:02:37Sobald ein relevanter Skill gefunden wird oder ein Skill im Prompt erwähnt wurde,
00:02:41wird dieser spezifische Skill vollständig ins Kontextfenster geladen..
00:02:46Progressive Disclosure in Kurzform.
00:02:47Sowohl Anthropic als auch Cursor haben bei diesem Ansatz für MCP-Tools große Vorteile gesehen.
00:02:53Aber was ist mit dem programmatischen Ansatz?
00:02:55Dieser funktioniert so,
00:02:57dass Modelle Tools durch Code orchestrieren,
00:02:59anstatt API-Aufrufe zu machen.
00:03:01Für diese drei Tools,
00:03:02die nacheinander basierend auf der vorherigen Antwort arbeiten müssen,
00:03:06schreibt Clawed beispielsweise ein Python-Skript,
00:03:08um all diese Orchestrierung zu übernehmen,
00:03:10führt dann den Code aus und präsentiert dem Modell das Ergebnis – statt einzelne API-Tool-Aufrufe zu machen.
00:03:16Cloudflare hat das noch einen Schritt weitergetrieben,
00:03:19indem sie das Modell TypeScript-Definitionen für alle verfügbaren Tools schreiben lassen und den Code dann in einer Sandbox ausführen,
00:03:26meist einem Worker.
00:03:27Das Clawed-Code-Team hat den programmatischen Ansatz tatsächlich ausprobiert,
00:03:31fand aber,
00:03:31dass die Suche besser funktioniert – was ich kaum glauben kann,
00:03:35wenn man bedenkt,
00:03:35wie gut Clawed im Code-Schreiben ist.
00:03:38Und außerdem funktioniert das Agent-Browser-CLI-Headless-Chromium-Ding,
00:03:42das Vacel veröffentlicht hat,
00:03:43sehr gut in Clawed Code,
00:03:45und ich bin mir sicher,
00:03:46wenn man alle MCP-Tools mit etwas wie MCPorter in CLI-Befehle umwandeln könnte,
00:03:50wäre es viel einfacher und kontexteffizient für Modelle,
00:03:54einen bestimmten CLI-Befehl für ein Tool auszuführen,
00:03:57anstatt Dinge in den Kontext zu laden,
00:03:59aber hey,
00:03:59das ist nur meine Meinung.
00:04:01Insgesamt bin ich froh,
00:04:02dass die Probleme mit MCP-Servern untersucht werden,
00:04:05und vielleicht könnte mich das tatsächlich überzeugen,
00:04:07mehr als einen Server zu installieren.