00:00:00A equipe da Closco acaba de corrigir o maior problema do MCP ao adicionar a busca de ferramentas,
00:00:05uma forma de reduzir o contexto em até 95% simplesmente procurando o nome da ferramenta antes de usá-la,
00:00:10em vez de pré-carregar todas as ferramentas disponíveis no contexto,
00:00:13o que poderia consumir dezenas de milhares de tokens mesmo antes de escrever seu primeiro prompt.
00:00:18Mas por que não era assim que funcionava antes?
00:00:21E será que eles roubaram essa técnica da Cloudflare?
00:00:24Aperte o botão de inscrever-se e vamos direto ao assunto.
00:00:26Servidores MCP estão absolutamente em todo lugar,
00:00:29há um para GitHub,
00:00:30Docker,
00:00:31Notion,
00:00:31há até um da Better Stack que ouvi dizer que é muito bom.
00:00:35E com as pessoas usando o Claude Code e LLMs para tudo além de código,
00:00:40parece que o MCP não vai desaparecer tão cedo.
00:00:43Mas ele tem seus problemas: colisões de nomenclatura,
00:00:46injeções de comando e o maior de todos,
00:00:48a ineficiência de tokens,
00:00:49porque todas as ferramentas de um servidor conectado normalmente são pré-carregadas na janela de contexto do modelo para dar visibilidade completa ao modelo.
00:00:57Então nomes de ferramentas,
00:00:58descrições de ferramentas,
00:00:59a documentação completa do esquema JSON que contém parâmetros opcionais e obrigatórios,
00:01:04seus tipos,
00:01:05quaisquer restrições,
00:01:06basicamente muitos dados.
00:01:07A equipe do Redis usou 167 ferramentas de quatro servidores diferentes,
00:01:11o que consumiu mais de 60.000 tokens mesmo antes de escrever um prompt.
00:01:15Quase metade da janela de contexto de 200k do Opus,
00:01:18e isso é até mesmo fora das habilidades e plugins.
00:01:21Então,
00:01:21se você tiver muitos servidores,
00:01:23isso pode consumir uma quantidade substancial de tokens.
00:01:25Sim,
00:01:26eu sei que existem modelos por aí,
00:01:27como o Gemini,
00:01:28que têm uma janela de 1 milhão de tokens,
00:01:30mas os modelos tendem a ter um desempenho pior quanto mais coisas você adiciona ao contexto deles.
00:01:35Então qual é a melhor maneira de corrigir isso?
00:01:37Bem,
00:01:37eu vi dois caminhos populares online: a abordagem programática,
00:01:41que é o que a Cloudflare fez,
00:01:42e a abordagem de busca,
00:01:44que é o que a equipe do Claude Code fez.
00:01:46Vou falar sobre a abordagem programática um pouco mais tarde,
00:01:49mas primeiro,
00:01:50vamos falar sobre o processo de busca,
00:01:52que funciona assim.
00:01:53Primeiro,
00:01:54o Claude verifica se as ferramentas MCP pré-carregadas representam mais de 10% do contexto.
00:01:59Ou seja,
00:02:0020 mil tokens se a janela de contexto for de 200 mil tokens.
00:02:04Se não,
00:02:05então nenhuma mudança acontece e o modelo usa as ferramentas MCP normalmente.
00:02:10Mas se sim,
00:02:11então o Claude descobre dinamicamente as ferramentas corretas a serem usadas usando linguagem natural e carrega de três a cinco das ferramentas mais relevantes com base no prompt.
00:02:22Ele carregará totalmente apenas essas ferramentas no contexto para o modelo usar normalmente.
00:02:27Isso foi na verdade o recurso mais solicitado no GitHub deles,
00:02:31e funciona de forma semelhante ao AgentSkills,
00:02:33que carrega apenas nomes e descrições de habilidades no contexto,
00:02:36e quando encontra uma habilidade que acha relevante ou uma habilidade que foi mencionada no prompt,
00:02:42então ele carrega toda aquela habilidade específica na janela de contexto.
00:02:46Divulgação progressiva, em poucas palavras.
00:02:47Tanto a Anthropic quanto o Cursor viram grandes benefícios ao usar essa abordagem para ferramentas MCP.
00:02:53Mas e quanto à abordagem programática?
00:02:55Ela funciona fazendo com que os modelos orquestrem ferramentas através de código em vez de fazer chamadas de API.
00:03:01Então,
00:03:01para essas três ferramentas que precisam funcionar uma após a outra com base na resposta anterior,
00:03:06em vez de fazer chamadas individuais de ferramentas via API,
00:03:09o Claude em particular pode escrever um script Python para fazer toda essa orquestração,
00:03:13depois executar o código e apresentar o resultado de volta ao modelo.
00:03:16A Cloudflare levou isso um passo adiante ao fazer com que o modelo escreva definições TypeScript para todas as ferramentas disponíveis e depois execute o código em uma sandbox,
00:03:25que geralmente é um worker.
00:03:27A equipe do Claude Code na verdade tentou a abordagem programática,
00:03:30mas descobriu que a busca funciona melhor,
00:03:32o que acho muito difícil de acreditar considerando que o Claude é muito bom em escrever código.
00:03:38E também,
00:03:38aquela coisa de CLI de navegador de agente com Chromium headless que a Vacel lançou funciona muito bem no Clawed code e tenho certeza de que,
00:03:45se você pudesse converter todas as ferramentas MCP em comandos CLI usando algo como o MCPorter,
00:03:50seria muito mais fácil e eficiente em termos de contexto para os modelos executarem um comando CLI específico para uma ferramenta em vez de carregar coisas no contexto,
00:03:59mas ei,
00:04:00essa é apenas minha opinão.
00:04:01No geral,
00:04:02fico feliz que os problemas com os servidores MCP estejam sendo analisados e talvez isso possa me convencer a ter mais de um servidor instalado.