Ferramentas MCP Ficaram 10x Mais Rápidas no Claude Code

BBetter Stack
컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00A equipe da Closco acaba de corrigir o maior problema do MCP ao adicionar a busca de ferramentas,
00:00:05uma forma de reduzir o contexto em até 95% simplesmente procurando o nome da ferramenta antes de usá-la,
00:00:10em vez de pré-carregar todas as ferramentas disponíveis no contexto,
00:00:13o que poderia consumir dezenas de milhares de tokens mesmo antes de escrever seu primeiro prompt.
00:00:18Mas por que não era assim que funcionava antes?
00:00:21E será que eles roubaram essa técnica da Cloudflare?
00:00:24Aperte o botão de inscrever-se e vamos direto ao assunto.
00:00:26Servidores MCP estão absolutamente em todo lugar,
00:00:29há um para GitHub,
00:00:30Docker,
00:00:31Notion,
00:00:31há até um da Better Stack que ouvi dizer que é muito bom.
00:00:35E com as pessoas usando o Claude Code e LLMs para tudo além de código,
00:00:40parece que o MCP não vai desaparecer tão cedo.
00:00:43Mas ele tem seus problemas: colisões de nomenclatura,
00:00:46injeções de comando e o maior de todos,
00:00:48a ineficiência de tokens,
00:00:49porque todas as ferramentas de um servidor conectado normalmente são pré-carregadas na janela de contexto do modelo para dar visibilidade completa ao modelo.
00:00:57Então nomes de ferramentas,
00:00:58descrições de ferramentas,
00:00:59a documentação completa do esquema JSON que contém parâmetros opcionais e obrigatórios,
00:01:04seus tipos,
00:01:05quaisquer restrições,
00:01:06basicamente muitos dados.
00:01:07A equipe do Redis usou 167 ferramentas de quatro servidores diferentes,
00:01:11o que consumiu mais de 60.000 tokens mesmo antes de escrever um prompt.
00:01:15Quase metade da janela de contexto de 200k do Opus,
00:01:18e isso é até mesmo fora das habilidades e plugins.
00:01:21Então,
00:01:21se você tiver muitos servidores,
00:01:23isso pode consumir uma quantidade substancial de tokens.
00:01:25Sim,
00:01:26eu sei que existem modelos por aí,
00:01:27como o Gemini,
00:01:28que têm uma janela de 1 milhão de tokens,
00:01:30mas os modelos tendem a ter um desempenho pior quanto mais coisas você adiciona ao contexto deles.
00:01:35Então qual é a melhor maneira de corrigir isso?
00:01:37Bem,
00:01:37eu vi dois caminhos populares online: a abordagem programática,
00:01:41que é o que a Cloudflare fez,
00:01:42e a abordagem de busca,
00:01:44que é o que a equipe do Claude Code fez.
00:01:46Vou falar sobre a abordagem programática um pouco mais tarde,
00:01:49mas primeiro,
00:01:50vamos falar sobre o processo de busca,
00:01:52que funciona assim.
00:01:53Primeiro,
00:01:54o Claude verifica se as ferramentas MCP pré-carregadas representam mais de 10% do contexto.
00:01:59Ou seja,
00:02:0020 mil tokens se a janela de contexto for de 200 mil tokens.
00:02:04Se não,
00:02:05então nenhuma mudança acontece e o modelo usa as ferramentas MCP normalmente.
00:02:10Mas se sim,
00:02:11então o Claude descobre dinamicamente as ferramentas corretas a serem usadas usando linguagem natural e carrega de três a cinco das ferramentas mais relevantes com base no prompt.
00:02:22Ele carregará totalmente apenas essas ferramentas no contexto para o modelo usar normalmente.
00:02:27Isso foi na verdade o recurso mais solicitado no GitHub deles,
00:02:31e funciona de forma semelhante ao AgentSkills,
00:02:33que carrega apenas nomes e descrições de habilidades no contexto,
00:02:36e quando encontra uma habilidade que acha relevante ou uma habilidade que foi mencionada no prompt,
00:02:42então ele carrega toda aquela habilidade específica na janela de contexto.
00:02:46Divulgação progressiva, em poucas palavras.
00:02:47Tanto a Anthropic quanto o Cursor viram grandes benefícios ao usar essa abordagem para ferramentas MCP.
00:02:53Mas e quanto à abordagem programática?
00:02:55Ela funciona fazendo com que os modelos orquestrem ferramentas através de código em vez de fazer chamadas de API.
00:03:01Então,
00:03:01para essas três ferramentas que precisam funcionar uma após a outra com base na resposta anterior,
00:03:06em vez de fazer chamadas individuais de ferramentas via API,
00:03:09o Claude em particular pode escrever um script Python para fazer toda essa orquestração,
00:03:13depois executar o código e apresentar o resultado de volta ao modelo.
00:03:16A Cloudflare levou isso um passo adiante ao fazer com que o modelo escreva definições TypeScript para todas as ferramentas disponíveis e depois execute o código em uma sandbox,
00:03:25que geralmente é um worker.
00:03:27A equipe do Claude Code na verdade tentou a abordagem programática,
00:03:30mas descobriu que a busca funciona melhor,
00:03:32o que acho muito difícil de acreditar considerando que o Claude é muito bom em escrever código.
00:03:38E também,
00:03:38aquela coisa de CLI de navegador de agente com Chromium headless que a Vacel lançou funciona muito bem no Clawed code e tenho certeza de que,
00:03:45se você pudesse converter todas as ferramentas MCP em comandos CLI usando algo como o MCPorter,
00:03:50seria muito mais fácil e eficiente em termos de contexto para os modelos executarem um comando CLI específico para uma ferramenta em vez de carregar coisas no contexto,
00:03:59mas ei,
00:04:00essa é apenas minha opinão.
00:04:01No geral,
00:04:02fico feliz que os problemas com os servidores MCP estejam sendo analisados e talvez isso possa me convencer a ter mais de um servidor instalado.

Key Takeaway

A Anthropic resolveu o maior problema do MCP implementando busca de ferramentas que reduz o consumo de tokens em até 95% ao carregar apenas 3-5 ferramentas relevantes em vez de pré-carregar todas disponíveis no contexto.

Highlights

A Anthropic introduziu a busca de ferramentas no MCP, reduzindo o uso de contexto em até 95%

Antes da atualização, servidores MCP podiam consumir mais de 60.000 tokens apenas carregando ferramentas, sem contar o prompt do usuário

O sistema agora carrega apenas 3-5 ferramentas mais relevantes quando as ferramentas MCP excedem 10% do contexto total

Existem duas abordagens para otimização: busca de ferramentas (adotada pelo Claude Code) e abordagem programática (usada pela Cloudflare)

A equipe do Claude Code testou a abordagem programática mas descobriu que a busca funciona melhor para seu caso de uso

A divulgação progressiva de ferramentas funciona de forma similar ao AgentSkills, carregando apenas nomes e descrições inicialmente

Modelos tendem a ter desempenho pior com mais informações no contexto, mesmo com janelas de 1 milhão de tokens

Timeline

Introdução ao problema e solução do MCP

O vídeo apresenta a correção implementada pela equipe da Anthropic para o maior problema do MCP (Model Context Protocol): a ineficiência de tokens. A solução introduz a busca de ferramentas, que pode reduzir o uso de contexto em até 95%. Em vez de pré-carregar todas as ferramentas disponíveis no contexto (o que consumia dezenas de milhares de tokens antes mesmo do primeiro prompt), o sistema agora busca o nome da ferramenta apenas quando necessário. O apresentador questiona por que não funcionava assim antes e se a técnica foi inspirada pela Cloudflare.

Popularidade do MCP e seus principais problemas

Servidores MCP estão presentes em diversos serviços como GitHub, Docker, Notion e Better Stack, e com o uso crescente do Claude Code e LLMs para várias tarefas, o MCP tornou-se uma tecnologia permanente. No entanto, enfrenta problemas significativos: colisões de nomenclatura, injeções de comando e principalmente ineficiência de tokens. Todas as ferramentas de um servidor conectado são normalmente pré-carregadas na janela de contexto, incluindo nomes, descrições, documentação completa do esquema JSON com parâmetros opcionais e obrigatórios, tipos e restrições. A equipe do Redis usou 167 ferramentas de quatro servidores diferentes, consumindo mais de 60.000 tokens antes mesmo de escrever um prompt, representando quase metade da janela de contexto de 200k do Opus.

Limitações de janelas de contexto grandes e soluções possíveis

Embora existam modelos como o Gemini com janelas de 1 milhão de tokens, adicionar mais informações ao contexto tende a piorar o desempenho dos modelos. Para resolver o problema de ineficiência do MCP, surgiram duas abordagens principais: a abordagem programática (implementada pela Cloudflare) e a abordagem de busca (adotada pela equipe do Claude Code). O apresentador indica que explicará primeiro a abordagem de busca e depois retornará à abordagem programática, estabelecendo a estrutura para o resto do vídeo.

Como funciona a abordagem de busca de ferramentas

O processo de busca funciona em etapas: primeiro, o Claude verifica se as ferramentas MCP pré-carregadas representam mais de 10% do contexto total (ou seja, 20 mil tokens em uma janela de 200 mil). Se não exceder esse limite, o modelo usa as ferramentas MCP normalmente sem mudanças. Caso contrário, o Claude descobre dinamicamente as ferramentas corretas usando linguagem natural e carrega apenas 3-5 das ferramentas mais relevantes com base no prompt do usuário. Somente essas ferramentas selecionadas são totalmente carregadas no contexto para uso normal. Este recurso foi o mais solicitado no GitHub do Claude Code e funciona de forma semelhante ao AgentSkills, que carrega apenas nomes e descrições de habilidades inicialmente, e só carrega a habilidade completa quando encontra uma relevante ou mencionada no prompt - um conceito chamado de divulgação progressiva.

Abordagem programática e comparação de métodos

A abordagem programática, usada pela Cloudflare, funciona fazendo os modelos orquestrarem ferramentas através de código em vez de chamadas de API. Para três ferramentas que precisam funcionar sequencialmente baseadas na resposta anterior, em vez de fazer chamadas individuais via API, o Claude pode escrever um script Python para toda a orquestração, executar o código e apresentar o resultado de volta ao modelo. A Cloudflare foi além ao fazer o modelo escrever definições TypeScript para todas as ferramentas disponíveis e executar o código em uma sandbox (geralmente um worker). Curiosamente, a equipe do Claude Code testou a abordagem programática mas descobriu que a busca funciona melhor, algo que o apresentador acha difícil de acreditar considerando que o Claude é muito bom em escrever código.

Possibilidades futuras e conclusão

O apresentador menciona que a ferramenta CLI de navegador de agente com Chromium headless lançada pela Vercel funciona muito bem no Claude Code. Ele sugere que, se fosse possível converter todas as ferramentas MCP em comandos CLI usando algo como o MCPorter, seria muito mais fácil e eficiente em termos de contexto para os modelos executarem um comando CLI específico em vez de carregar ferramentas no contexto. Apesar de reconhecer que essa é apenas sua opinião pessoal, ele expressa satisfação porque os problemas com servidores MCP estão sendo analisados e resolvidos, e talvez isso possa convencê-lo a instalar mais de um servidor MCP.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video