Claude Code é Caro. Este Servidor MCP Resolve Isso (Context Mode)

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Se você tem programado com o Claude Code, provavelmente já sofreu com o inchaço de contexto.
00:00:05O problema é que cada chamada de ferramenta MCP no Claude Code é absurdamente cara,
00:00:11pois cada uma delas joga sua saída completa direto na janela de contexto de 200k do modelo.
00:00:17E quanto mais ferramentas você utiliza, mais rápido o seu contexto se esgota. Em certos cenários,
00:00:22você terá apenas 30 minutos de uso ativo do agente antes que o contexto seja compactado.
00:00:28É aí que a IA começa a esquecer arquivos, tarefas e decisões cruciais. Sem falar no alto custo
00:00:34desses tokens. Mas existe um servidor MCP que resolve esse problema fundamental.
00:00:40Ele se chama "context-mode". No vídeo de hoje, veremos o que o context-mode faz,
00:00:44como ele funciona e vamos testá-lo com uma pequena demonstração.
00:00:48Vai ser muito divertido, então vamos mergulhar nisso.
00:00:55Para entender por que isso acontece, vamos analisar os números. Um único snapshot do Playwright
00:01:00de uma página web tem cerca de 56 KB. Ler 20 issues do GitHub gasta 59 KB. Se fizermos isso
00:01:08várias vezes na fase de planejamento, 70% da sua janela já terá sumido antes mesmo
00:01:14do agente escrever uma única linha de código. O context-mode atua como uma camada de virtualização.
00:01:20Em vez de a IA falar direto com seu SO, ela fala com um sandbox. E em vez de despejar saídas enormes,
00:01:26o context-mode as indexa em um banco SQLite local usando FTS5, ou seja, busca em texto completo.
00:01:34E o resultado é bem significativo. Por exemplo, aquele snapshot de 56 KB cai para 299
00:01:41bytes, uma redução de 99%. Ou este CSV de analytics, que é reduzido para 222 bytes,
00:01:49uma redução de quase 100%. Mas economizar tokens é apenas parte da solução.
00:01:56A real utilidade aqui é a continuidade da sessão. Todos já vimos o agente compactar o histórico
00:02:03e, de repente, perder o fio da meada do código escrito 10 minutos antes. Mas o context-mode
00:02:09usa hooks para monitorar cada edição, operação git e tarefa. Quando a conversa compacta,
00:02:15o context-mode cria um snapshot prioritário, geralmente menor que 2 KB, e o reinjeta.
00:02:22É basicamente um checkpoint de salvamento para sua sessão. Assim, você poderia estender
00:02:27sua sessão de 30 minutos para aproximadamente 3 horas. Ele também rastreia decisões e erros.
00:02:34Se a IA tentou um ajuste que falhou há 20 minutos, ela não repetirá o erro após o reset do contexto.
00:02:40E a instalação é bem simples. Se estiver no Claude Code, primeiro adicione o marketplace
00:02:46executando o seguinte comando. Depois, execute o comando de instalação do plugin.
00:02:53Pronto, você já pode usar. Após instalado, ele gerencia o servidor MCP, os hooks
00:02:57e as instruções de roteamento automaticamente. No Gemini CLI ou VS Code Copilot, use
00:03:03npm install context-mode e adicione a config nas configurações. Agora, vamos ver o context-mode em ação.
00:03:10Tenho este comando Python simples que criará um arquivo de log de acesso fictício com uma lista
00:03:15de várias requisições de API e seus códigos de status. Cada centésima linha é um erro 500.
00:03:22Agora, abrimos o Claude e pedimos: "Ei, use o context-mode para indexar o access.log."
00:03:30"Quero encontrar todos os padrões de erro 500 e resumir os IPs associados a eles".
00:03:36Nos bastidores, o context-mode divide as 5.000 linhas do arquivo em seu próprio banco
00:03:44SQLite FTS5. O Claude recebe apenas a confirmação da indexação, não as 5.000 linhas brutas.
00:03:51Assim, o Claude pode buscar de forma inteligente no banco indexado para consultar o conteúdo
00:03:57em vez de analisar o arquivo todo. Aqui vemos as descobertas retornadas pelo Claude.
00:04:02Mas o mais importante: vejamos a economia. Podemos fazer isso rodando o comando
00:04:09context-mode :cts-stats para conferir quanta memória foi poupada nesta sessão atual.
00:04:15E você pode ver os resultados bem aqui. Em vez de despejar os 20 KB inteiros na conversa,
00:04:21o context-mode manteve cerca de 5 KB desses dados brutos no sandbox. Esse resultado
00:04:27é impressionante para um arquivo pequeno. Poupamos cerca de 1.200 tokens da janela de contexto.
00:04:34No total, tivemos uma redução de 25% neste teste rápido. Pode não parecer muito, mas
00:04:41lembre-se que em uma sessão padrão, esses dados ficariam lá para sempre, sendo reenviados
00:04:47em cada nova mensagem. Ao mantê-los no sandbox, já começamos a estender a vida da sessão.
00:04:53Este arquivo de demonstração é pequeno, mas se você lidar com arquivos maiores,
00:04:58a economia será massiva. Em um projeto de pesquisa de repositório gigante ou análise
00:05:03de logs de produção, esses 1.200 tokens podem virar 100.000 facilmente. Mas o objetivo
00:05:11não é só economizar com APIs, embora seja um ótimo bônus. É também manter
00:05:18a inteligência do modelo. Ao limpar o ruído da janela de contexto, você deixa
00:05:24mais espaço para o raciocínio real. Você dá ao Claude o espaço para ser um engenheiro melhor.
00:05:30Se você cria projetos complexos com agentes de IA, experimente esta ferramenta e veja
00:05:35quanto tempo a mais suas sessões duram antes que o agente comece a esquecer as coisas.
00:05:41Se gostou desta análise técnica, por favor, deixe seu like clicando no botão abaixo.
00:05:45E também não se esqueça de se inscrever no canal. Aqui é o Andris, da Better Stack,
00:05:50e vejo vocês nos próximos vídeos.

Key Takeaway

O context-mode é um servidor MCP essencial para desenvolvedores que utilizam agentes de IA, pois otimiza a janela de contexto através da indexação inteligente de dados, reduzindo custos e aumentando a inteligência a longo prazo do modelo.

Highlights

O Claude Code sofre com o "inchaço de contexto", onde chamadas de ferramentas MCP consomem rapidamente a janela de 200k tokens.

O servidor MCP "context-mode" atua como uma camada de virtualização e sandbox para reduzir drasticamente o uso de dados brutos.

Arquivos grandes e snapshots do Playwright podem ter seu tamanho reduzido em até 99% através de indexação em SQLite FTS5.

A ferramenta permite estender sessões de codificação de 30 minutos para até 3 horas, mantendo a continuidade e a memória do agente.

O sistema utiliza hooks para criar snapshots prioritários, evitando que a IA esqueça decisões e erros cometidos anteriormente.

A instalação é simplificada via linha de comando para Claude Code, Gemini CLI e VS Code Copilot.

Timeline

O Problema do Inchaço de Contexto no Claude Code

O palestrante introduz o problema crítico do alto custo e do rápido esgotamento da janela de contexto ao usar o Claude Code. Ele explica que cada chamada de ferramenta MCP deposita saídas completas diretamente nos 200k tokens do modelo, o que causa esquecimento de arquivos e tarefas em apenas 30 minutos de uso. O custo financeiro desses tokens também é um fator proibitivo mencionado como uma dor de cabeça para os programadores. A solução apresentada para este dilema fundamental é o servidor MCP chamado "context-mode". Este segmento estabelece a urgência de uma ferramenta que gerencie melhor o fluxo de informações entre a IA e o sistema operacional.

Análise de Números e a Solução de Virtualização

Nesta seção, são apresentados dados estatísticos sobre o consumo de dados, como os 56 KB de um snapshot do Playwright ou 59 KB para ler issues do GitHub. O context-mode resolve isso atuando como uma camada de virtualização que utiliza um sandbox e um banco de dados SQLite local com FTS5 para busca em texto completo. O vídeo demonstra reduções impressionantes, onde um snapshot de 56 KB cai para meros 299 bytes, representando uma economia de 99%. Essa técnica de indexação impede que a IA analise arquivos brutos desnecessariamente, economizando recursos computacionais e financeiros. A explicação técnica foca em como a substituição de dados brutos por índices otimiza a interação com o modelo de linguagem.

Continuidade da Sessão e Checkpoints de Memória

Além da economia de tokens, o palestrante destaca a importância da continuidade da sessão para evitar que o agente perca o "fio da meada". O context-mode utiliza hooks para monitorar edições, operações git e tarefas em tempo real, criando snapshots prioritários menores que 2 KB. Isso funciona como um checkpoint de salvamento, permitindo que o agente retome o contexto mesmo após uma compactação de histórico. Uma vantagem crucial mencionada é o rastreamento de erros, impedindo que a IA repita falhas cometidas há 20 minutos na mesma sessão. Portanto, a ferramenta não apenas economiza espaço, mas preserva a coerência lógica e a memória de longo prazo da inteligência artificial durante o desenvolvimento.

Guia de Instalação e Configuração

O processo de instalação é detalhado para diferentes ambientes de desenvolvimento populares. Para usuários do Claude Code, é necessário adicionar o marketplace e executar o comando de instalação do plugin para que o gerenciamento de hooks ocorra automaticamente. Para quem utiliza Gemini CLI ou VS Code Copilot, a instalação é feita via npm seguindo de um ajuste simples nas configurações. O apresentador enfatiza que o context-mode cuida do servidor MCP e das instruções de roteamento de forma autônoma após a configuração inicial. Esta parte do vídeo serve como um tutorial prático para garantir que qualquer desenvolvedor possa implementar a solução rapidamente. A simplicidade da configuração é contrastada com a complexidade do problema que ela resolve.

Demonstração Prática e Resultados de Desempenho

O vídeo encerra com uma demonstração prática usando um arquivo de log Python com 5.000 linhas para testar a indexação. Em vez de enviar as linhas brutas, o Claude consulta o banco indexado pelo context-mode para encontrar padrões de erro 500 e IPs associados. Os resultados mostram uma economia imediata de 1.200 tokens, o que representa uma redução de 25% em um teste com arquivos pequenos, mas que escala massivamente em projetos reais. O palestrante conclui que o objetivo principal é liberar espaço para o raciocínio real da IA, transformando o Claude em um engenheiro melhor ao remover o ruído do contexto. Ele incentiva a experimentação em projetos complexos para maximizar a durabilidade das sessões de trabalho antes de se despedir.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video