00:00:00Se você tem programado com o Claude Code, provavelmente já sofreu com o inchaço de contexto.
00:00:05O problema é que cada chamada de ferramenta MCP no Claude Code é absurdamente cara,
00:00:11pois cada uma delas joga sua saída completa direto na janela de contexto de 200k do modelo.
00:00:17E quanto mais ferramentas você utiliza, mais rápido o seu contexto se esgota. Em certos cenários,
00:00:22você terá apenas 30 minutos de uso ativo do agente antes que o contexto seja compactado.
00:00:28É aí que a IA começa a esquecer arquivos, tarefas e decisões cruciais. Sem falar no alto custo
00:00:34desses tokens. Mas existe um servidor MCP que resolve esse problema fundamental.
00:00:40Ele se chama "context-mode". No vídeo de hoje, veremos o que o context-mode faz,
00:00:44como ele funciona e vamos testá-lo com uma pequena demonstração.
00:00:48Vai ser muito divertido, então vamos mergulhar nisso.
00:00:55Para entender por que isso acontece, vamos analisar os números. Um único snapshot do Playwright
00:01:00de uma página web tem cerca de 56 KB. Ler 20 issues do GitHub gasta 59 KB. Se fizermos isso
00:01:08várias vezes na fase de planejamento, 70% da sua janela já terá sumido antes mesmo
00:01:14do agente escrever uma única linha de código. O context-mode atua como uma camada de virtualização.
00:01:20Em vez de a IA falar direto com seu SO, ela fala com um sandbox. E em vez de despejar saídas enormes,
00:01:26o context-mode as indexa em um banco SQLite local usando FTS5, ou seja, busca em texto completo.
00:01:34E o resultado é bem significativo. Por exemplo, aquele snapshot de 56 KB cai para 299
00:01:41bytes, uma redução de 99%. Ou este CSV de analytics, que é reduzido para 222 bytes,
00:01:49uma redução de quase 100%. Mas economizar tokens é apenas parte da solução.
00:01:56A real utilidade aqui é a continuidade da sessão. Todos já vimos o agente compactar o histórico
00:02:03e, de repente, perder o fio da meada do código escrito 10 minutos antes. Mas o context-mode
00:02:09usa hooks para monitorar cada edição, operação git e tarefa. Quando a conversa compacta,
00:02:15o context-mode cria um snapshot prioritário, geralmente menor que 2 KB, e o reinjeta.
00:02:22É basicamente um checkpoint de salvamento para sua sessão. Assim, você poderia estender
00:02:27sua sessão de 30 minutos para aproximadamente 3 horas. Ele também rastreia decisões e erros.
00:02:34Se a IA tentou um ajuste que falhou há 20 minutos, ela não repetirá o erro após o reset do contexto.
00:02:40E a instalação é bem simples. Se estiver no Claude Code, primeiro adicione o marketplace
00:02:46executando o seguinte comando. Depois, execute o comando de instalação do plugin.
00:02:53Pronto, você já pode usar. Após instalado, ele gerencia o servidor MCP, os hooks
00:02:57e as instruções de roteamento automaticamente. No Gemini CLI ou VS Code Copilot, use
00:03:03npm install context-mode e adicione a config nas configurações. Agora, vamos ver o context-mode em ação.
00:03:10Tenho este comando Python simples que criará um arquivo de log de acesso fictício com uma lista
00:03:15de várias requisições de API e seus códigos de status. Cada centésima linha é um erro 500.
00:03:22Agora, abrimos o Claude e pedimos: "Ei, use o context-mode para indexar o access.log."
00:03:30"Quero encontrar todos os padrões de erro 500 e resumir os IPs associados a eles".
00:03:36Nos bastidores, o context-mode divide as 5.000 linhas do arquivo em seu próprio banco
00:03:44SQLite FTS5. O Claude recebe apenas a confirmação da indexação, não as 5.000 linhas brutas.
00:03:51Assim, o Claude pode buscar de forma inteligente no banco indexado para consultar o conteúdo
00:03:57em vez de analisar o arquivo todo. Aqui vemos as descobertas retornadas pelo Claude.
00:04:02Mas o mais importante: vejamos a economia. Podemos fazer isso rodando o comando
00:04:09context-mode :cts-stats para conferir quanta memória foi poupada nesta sessão atual.
00:04:15E você pode ver os resultados bem aqui. Em vez de despejar os 20 KB inteiros na conversa,
00:04:21o context-mode manteve cerca de 5 KB desses dados brutos no sandbox. Esse resultado
00:04:27é impressionante para um arquivo pequeno. Poupamos cerca de 1.200 tokens da janela de contexto.
00:04:34No total, tivemos uma redução de 25% neste teste rápido. Pode não parecer muito, mas
00:04:41lembre-se que em uma sessão padrão, esses dados ficariam lá para sempre, sendo reenviados
00:04:47em cada nova mensagem. Ao mantê-los no sandbox, já começamos a estender a vida da sessão.
00:04:53Este arquivo de demonstração é pequeno, mas se você lidar com arquivos maiores,
00:04:58a economia será massiva. Em um projeto de pesquisa de repositório gigante ou análise
00:05:03de logs de produção, esses 1.200 tokens podem virar 100.000 facilmente. Mas o objetivo
00:05:11não é só economizar com APIs, embora seja um ótimo bônus. É também manter
00:05:18a inteligência do modelo. Ao limpar o ruído da janela de contexto, você deixa
00:05:24mais espaço para o raciocínio real. Você dá ao Claude o espaço para ser um engenheiro melhor.
00:05:30Se você cria projetos complexos com agentes de IA, experimente esta ferramenta e veja
00:05:35quanto tempo a mais suas sessões duram antes que o agente comece a esquecer as coisas.
00:05:41Se gostou desta análise técnica, por favor, deixe seu like clicando no botão abaixo.
00:05:45E também não se esqueça de se inscrever no canal. Aqui é o Andris, da Better Stack,
00:05:50e vejo vocês nos próximos vídeos.