Claude Code es caro. Este servidor MCP lo soluciona (Context Mode)

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Si has estado programando en Claude Code, probablemente hayas experimentado el exceso de contexto.
00:00:05El problema es que cada llamada a herramientas MCP en Claude Code es absurdamente costosa,
00:00:11porque cada una de estas llamadas vuelca todo su contenido directamente en la ventana de contexto de 200k.
00:00:17Y cuantas más herramientas tengas a tu disposición, más rápido se agota el contexto.
00:00:22En ciertos escenarios, podrías tener solo 30 minutos de uso activo del agente antes de que el contexto se compacte.
00:00:28Ahí es cuando la IA empieza a olvidar archivos, tareas y decisiones cruciales.
00:00:34Sin mencionar que estás gastando mucho dinero en esos tokens. Pero hay un servidor MCP que soluciona este problema.
00:00:40Se llama “context mode”. En el video de hoy, veremos qué hace context mode,
00:00:44cómo funciona, y lo probaremos nosotros mismos con una pequeña demostración.
00:00:48Va a ser muy divertido, así que vamos a sumergirnos en ello.
00:00:55Para entender por qué ocurre esto, miremos las cifras. Una sola captura de Playwright
00:01:00de una página web pesa unos 56 kilobytes. Leer 20 incidencias de GitHub son 59 kilobytes.
00:01:08Si repetimos esto varias veces en la fase de planificación, habrás consumido el 70% de la ventana
00:01:14antes de que el agente escriba una sola línea de código. Context mode actúa como una capa de virtualización.
00:01:20En lugar de que la IA hable directamente con tu SO, habla con un entorno aislado (sandbox).
00:01:26Y en vez de volcar resultados masivos, context mode los indexa en una base de datos SQLite local usando FTS5.
00:01:34El resultado es muy significativo. Por ejemplo, esa captura de 56k se reduce a 299 bytes,
00:01:41una reducción del 99%. O este CSV de analíticas se reduce a 222 bytes,
00:01:49lo cual es casi un 100% de ahorro. Pero ahorrar tokens es solo una parte de la solución.
00:01:56La verdadera utilidad aquí es la continuidad de la sesión. Todos hemos visto cómo el historial
00:02:03se compacta y de repente el agente pierde el hilo de lo que escribió hace 10 minutos.
00:02:09Pero context mode usa “hooks” para monitorear cada edición de archivo, operación de git y subtarea.
00:02:15Cuando la sesión se compacta, crea una captura priorizada de menos de 2 kilobytes y la reinyecta.
00:02:22Es esencialmente un punto de guardado para tu sesión de código. Así podrías extender
00:02:27tu sesión de 30 minutos a unas 3 horas aproximadamente. También rastrea decisiones y errores.
00:02:34Si la IA intentó un arreglo que falló hace 20 minutos, no repetirá el error aunque el contexto se reinicie.
00:02:40E instalarlo es muy sencillo. Si usas Claude Code, primero añade el marketplace de context mode
00:02:46ejecutando el siguiente comando. Luego, ejecuta el comando de instalación del plugin.
00:02:53Una vez hecho, ya está listo. Tras instalarlo, gestiona automáticamente el servidor MCP,
00:02:57los hooks y las instrucciones de enrutamiento. Si usas Gemini CLI o VS Code Copilot, puedes ejecutar
00:03:03npm install context-mode y añadir la configuración a tus ajustes. Veamos context mode en acción.
00:03:10Tengo este comando simple de Python que creará un archivo de registro de acceso ficticio
00:03:15con una lista de peticiones API y sus códigos de estado. Cada cien líneas hay un error 500.
00:03:22Ahora iniciamos Claude y pedimos: “usa context mode para indexar access.log.”
00:03:30“Quiero hallar todos los patrones de error 500 y resumir las IPs asociadas”.
00:03:36En segundo plano, context mode divide las 5.000 líneas del archivo access.log
00:03:44en su propia base de datos SQLite FTS5. Claude solo recibe la confirmación de indexado,
00:03:51no las 5.000 líneas en bruto. Ahora Claude puede buscar inteligentemente en la base de datos
00:03:57en lugar de procesar todo el archivo. Aquí vemos los hallazgos devueltos por Claude.
00:04:02Pero lo más importante: el ahorro de costos. Podemos verlo ejecutando context-mode :cts-stats,
00:04:09y así verificar cuántos datos ha ahorrado context mode en la sesión actual.
00:04:15Y aquí podéis ver los resultados. En lugar de volcar los 20 kilobytes enteros en la conversación,
00:04:21context mode mantuvo unos 5 kilobytes de esos datos brutos en el sandbox.
00:04:27Este resultado es impresionante para un archivo pequeño: ahorró la entrada de unos 1.200 tokens.
00:04:34En total, logramos una reducción del 25% en esta pequeña prueba. Quizás no parezca mucho,
00:04:41pero ten en cuenta que en una sesión estándar de Claude, los datos se quedarían ahí para siempre
00:04:47reenviándose con cada mensaje. Al mantenerlos en el sandbox, ya estamos extendiendo
00:04:53la vida de esta sesión. Este archivo de demo es pequeño, pero con archivos más grandes,
00:04:58el ahorro podría ser masivo. Si investigas un repositorio enorme o analizas logs de producción,
00:05:03ese ahorro de 1.200 tokens puede convertirse fácilmente en 100.000 tokens.
00:05:11Pero el objetivo no es solo ahorrar dinero en la API, aunque sea un buen extra.
00:05:18Se trata de mantener la inteligencia del modelo. Al limpiar el ruido de la ventana de contexto,
00:05:24dejas más espacio para el razonamiento real. Le das a Claude el espacio necesario para ser mejor ingeniero.
00:05:30Así que si creas proyectos complejos con agentes de IA, prueba esta herramienta y comprueba
00:05:35cuánto más puedes alargar las sesiones antes de que el agente empiece a compactar y olvidar.
00:05:41Si te ha gustado este análisis técnico, por favor házmelo saber pulsando el botón de “me gusta”.
00:05:45Y no olvides suscribirte a nuestro canal. Soy Andris, de Better Stack,
00:05:50y nos vemos en los próximos videos.

Key Takeaway

Context Mode optimiza el uso de Claude Code al virtualizar y comprimir el contexto mediante indexación local, reduciendo costos significativamente y extendiendo la memoria operativa del agente de IA.

Highlights

El problema del exceso de contexto en Claude Code eleva los costos y reduce la eficacia operativa de la IA.

Context Mode funciona como una capa de virtualización que indexa datos en una base de datos SQLite local.

Se logra una reducción drástica de tokens, llegando en algunos casos hasta el 99% de ahorro de espacio.

La herramienta permite la continuidad de la sesión mediante capturas priorizadas que evitan que la IA olvide tareas previas.

Context Mode rastrea decisiones y errores pasados para evitar que el agente repita fallos tras la compactación del contexto.

La instalación es compatible con Claude Code, Gemini CLI y VS Code Copilot mediante comandos de npm.

El objetivo final es liberar espacio para el razonamiento real, permitiendo que Claude actúe como un mejor ingeniero.

Timeline

El problema del exceso de contexto y costos

El narrador explica cómo las llamadas a herramientas MCP en Claude Code consumen rápidamente la ventana de contexto de 200k tokens. Este fenómeno provoca que, tras solo 30 minutos de uso, la IA comience a olvidar archivos y decisiones cruciales debido a la compactación. Además del fallo en el rendimiento, el usuario incurre en gastos excesivos de dinero por el alto volumen de tokens enviados. Se presenta Context Mode como la solución definitiva para gestionar este flujo de información ineficiente. El video promete demostrar cómo esta herramienta mantiene la inteligencia del modelo por más tiempo.

Mecanismo técnico y virtualización de datos

En esta sección se analizan cifras concretas donde una captura de Playwright de 56 KB se reduce a solo 299 bytes gracias a Context Mode. La herramienta actúa como una capa de virtualización que interfiere entre la IA y el sistema operativo del usuario. En lugar de volcar datos masivos, los indexa en una base de datos SQLite local utilizando el motor de búsqueda FTS5. Esto permite una reducción del 99% en el peso de los datos, evitando que el agente consuma el 70% de su memoria antes de programar. Este ahorro de tokens es fundamental para proyectos que manejan grandes volúmenes de incidencias o archivos logs.

Continuidad de sesión y gestión de errores

El autor destaca que la verdadera utilidad de Context Mode es garantizar la continuidad de la sesión de trabajo. Mediante el uso de "hooks", el servidor monitorea cada edición de archivo, operación de git y subtarea realizada por el agente. Cuando el historial se compacta, el sistema crea una captura priorizada de menos de 2 kilobytes para reinyectarla en la sesión. Esto permite extender el tiempo de uso activo de 30 minutos a aproximadamente 3 horas sin pérdida de coherencia. Además, el sistema recuerda errores pasados para que la IA no repita soluciones fallidas tras un reinicio de contexto.

Instalación y configuración del servidor

Se detallan los pasos sencillos para implementar Context Mode en diferentes entornos de desarrollo. Para usuarios de Claude Code, se requiere ejecutar un comando para añadir el marketplace y luego el comando de instalación del plugin. El sistema gestiona automáticamente el servidor MCP, los hooks necesarios y las instrucciones de enrutamiento sin intervención manual compleja. También se menciona que es compatible con Gemini CLI y VS Code Copilot mediante una instalación estándar de npm. Esta flexibilidad asegura que desarrolladores en diversas plataformas puedan beneficiarse de la optimización de contexto.

Demostración práctica con logs de Python

El video muestra una prueba real utilizando un script de Python que genera un archivo de registro con 5.000 líneas y errores simulados. Al pedirle a Claude que indexe el archivo con Context Mode, la IA procesa la base de datos SQLite en lugar de cargar el texto bruto. Claude recibe únicamente la confirmación del indexado, lo que le permite buscar patrones de error 500 de forma inteligente y eficiente. Se introduce el comando ":cts-stats" para verificar en tiempo real el ahorro de datos logrado durante la sesión. Esta demostración evidencia cómo la IA mantiene su capacidad analítica consumiendo una fracción del ancho de banda habitual.

Análisis de resultados y beneficios finales

En la conclusión, se revela que incluso en una prueba pequeña se logró una reducción del 25% en el uso de tokens, ahorrando unos 1.200 tokens de entrada. El narrador advierte que en repositorios masivos o logs de producción, este ahorro puede escalar fácilmente hasta los 100.000 tokens por sesión. Más allá del dinero, el beneficio principal es limpiar el "ruido" de la ventana de contexto para dar más espacio al razonamiento real de la IA. Al actuar como un mejor ingeniero, Claude puede resolver tareas más complejas sin degradar su rendimiento. El video finaliza invitando a los creadores de proyectos complejos a probar la herramienta para alargar sus sesiones de desarrollo.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video