Las Herramientas MCP Ahora Son 10x Más Rápidas en Claude Code

BBetter Stack
컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00El equipo de Closco acaba de solucionar el mayor problema con MCP al añadir la búsqueda de herramientas,
00:00:05una forma de reducir el contexto hasta un 95% simplemente buscando el nombre de una herramienta antes de usarla,
00:00:10en lugar de precargar todas las herramientas disponibles en el contexto,
00:00:14lo que podría consumir decenas de miles de tokens incluso antes de escribir tu primer prompt.
00:00:18Pero ¿por qué no funcionaba así antes?
00:00:21¿Y robaron esta técnica de Cloudflare?
00:00:24Dale a suscribirse y entremos en materia.
00:00:26Los servidores MCP están absolutamente en todas partes,
00:00:29hay uno para GitHub,
00:00:30Docker,
00:00:31Notion,
00:00:31incluso hay uno de Better Stack que he oído que es realmente bueno.
00:00:35Y con la gente usando Claude Code y LLMs para todo menos código,
00:00:40parece que MCP no va a desaparecer pronto.
00:00:43Pero tiene sus problemas: colisiones de nombres,
00:00:46inyecciones de comandos,
00:00:47y el mayor de todos,
00:00:48la ineficiencia de tokens,
00:00:49porque todas las herramientas de un servidor conectado típicamente se precargan en la ventana de contexto del modelo para darle visibilidad completa.
00:00:57Así que nombres de herramientas,
00:00:58descripciones de herramientas,
00:01:00la documentación completa del esquema JSON que contiene parámetros opcionales y obligatorios,
00:01:04sus tipos,
00:01:05cualquier restricción,
00:01:06básicamente un montón de datos.
00:01:07El equipo de Redis usó 167 herramientas de cuatro servidores diferentes,
00:01:11lo que consumió más de 60,
00:01:13000 tokens incluso antes de escribir un prompt.
00:01:15Casi la mitad de la ventana de contexto de 200k de Opus,
00:01:18y esto es incluso fuera de habilidades y plugins.
00:01:21Así que si tienes muchos servidores,
00:01:23eso podría consumir una cantidad sustancial de tokens.
00:01:25Sí,
00:01:26sé que hay modelos por ahí,
00:01:27como Gemini,
00:01:28que tienen una ventana de 1 millón de tokens,
00:01:30pero los modelos tienden a funcionar peor cuantas más cosas añades a su contexto.
00:01:35Entonces, ¿cuál es la mejor manera de solucionar esto?
00:01:37Bueno,
00:01:37he visto dos enfoques populares en línea: el enfoque programático,
00:01:40que es lo que ha hecho Cloudflare,
00:01:42y el enfoque de búsqueda,
00:01:44que es lo que ha hecho el equipo de Claude Code.
00:01:46Hablaré del enfoque programático un poco más tarde,
00:01:49pero primero,
00:01:50hablemos del proceso de búsqueda,
00:01:52que funciona así.
00:01:53Primero,
00:01:54Claude verifica si las herramientas MCP precargadas son más del 10% del contexto.
00:01:59Es decir,
00:02:0020k tokens si la ventana de contexto es de 200k tokens.
00:02:04Si no,
00:02:05entonces no ocurre ningún cambio y el modelo usa las herramientas MCP como siempre.
00:02:10Pero si es así,
00:02:11entonces Claude descubre dinámicamente las herramientas correctas a usar mediante lenguaje natural y carga de tres a cinco de las herramientas más relevantes según el prompt.
00:02:22Cargará completamente solo estas herramientas en el contexto para que el modelo las use como siempre.
00:02:27Esta fue en realidad su característica más solicitada en GitHub,
00:02:30y funciona de manera similar a AgentSkills,
00:02:33que solo carga nombres y descripciones de habilidades en el contexto,
00:02:36y cuando encuentra una habilidad que considera relevante o una habilidad que se mencionó en el prompt,
00:02:41entonces procede a cargar toda esa habilidad específica en la ventana de contexto.
00:02:46Divulgación progresiva, en pocas palabras.
00:02:47Tanto Anthropic como Cursor han visto grandes beneficios al usar este enfoque para las herramientas MCP.
00:02:53Pero ¿qué hay del enfoque programático?
00:02:55Este funciona haciendo que los modelos orquesten herramientas a través de código en lugar de hacer llamadas API.
00:03:01Así que para estas tres herramientas que necesitan funcionar una tras otra según la respuesta anterior,
00:03:06en lugar de hacer llamadas individuales a herramientas API,
00:03:08Claude en particular puede escribir un script de Python para hacer toda esta orquestación,
00:03:13luego ejecutar el código y presentar el resultado de vuelta al modelo.
00:03:16Cloudflare ha llevado esto un paso más allá haciendo que el modelo escriba definiciones de TypeScript para todas las herramientas disponibles y luego ejecutando el código en un sandbox que suele ser un worker.
00:03:27El equipo de Claude Code en realidad probó el enfoque programático pero encontró que la búsqueda funcionaba mejor,
00:03:33lo cual me cuesta mucho creer considerando que Claude es muy bueno escribiendo código.
00:03:38Y además,
00:03:38esa cosa del navegador de agente CLI con Chromium sin interfaz gráfica que Vacel ha lanzado funciona muy bien en Clawed code,
00:03:44y estoy seguro de que si se pudieran convertir todas las herramientas MCP en comandos CLI usando algo como MCPorter,
00:03:50sería mucho más fácil y eficiente en términos de contexto que los modelos ejecuten un comando CLI específico para una herramienta en lugar de cargar cosas en el contexto,
00:03:59pero bueno,
00:04:00esa es solo mi opinión.
00:04:01En general,
00:04:02me alegra que se estén investigando los problemas con los servidores MCP y quizás eso me convenza de tener más de un servidor instalado.

Key Takeaway

Claude Code resolvió el problema de ineficiencia de tokens en MCP mediante búsqueda de herramientas que reduce el contexto hasta un 95%, cargando solo las 3-5 herramientas más relevantes en lugar de precargar todas las disponibles.

Highlights

Claude Code implementó búsqueda de herramientas MCP, reduciendo el uso de contexto hasta un 95%

Las herramientas MCP tradicionales consumían más de 60,000 tokens antes del primer prompt (caso Redis con 167 herramientas)

La búsqueda se activa cuando las herramientas MCP superan el 10% del contexto, cargando solo 3-5 herramientas relevantes

Existen dos enfoques para optimizar MCP: búsqueda (Claude Code) y programático (Cloudflare)

El enfoque programático permite orquestar herramientas mediante código Python o TypeScript en lugar de llamadas API

Claude Code probó el enfoque programático pero encontró que la búsqueda funcionaba mejor

La búsqueda de herramientas funciona de forma similar a AgentSkills, usando divulgación progresiva

Timeline

Introducción al problema de MCP y la solución de búsqueda de herramientas

El equipo de Claude Code solucionó el mayor problema con MCP mediante la implementación de búsqueda de herramientas. Esta técnica reduce el uso de contexto hasta un 95% al buscar el nombre de una herramienta antes de usarla, en lugar de precargar todas las herramientas disponibles en el contexto. Anteriormente, este método de precarga consumía decenas de miles de tokens incluso antes de escribir el primer prompt. El video plantea preguntas sobre por qué no funcionaba así antes y si esta técnica fue tomada de Cloudflare.

Ubicuidad de MCP y sus problemas fundamentales

Los servidores MCP están ampliamente distribuidos con implementaciones para GitHub, Docker, Notion y Better Stack, entre otros. Con Claude Code y LLMs siendo utilizados para tareas más allá del código, MCP se ha convertido en una tecnología permanente. Sin embargo, enfrenta problemas críticos como colisiones de nombres, inyecciones de comandos y, el más importante, la ineficiencia de tokens. Este último problema surge porque todas las herramientas de un servidor conectado se precargan en la ventana de contexto del modelo para darle visibilidad completa.

Detalles del problema de consumo de tokens en MCP

La precarga de herramientas MCP incluye nombres, descripciones, documentación completa del esquema JSON con parámetros opcionales y obligatorios, tipos y restricciones, generando una cantidad masiva de datos. El equipo de Redis utilizó 167 herramientas de cuatro servidores diferentes, consumiendo más de 60,000 tokens antes de escribir un prompt. Esto representa casi la mitad de la ventana de contexto de 200k tokens de Opus, sin contar habilidades y plugins. Para usuarios con muchos servidores, esto consume una cantidad sustancial de tokens del contexto disponible.

Limitaciones del contexto amplio y enfoques de solución

Aunque existen modelos como Gemini con ventanas de 1 millón de tokens, los modelos tienden a funcionar peor cuando se añaden más elementos a su contexto. Para solucionar el problema de ineficiencia de tokens en MCP, existen dos enfoques populares: el enfoque programático implementado por Cloudflare y el enfoque de búsqueda desarrollado por el equipo de Claude Code. El video promete explicar primero el proceso de búsqueda antes de abordar el enfoque programático.

Funcionamiento detallado del proceso de búsqueda de herramientas

El proceso de búsqueda funciona en etapas: primero, Claude verifica si las herramientas MCP precargadas superan el 10% del contexto (20k tokens en una ventana de 200k). Si no es así, no ocurre ningún cambio y el modelo usa las herramientas normalmente. Si supera el umbral, Claude descubre dinámicamente las herramientas correctas mediante lenguaje natural, cargando solo de tres a cinco de las herramientas más relevantes según el prompt del usuario. Solo estas herramientas seleccionadas se cargan completamente en el contexto para que el modelo las use como siempre.

Comparación con AgentSkills y adopción de la búsqueda

La búsqueda de herramientas fue la característica más solicitada en GitHub para Claude Code y funciona de manera similar a AgentSkills. AgentSkills solo carga nombres y descripciones de habilidades en el contexto, y cuando encuentra una habilidad relevante o mencionada en el prompt, procede a cargar completamente esa habilidad específica en la ventana de contexto. Este concepto se conoce como divulgación progresiva. Tanto Anthropic como Cursor han observado grandes beneficios al implementar este enfoque para las herramientas MCP.

Explicación del enfoque programático de Cloudflare

El enfoque programático funciona haciendo que los modelos orquesten herramientas a través de código en lugar de llamadas API individuales. Para herramientas que necesitan funcionar secuencialmente según respuestas anteriores, Claude puede escribir un script de Python para toda la orquestación, ejecutar el código y presentar el resultado al modelo. Cloudflare llevó esto más allá haciendo que el modelo escriba definiciones de TypeScript para todas las herramientas disponibles y luego ejecutando el código en un sandbox, típicamente un worker. Este método elimina la necesidad de precargar definiciones de herramientas en el contexto.

Decisión de Claude Code y reflexiones sobre alternativas CLI

El equipo de Claude Code probó el enfoque programático pero descubrió que la búsqueda funcionaba mejor, lo cual es sorprendente considerando que Claude es muy competente escribiendo código. El navegador de agente CLI con Chromium sin interfaz gráfica lanzado por Vercel funciona muy bien en Claude Code. El autor sugiere que si todas las herramientas MCP pudieran convertirse en comandos CLI usando algo como MCPorter, sería mucho más fácil y eficiente en contexto que los modelos ejecuten comandos CLI específicos en lugar de cargar definiciones en el contexto. Sin embargo, reconoce que esta es solo su opinión personal sobre una posible optimización alternativa.

Conclusión y perspectivas futuras

El autor expresa satisfacción por ver que se están investigando activamente los problemas con los servidores MCP. Esta mejora en la eficiencia de tokens y el rendimiento general podría convencerlo de instalar más de un servidor MCP en su configuración. La implementación de la búsqueda de herramientas representa un avance significativo en hacer que MCP sea más práctico y escalable para usuarios con múltiples servidores conectados.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video