Log in to leave a comment
No posts yet
Estamos en la era en la que los agentes de IA escriben código y construyen infraestructuras. Sin embargo, los desarrolladores en el campo todavía sienten inseguridad. Esto se debe a que un agente que era perfecto hace un momento, de repente ofrece respuestas disparatadas o ignora herramientas que se le indicaron claramente.
Los resultados de experimentos recientes del equipo de Vercel AI SDK son impactantes. Cuando se les otorga a los agentes de IA el poder de elección de herramientas, es decir, habilidades (Skills), la tasa de fallo alcanza un alarmante 56%. Esto no es un problema de inteligencia del modelo. Es la prueba de que la forma en que proporcionamos información a la IA es fundamentalmente errónea. El secreto para elevar la tasa de éxito del agente al 100% no reside en añadir más herramientas, sino en una estrategia de contexto persistente basada en agents.md.
Muchos desarrolladores otorgan a los agentes diversas funciones de llamada a herramientas y esperan que la IA las extraiga y utilice por sí misma cuando sea necesario. Sin embargo, este método presenta una debilidad crítica llamada ruido de decisión.
La ventana de contexto de un modelo de IA es como la memoria a corto plazo humana. Cuando la conversación supera los 5 intercambios, las instrucciones escritas en el prompt del sistema inicial pierden prioridad. A esto se le llama corrupción del contexto. El agente duda en cada momento: "¿Debería usar una herramienta ahora o simplemente responder con lo que sé?". Este punto de decisión en sí mismo se convierte en un punto único de fallo que induce al error.
La solución para reducir la tasa de fallo del 56% al 0% es simple. En lugar de dar al agente el poder de elegir, se fijan las reglas e información central del proyecto en el prompt del sistema. El archivo agents.md es el núcleo de esto.
Según los benchmarks de Vercel, cuando se proporcionó la misma información como una herramienta, la tasa de éxito fue del 79%, pero cuando se incluyó directamente en forma de índice en agents.md, se registró una tasa de aprobación del 100%.
| Métrica de análisis | Llamada a herramientas (Skills) | Contexto persistente (agents.md) |
|---|---|---|
| Toma de decisiones | El agente decide si cargar cada vez | La información siempre reside en el sistema |
| Fiabilidad | Aprox. 53% ~ 79% (Inestable) | Se puede alcanzar hasta el 100% |
| Carga de razonamiento | Alta carga por ruido de decisión | Baja carga al omitir decisiones |
| Características | Método On-demand | Método pasivo |
Para maximizar el rendimiento, agents.md debe diseñarse no como un simple archivo de texto, sino como un README para máquinas.
Las prohibiciones específicas mejoran la calidad de los resultados del agente de forma más inmediata que los principios abstractos. Se necesitan comandos concretos, como indicar el uso de MUI v3 y que la gestión de estado sea obligatoriamente con Jotai. Instrucciones como "nunca uses alert()" y "utiliza componentes de una librería específica" evitan que el agente se desvíe.
No se debe permitir que el agente desperdicie tokens recorriendo todo el repositorio. Se debe proporcionar la ubicación de los archivos clave como un mini-índice. Hay que dibujar un mapa claro sobre si se debe usar pnpm al construir y dónde se encuentran los archivos de rutas y esquemas.
Si el archivo se vuelve demasiado grande, el rendimiento disminuye. Vercel recomienda un método de indexación comprimiendo documentos de 40KB a 8KB. La clave no es darle el conocimiento masticado al agente, sino optimizar y entregar las rutas para que pueda acceder a dicho conocimiento.
Al igual que la deuda técnica se acumula en el código, la deuda de prompts se acumula en el uso de la IA. Si cada miembro del equipo da instrucciones diferentes al agente, la coherencia de los resultados se rompe. Al colocar agents.md en la raíz del proyecto y gestionarlo con Git, el control de versiones se integra y se puede aplicar la misma guía estándar del equipo independientemente del modelo que se utilice.
En la era de los agentes de IA, la victoria se decide en la ingeniería de contexto más que en la inteligencia del modelo. En lugar de esperar a que los agentes se vuelvan más inteligentes, construir un entorno donde el agente no pueda cometer errores es la forma más segura de aumentar la productividad. Comience ahora mismo creando un agents.md en la raíz de su proyecto y formalice las reglas de su equipo.