Los Skills tenían UN solo trabajo (y fallaron)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Resulta que usar «skills» (habilidades) podría no ser la mejor forma de dar contexto adicional a tus agentes; de hecho, puede que te vaya mejor volviendo al archivo agents.md.
00:00:08Este fue el sorprendente resultado que encontró Vercel al probar el mejor método para proporcionar la documentación de Next.js a los agentes de programación.
00:00:15Así que vayamos directo al grano para analizar qué pasó, por qué y qué nos enseña esto sobre cómo usar agentes de código de forma efectiva.
00:00:26Como decía, el objetivo de Vercel era dar contexto adicional al agente —en este caso, la documentación de Next.js— para que al escribir código sepa usar las nuevas API que quizá no estén aún en los datos de entrenamiento.
00:00:41O incluso al revés: puede que sea una versión antigua de Next.js y quieras asegurarte de que solo use los métodos disponibles en esa versión.
00:00:47Querían un sistema de documentación vinculada a la versión que el agente pudiera consultar.
00:00:51Para lograrlo, probaron dos enfoques comunes.
00:00:54Primero tenemos las «skills».
00:00:56Se han vuelto muy populares últimamente, con muchísimos frameworks y herramientas lanzando las suyas.
00:01:01E irónicamente, Vercel es uno de los que ayuda a popularizarlas con su CLI de skills y su repositorio de habilidades.
00:01:08Les recomiendo mucho que les echen un vistazo.
00:01:09Si no saben qué son las skills, son un estándar abierto de Anthropic; básicamente, paquetes modulares de instrucciones, scripts y contextos que un agente carga bajo demanda para ser más preciso.
00:01:20Pero ese es el detalle crucial: depende totalmente del agente decidir cuándo cargar esa información.
00:01:26Y esa parece ser su debilidad actual. Cuando Vercel hizo las evaluaciones, descubrieron que el 56 % de las veces la skill nunca se invocaba.
00:01:35El agente simplemente decidía no utilizarla.
00:01:37Lo sorprendente es que darle la skill al agente no supuso ninguna mejora en las pruebas comparado con un agente que no la tenía.
00:01:44Y más sorprendente aún: descubrieron que la skill podía tener un efecto negativo.
00:01:48A veces funcionaba peor que el modelo base cuando no se usaba la skill, lo que sugiere que una habilidad no utilizada puede introducir ruido o distracción.
00:01:57Para solucionar esto, intentaron decir específicamente en el prompt: «Por favor, usa esta skill».
00:02:02Eso ayudó. Elevó la tasa de activación de la skill al 95 % y subió la tasa de éxito en las pruebas al 79 %.
00:02:09Pero trajo sus propios problemas. Descubrieron que ligeros cambios en la redacción producían resultados drásticamente diferentes.
00:02:15Por ejemplo, si decías «Debes usar la skill», lo hacía, pero entonces ignoraba el contexto del proyecto.
00:02:21Así que tenías que decir «Usa tanto la skill como el contexto del proyecto».
00:02:24A Vercel no le gustó la fragilidad del sistema, afirmando que si pequeños retoques verbales causan grandes giros de comportamiento, el enfoque es demasiado inestable para producción.
00:02:33Necesitaban una solución más fiable, quizá una donde el agente no tuviera que tomar esa decisión por sí mismo.
00:02:40Fue entonces cuando probaron el archivo agents.md.
00:02:42Este es un formato abierto que usan muchos agentes. Si eres fan de Claude, es exactamente lo mismo que el claude.md.
00:02:49Se usa para dar instrucciones a los agentes de código que siempre se incluyen en el system prompt.
00:02:53Así que, a diferencia de las skills, el agente no decide si buscar la información.
00:02:58Ya la tiene ahí en su system prompt. Pero esto también podría crear un problema con el tamaño del contexto.
00:03:03Me refiero a cuando el contexto crece tanto que el rendimiento empeora.
00:03:06No puedes meter toda la documentación de Next.js en el archivo agents.md.
00:03:10Entonces, ¿cómo lo hicieron? Para contrarrestar esto, Vercel usó simplemente un índice de documentación en el agents.md.
00:03:17Es básicamente una lista de las rutas de los archivos de documentación individuales dentro de tu sistema de archivos.
00:03:22La otra pieza clave fue añadir una instrucción que decía: «Prioriza el razonamiento basado en recuperación sobre el de preentrenamiento para cualquier tarea de Next.js».
00:03:31Personalmente, al leer esto, pensé que daría resultados similares a las skills, ya que el agente aún tiene que ir y recuperar el archivo para leer la documentación.
00:03:38Pero cuando lo probaron, los agentes sacaron un 100 % en todas las evaluaciones y puntuaciones perfectas en las pruebas de compilación, linting y tests.
00:03:47Por lo tanto, es significativamente más fiable y preciso que las skills. Es el clásico caso de ingeniería de software.
00:03:53Donde el enfoque más simple y «tonto» resulta ser el mejor, sin necesidad de complicar las cosas en exceso.
00:03:58¿Pero por qué ocurre esto? ¿Por qué el archivo de agentes es mejor que las skills? Es difícil saberlo con certeza.
00:04:03La IA es un poco como una caja negra, pero Vercel especula que se debe a tres factores, todos centrados en la toma de decisiones.
00:04:10Con el archivo de agentes, no hay un punto de decisión para el agente.
00:04:14Le decimos desde el principio en el system prompt que use la documentación y exactamente dónde está cada archivo.
00:04:20Esto convierte el conocimiento en un contexto persistente, en lugar de tenerlo bajo demanda y dejar que el modelo decida si usarlo o no.
00:04:27Ya está presente en su razonamiento porque lo proporcionamos en el system prompt.
00:04:31Pero esto no significa que las skills sean inútiles. De hecho, Vercel descubrió que se complementan entre sí.
00:04:36Dijeron que las skills funcionan mejor para flujos de trabajo explícitos activados por el usuario, como decir «actualiza mi versión de Next.js»,
00:04:41«migra al App Router» o «aplica mejores prácticas del framework».
00:04:45Pero si quieres ese conocimiento general del framework en tu agente de código,
00:04:48ese contexto pasivo del agents.md va a superar a las skills, especialmente con los modelos actuales.
00:04:54Seguro que en el futuro los modelos se optimizarán para ese flujo de recuperación basado en skills, pero aún no hemos llegado ahí.
00:04:59Por ahora, la recomendación de Vercel, especialmente para autores de frameworks o quienes escriban estos archivos,
00:05:06es no esperar a que las skills mejoren. Comprime tu contexto lo más posible.
00:05:10Diseña para la recuperación, no para la memoria. Y lo más importante: pruébalo todo siempre con evaluaciones.
00:05:16Y si solo eres un usuario de estos archivos, Vercel ofrece una herramienta para descargar la documentación
00:05:21y el archivo agents.md preconfigurado para tu versión específica de Next.js, para que puedas aprovechar este enfoque de inmediato.
00:05:29Tengo curiosidad por saber si otras herramientas adoptarán también este enfoque. Y también me interesa saber qué opinan ustedes.
00:05:34Díganme en los comentarios qué piensan de los agentes y las skills.
00:05:37Y de paso, suscríbanse. Como siempre, nos vemos en el próximo video.

Key Takeaway

El enfoque más simple de incluir documentación en el archivo agents.md supera ampliamente a las complejas skills bajo demanda para proporcionar contexto persistente y preciso a los agentes de IA.

Highlights

Vercel descubrió que el uso de «skills» (habilidades) para proporcionar contexto a agentes de IA es menos fiable que usar archivos de configuración estáticos.

En las pruebas de Vercel, el 56 % de las veces las skills nunca fueron invocadas por el agente, decidiendo este no utilizarlas.

Forzar el uso de skills mediante prompts genera fragilidad, ya que pequeños cambios en la redacción causan comportamientos inconsistentes.

El uso del archivo agents.md con un índice de documentación logró una tasa de éxito del 100 % en evaluaciones técnicas.

La superioridad de agents.md radica en que elimina la toma de decisiones del agente al incluir el contexto directamente en el system prompt.

Las skills siguen siendo útiles para flujos de trabajo explícitos activados por el usuario, como migraciones de versiones específicas.

La recomendación final es diseñar para la recuperación de información mediante contextos comprimidos y realizar evaluaciones constantes.

Timeline

Introducción y el problema de las skills

El video comienza cuestionando la eficacia de las skills como método principal para dar contexto adicional a los agentes de programación. Vercel realizó experimentos para determinar la mejor forma de entregar la documentación de Next.js a estos agentes, comparando métodos modernos con el uso del archivo agents.md. Las skills se definen como paquetes modulares de instrucciones y contextos basados en un estándar abierto de Anthropic que el agente carga según sea necesario. Sin embargo, este sistema depende enteramente de la decisión del agente, lo cual introduce una variable de incertidumbre en el proceso de desarrollo. Este preámbulo establece la base para analizar por qué un sistema que parece avanzado puede fallar en tareas críticas de ingeniería.

El fracaso de las skills en las evaluaciones

Durante las pruebas, Vercel observó que las skills no se activaban en el 56 % de los casos, lo que resultó en un rendimiento nulo o incluso negativo frente al modelo base. Al intentar mitigar esto forzando la activación mediante el prompt, se alcanzó un 95 % de uso, pero la solución resultó ser extremadamente frágil ante cambios mínimos en el lenguaje. Por ejemplo, exigir el uso de la skill a menudo provocaba que el agente ignorara el contexto general del proyecto, creando un conflicto de prioridades. La conclusión de Vercel fue que esta inestabilidad hace que las skills no sean aptas para entornos de producción donde la fiabilidad es clave. Esta sección subraya la dificultad de equilibrar la autonomía del modelo con instrucciones estrictas de recuperación de datos.

El éxito del archivo agents.md

Vercel probó entonces el archivo agents.md, un formato abierto similar al claude.md que se integra directamente en el system prompt del agente. Para evitar problemas de saturación de contexto, no incluyeron toda la documentación, sino un índice de rutas de archivos para facilitar la recuperación selectiva. Añadieron una instrucción específica que ordenaba al agente priorizar el razonamiento basado en recuperación sobre sus datos de preentrenamiento. Los resultados fueron sorprendentes, alcanzando un 100 % de éxito en compilación, linting y tests de evaluación. Este enfoque demuestra que la simplicidad técnica a menudo supera a las soluciones complejas cuando se trata de garantizar que el agente acceda a la información correcta.

Análisis de resultados y casos de uso

El análisis sugiere que agents.md triunfa porque elimina los puntos de decisión del agente, convirtiendo el conocimiento en un contexto persistente y no opcional. Aunque las skills parecen fallar como fuente de conocimiento general, el video aclara que siguen teniendo un lugar importante en la arquitectura de IA. Son especialmente efectivas para flujos de trabajo explícitos y manuales, como la migración de un App Router o la aplicación de mejores prácticas específicas solicitadas por el usuario. Actualmente, los modelos no están optimizados para la recuperación basada en skills para tareas pasivas de codificación, por lo que el contexto persistente sigue siendo el estándar de oro. Se enfatiza que entender cuándo usar cada herramienta es vital para cualquier desarrollador que trabaje con agentes de código.

Recomendaciones finales y recursos de Vercel

El video concluye con consejos prácticos para autores de frameworks y usuarios finales sobre cómo optimizar la interacción con agentes. La recomendación principal es comprimir el contexto lo máximo posible y diseñar pensando en la recuperación de archivos específicos en lugar de confiar en la memoria del modelo. Vercel facilita este proceso ofreciendo una herramienta que genera automáticamente el archivo agents.md preconfigurado y descarga la documentación para versiones específicas de Next.js. Se insta a los desarrolladores a no esperar mejoras futuras en la tecnología de skills y a adoptar hoy mismo métodos probados mediante evaluaciones rigurosas. Finalmente, el narrador invita a la comunidad a compartir sus experiencias y opiniones sobre el futuro de estas herramientas en el desarrollo de software.

Community Posts

View all posts