La nueva herramienta de Nvidia acaba de mejorar las habilidades de los agentes

AAI LABS
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Ahora mismo, las habilidades de los agentes de IA están por todas partes. Todos los agentes las ejecutan y tú confías en ellos sin
00:00:05ningún tipo de control. Pero aquí viene la parte aterradora: los investigadores estudiaron más de 30.000 de estas habilidades y más de
00:00:10una cuarta parte tenía una vulnerabilidad de seguridad. Así que NVIDIA creó una herramienta llamada Skill Spectre que
00:00:15escanea cualquier habilidad antes de que la instales y te dice exactamente lo peligrosa que es. Pero aquí es donde
00:00:20se pone interesante. Un tipo de ataque puede esquivarlo fácilmente y la configuración que realmente
00:00:24lo detecta está desactivada por defecto, así que la mayoría de la gente ni siquiera sabe que existe. Activarla normalmente
00:00:29cuesta dinero, pero encontramos una forma de evitarlo. Y al final, no solo escaneamos habilidades. Construimos todo
00:00:34un flujo de trabajo que cambia para siempre la forma en que las buscas y las instalas. Ahora, antes de entrar en el
00:00:39flujo completo, hagamos un breve recorrido por la herramienta y lo que necesitas para usarla. Estos son los comandos
00:00:44de instalación en el repositorio de GitHub. Puedes copiarlos y pasárselos a Claude Code, y básicamente
00:00:49instalará y configurará todo por ti. Claude Code instalará todas las dependencias que puedes
00:00:54ver aquí mismo. Y una vez hecho todo esto, puedes empezar a usar Skill Spectre. Dentro del repositorio de GitHub,
00:00:59hay una carpeta de pruebas y dentro tienen algunas habilidades peligrosas con las que puedes probarla para
00:01:04confirmar que la herramienta funciona. Así que las probamos con estas habilidades y con cada una de ellas, te recomienda no
00:01:09instalar. Cuanto más alta sea la puntuación, más peligrosa es la habilidad. Y en cada prueba, no solo te da
00:01:14un número. Te muestra el número de línea exacto, la ubicación exacta y el nombre del archivo donde está el conflicto,
00:01:19que es básicamente lo que aumentó la puntuación. Esta no es la única forma de usar la herramienta, tiene
00:01:24otro modo. Pero antes de entender por qué necesitamos ese segundo modo, debes saber dos cosas: cómo una habilidad
00:01:30te ataca y cómo esta herramienta realmente detecta ese ataque. Hay 14 categorías,
00:01:34pero para simplificar, las hemos agrupado en seis similares. La primera forma en que una habilidad puede atacarte
00:01:39es con instrucciones ocultas. Verás, una habilidad es solo un archivo de texto lleno de instrucciones y tu agente lee
00:01:45todo el archivo y lo trata como órdenes. El problema es que una habilidad maliciosa puede ocultar instrucciones adicionales allí que
00:01:50nunca verás, pero el agente sí. Las insertan dentro de comentarios, o usan caracteres invisibles,
00:01:55o codifican el texto en un código que te parece una tontería a ti, pero que la IA lee perfectamente.
00:02:01Así que el escáner está diseñado específicamente para detectar y encontrar estas instrucciones ocultas. La segunda
00:02:06forma es la suplantación de identidad. Tu agente tiene herramientas en las que confía y a las que recurre por su nombre. Digamos que hay una
00:02:12llamada “read” que lee un archivo para él. Entonces, una habilidad maliciosa le da a su propia herramienta exactamente ese mismo nombre,
00:02:17y tu agente elige la mala pensando que es la segura que ya conoce. Y la forma en que lo logran
00:02:22it off is sneaky. They swap one letter for a lookalike from another alphabet. So they name it "read",
00:02:27pero la “A” es en realidad una letra rusa que parece idéntica a la nuestra. Para ti y para tu agente en un
00:02:33es la misma palabra, pero debajo es una herramienta completamente diferente. Y el escáner detecta
00:02:38esto verificando la identidad real de cada carácter, así que detecta esa letra falsa y
00:02:43la marca. La tercera forma es cuando la habilidad simplemente miente sobre lo que hace. La descripción dice una cosa,
00:02:48pero el código hace otra. Se llama a sí misma un simple formateador y luego se conecta silenciosamente a
00:02:53internet en segundo plano. O dice que solo necesita permiso para leer tus archivos, pero el código está
00:02:58en realidad escribiendo archivos y ejecutando comandos también. Y esto es mucho más difícil de detectar. Aquí es donde entra
00:03:03ese segundo modo, pero llegaremos a eso más tarde. La cuarta forma es que la habilidad roba tus credenciales.
00:03:08Esto podrían ser tus claves API, tus contraseñas. Así que una habilidad revisa todas las claves guardadas en tu
00:03:13máquina, las recopila y las envía a algún servidor. La quinta forma es que la habilidad simplemente ejecuta
00:03:18malware directamente. Esto incluye cosas como una shell inversa, que básicamente le da a un extraño
00:03:23el control remoto de toda tu computadora. Y como este tipo de malware tiene huellas conocidas,
00:03:28el escáner simplemente compara el código con una gran biblioteca de esas huellas. Y la sexta forma es
00:03:32dependencias envenenadas. A menudo, una habilidad utilizará una herramienta CLI, básicamente un pequeño programa externo que ejecuta en
00:03:39la terminal para manejar parte de su trabajo. Y una habilidad maliciosa toma una pieza que es en realidad maliciosa.
00:03:44Quizás sea un paquete falso con un nombre que tiene un error tipográfico respecto a uno muy popular. Así que descargas el
00:03:49incorrecto y ejecuta malware como en el último tipo. Por eso, el escáner verifica cada paquete que la habilidad descarga
00:03:54contra una base de datos en vivo de los conocidos como maliciosos. Y marca los nombres falsos y esos comandos de descarga y ejecución
00:03:59para mantener tu sistema seguro. Así que en ese primer modo, simplemente compara patrones sin contexto,
00:04:05lo que significa que termina marcando cosas que están completamente bien. Y esos son los que llamamos falsos
00:04:09positivos. Ahí es donde entra el segundo modo, el escaneo de IA, y activarlo es simple. Solo tienes que
00:04:14soltar este flag “no LLM” y hace el segundo escaneo aquí. Pero si miras dentro del código, descubrirás
00:04:20que para ejecutar una verificación de IA en una habilidad, necesitas conectar una clave de OpenAI. Así que, para evitar ese costo,
00:04:26usamos el propio Claude Code para ejecutar esa verificación de IA. Ahora, el agente principal en Claude Code no realmente
00:04:32lo hace él mismo. Usamos el modo “headless” (sin cabeza) de Claude, que es básicamente Claude Code ejecutándose en segundo plano
00:04:38sin ventana de chat, simplemente ejecutando comandos por su cuenta. Y estamos seguros de que la mayoría de ustedes sabe que no es gratis,
00:04:43pero obtienes créditos mensuales con tus planes de Anthropic. Y simplemente puedes pedirle a Claude Code
00:04:48que haga el cambio del que acabamos de hablar y lo hará por ti. Por supuesto, podrías encontrar algún error que otro,
00:04:52pero es solo un prompt de una línea que Claude puede configurar por ti. Y si te está gustando el video hasta ahora,
00:04:57suscríbete al canal y presiona el botón de “hype”. Este pequeño gesto de apoyo significa mucho para nosotros.
00:05:03También tienen habilidades peligrosas en su carpeta de pruebas que realmente necesitan la verificación de IA. Cuando
00:05:07ejecutas la verificación “no LLM” en una de ellas, la puntuación sale como cero, lo que significa que es perfectamente segura.
00:05:12Pero en el segundo en que la ejecutas con la verificación de IA, la puntuación salta a 100, te dice que no la instales,
00:05:17y te explica exactamente por qué. Pero, ¿qué pasa si en lugar de solo detectar los problemas en una habilidad,
00:05:22el escáner también te ayudara a solucionarlos? Exactamente por eso convertimos el escáner en una habilidad. Y
00:05:27quizás te preguntes, ¿por qué se llama “Discover Skills”? Bueno, porque no solo hicimos una
00:05:31habilidad separada. Creamos todo un proceso que nos ayuda a descubrir más habilidades y asegurarnos de que sean seguras
00:05:36antes de instalarlas. Hemos estado usando “skills.sh” para encontrar nuevas habilidades durante un tiempo. Es básicamente un
00:05:42repositorio git creado específicamente para habilidades. Una gran biblioteca compartida de la que puedes extraer. Y creemos que
00:05:47lanzaron una actualización de CLI recientemente. Así que ahora Claude puede ejecutar consultas de búsqueda directamente a través de la línea de comandos
00:05:53y obtener las mejores habilidades que necesita antes de instalar nada. Y queríamos que nuestro escáner
00:05:57se ejecutara sobre eso. Así que aquí, tenemos “scan.sh”, que es el script que realmente ejecuta
00:06:02Skill Spectre. Como Skill Spectre es una herramienta CLI, tiene que ejecutarse como un comando. Así que creamos todo un
00:06:08script e incorporamos la solución del modo “headless” de Claude directamente en él. Por defecto, ejecuta la verificación
00:06:13normal, pero si quieres, ejecutará la verificación de IA también. Y si abres “skill.md”, puedes ver los pasos básicos
00:06:19expuestos. Identifica el objetivo, luego lo escanea y muestra los hallazgos. Una vez que sabe
00:06:24cuáles son los problemas, procede a solucionarlos y luego ejecuta todo el ciclo nuevamente para asegurarse
00:06:28de que todo esté limpio. Por ejemplo, esta carpeta que te estamos mostrando ahora mismo es nuestra carpeta de diseño de AI Labs.
00:06:34Es básicamente todo nuestro proceso de diseño comprimido en una carpeta con un montón de habilidades
00:06:39dentro. Tenemos todo un video sobre esto. Y además, todo el sistema está disponible en AI Labs
00:06:44Pro, que es nuestra comunidad. Así que si quieres apoyar al canal y obtener todo este sistema de diseño,
00:06:49échale un vistazo. Y esta habilidad de descubrimiento también se subirá allí. El enlace estará en
00:06:54en la descripción, pero estamos construyendo sobre esto aquí. Así que estamos añadiendo una nueva habilidad make design.md,
00:06:59que establece la forma más rápida de extraer tokens de diseño de una aplicación que ya has construido, básicamente los
00:07:04colores, fuentes y reglas de espaciado, y combinarlos en un archivo “design.md”. Aquí queríamos crear
00:07:10el archivo “design.md”. Así que le dijimos que queríamos mejorarlo y que debería ir a buscar otras
00:07:15herramientas. Usó “skills.sh”, luego cargamos la habilidad de descubrimiento y eso devolvió un
00:07:21puñado de habilidades. Estas son las habilidades que trajo y las dos primeras parecían interesantes. Así que queríamos
00:07:26Le pedimos que instalara y probara ambos. Y tal como indica el flujo de descubrimiento de habilidades,
00:07:31dice, no instalará ninguna habilidad sin escanearla primero. Así que las instaló y las leyó
00:07:36y nos dijo directamente que ninguna ayudaría con la habilidad “make design.md”. Pero desde un
00:07:41punto de vista de seguridad, la primera obtuvo una puntuación de 10, lo que significa que era segura, y la segunda obtuvo un
00:07:46100, lo que significaba no instalarla. Así que le dijimos que ejecutara la verificación de IA en esa segunda habilidad. La ejecutó de nuevo
00:07:52a través del modo “headless” de Claude y esta vez la puntuación volvió a ser cero. Esto significa que la habilidad
00:07:56era segura de usar. Y ese es el punto de todo este sistema. No estás simplemente tomando habilidades a ciegas de
00:08:01internet. Tienes todo un proceso que puedes iniciar simplemente usando una habilidad. Ahora vamos a tener una
00:08:06palabra de nuestro patrocinador. Nimblist. Si usas Claude Code o Codex, conoces el problema. Tienes múltiples
00:08:12sesiones ejecutándose, archivos cambiando en todas partes, y estás cambiando constantemente entre terminal, navegador,
00:08:17y editor solo para hacer un seguimiento de lo que hacen tus agentes. Nimblist es un espacio de trabajo visual de código abierto
00:08:23que pone todo en un solo lugar. Tenía tres agentes trabajando en diferentes partes de un proyecto al
00:08:28mismo tiempo y, en lugar de saltar entre ventanas, podía verlos todos en un tablero Kanban, entrar en
00:08:33cualquier sesión, revisar cambios de código como diferencias en rojo y verde, y aprobarlos o rechazarlos individualmente. Estaba
00:08:38editando documentos markdown, maquetas de interfaz de usuario y diagramas de arquitectura visualmente junto a mi agente. Cuando terminaba,
00:08:45no tenía que limpiar las confirmaciones (“commits”) manualmente porque generaba mensajes de confirmación de git automáticamente
00:08:50basados en lo que cambió. Las tareas permanecían conectadas a las sesiones reales e incluso hay una aplicación móvil para
00:08:56continuar la sesión mientras estás lejos de tu escritorio. Nimblist es completamente gratuito y de código abierto
00:09:00y puedes echarle un vistazo usando el enlace en el comentario fijado. Eso nos lleva al final de este
00:09:05video. Si te gustaría apoyar al canal y ayudarnos a seguir haciendo videos como este, puedes hacerlo
00:09:10usando el botón de “super thanks” de abajo. Como siempre, gracias por ver y nos vemos en el próximo.

Key Takeaway

La implementación de Skill Spectre en el flujo de trabajo de instalación de agentes de IA garantiza la seguridad mediante el escaneo automatizado y la verificación de contexto por IA, eliminando la confianza ciega en archivos de habilidades externos.

Highlights

  • Más del 25% de las 30.000 habilidades de IA analizadas presentan vulnerabilidades de seguridad.

  • La herramienta Skill Spectre escanea habilidades de agentes de IA para detectar riesgos antes de la instalación.

  • Skill Spectre identifica seis categorías de ataques, incluyendo instrucciones ocultas, suplantación de identidad y ejecución de malware.

  • La configuración avanzada de escaneo basada en IA es capaz de reducir los falsos positivos mediante la evaluación de contexto.

  • La integración de Skill Spectre con Claude Code en modo “headless” permite automatizar la verificación de seguridad sin ventanas de chat activas.

Timeline

Vulnerabilidades en agentes de IA

  • Un análisis de más de 30.000 habilidades de IA reveló que una cuarta parte contiene vulnerabilidades.
  • Skill Spectre permite escanear archivos antes de su instalación para evaluar niveles de peligrosidad.
  • La herramienta proporciona ubicaciones exactas de conflictos en el código para facilitar la identificación de amenazas.

Las habilidades instaladas en agentes de IA operan frecuentemente sin controles de seguridad adecuados. Skill Spectre aborda esta carencia permitiendo a los usuarios analizar archivos de forma local. Al detectar un riesgo, el sistema muestra el nombre del archivo, la línea y la ubicación específica donde reside el código peligroso, asignando una puntuación basada en la severidad del hallazgo.

Categorías de amenazas y detección

  • Las habilidades maliciosas emplean instrucciones ocultas en comentarios o caracteres invisibles para manipular a la IA.
  • La suplantación de identidad ocurre cuando herramientas maliciosas usan nombres idénticos a funciones legítimas mediante caracteres especiales de otros alfabetos.
  • El escáner verifica la identidad real de cada carácter y compara el código contra bases de datos de malware conocido.

Las amenazas se agrupan en seis categorías principales: instrucciones ocultas, suplantación, falsedad en la descripción, robo de credenciales, ejecución directa de malware y dependencias envenenadas. El escáner detecta estas tácticas mediante el análisis de patrones y la verificación de identidades de caracteres. Este proceso protege al sistema de ataques como shells inversas o la descarga de paquetes falsos con nombres similares a herramientas populares.

Escaneo avanzado con IA y automatización

  • La activación del modo de escaneo IA reduce los falsos positivos mediante el análisis contextual del código.
  • El uso del modo 'headless' de Claude Code permite ejecutar la verificación de seguridad automáticamente en segundo plano.
  • La integración del flujo de descubrimiento de habilidades asegura que solo el código validado sea instalado en el entorno de desarrollo.

Aunque el modo de escaneo inicial compara patrones sin contexto, el modo IA profundiza en el comportamiento lógico de la habilidad. Para evitar costos adicionales, este proceso se ejecuta a través de Claude Code en segundo plano. Este flujo de trabajo, implementado en herramientas como 'skills.sh', asegura que cualquier hallazgo nuevo sea escaneado, depurado y verificado antes de su uso, integrando la seguridad de forma nativa en el proceso de desarrollo.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video