El mayor problema de la programación con IA finalmente resuelto

AAI LABS
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00La IA ha hecho que la programación sea accesible para todos y la gente ha empezado a lanzar código a un ritmo mucho
00:00:04más rápido.
00:00:05Pero a un ritmo aún más rápido, los problemas de seguridad dentro de esas aplicaciones empezaron a acumularse.
00:00:09Y en los últimos meses, las cosas han empeorado.
00:00:12Ha habido muchos casos en los que un agente borró el proyecto entero de alguien.
00:00:16Otro agente borró una base de datos de producción completa mientras el desarrollador trabajaba en
00:00:20algo completamente ajeno.
00:00:22Y ha habido muchos problemas similares, como la filtración del archivo interno Clod.md de Apple.
00:00:26Así que las herramientas que realmente pueden detectar estos problemas importan más ahora que antes.
00:00:30Viendo este aumento de problemas, Vercel acaba de lanzar un arnés de seguridad para detectar brechas en aplicaciones
00:00:35generadas por IA llamado DeepSec.
00:00:37Ahora podrías pensar que el código de Claude ya puede hacer revisiones de seguridad por su cuenta con sus agentes.
00:00:42Entonces, ¿por qué necesitarías DeepSec en primer lugar?
00:00:44Es porque DeepSec es una herramienta estructurada que maneja las revisiones de forma mucho más sistemática.
00:00:49Bajo el capó, utiliza agentes de codificación como Claude Code y Codex.
00:00:52La herramienta está diseñada para escanear grandes repositorios porque admite un diseño paralelo que
00:00:57acelera el flujo de trabajo y agrupa el código en múltiples grupos, lo que la hace perfecta para
00:01:01revisar grandes bases de código.
00:01:03Ahora bien, esto no se ha construido pensando en la rentabilidad.
00:01:06Están utilizando los modelos más potentes de Claude Code y Codex, que son Opus 4.7 en
00:01:10esfuerzo máximo y GPT 5.5 en razonamiento extra alto, los cuales consumen muchos tokens.
00:01:16Y al ejecutarse en paralelo, el uso de tokens se acumula rápidamente, aumentando el coste.
00:01:20Varias aplicaciones conocidas ya han ejecutado este arnés en sus bases de código y han reportado buenos resultados.
00:01:25En las pruebas que realizaron, la tasa de falsos positivos de esta herramienta es de aproximadamente el 10-20%.
00:01:30Este número es significativo teniendo en cuenta cómo suele ser la precisión de los LLM.
00:01:33Por el contrario, esto significa que el agente acierta la mayoría de las veces y sus verdaderos positivos son
00:01:37altos.
00:01:38La arquitectura que hay detrás es lo que lo hace diferente.
00:01:40Si le pides a Claude Code o a cualquier agente una revisión de seguridad, empezará escaneando directamente
00:01:45la base de código y luego producirá un informe completo de revisión.
00:01:48Eso no solo lleva mucho tiempo, sino que también consume muchos tokens y la revisión
00:01:52podría seguir pasando cosas por alto.
00:01:53Así que la primera parte de este flujo de trabajo es el escaneo, realizando un escaneo solo con RegEx de todos los archivos en busca
00:01:58de áreas sensibles de seguridad en las que se centrarán los pasos posteriores.
00:02:01La detección por RegEx es importante aquí porque la herramienta está diseñada para bases de código grandes donde
00:02:06fácilmente puede haber miles de archivos.
00:02:08El emparejamiento por RegEx es una serie de patrones de código que coinciden con áreas conocidas que probablemente tengan
00:02:13vulnerabilidades de seguridad y luego filtran esos archivos del grupo principal.
00:02:16Una vez filtrado el gran grupo de archivos, el siguiente paso es la investigación mediante el agente.
00:02:21El agente es la parte cara que consume muchos tokens y que normalmente lleva mucho
00:02:25tiempo dependiendo de lo grande que sea realmente tu base de código.
00:02:28Por eso, esta herramienta divide todos los archivos en lotes y los paraleliza para que puedan ser procesados
00:02:32al mismo tiempo.
00:02:34Una vez terminado ese proceso, hay otro paso de revalidación donde se comprueba de nuevo la investigación
00:02:37para cotejar los falsos positivos.
00:02:40En caso de que se haya pasado algo por alto, lo detecta y garantiza que la clasificación se haya realizado
00:02:45correctamente.
00:02:46Esta revalidación es en realidad opcional.
00:02:47Después de eso, el agente utiliza metadatos de Git y otras fuentes para identificar qué personas son
00:02:51responsables de cada problema.
00:02:53Una vez hecho todo esto, los hallazgos se almacenan como markdown o JSON para que puedan
00:02:57convertirse en tickets tanto para humanos como para agentes de codificación.
00:03:01Ahora, como se mencionó antes, los archivos se agrupan en lotes con unos 5 archivos procesados
00:03:05juntos por lote.
00:03:06Para cada lote, se ensambla un nuevo prompt basado en el framework identificado junto con
00:03:11otra información del proyecto.
00:03:12Estos son analizados por el SDK de Claude Agent o el SDK de Codex Agent, según el que hayas configurado,
00:03:17y se les dan herramientas con acceso de solo lectura para entender qué contiene la base de código.
00:03:22Una vez que tienen los hallazgos, todo se fusiona en un único archivo que se de-duplica
00:03:26y se normaliza.
00:03:27Al final, hay un paso de seguimiento para asegurarse de que el análisis realmente lo ha cubierto todo.
00:03:31Esta arquitectura lo hace eficaz por su proceso sistemático y su método de análisis estructurado,
00:03:36y ayuda a identificar problemas mucho mejor de lo que podría hacerlo sin el arnés.
00:03:41Para probar esto, usamos un proyecto de código abierto que es una aplicación web que contiene
00:03:45riesgos de seguridad integrados solo para practicar.
00:03:47Queríamos ver si esta herramienta era capaz de detectar todos los problemas en este repositorio por sí sola.
00:03:52por sí sola.
00:03:53Este proyecto contiene 10 problemas de seguridad con todos los detalles disponibles directamente en el código,
00:03:56incluyendo cómo eliminarlos.
00:03:58Para ejecutar DeepSec, primero ejecutas el comando deepsec init, que instala las dependencias
00:04:03y crea una carpeta .deepsec, y luego instalas las dependencias dentro de esa carpeta.
00:04:08También te da un prompt que debes pegar en cualquier agente de codificación que utilices.
00:04:12Como estábamos usando Claude Code, ejecutamos ese prompt en Claude, que contiene las instrucciones
00:04:16para crear un pequeño archivo info.md que incluya toda la información del proyecto y esté basado
00:04:21en una plantilla específica.
00:04:23No tienes que ejecutar este comando en la carpeta del proyecto en sí, lo ejecutas en la carpeta .deepsec
00:04:27porque le indica al agente que mire en el directorio anterior y lea toda la
00:04:31información que contiene.
00:04:32El archivo info.md contiene una visión general de lo que hace la base de código y cómo es el flujo de
00:04:37autenticación, así como los modelos de amenaza, patrones específicos del proyecto y todos los
00:04:42falsos positivos conocidos dentro del código.
00:04:44Una vez creado este archivo, la siguiente tarea es ejecutar el comando deepsec scan.
00:04:48Este comando es el comparador de RegEx del que hablamos antes y encuentra todos los puntos de conexión
00:04:52coincidentes y enumera todos los archivos filtrados que contienen posibles problemas de seguridad.
00:04:57Esta parte ocurre rápido porque es solo código trabajando en acción.
00:05:00El siguiente paso es ejecutar el comando deepsec process.
00:05:02Puedes especificar cualquier clave API del modelo que quieras usar, ya sea la pasarela API de Vercel,
00:05:07Codex o Claude dentro del archivo .env.local.
00:05:11Pero si no lo haces, como hicimos nosotros, se predetermina automáticamente a la suscripción de Claude Code
00:05:16y utiliza tu autenticación en lugar de requerir ninguna clave API.
00:05:19Divide el proyecto en lotes y llama a múltiples herramientas en cada uno.
00:05:23Después de cada lote, da un resumen de cuántos tokens se usaron y cuál fue el coste
00:05:27estimado.
00:05:28Ahora, si estás usando una suscripción, no te cobrará nada más allá de tu suscripción,
00:05:32pero aun así proporciona una estimación de los costes de la API.
00:05:35Al estar diseñado para revisiones de grandes bases de código, tiene en cuenta la fiabilidad.
00:05:39Por eso, en caso de que haya errores durante la revisión, no reinicia todo desde
00:05:43cero, sino que continúa desde el punto en que se produjo el error.
00:05:46Una vez completado el escaneo, ejecutas el comando deepsec report y este genera un informe
00:05:50en formato JSON y Markdown con una visión general de todos los hallazgos clasificados
00:05:55por nivel de gravedad.
00:05:56Una vez generado este informe, puedes ejecutar el paso de revalidación.
00:06:00Este paso es totalmente opcional.
00:06:02Puedes ejecutarlo si quieres o saltártelo por completo.
00:06:04Una vez ejecutado, valida los hallazgos para comprobar si los informes son falsos positivos
00:06:08o no.
00:06:09Después de hacer eso, puedes exportar todo usando el comando export y este escribirá
00:06:13los hallazgos en la carpeta findings.
00:06:15Esta carpeta de hallazgos contiene los problemas ordenados por prioridad como nombres de carpeta y crea un
00:06:20archivo por cada problema identificado.
00:06:22Primero enumera la fuente del problema, es decir, el archivo exacto y las líneas que lo causan,
00:06:26qué tan grave es el problema y qué tan seguro estaba el modelo al identificarlo.
00:06:30También menciona qué commit introdujo el problema y asigna al usuario que lo realizó.
00:06:34Luego explica la corrección recomendada, enumera los resultados de la revalidación y menciona todos
00:06:39los problemas que se abordaron explícitamente.
00:06:41También incluye los pasos para reproducir los errores dentro de los hallazgos.
00:06:44Pero este informe seguía sin identificar todos los problemas, a pesar de que el tutorial estaba
00:06:48realmente dentro del código y debería haber sido capaz de identificarlos.
00:06:52Así que iteramos con Claude sobre por qué las lecciones de vulnerabilidad originales diseñadas
00:06:56en la aplicación no fueron identificadas.
00:06:59Al iterar con Claude, descubrimos que la razón por la que esta herramienta solo reportó 3 hallazgos fue
00:07:03debido a una mención explícita en el archivo info.md.
00:07:07DeepSec esperaba una aplicación donde las 10 vulnerabilidades ya se conocen y solo se centró en problemas
00:07:12ajenos a ellas porque ya se conocían, lo que significa que en realidad intentaba ir más allá
00:07:16de lo que ya se sabía y centrarse solo en otros patrones para que el escaneo fuera mucho más
00:07:21efectivo y no perdiera tiempo y tokens en problemas que ya están documentados.
00:07:25Luego probamos otra aplicación para ver si esta vez lo hacía mejor.
00:07:28Seguimos los mismos pasos, desde el escaneo hasta la fase de procesamiento.
00:07:32No ejecutamos la parte de revalidación, solo creamos el informe y lo exportamos directamente.
00:07:36Y esta vez el archivo info.md de Claude solo contenía detalles sobre la aplicación y no incluía afirmaciones
00:07:42como el anterior.
00:07:43Paralelamente, también le pedimos a Claude que revisara el código y escribiera un archivo report.md con una
00:07:48revisión de seguridad completa para poder comparar cuál de los dos funcionaba mejor.
00:07:52Así, el informe creado por DeepSec encontró múltiples errores con diferentes niveles de gravedad.
00:07:56Encontró 9 problemas y creó un informe detallado junto con los pasos recomendados sobre cómo solucionarlos.
00:08:01los.
00:08:02Y estos pasos recomendados son los que la mayoría de los demás informes pasan por alto porque es lo que ayuda
00:08:05al agente a entender cómo solucionar el problema, lo que facilita mucho la depuración.
00:08:09Pero notamos que el informe de Claude era mucho más detallado y destacaba 39 problemas.
00:08:13Así que le pedimos que creara primero un diff.
00:08:15El diff mostró que el número de Claude era mayor.
00:08:18Pero esto ya lo habíamos visto durante nuestras pruebas con Codex.
00:08:20Claude tiende a identificar otros problemas además del alcance durante el proceso.
00:08:24No se centra únicamente en los problemas delimitados para los que DeepSec fue diseñado específicamente.
00:08:29Así que, una vez que le pedimos que se centrara solo en el alcance, redujo los hallazgos a 13 problemas.
00:08:34Pero todavía había algunos problemas que DeepSec pasó por alto y que sí se identificaron en el informe de Claude.
00:08:38La razón por la que DeepSec omitió algunos hallazgos es porque se centra solo en problemas que el
00:08:43código contiene directamente y que pueden resolverse directamente desde las propias funciones.
00:08:47No identifica problemas que puedan surgir cuando la aplicación se ejecuta realmente, como problemas
00:08:52relacionados con CORS.
00:08:53Tampoco se centra realmente en patrones lógicos ni en decisiones arquitectónicas.
00:08:57Como mencionamos anteriormente, utiliza RegEx para filtrar primero los archivos.
00:09:01Por lo tanto, se centra principalmente en lo que está explícitamente presente en el código y no en problemas que
00:09:05pueden ocurrir dinámicamente cuando la aplicación está en funcionamiento.
00:09:08Además, si estás disfrutando de nuestro contenido, considera pulsar el botón de hype porque nos ayuda a
00:09:12crear más contenido como este y llegar a más gente.
00:09:15Ahora, en lugar de ejecutar estos pasos uno por uno por nuestra cuenta, hemos creado esta habilidad de DeepSec
00:09:20que contiene todas las instrucciones sobre cómo usar el escáner de seguridad de Vercel de principio a fin
00:09:24y cómo debe identificar a partir del prompt del usuario lo que se está pidiendo.
00:09:28Luego sigue todo el proceso paso a paso y gestiona todo el arnés por su cuenta.
00:09:32También viene con múltiples activos, evaluaciones y referencias para todos los problemas, junto con
00:09:37múltiples scripts que podrían ayudar con la solución de trabajo y el funcionamiento general
00:09:42de este repositorio.
00:09:43Con esto en marcha, puedes simplemente ejecutar este escaneo de seguridad y especificar qué modelo quieres
00:09:47usar y él se encargará directamente de todo por ti.
00:09:50Realizará todos los pasos que vimos antes, además de abordar los problemas que se pasaron por alto
00:09:54anteriormente y podrá realizar una revisión de seguridad mucho mejor combinando las capacidades de DeepSec
00:09:59mientras cubre los huecos en sus hallazgos.
00:10:02Esta habilidad junto con todos los recursos se pueden encontrar en AI Labs Pro para este vídeo y
00:10:07para todos nuestros vídeos anteriores, desde donde puedes descargarla y usarla para tus propios proyectos.
00:10:11Si has encontrado valor en lo que hacemos y quieres apoyar al canal, esta es la mejor manera
00:10:15de hacerlo.
00:10:16El enlace está en la descripción.
00:10:17Con esto llegamos al final de este vídeo.
00:10:19Si quieres apoyar al canal y ayudarnos a seguir haciendo vídeos como este, puedes
00:10:23hacerlo usando el botón de súper gracias que hay debajo.
00:10:25Como siempre, gracias por vernos y nos vemos en el próximo.

Key Takeaway

DeepSec resuelve las fallas de seguridad en el código generado por IA mediante un arnés sistemático que combina filtrado por RegEx, procesamiento paralelo con modelos de razonamiento avanzado y revalidación de hallazgos para minimizar errores humanos y técnicos.

Highlights

  • DeepSec reduce la tasa de falsos positivos en revisiones de seguridad de código IA a un rango del 10-20%.

  • El sistema utiliza un escaneo inicial basado en RegEx para filtrar archivos sensibles antes de emplear modelos costosos como Claude 4.7 Opus o GPT 5.5.

  • La arquitectura permite el procesamiento paralelo de archivos en lotes de cinco para acelerar el análisis de repositorios con miles de archivos.

  • El flujo de trabajo incluye un paso de revalidación opcional para cotejar hallazgos y garantizar la precisión de la clasificación.

  • Los informes finales se generan en formatos JSON y Markdown, asignando responsabilidades específicas mediante metadatos de Git.

  • DeepSec se integra directamente con Claude Code a través del comando 'deepsec init' sin necesidad de claves API externas en la configuración predeterminada.

Timeline

Crisis de seguridad en el desarrollo asistido por IA

  • El aumento en la velocidad de programación con IA ha provocado una acumulación crítica de vulnerabilidades.
  • Agentes autónomos han borrado proyectos íntegros y bases de datos de producción por falta de supervisión estructurada.
  • Incidentes reales incluyen la filtración de archivos internos confidenciales como el documento Clod.md de Apple.

La accesibilidad de la programación mediante IA genera riesgos operativos inmediatos cuando los agentes operan sin restricciones. Se han documentado casos donde la ejecución de código automatizado destruye entornos de producción activos. Estas brechas demuestran que las herramientas de revisión actuales son insuficientes ante el ritmo de generación de código actual.

Arquitectura y metodología de DeepSec

  • DeepSec funciona como un arnés de seguridad sistemático que utiliza agentes como Claude Code y Codex bajo un diseño paralelo.
  • El sistema prioriza la precisión sobre el coste empleando Claude 4.7 Opus y GPT 5.5 en modos de razonamiento máximo.
  • La herramienta registra una tasa de verdaderos positivos significativamente alta comparada con los estándares habituales de los LLM.

A diferencia de una revisión lineal de un agente estándar, DeepSec organiza el código en grupos múltiples para optimizar el escaneo de grandes repositorios. El uso de los modelos más potentes del mercado garantiza una detección profunda, aunque esto implique un alto consumo de tokens. Esta estructura permite manejar bases de código que superan las capacidades de memoria de un chat convencional.

El flujo de trabajo técnico de cuatro fases

  • El filtrado por patrones RegEx identifica áreas vulnerables para evitar el escaneo innecesario de miles de archivos.
  • El procesamiento paralelo divide los archivos filtrados en lotes para reducir el tiempo total de ejecución.
  • La fase de revalidación actúa como un filtro secundario para descartar falsos positivos detectados en la fase inicial.
  • Los hallazgos se normalizan y de-duplican en un informe final compatible con sistemas de tickets para humanos y agentes.

El proceso comienza con una búsqueda rápida de patrones conocidos para centrar los recursos de IA solo donde hay riesgo real. Los agentes de codificación reciben herramientas de solo lectura para analizar cada lote de cinco archivos con prompts específicos según el framework detectado. Al finalizar, la integración con Git permite identificar exactamente qué desarrollador o commit introdujo cada vulnerabilidad.

Implementación práctica y configuración de comandos

  • El comando 'deepsec init' crea un entorno local y genera un archivo de información del proyecto llamado info.md.
  • La ejecución de 'deepsec scan' realiza el emparejamiento de patrones a alta velocidad mediante código nativo.
  • El procesamiento continúa desde el último punto de error en caso de fallos de red o API para asegurar la fiabilidad.
  • El comando 'deepsec report' clasifica las vulnerabilidades según su nivel de gravedad y confianza del modelo.

La configuración requiere inicializar una carpeta oculta que contiene las plantillas para el agente de IA. El archivo info.md es crucial porque describe el flujo de autenticación, modelos de amenaza y patrones específicos para que la IA no pierda tiempo en problemas ya documentados. El sistema estima el coste de la API tras cada lote, permitiendo un control financiero del proceso de revisión.

Análisis de resultados y limitaciones del sistema

  • Los informes detallan la ubicación exacta del error, la gravedad y los pasos específicos para la reproducción y corrección.
  • DeepSec se enfoca exclusivamente en vulnerabilidades estáticas presentes directamente en las funciones del código.
  • El sistema no detecta problemas dinámicos de ejecución como configuraciones de CORS o debilidades en la arquitectura lógica.
  • La integración de habilidades personalizadas permite combinar el rigor de DeepSec con el detalle de revisiones manuales de Claude.

En pruebas con aplicaciones vulnerables, DeepSec identificó problemas críticos con alta precisión, pero omitió fallos lógicos que no aparecen explícitamente en el código estático. Claude tiende a ser más detallado pero menos enfocado, identificando hasta 39 problemas frente a los 9 específicos de DeepSec. La solución óptima reside en utilizar el arnés sistemático para la base del reporte y complementar con agentes para cubrir huecos dinámicos.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video