Los agentes de IA son aleatorios... Esta solución los hace deterministas (Archon)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업가전제품/카메라AI/미래기술

Transcript

00:00:00Los agentes de IA se están volviendo increíblemente potentes, pero siguen siendo caóticos.
00:00:04Les damos exactamente la misma tarea y obtenemos código, calidad y
00:00:09decisiones totalmente diferentes cada vez.
00:00:12Esa es un poco la realidad de trabajar con agentes.
00:00:15Resulta que no tiene por qué ser así.
00:00:17Esto es Archon, y ahora puede ejecutar múltiples agentes en paralelo sin conflictos de fusión
00:00:22y con resultados consistentes.
00:00:24Te mostraré exactamente cómo configurarlo y cómo funciona en los próximos minutos.
00:00:30Ahora, usando Claude code, Cursor o Codex, sabemos que la primera ejecución se ve genial.
00:00:39La segunda ejecución podría tener un plan completamente distinto.
00:00:42El contexto puede desviarse.
00:00:44El agente cambia de rumbo a mitad del camino.
00:00:47Luego intentas escalarlo.
00:00:49Dos agentes, quizá tres agentes, cuatro agentes.
00:00:51Ahora tu repositorio es un desastre total.
00:00:54Y aquí está el verdadero problema.
00:00:55Realmente ya no estás ahorrando tiempo.
00:00:57Estás volviendo a ejecutar prompts.
00:00:58Estás arreglando código roto, esperando que esta ejecución no lo rompa todo.
00:01:02Y si estás construyendo algo, esto simplemente aniquila nuestra velocidad.
00:01:06Archon soluciona esto con algo llamado ingeniería de arnés (harness engineering).
00:01:10En lugar de esperar que el agente se porte bien, tú defines el proceso.
00:01:14Planificación, codificación, pruebas, revisión, todo en YAML.
00:01:18Y las habilidades del agente son paquetes de instrucciones reutilizables que carga automáticamente.
00:01:23Así que en lugar de adivinar qué hacer, tu agente sigue un sistema.
00:01:28Si te gustan las herramientas de código que aceleran tu flujo de trabajo, suscríbete.
00:01:32Publicamos videos todo el tiempo.
00:01:34Muy bien, ahora déjame mostrarte.
00:01:36Esto se ejecuta localmente en mi M4 Pro, sin nube.
00:01:40Puedo ingresar “archon serve”.
00:01:43Eso abre esta interfaz de usuario.
00:01:45Instalaré la habilidad Archon en este repositorio con Claude.
00:01:49Ahora ejecuto un flujo de trabajo simple para solucionar este problema.
00:01:54Mira esta parte ahora.
00:01:55El agente encuentra la habilidad por sí solo, carga el flujo de trabajo y lo ejecuta paso a paso.
00:02:02Puedes verlo aquí en la terminal o por acá en la interfaz.
00:02:04Se ve mucho mejor.
00:02:05Aquí no hay ajustes de prompts.
00:02:07Incluso cuando falla, tienes total transparencia en la interfaz.
00:02:11Puedes ver exactamente qué paso falló y arreglar el flujo de trabajo.
00:02:15Esto es mucho mejor que Claude code puro donde solo obtienes un historial de chat confuso.
00:02:20Esta parte es clave.
00:02:21También corre en su propio árbol de trabajo de Git, así que nunca toca la rama principal.
00:02:26Va procesando los prompts y aquí puedes ver que lo genera.
00:02:29Listo, un PR limpio, misma estructura, mismo resultado.
00:02:33Podemos ver logs, el proceso de los prompts y toda la salida.
00:02:38Así es como se ve la consistencia.
00:02:40Entonces, ¿qué ha cambiado realmente aquí?
00:02:42Bueno, tres cosas han cambiado al usar Archon.
00:02:45Primero, los flujos de trabajo.
00:02:47Archon utiliza DAGs en YAML.
00:02:50Piénsalo como una lista de verificación que el agente debe seguir.
00:02:53Algunos pasos usan IA, claro.
00:02:56Otros pasos son fijos.
00:02:58Esa mezcla es lo que lo hace más confiable.
00:03:00Luego tenemos el aislamiento.
00:03:01Cada ejecución ocurre en un árbol de trabajo de Git separado, por lo que no se sobrescriben.
00:03:06Por eso no hay conflictos de fusión.
00:03:08Y las habilidades: en lugar de saturar prompts cada vez, el agente carga el contexto automáticamente.
00:03:14Así que, comparado con agentes puros, eliminas toda esta aleatoriedad.
00:03:19Comparado con herramientas como, digamos, LangChain.
00:03:22LangChain es genial, pero Archon está diseñado para código, no para bots generales.
00:03:27Y comparado con scripts, esto es reutilizable.
00:03:30Tiene versiones.
00:03:31Es detectable.
00:03:32El agente ya no está adivinando.
00:03:34Tenemos todo este flujo de trabajo por el que pasa.
00:03:36Está siguiendo este sistema real.
00:03:38Ahora podemos ejecutar múltiples agentes a la vez sin preocuparnos por romper el repo.
00:03:42Puedes generar PRs que se ven iguales cada vez.
00:03:45Y lo más importante, dejas de perder conocimiento en el historial del chat.
00:03:49Tu proceso vive en flujos de trabajo ahora, lo que significa que cada ejecución es más consistente.
00:03:55Con esto.
00:03:56PRs limpios, resultados más predecibles.
00:03:58A misma entrada, misma salida.
00:04:00Esa es la parte que les faltaba a los agentes.
00:04:02Ahora, esto no es perfecto, ¿verdad?
00:04:04¿Pero qué tiene de bueno?
00:04:05Es de código abierto, corre genial localmente, especialmente en chips M, ¿verdad?
00:04:10Hay algunos que tienen una configuración de VPS.
00:04:13Aquí no necesito eso.
00:04:14YAML hace que todo sea visible.
00:04:16Gran victoria para nosotros y los árboles de trabajo de Git resuelven un problema real.
00:04:19Pero de nuevo, esto también implica algunas cosas.
00:04:21Tienes que pensar de antemano.
00:04:23Diseñar flujos de trabajo va a tomar algo de esfuerzo y aún está evolucionando, ¿no?
00:04:28Las cosas van a cambiar.
00:04:29Van a evolucionar, pero están creciendo.
00:04:31Y si solo haces prompts rápidos, probablemente ni necesites esto.
00:04:34Honestamente sería una pérdida de tiempo.
00:04:36Además, el modelo sigue importando.
00:04:38Obviamente, un mejor modelo nos generará una mejor salida.
00:04:42Si estás cansado de arreglar errores de agentes, definitivamente vale la pena intentarlo.
00:04:46Si quieres algo en lo que puedas confiar sin dudar de ti mismo, también vale la pena.
00:04:50Bastante.
00:04:52Si solo estás experimentando... bueno, yo estaba experimentando para esto.
00:04:55Lo mantuve simple.
00:04:56Funciona genial.
00:04:57Pude ver de qué se trata.
00:04:58Pero si hablas en serio sobre construir con agentes, esta es una de las herramientas de mayor impacto
00:05:02que he encontrado en este momento.
00:05:04Esto es lo que convierte a los agentes de simples demos en algo con lo que realmente podemos
00:05:08lanzar productos de forma más confiable, incorporándolo a nuestro flujo.
00:05:13Es bastante simple.
00:05:14Antes esperabas que el agente hiciera lo correcto, ¿no?
00:05:16Es un agente.
00:05:17Ahora definimos cómo trabaja.
00:05:20Eso es lo que afirman o eso es lo que es la ingeniería de arnés.
00:05:23Si disfrutas de herramientas de código y consejos como este, suscríbete al canal de Better Stack.
00:05:27Nos vemos en otro video.

Key Takeaway

Archon elimina la aleatoriedad de los agentes de IA al sustituir el historial de chat por flujos de trabajo estructurados en YAML y aislamiento en Git, logrando resultados idénticos para una misma entrada.

Highlights

  • Archon introduce la ingeniería de arnés para convertir los procesos caóticos de los agentes de IA en flujos de trabajo deterministas mediante archivos YAML.

  • El aislamiento de tareas en árboles de trabajo de Git independientes evita conflictos de fusión al ejecutar múltiples agentes en paralelo sobre el mismo repositorio.

  • La herramienta se ejecuta de forma local en hardware como el chip M4 Pro sin necesidad de servicios en la nube o configuraciones de VPS externas.

  • Los flujos de trabajo utilizan Grafos Acíclicos Dirigidos (DAGs) que combinan pasos de inteligencia artificial con procesos lógicos fijos y consistentes.

  • El sistema permite la creación de habilidades mediante paquetes de instrucciones reutilizables que el agente detecta y carga automáticamente según el contexto.

  • Archon genera Pull Requests limpios y uniformes que mantienen la misma estructura y calidad sin importar cuántas veces se ejecute el proceso.

Timeline

Inconsistencia en el desarrollo con agentes de IA

  • Las ejecuciones sucesivas de agentes de IA producen planes de acción y calidades de código divergentes para una misma tarea.
  • El intento de escalar a múltiples agentes sin estructura genera desorden y conflictos en los repositorios de código.
  • La corrección manual de errores introducidos por los agentes anula el ahorro de tiempo esperado en el desarrollo.

El uso de herramientas como Claude code o Cursor presenta problemas de deriva de contexto donde el agente cambia de rumbo a mitad del camino. Esta falta de control obliga a los desarrolladores a repetir prompts y arreglar código roto constantemente. La velocidad de construcción disminuye drásticamente cuando los resultados no son predecibles.

Ingeniería de arnés y flujos deterministas

  • Archon define procesos de planificación, codificación y revisión mediante especificaciones técnicas en formato YAML.
  • La interfaz de usuario proporciona transparencia total sobre cada paso del flujo y permite identificar fallos específicos.
  • El uso de árboles de trabajo de Git separados garantiza que la rama principal del proyecto permanezca intacta durante el procesamiento.

La ingeniería de arnés sustituye la esperanza de un buen comportamiento del agente por un sistema riguroso de pasos definidos. Al ejecutar el comando 'archon serve', el sistema carga habilidades y flujos de trabajo que el agente sigue de forma secuencial. Esto genera logs detallados y Pull Requests con una estructura predecible, superando la confusión de los historiales de chat tradicionales.

Arquitectura técnica y comparativa de Archon

  • La integración de Grafos Acíclicos Dirigidos (DAGs) mezcla tareas de IA con pasos lógicos fijos para aumentar la confiabilidad.
  • A diferencia de LangChain, Archon optimiza específicamente flujos de trabajo de código en lugar de bots de propósito general.
  • Los flujos de trabajo son versiones reutilizables y detectables que preservan el conocimiento fuera del chat.

El sistema se apoya en tres pilares: flujos de trabajo estructurados, aislamiento total en Git y habilidades modulares. Mientras que los scripts tradicionales son rígidos, Archon permite que el agente sea consciente del sistema que debe seguir. Esta metodología asegura que la salida sea consistente con la entrada, resolviendo la carencia de determinismo en los agentes de IA actuales.

Ventajas locales y limitaciones del sistema

  • El software es de código abierto y está optimizado para ejecutarse localmente en procesadores de la serie M de Apple.
  • La implementación requiere un esfuerzo inicial de diseño para configurar los flujos de trabajo y los archivos YAML.
  • La calidad final del resultado sigue dependiendo directamente de la capacidad del modelo de lenguaje subyacente utilizado.

Archon resulta innecesario para tareas rápidas de prompts únicos donde el esfuerzo de configuración supera el beneficio. Sin embargo, para el desarrollo serio de productos, ofrece una base sólida para lanzar software de forma confiable. La visibilidad que otorga el formato YAML y la resolución de conflictos mediante Git lo posicionan como una herramienta de alto impacto en el ecosistema de desarrollo con IA.

Community Posts

View all posts