Los agentes de IA son aleatorios... Esta solución los hace deterministas (Archon)
BBetter Stack
Computing/SoftwareSmall Business/StartupsConsumer ElectronicsInternet Technology
Transcript
00:00:00Los agentes de IA se están volviendo increíblemente potentes, pero siguen siendo caóticos.
00:00:04Les damos exactamente la misma tarea y obtenemos código, calidad y
00:00:09decisiones totalmente diferentes cada vez.
00:00:12Esa es un poco la realidad de trabajar con agentes.
00:00:15Resulta que no tiene por qué ser así.
00:00:17Esto es Archon, y ahora puede ejecutar múltiples agentes en paralelo sin conflictos de fusión
00:00:22y con resultados consistentes.
00:00:24Te mostraré exactamente cómo configurarlo y cómo funciona en los próximos minutos.
00:00:30Ahora, usando Claude code, Cursor o Codex, sabemos que la primera ejecución se ve genial.
00:00:39La segunda ejecución podría tener un plan completamente distinto.
00:00:42El contexto puede desviarse.
00:00:44El agente cambia de rumbo a mitad del camino.
00:00:47Luego intentas escalarlo.
00:00:49Dos agentes, quizá tres agentes, cuatro agentes.
00:00:51Ahora tu repositorio es un desastre total.
00:00:54Y aquí está el verdadero problema.
00:00:55Realmente ya no estás ahorrando tiempo.
00:00:57Estás volviendo a ejecutar prompts.
00:00:58Estás arreglando código roto, esperando que esta ejecución no lo rompa todo.
00:01:02Y si estás construyendo algo, esto simplemente aniquila nuestra velocidad.
00:01:06Archon soluciona esto con algo llamado ingeniería de arnés (harness engineering).
00:01:10En lugar de esperar que el agente se porte bien, tú defines el proceso.
00:01:14Planificación, codificación, pruebas, revisión, todo en YAML.
00:01:18Y las habilidades del agente son paquetes de instrucciones reutilizables que carga automáticamente.
00:01:23Así que en lugar de adivinar qué hacer, tu agente sigue un sistema.
00:01:28Si te gustan las herramientas de código que aceleran tu flujo de trabajo, suscríbete.
00:01:32Publicamos videos todo el tiempo.
00:01:34Muy bien, ahora déjame mostrarte.
00:01:36Esto se ejecuta localmente en mi M4 Pro, sin nube.
00:01:40Puedo ingresar “archon serve”.
00:01:43Eso abre esta interfaz de usuario.
00:01:45Instalaré la habilidad Archon en este repositorio con Claude.
00:01:49Ahora ejecuto un flujo de trabajo simple para solucionar este problema.
00:01:54Mira esta parte ahora.
00:01:55El agente encuentra la habilidad por sí solo, carga el flujo de trabajo y lo ejecuta paso a paso.
00:02:02Puedes verlo aquí en la terminal o por acá en la interfaz.
00:02:04Se ve mucho mejor.
00:02:05Aquí no hay ajustes de prompts.
00:02:07Incluso cuando falla, tienes total transparencia en la interfaz.
00:02:11Puedes ver exactamente qué paso falló y arreglar el flujo de trabajo.
00:02:15Esto es mucho mejor que Claude code puro donde solo obtienes un historial de chat confuso.
00:02:20Esta parte es clave.
00:02:21También corre en su propio árbol de trabajo de Git, así que nunca toca la rama principal.
00:02:26Va procesando los prompts y aquí puedes ver que lo genera.
00:02:29Listo, un PR limpio, misma estructura, mismo resultado.
00:02:33Podemos ver logs, el proceso de los prompts y toda la salida.
00:02:38Así es como se ve la consistencia.
00:02:40Entonces, ¿qué ha cambiado realmente aquí?
00:02:42Bueno, tres cosas han cambiado al usar Archon.
00:02:45Primero, los flujos de trabajo.
00:02:47Archon utiliza DAGs en YAML.
00:02:50Piénsalo como una lista de verificación que el agente debe seguir.
00:02:53Algunos pasos usan IA, claro.
00:02:56Otros pasos son fijos.
00:02:58Esa mezcla es lo que lo hace más confiable.
00:03:00Luego tenemos el aislamiento.
00:03:01Cada ejecución ocurre en un árbol de trabajo de Git separado, por lo que no se sobrescriben.
00:03:06Por eso no hay conflictos de fusión.
00:03:08Y las habilidades: en lugar de saturar prompts cada vez, el agente carga el contexto automáticamente.
00:03:14Así que, comparado con agentes puros, eliminas toda esta aleatoriedad.
00:03:19Comparado con herramientas como, digamos, LangChain.
00:03:22LangChain es genial, pero Archon está diseñado para código, no para bots generales.
00:03:27Y comparado con scripts, esto es reutilizable.
00:03:30Tiene versiones.
00:03:31Es detectable.
00:03:32El agente ya no está adivinando.
00:03:34Tenemos todo este flujo de trabajo por el que pasa.
00:03:36Está siguiendo este sistema real.
00:03:38Ahora podemos ejecutar múltiples agentes a la vez sin preocuparnos por romper el repo.
00:03:42Puedes generar PRs que se ven iguales cada vez.
00:03:45Y lo más importante, dejas de perder conocimiento en el historial del chat.
00:03:49Tu proceso vive en flujos de trabajo ahora, lo que significa que cada ejecución es más consistente.
00:03:55Con esto.
00:03:56PRs limpios, resultados más predecibles.
00:03:58A misma entrada, misma salida.
00:04:00Esa es la parte que les faltaba a los agentes.
00:04:02Ahora, esto no es perfecto, ¿verdad?
00:04:04¿Pero qué tiene de bueno?
00:04:05Es de código abierto, corre genial localmente, especialmente en chips M, ¿verdad?
00:04:10Hay algunos que tienen una configuración de VPS.
00:04:13Aquí no necesito eso.
00:04:14YAML hace que todo sea visible.
00:04:16Gran victoria para nosotros y los árboles de trabajo de Git resuelven un problema real.
00:04:19Pero de nuevo, esto también implica algunas cosas.
00:04:21Tienes que pensar de antemano.
00:04:23Diseñar flujos de trabajo va a tomar algo de esfuerzo y aún está evolucionando, ¿no?
00:04:28Las cosas van a cambiar.
00:04:29Van a evolucionar, pero están creciendo.
00:04:31Y si solo haces prompts rápidos, probablemente ni necesites esto.
00:04:34Honestamente sería una pérdida de tiempo.
00:04:36Además, el modelo sigue importando.
00:04:38Obviamente, un mejor modelo nos generará una mejor salida.
00:04:42Si estás cansado de arreglar errores de agentes, definitivamente vale la pena intentarlo.
00:04:46Si quieres algo en lo que puedas confiar sin dudar de ti mismo, también vale la pena.
00:04:50Bastante.
00:04:52Si solo estás experimentando... bueno, yo estaba experimentando para esto.
00:04:55Lo mantuve simple.
00:04:56Funciona genial.
00:04:57Pude ver de qué se trata.
00:04:58Pero si hablas en serio sobre construir con agentes, esta es una de las herramientas de mayor impacto
00:05:02que he encontrado en este momento.
00:05:04Esto es lo que convierte a los agentes de simples demos en algo con lo que realmente podemos
00:05:08lanzar productos de forma más confiable, incorporándolo a nuestro flujo.
00:05:13Es bastante simple.
00:05:14Antes esperabas que el agente hiciera lo correcto, ¿no?
00:05:16Es un agente.
00:05:17Ahora definimos cómo trabaja.
00:05:20Eso es lo que afirman o eso es lo que es la ingeniería de arnés.
00:05:23Si disfrutas de herramientas de código y consejos como este, suscríbete al canal de Better Stack.
00:05:27Nos vemos en otro video.