Agentes de IA são aleatórios... Esta solução os torna determinísticos (Archon)

BBetter Stack
Computing/SoftwareSmall Business/StartupsConsumer ElectronicsInternet Technology

Transcript

00:00:00Os agentes de IA estão ficando incrivelmente poderosos, mas ainda são caóticos.
00:00:04Damos a eles exatamente a mesma tarefa e recebemos códigos totalmente diferentes, qualidades diferentes e
00:00:09até decisões diferentes todas as vezes.
00:00:12Essa é meio que a realidade de trabalhar com agentes.
00:00:15Acontece que não precisa ser assim.
00:00:17Este é o Archon, e agora ele pode executar vários agentes em paralelo com zero conflitos de merge
00:00:22e resultados consistentes.
00:00:24Vou mostrar exatamente como configurá-lo e como ele funciona nos próximos minutos.
00:00:30Agora, usando Claude Code, Cursor ou Codex, sabemos que a primeira execução parece ótima.
00:00:39A segunda execução poderia ter um plano completamente diferente.
00:00:42O contexto pode se perder.
00:00:44O agente muda de direção no meio do caminho.
00:00:47Então você tenta escalar.
00:00:49Dois agentes, talvez três agentes, quatro agentes.
00:00:51Agora seu repositório está uma bagunça completa.
00:00:54E aqui está o verdadeiro problema.
00:00:55Você não está mais economizando tempo.
00:00:57Você está reexecutando prompts.
00:00:58Você está corrigindo códigos quebrados, esperando que esta execução não quebre tudo de vez.
00:01:02E se você está construindo algo, isso realmente mata nossa velocidade.
00:01:06O Archon resolve isso com algo chamado engenharia de chicote (harness engineering).
00:01:10Em vez de torcer para o agente se comportar, você define o processo.
00:01:14Planejamento, codificação, teste, revisão, tudo em YAML.
00:01:18E as skills dos agentes são pacotes de instruções reutilizáveis que o agente carrega automaticamente.
00:01:23Assim, em vez de adivinhar o que fazer, seu agente segue um sistema.
00:01:28Se você gosta de ferramentas de código que aceleram seu fluxo de trabalho, inscreva-se.
00:01:32Temos vídeos saindo o tempo todo.
00:01:34Tudo bem, agora deixe-me mostrar.
00:01:36Isso está rodando localmente no meu M4 Pro, sem nuvem.
00:01:40Eu posso digitar archonserv.
00:01:43Isso abre esta interface de usuário.
00:01:45Vou instalar a skill do Archon neste repositório com o Claude.
00:01:49Agora executo um fluxo de trabalho simples para corrigir este problema.
00:01:54Vejam esta parte agora.
00:01:55O agente encontra a skill sozinho, carrega o workflow e executa passo a passo.
00:02:02Você pode assistir aqui no terminal ou ali na interface.
00:02:04Parece muito melhor.
00:02:05Não há ajustes de prompt aqui.
00:02:07Mesmo quando falha, você tem transparência total na interface.
00:02:11Você vê exatamente qual etapa quebrou e corrige o workflow.
00:02:15Isso é muito melhor que o Claude puro, onde você só tem um histórico de chat confuso.
00:02:20Esta parte é fundamental.
00:02:21Ele também roda em sua própria árvore de trabalho Git, então nunca toca na main.
00:02:26Ele está processando os prompts e você pode ver aqui que ele gera.
00:02:29Está pronto, PR limpo, mesma estrutura, mesmo resultado.
00:02:33Podemos ver os logs, o processo que os prompts percorrem e toda a saída.
00:02:38É assim que se parece a consistência.
00:02:40Então, o que mudou de fato aqui?
00:02:42Bem, três coisas mudaram ao usar o Archon.
00:02:45Primeiro, os fluxos de trabalho.
00:02:47O Archon usa DAGs em YAML.
00:02:50Pense nisso como um checklist que o agente deve seguir.
00:02:53Algumas etapas usam IA, claro.
00:02:56Algumas etapas são fixas.
00:02:58Essa mistura é o que o torna mais confiável.
00:03:00Depois temos o isolamento.
00:03:01Cada execução ocorre em uma árvore de trabalho Git separada, para que os agentes não se sobrescrevam.
00:03:06É por isso que não há conflitos de merge.
00:03:08Nas skills, em vez de entupir prompts toda vez, o agente carrega o contexto automaticamente.
00:03:14Assim, comparado a agentes puros, você elimina toda essa aleatoriedade.
00:03:19Comparado a ferramentas como, digamos, LangChain neste caso.
00:03:22LangChain é ótimo, mas o Archon foi construído para código, não para bots genéricos.
00:03:27E comparado a scripts, isto é reutilizável.
00:03:30É versionado.
00:03:31É detectável.
00:03:32O agente não está mais adivinhando.
00:03:34Temos todo esse workflow que ele está percorrendo.
00:03:36Ele está seguindo este sistema real.
00:03:38Agora podemos rodar vários agentes ao mesmo tempo e não nos preocupar em quebrar o repositório.
00:03:42Você pode gerar PRs que parecem iguais todas as vezes.
00:03:45E a grande vantagem: você para de perder conhecimento no histórico do chat.
00:03:49Seu processo agora vive em workflows, o que significa que cada execução se torna mais consistente.
00:03:55usando isso.
00:03:56Com isso, PRs limpos, resultados mais previsíveis.
00:03:58É a mesma entrada, é a mesma saída.
00:04:00Essa era a parte que faltava nos agentes.
00:04:02Agora, isso não é perfeito, certo?
00:04:04Mas o que é bom?
00:04:05Bem, é código aberto, roda muito bem localmente, especialmente em chips M, certo?
00:04:10Existem alguns que têm uma configuração de VPS.
00:04:13Eu não preciso disso aqui.
00:04:14O YAML torna tudo visível.
00:04:16Uma grande vitória para nós, e as árvores de trabalho do Git resolvem um problema real.
00:04:19Mas, novamente, isso também significa algumas coisas.
00:04:21Você tem que planejar com antecedência.
00:04:23Projetar fluxos de trabalho exigirá um pouco de esforço e ainda está evoluindo, certo?
00:04:28As coisas vão mudar.
00:04:29Vão evoluir, mas estão crescendo.
00:04:31E se você está apenas fazendo prompts rápidos, provavelmente nem precisa disso.
00:04:34Seria, honestamente, uma perda de tempo.
00:04:36Além disso, o modelo ainda importa.
00:04:38Portanto, um modelo melhor obviamente vai gerar uma saída melhor para nós.
00:04:42Se você está cansado de corrigir erros de agentes, definitivamente vale a pena tentar.
00:04:46Se você quer algo em que possa realmente confiar sem se questionar, isso também
00:04:50vale muito a pena.
00:04:52Se você está apenas experimentando, bem, eu estava experimentando para isso.
00:04:55Eu mantive simples.
00:04:56Funciona muito bem.
00:04:57Eu tive que ver do que se trata.
00:04:58Mas se você leva a sério a construção com agentes, esta é uma das ferramentas de maior impacto que
00:05:02já encontrei até agora.
00:05:04Isso é o que transforma os agentes, dessas demos que estamos usando, em algo que podemos de fato
00:05:08entregar com mais confiabilidade, incorporando isso em nosso fluxo de trabalho.
00:05:13É bem simples.
00:05:14Antes você esperava que o agente fizesse a coisa certa, né?
00:05:16É um agente.
00:05:17Agora nós definimos como ele funciona.
00:05:20É o que eles afirmam, ou o que essa engenharia de chicote propõe.
00:05:23Se você gosta de ferramentas de codificação e dicas assim, inscreva-se no canal Better Stack.
00:05:27Nos vemos em outro vídeo.

Key Takeaway

O Archon substitui a imprevisibilidade dos agentes de IA por um sistema de engenharia de chicote baseado em YAML e isolamento de Git para garantir Pull Requests consistentes e reutilizáveis.

Highlights

  • O Archon elimina a aleatoriedade dos agentes de IA transformando processos caóticos em fluxos de trabalho determinísticos definidos em YAML.

  • A ferramenta utiliza engenharia de chicote (harness engineering) para padronizar etapas de planejamento, codificação, teste e revisão.

  • Cada execução ocorre em uma árvore de trabalho Git isolada, permitindo que múltiplos agentes rodem em paralelo com zero conflitos de merge.

  • As habilidades dos agentes são pacotes de instruções reutilizáveis e versionados que o sistema carrega automaticamente sem poluir o histórico do chat.

  • O software funciona localmente em hardware como o chip M4 Pro, sem dependência de processamento em nuvem.

  • Resultados consistentes são gerados através de Grafos Acíclicos Dirigidos (DAGs) que combinam etapas de IA com processos fixos.

Timeline

O problema da aleatoriedade nos agentes de IA

  • Agentes tradicionais entregam códigos e decisões diferentes para a mesma tarefa exata.
  • A falta de consistência obriga o desenvolvedor a reexecutar prompts e corrigir códigos quebrados constantemente.
  • Escalar para múltiplos agentes sem coordenação resulta em repositórios desorganizados e perda de contexto no meio do processo.

Ferramentas como Claude Code e Cursor perdem a direção ou mudam o plano de ação entre execuções. Essa instabilidade anula a economia de tempo esperada, pois o trabalho manual de correção supera a velocidade da automação. O problema central reside na natureza imprevisível da execução pura baseada em chat.

Engenharia de chicote e estrutura do Archon

  • A engenharia de chicote define processos rígidos de codificação e teste através de arquivos de configuração YAML.
  • O agente identifica e carrega habilidades automaticamente como pacotes de instruções reutilizáveis.
  • A interface local archonserv oferece transparência total sobre qual etapa do workflow falhou.

Ao usar o comando archonserv em um hardware local como o M4 Pro, o desenvolvedor visualiza o agente seguindo um checklist passo a passo. Diferente do Claude puro, onde o histórico de chat fica confuso, o Archon separa a lógica em etapas granulares. Se uma falha ocorre, o erro é isolado em um ponto específico do workflow para correção imediata.

Pilares da consistência: DAGs e isolamento de Git

  • O Archon utiliza Grafos Acíclicos Dirigidos (DAGs) para misturar etapas de IA com passos fixos e confiáveis.
  • O isolamento em árvores de trabalho Git separadas impede que agentes sobrescrevam o código uns dos outros.
  • A saída de cada tarefa é padronizada para gerar Pull Requests com a mesma estrutura todas as vezes.

A arquitetura de DAGs garante que o agente não precise adivinhar o próximo passo, seguindo uma ordem lógica pré-definida. O uso de árvores de trabalho independentes resolve o problema técnico de conflitos de merge durante o processamento paralelo. Isso transforma o conhecimento, antes perdido em conversas efêmeras, em ativos versionados e detectáveis no repositório.

Vantagens, limitações e casos de uso

  • A ferramenta é de código aberto e otimizada para execução local em chips da série M da Apple.
  • O planejamento antecipado de fluxos de trabalho exige esforço inicial superior ao simples envio de prompts.
  • O Archon foca especificamente em fluxos de trabalho de desenvolvimento de software em vez de bots genéricos.

Embora ofereça alta confiabilidade, o Archon não é recomendado para tarefas rápidas de prompt único, onde sua configuração seria considerada um desperdício de tempo. O modelo de linguagem subjacente ainda influencia a qualidade final, mas o sistema garante que a estrutura da entrega seja previsível. A solução é ideal para quem busca integrar agentes de IA em pipelines de produção sérios.

Community Posts

View all posts