Agentes de IA são aleatórios... Esta solução os torna determinísticos (Archon)
BBetter Stack
컴퓨터/소프트웨어창업/스타트업가전제품/카메라AI/미래기술
Transcript
00:00:00Os agentes de IA estão ficando incrivelmente poderosos, mas ainda são caóticos.
00:00:04Damos a eles exatamente a mesma tarefa e recebemos códigos totalmente diferentes, qualidades diferentes e
00:00:09até decisões diferentes todas as vezes.
00:00:12Essa é meio que a realidade de trabalhar com agentes.
00:00:15Acontece que não precisa ser assim.
00:00:17Este é o Archon, e agora ele pode executar vários agentes em paralelo com zero conflitos de merge
00:00:22e resultados consistentes.
00:00:24Vou mostrar exatamente como configurá-lo e como ele funciona nos próximos minutos.
00:00:30Agora, usando Claude Code, Cursor ou Codex, sabemos que a primeira execução parece ótima.
00:00:39A segunda execução poderia ter um plano completamente diferente.
00:00:42O contexto pode se perder.
00:00:44O agente muda de direção no meio do caminho.
00:00:47Então você tenta escalar.
00:00:49Dois agentes, talvez três agentes, quatro agentes.
00:00:51Agora seu repositório está uma bagunça completa.
00:00:54E aqui está o verdadeiro problema.
00:00:55Você não está mais economizando tempo.
00:00:57Você está reexecutando prompts.
00:00:58Você está corrigindo códigos quebrados, esperando que esta execução não quebre tudo de vez.
00:01:02E se você está construindo algo, isso realmente mata nossa velocidade.
00:01:06O Archon resolve isso com algo chamado engenharia de chicote (harness engineering).
00:01:10Em vez de torcer para o agente se comportar, você define o processo.
00:01:14Planejamento, codificação, teste, revisão, tudo em YAML.
00:01:18E as skills dos agentes são pacotes de instruções reutilizáveis que o agente carrega automaticamente.
00:01:23Assim, em vez de adivinhar o que fazer, seu agente segue um sistema.
00:01:28Se você gosta de ferramentas de código que aceleram seu fluxo de trabalho, inscreva-se.
00:01:32Temos vídeos saindo o tempo todo.
00:01:34Tudo bem, agora deixe-me mostrar.
00:01:36Isso está rodando localmente no meu M4 Pro, sem nuvem.
00:01:40Eu posso digitar archonserv.
00:01:43Isso abre esta interface de usuário.
00:01:45Vou instalar a skill do Archon neste repositório com o Claude.
00:01:49Agora executo um fluxo de trabalho simples para corrigir este problema.
00:01:54Vejam esta parte agora.
00:01:55O agente encontra a skill sozinho, carrega o workflow e executa passo a passo.
00:02:02Você pode assistir aqui no terminal ou ali na interface.
00:02:04Parece muito melhor.
00:02:05Não há ajustes de prompt aqui.
00:02:07Mesmo quando falha, você tem transparência total na interface.
00:02:11Você vê exatamente qual etapa quebrou e corrige o workflow.
00:02:15Isso é muito melhor que o Claude puro, onde você só tem um histórico de chat confuso.
00:02:20Esta parte é fundamental.
00:02:21Ele também roda em sua própria árvore de trabalho Git, então nunca toca na main.
00:02:26Ele está processando os prompts e você pode ver aqui que ele gera.
00:02:29Está pronto, PR limpo, mesma estrutura, mesmo resultado.
00:02:33Podemos ver os logs, o processo que os prompts percorrem e toda a saída.
00:02:38É assim que se parece a consistência.
00:02:40Então, o que mudou de fato aqui?
00:02:42Bem, três coisas mudaram ao usar o Archon.
00:02:45Primeiro, os fluxos de trabalho.
00:02:47O Archon usa DAGs em YAML.
00:02:50Pense nisso como um checklist que o agente deve seguir.
00:02:53Algumas etapas usam IA, claro.
00:02:56Algumas etapas são fixas.
00:02:58Essa mistura é o que o torna mais confiável.
00:03:00Depois temos o isolamento.
00:03:01Cada execução ocorre em uma árvore de trabalho Git separada, para que os agentes não se sobrescrevam.
00:03:06É por isso que não há conflitos de merge.
00:03:08Nas skills, em vez de entupir prompts toda vez, o agente carrega o contexto automaticamente.
00:03:14Assim, comparado a agentes puros, você elimina toda essa aleatoriedade.
00:03:19Comparado a ferramentas como, digamos, LangChain neste caso.
00:03:22LangChain é ótimo, mas o Archon foi construído para código, não para bots genéricos.
00:03:27E comparado a scripts, isto é reutilizável.
00:03:30É versionado.
00:03:31É detectável.
00:03:32O agente não está mais adivinhando.
00:03:34Temos todo esse workflow que ele está percorrendo.
00:03:36Ele está seguindo este sistema real.
00:03:38Agora podemos rodar vários agentes ao mesmo tempo e não nos preocupar em quebrar o repositório.
00:03:42Você pode gerar PRs que parecem iguais todas as vezes.
00:03:45E a grande vantagem: você para de perder conhecimento no histórico do chat.
00:03:49Seu processo agora vive em workflows, o que significa que cada execução se torna mais consistente.
00:03:55usando isso.
00:03:56Com isso, PRs limpos, resultados mais previsíveis.
00:03:58É a mesma entrada, é a mesma saída.
00:04:00Essa era a parte que faltava nos agentes.
00:04:02Agora, isso não é perfeito, certo?
00:04:04Mas o que é bom?
00:04:05Bem, é código aberto, roda muito bem localmente, especialmente em chips M, certo?
00:04:10Existem alguns que têm uma configuração de VPS.
00:04:13Eu não preciso disso aqui.
00:04:14O YAML torna tudo visível.
00:04:16Uma grande vitória para nós, e as árvores de trabalho do Git resolvem um problema real.
00:04:19Mas, novamente, isso também significa algumas coisas.
00:04:21Você tem que planejar com antecedência.
00:04:23Projetar fluxos de trabalho exigirá um pouco de esforço e ainda está evoluindo, certo?
00:04:28As coisas vão mudar.
00:04:29Vão evoluir, mas estão crescendo.
00:04:31E se você está apenas fazendo prompts rápidos, provavelmente nem precisa disso.
00:04:34Seria, honestamente, uma perda de tempo.
00:04:36Além disso, o modelo ainda importa.
00:04:38Portanto, um modelo melhor obviamente vai gerar uma saída melhor para nós.
00:04:42Se você está cansado de corrigir erros de agentes, definitivamente vale a pena tentar.
00:04:46Se você quer algo em que possa realmente confiar sem se questionar, isso também
00:04:50vale muito a pena.
00:04:52Se você está apenas experimentando, bem, eu estava experimentando para isso.
00:04:55Eu mantive simples.
00:04:56Funciona muito bem.
00:04:57Eu tive que ver do que se trata.
00:04:58Mas se você leva a sério a construção com agentes, esta é uma das ferramentas de maior impacto que
00:05:02já encontrei até agora.
00:05:04Isso é o que transforma os agentes, dessas demos que estamos usando, em algo que podemos de fato
00:05:08entregar com mais confiabilidade, incorporando isso em nosso fluxo de trabalho.
00:05:13É bem simples.
00:05:14Antes você esperava que o agente fizesse a coisa certa, né?
00:05:16É um agente.
00:05:17Agora nós definimos como ele funciona.
00:05:20É o que eles afirmam, ou o que essa engenharia de chicote propõe.
00:05:23Se você gosta de ferramentas de codificação e dicas assim, inscreva-se no canal Better Stack.
00:05:27Nos vemos em outro vídeo.