Como impedir que os agentes Hermes entrem em loop infinito
2026年6月21日
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Quando um agente autônomo continua chamando a mesma ferramenta, ele apenas desperdiça custos de infraestrutura. Em ambientes corporativos, mais de 60% dos custos de inferência de sistemas autônomos provêm dos 20% inferiores de tarefas repetitivas. Se você deixar um agente rodando sem limites, o orçamento desaparecerá num piscar de olhos.
Para evitar isso, é preciso definir limites diretamente dentro do motor de execução.
max_iterations=15 e max_spawn_depth=1 no topo do pipeline Hermes. Isso bloqueia a delegação recursiva na raiz.MemoryError caso ultrapasse 100 mil tokens de entrada ou 15 mil tokens de saída.A aplicação desses guardrails reduz significativamente a incerteza de execução e pode diminuir o custo médio por sessão falha em mais de 80%.
Agentes que rodam como zumbis em segundo plano continuam consumindo recursos até que um administrador perceba. O Hermes permite monitorar estados através de hooks baseados em arquivos, sem precisar tocar no código-fonte.
Siga os passos abaixo para vigilância em tempo real:
HOOK.yaml na pasta ~/.hermes/hooks/slack-alert/ e registre os eventos agent:step e agent:end.handler.py usando httpx.AsyncClient para enviar as informações ao Slack. Certifique-se de definir um limite de timeout=2.5 segundos para evitar latência de rede.MEMORY.md no payload do alerta.Ao fazer isso, você economizará uma hora diária que seria gasta verificando o console manualmente.
Se um agente continua pesquisando as mesmas informações em um banco de vetores, o prompt é poluído e a velocidade de inferência cai drasticamente. O uso de cache semântico para determinar a similaridade semântica permite responder sem passar pelo LLM. De acordo com benchmarks baseados no projeto open source gptcache do GitHub, o cache semântico elimina até 90% dos custos de inferência originais e entrega respostas em 3 a 8 ms.
Para integrar o cache semântico ao seu pipeline RAG, siga este processo:
gptcache e inicialize o motor de embedding local Onnx para eliminar a sobrecarga de rede.FAISS com um armazenamento SQLite.cache.config.similarity_threshold como 0.20 para aceitar pequenas variações nas perguntas, mas filtrar consultas duplicadas.Impedir chamadas RAG desnecessárias pode reduzir os custos de API da AWS em pelo menos 3 vezes em ambientes de produção.
Agentes com excesso de permissões causam corrupção de código. Separe rigorosamente a implementação da verificação.
Pydantic que contenha cobertura de testes, número de vulnerabilidades de segurança e conformidade sintática.Essa estrutura de loop duplo impede que dados incorretos sejam misturados ao contexto principal.