Comment éviter que les agents Hermes ne tombent dans des boucles infinies
٢١ يونيو ٢٠٢٦
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Si un agent autonome continue d'appeler les mêmes outils, il ne fait que gaspiller des coûts d'infrastructure. Dans un environnement d'entreprise, plus de 60 % des coûts d'inférence des systèmes autonomes proviennent des 20 % de tâches répétitives en bas de la chaîne. Laisser un agent tourner sans restriction peut épuiser votre budget en un clin d'œil.
Pour empêcher cela, vous devez fixer des limites directement au sein du moteur d'exécution.
max_iterations=15 et max_spawn_depth=1 en haut du pipeline Hermes. Cela bloque la délégation récursive à la source.MemoryError si les jetons d'entrée dépassent 100 000 ou si les jetons de sortie dépassent 15 000.L'application de ces garde-fous permet de réduire considérablement l'incertitude liée à l'exécution et de diminuer les coûts moyens par session échouée de plus de 80 %.
Les agents qui tournent en arrière-plan comme des zombies consomment des ressources jusqu'à ce qu'un administrateur les remarque. Hermes permet de surveiller l'état via des hooks basés sur les fichiers sans toucher au code source.
Pour une surveillance en temps réel, suivez la procédure suivante :
HOOK.yaml dans le dossier ~/.hermes/hooks/slack-alert/ et enregistrez les événements agent:step et agent:end.handler.py utilisant httpx.AsyncClient pour envoyer des informations sur Slack. Veillez à appliquer une limite timeout=2.5 secondes pour éviter les retards réseau.MEMORY.md sur 800 caractères.Cela vous permettra d'économiser l'heure que vous passez quotidiennement à vérifier manuellement la console.
Si un agent recherche continuellement les mêmes informations dans une base de données vectorielle, le prompt est pollué et la vitesse d'inférence chute drastiquement. L'utilisation d'une mise en cache sémantique pour déterminer la similarité permet de répondre sans passer par le LLM. Selon des benchmarks basés sur le projet open source gptcache de GitHub, le cache sémantique élimine jusqu'à 90 % des coûts d'inférence originaux et fournit une réponse en 3 à 8 ms.
Pour intégrer la mise en cache sémantique dans votre pipeline RAG, suivez ces étapes :
gptcache et initialisez le moteur d'embedding local Onnx pour éliminer la surcharge réseau.FAISS et un stockage SQLite.cache.config.similarity_threshold sur 0.20 pour accepter les légères variantes de questions tout en filtrant les requêtes en double.Bloquer les appels RAG inutiles peut réduire vos coûts d'API AWS d'au moins trois fois en environnement de production.
Les agents dotés de trop de privilèges provoquent une pollution du code. Séparez strictement l'implémentation de la validation.
Pydantic incluant la couverture des tests, le nombre de vulnérabilités de sécurité et la concordance syntaxique.Cette structure en double boucle empêche l'introduction de données erronées dans le contexte principal.