Hermes एजेंट को अनंत लूप (Infinite Loop) में जाने से कैसे रोकें
June 21, 2026
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
यदि एक स्वायत्त एजेंट (Autonomous Agent) बार-बार एक ही टूल को कॉल करता है, तो यह केवल इंफ्रास्ट्रक्चर लागत को बर्बाद करता है। एंटरप्राइज़ वातावरण में, स्वायत्त प्रणाली के अनुमान (Inference) की लागत का 60% से अधिक हिस्सा निचले 20% के दोहराव वाले कार्यों से आता है। यदि आप बिना किसी सीमा के चल रहे एजेंट को छोड़ देते हैं, तो बजट पलक झपकते ही खत्म हो जाएगा।
इसे रोकने के लिए, आपको सीधे निष्पादन इंजन (Execution Engine) के भीतर सीमाएँ निर्धारित करनी होंगी।
max_iterations=15 और max_spawn_depth=1 सेटिंग्स जोड़ें। यह रिकर्सिव डेलिगेशन को पूरी तरह से रोक देगा।MemoryError उत्पन्न करे।इन गार्डरेल्स को लागू करने से निष्पादन अनिश्चितता (Execution Uncertainty) काफी कम हो जाती है और प्रति विफल सत्र होने वाली औसत लागत में 80% से अधिक की कटौती की जा सकती है।
बैकग्राउंड में ज़ोंबी की तरह चल रहे एजेंट तब तक संसाधनों का उपभोग करते रहते हैं जब तक कि कोई एडमिन उन्हें नोटिस न करे। Hermes सोर्स कोड को छुए बिना फाइल-आधारित हुक के साथ स्थिति की निगरानी कर सकता है।
वास्तविक समय की निगरानी के लिए इन चरणों का पालन करें:
~/.hermes/hooks/slack-alert/ फ़ोल्डर में एक HOOK.yaml बनाएं और agent:step और agent:end इवेंट्स को रजिस्टर करें।handler.py फ़ाइल में httpx.AsyncClient का उपयोग करके स्लैक (Slack) पर जानकारी भेजने के लिए एसिंक्रोनस कोड लिखें। इस दौरान नेटवर्क विलंब को रोकने के लिए timeout=2.5 सेकंड की सीमा अवश्य लगाएं।MEMORY.md स्नैपशॉट शामिल करें।ऐसा करने से आप प्रतिदिन कंसोल को मैन्युअल रूप से जांचने में लगने वाले 1 घंटे को पूरी तरह से बचा सकते हैं।
यदि कोई एजेंट वेक्टर डीबी में बार-बार एक ही जानकारी खोजता है, तो प्रॉम्प्ट दूषित हो जाता है और अनुमान की गति तेजी से गिरती है। सिमेंटिक कैशिंग का उपयोग करके अर्थ संबंधी समानता (Semantic Similarity) की जांच करें, जिससे LLM का उपयोग किए बिना ही प्रतिक्रिया दी जा सके। GitHub ओपन-सोर्स प्रोजेक्ट gptcache पर आधारित बेंचमार्क के अनुसार, सिमेंटिक कैश मूल अनुमान लागत को 90% तक समाप्त कर देता है और 3-8ms के भीतर प्रतिक्रिया देता है।
RAG पाइपलाइन में सिमेंटिक कैशिंग को शामिल करने के लिए इन चरणों का पालन करें:
gptcache इंस्टॉल करें और नेटवर्क ओवरहेड को खत्म करने के लिए Onnx लोकल एम्बेडिंग इंजन को इनिशियलाइज़ करें।FAISS वेक्टर इंडेक्स और SQLite स्टोरेज को मिलाकर एक डेटा मैनेजर सेट करें।cache.config.similarity_threshold को 0.20 पर सेट करें ताकि मामूली प्रश्न रूपांतरों को स्वीकार किया जा सके लेकिन डुप्लिकेट क्वेरीज़ को फ़िल्टर किया जा सके।निरर्थक RAG कॉल को रोकने से कार्य वातावरण में AWS API लागत में कम से कम 3 गुना तक की कमी आ सकती है।
बहुत अधिक अधिकारों वाला एजेंट कोड संदूषण का कारण बनता है। कार्यान्वयन (Implementation) और सत्यापन (Verification) को सख्ती से अलग करें।
Pydantic मॉडल के साथ एक गुणवत्ता रिपोर्ट विनिर्देश (Quality Report Specification) को परिभाषित करें, जिसमें टेस्ट कवरेज, सुरक्षा कमजोरियों की संख्या और सिंटैक्स मिलान की स्थिति शामिल हो।यह दोहरी लूप संरचना मुख्य संदर्भ में गलत डेटा के मिश्रण को रोकने में मदद करती है।