Log in to leave a comment
No posts yet
मौजूदा LangChain या AutoGPT द्वारा प्रचारित माइक्रो-शार्डिंग विफल रही है। चरणों को दर्जनों टुकड़ों में विभाजित करना तर्क श्रृंखला (logic chain) को परिष्कृत दिखा सकता है, लेकिन वास्तव में यह प्रत्येक कॉल के साथ संदर्भ (context) को काट देता है और केवल अनिश्चितता (non-determinism) को बढ़ाता है। Claude 3.5 या जल्द ही आने वाले 4 मॉडल जैसे उन्नत तर्क क्षमता वाले LLMs का उपयोग करते समय, आपको अपनी रणनीति बदलनी चाहिए। खंडित नोड्स के साथ संघर्ष न करें। इसके बजाय, Planner द्वारा नियंत्रित एक केंद्रीकृत स्थिति प्रबंधन (state management) संरचना में एकीकृत करें।
एक सफल आर्किटेक्चर संक्रमण के लिए, पहले मौजूदा माइक्रो-टास्क को एक क्लास के भीतर मेथड के रूप में समूहित करें और उन्हें टूल बॉक्स (Tool Box) के रूप में एनकैप्सुलेट करें। उसके बाद, एक एकल State ऑब्जेक्ट परिभाषित करें जिसे सभी एजेंट संदर्भित करते हैं। इसमें plan (चरण-दर-चरण योजना), history (टूल निष्पादन लॉग), और artifacts (जेनरेट किया गया डेटा) फ़ील्ड अनिवार्य रूप से होने चाहिए।
LangGraph की रेड्यूसर कार्यक्षमता का लाभ उठाएं ताकि प्रत्येक एजेंट अपना काम पूरा करने पर इस साझा स्थिति (shared state) को अपडेट कर सके। संदर्भ विच्छेद को भौतिक रूप से रोकने से डुप्लिकेट टोकन ट्रांसमिशन समाप्त हो जाता है। वास्तव में, इस संरचना में स्विच करने वाली टीमों ने तत्काल API लागत में 30% से अधिक की बचत की है।
एजेंट द्वारा दिए गए आउटपुट के बारे में "यह ठीक लग रहा है" जैसा व्यक्तिपरक निर्णय उत्पादन वातावरण में टाइम बम की तरह है। LLM-as-a-Judge पैटर्न अपनाएं, लेकिन इसे कोड स्तर पर लागू किया जाना चाहिए। Evaluator एजेंट को Generator के आउटपुट को सटीकता (accuracy), निरंतरता (consistency), पठनीयता (readability), और दक्षता (efficiency) नामक 4 संकेतकों में विभाजित करना चाहिए और उन्हें संख्याओं में बदलना चाहिए।
Pydantic लाइब्रेरी का उपयोग करके यह सुनिश्चित करें कि मूल्यांकन परिणाम एक विशिष्ट JSON स्कीमा का पालन करें।
RubricScore क्लास घोषित करें और प्रत्येक संकेतक को 1 से 5 के बीच एक पूर्णांक (integer) फ़ील्ड के रूप में सेट करें।Merge Block चलाएं ताकि CI/CD पाइपलाइन में परिनियोजन (deployment) स्वतः रुक जाए और पुनर्रचना (re-work) का संकेत मिले।ऐसी स्वचालित सत्यापन प्रणाली बनाने से सत्यापन कार्य, जिसमें मैन्युअल रूप से 5 घंटे लगते थे, 10 मिनट से भी कम में सिमट जाता है। यांत्रिक स्कोरिंग कठोर हो सकती है, लेकिन यह सिस्टम की पूर्वानुमान क्षमता (predictability) को बढ़ाती है।
जब एजेंट लूप चलना शुरू होता है, तो टोकन खतरनाक गति से जमा होते हैं। हर बार सिस्टम निर्देश और टूल परिभाषाएं फिर से भेजना पैसे बर्बाद करने जैसा है। Claude का प्रॉम्प्ट कैशिंग, कैश्ड टोकन के लिए सामान्य दर का केवल 10% चार्ज करता है। इस लाभ को प्राप्त करने के लिए, आपको एक उपसर्ग मिलान (prefix matching) रणनीति का उपयोग करना चाहिए जहां प्रॉम्प्ट संरचना स्थिर भाग से गतिशील भाग के क्रम (Tools → System → Messages) में व्यवस्थित हो।
cache_control चेकपॉइंट सेट करें।<system-reminder> टैग का उपयोग करें। यह सुनिश्चित करता है कि शीर्ष उपसर्ग का कैश बना रहे।प्रॉम्प्ट कैशिंग रणनीति को सही ढंग से डिजाइन करने से API कॉल लागत में 90% तक की कटौती हो सकती है। प्रतिक्रिया की गति में भी उल्लेखनीय सुधार होता है। यह पैसा और समय दोनों बचाने का एकमात्र तरीका है।
यदि Generator और Evaluator अपनी बात पर अड़े रहते हैं और किसी समझौते पर नहीं पहुँचते हैं, तो एजेंट डेडलॉक (deadlock) में फंस जाता है। यह केवल एक त्रुटि नहीं है, बल्कि एक आपदा है जो लागत को बेकाबू कर देती है। इसे रोकने के लिए, एक बहु-स्तरीय सर्किट ब्रेकर की आवश्यकता होती है जो कार्यों की संख्या और प्रतिक्रिया समानता की निगरानी करे। विशेष रूप से, यदि पिछली प्रतिक्रिया और वर्तमान प्रतिक्रिया की कोसाइन समानता (cosine similarity) 0.95 या उससे अधिक है, तो यह एक स्पष्ट संकेत है कि एजेंट वही बात दोहरा रहा है और मूर्खतापूर्ण तरीके से लूप में घूम रहा है।
एजेंट को पूर्ण अधिकार देना साहस नहीं, बल्कि गैर-जिम्मेदारी है। सुरक्षा उपायों के बिना एजेंट सिस्टम को संचालित न करना ही बेहतर है।
तीन एजेंटों के एक साथ काम करने की प्रक्रिया एक ब्लैक बॉक्स की तरह है। यदि आप नहीं जानते कि बाधा (bottleneck) कहाँ है, तो सुधार करना असंभव है। OpenTelemetry मानकों का पालन करने वाले ट्रेसिंग सिस्टम को जोड़ें ताकि एजेंटों के बीच संदेश प्रवाह को देखा जा सके। Redis-आधारित चेकपॉइंटिंग लागू करें ताकि यदि सिस्टम क्रैश हो जाए, तो आपको शुरू से शुरू करने के बजाय अंतिम सफल बिंदु से जारी रखने की अनुमति मिले।
API प्रतिक्रिया हेडर से cache_read_input_tokens मान निकालें और इसे डैशबोर्ड पर प्रदर्शित करें। यदि कैश हिट दर कम है, तो यह प्रमाण है कि प्रॉम्प्ट संरचना गलत है। इसके अलावा, लूप के कन्वर्ज होने की गति को एक मीट्रिक के रूप में प्रबंधित करके आप प्रॉम्प्ट इंजीनियरिंग के परिणामों को संख्याओं में सिद्ध कर सकते हैं। PostgreSQL में सत्र आईडी और आर्टिफैक्ट संस्करणों को सहेज कर रखें ताकि आप सटीक रूप से विश्लेषण कर सकें कि एजेंट टीम अतीत में कहाँ भटक गई थी। जिस एजेंट का रिकॉर्ड नहीं रखा जाता, वह कभी स्मार्ट नहीं बनता।