Claude 4 युग के लिए एजेंट रिफैक्टरिंग: जटिल शार्डिंग को छोड़ें और कोड में 3-एजेंट लूप को लागू करने का तरीका

लेगेसी शार्डिंग से 3-Agent लूप में डेटा माइग्रेशन रणनीति

मौजूदा LangChain या AutoGPT द्वारा प्रचारित माइक्रो-शार्डिंग विफल रही है। चरणों को दर्जनों टुकड़ों में विभाजित करना तर्क श्रृंखला (logic chain) को परिष्कृत दिखा सकता है, लेकिन वास्तव में यह प्रत्येक कॉल के साथ संदर्भ (context) को काट देता है और केवल अनिश्चितता (non-determinism) को बढ़ाता है। Claude 3.5 या जल्द ही आने वाले 4 मॉडल जैसे उन्नत तर्क क्षमता वाले LLMs का उपयोग करते समय, आपको अपनी रणनीति बदलनी चाहिए। खंडित नोड्स के साथ संघर्ष न करें। इसके बजाय, Planner द्वारा नियंत्रित एक केंद्रीकृत स्थिति प्रबंधन (state management) संरचना में एकीकृत करें।

एक सफल आर्किटेक्चर संक्रमण के लिए, पहले मौजूदा माइक्रो-टास्क को एक क्लास के भीतर मेथड के रूप में समूहित करें और उन्हें टूल बॉक्स (Tool Box) के रूप में एनकैप्सुलेट करें। उसके बाद, एक एकल State ऑब्जेक्ट परिभाषित करें जिसे सभी एजेंट संदर्भित करते हैं। इसमें plan (चरण-दर-चरण योजना), history (टूल निष्पादन लॉग), और artifacts (जेनरेट किया गया डेटा) फ़ील्ड अनिवार्य रूप से होने चाहिए।

LangGraph की रेड्यूसर कार्यक्षमता का लाभ उठाएं ताकि प्रत्येक एजेंट अपना काम पूरा करने पर इस साझा स्थिति (shared state) को अपडेट कर सके। संदर्भ विच्छेद को भौतिक रूप से रोकने से डुप्लिकेट टोकन ट्रांसमिशन समाप्त हो जाता है। वास्तव में, इस संरचना में स्विच करने वाली टीमों ने तत्काल API लागत में 30% से अधिक की बचत की है।

Evaluator के लिए मात्रात्मक स्कोरकार्ड कोड कार्यान्वयन

एजेंट द्वारा दिए गए आउटपुट के बारे में "यह ठीक लग रहा है" जैसा व्यक्तिपरक निर्णय उत्पादन वातावरण में टाइम बम की तरह है। LLM-as-a-Judge पैटर्न अपनाएं, लेकिन इसे कोड स्तर पर लागू किया जाना चाहिए। Evaluator एजेंट को Generator के आउटपुट को सटीकता (accuracy), निरंतरता (consistency), पठनीयता (readability), और दक्षता (efficiency) नामक 4 संकेतकों में विभाजित करना चाहिए और उन्हें संख्याओं में बदलना चाहिए।

Pydantic लाइब्रेरी का उपयोग करके यह सुनिश्चित करें कि मूल्यांकन परिणाम एक विशिष्ट JSON स्कीमा का पालन करें।

एक RubricScore क्लास घोषित करें और प्रत्येक संकेतक को 1 से 5 के बीच एक पूर्णांक (integer) फ़ील्ड के रूप में सेट करें।
प्रॉम्प्ट के भीतर प्रत्येक स्कोर रेंज के लिए विशिष्ट शर्तें (जैसे: समय जटिलता $O(n)$ या उससे कम होने पर दक्षता में 5 अंक देना) स्पष्ट करें।
यदि औसत स्कोर 4.0 से कम है, तो Merge Block चलाएं ताकि CI/CD पाइपलाइन में परिनियोजन (deployment) स्वतः रुक जाए और पुनर्रचना (re-work) का संकेत मिले।

ऐसी स्वचालित सत्यापन प्रणाली बनाने से सत्यापन कार्य, जिसमें मैन्युअल रूप से 5 घंटे लगते थे, 10 मिनट से भी कम में सिमट जाता है। यांत्रिक स्कोरिंग कठोर हो सकती है, लेकिन यह सिस्टम की पूर्वानुमान क्षमता (predictability) को बढ़ाती है।

Anthropic Prompt Caching का उपयोग करके लागत अनुकूलन

जब एजेंट लूप चलना शुरू होता है, तो टोकन खतरनाक गति से जमा होते हैं। हर बार सिस्टम निर्देश और टूल परिभाषाएं फिर से भेजना पैसे बर्बाद करने जैसा है। Claude का प्रॉम्प्ट कैशिंग, कैश्ड टोकन के लिए सामान्य दर का केवल 10% चार्ज करता है। इस लाभ को प्राप्त करने के लिए, आपको एक उपसर्ग मिलान (prefix matching) रणनीति का उपयोग करना चाहिए जहां प्रॉम्प्ट संरचना स्थिर भाग से गतिशील भाग के क्रम (Tools → System → Messages) में व्यवस्थित हो।

अपरिवर्तनीय निर्देशों और टूल परिभाषाओं को सबसे ऊपर रखें और cache_control चेकपॉइंट सेट करें।
उपयोगकर्ता संदेशों के भीतर, परिवर्तनीय जानकारी डालने के लिए <system-reminder> टैग का उपयोग करें। यह सुनिश्चित करता है कि शीर्ष उपसर्ग का कैश बना रहे।
लंबी बातचीत के दौरान, प्रत्येक 20-ब्लॉक लुकबैक विंडो बिंदु पर रणनीतिक रूप से अतिरिक्त चेकपॉइंट रखें।

प्रॉम्प्ट कैशिंग रणनीति को सही ढंग से डिजाइन करने से API कॉल लागत में 90% तक की कटौती हो सकती है। प्रतिक्रिया की गति में भी उल्लेखनीय सुधार होता है। यह पैसा और समय दोनों बचाने का एकमात्र तरीका है।

अनंत लूप को रोकने के लिए सर्किट ब्रेकर डिजाइन

यदि Generator और Evaluator अपनी बात पर अड़े रहते हैं और किसी समझौते पर नहीं पहुँचते हैं, तो एजेंट डेडलॉक (deadlock) में फंस जाता है। यह केवल एक त्रुटि नहीं है, बल्कि एक आपदा है जो लागत को बेकाबू कर देती है। इसे रोकने के लिए, एक बहु-स्तरीय सर्किट ब्रेकर की आवश्यकता होती है जो कार्यों की संख्या और प्रतिक्रिया समानता की निगरानी करे। विशेष रूप से, यदि पिछली प्रतिक्रिया और वर्तमान प्रतिक्रिया की कोसाइन समानता (cosine similarity) 0.95 या उससे अधिक है, तो यह एक स्पष्ट संकेत है कि एजेंट वही बात दोहरा रहा है और मूर्खतापूर्ण तरीके से लूप में घूम रहा है।

मुख्य लूप में एक काउंटर डालें जो प्रति सत्र अधिकतम मोड़ (Max-Turn Limit) को 15 तक सीमित करे।
प्रत्येक सत्र के लिए अधिकतम स्वीकार्य बजट (Budget Cap) निर्धारित करें और API गेटवे के माध्यम से वास्तविक समय में इसकी निगरानी करें।
यदि सर्किट ब्रेकर ट्रिगर होता है, तो तुरंत निष्पादन ट्रेस का सारांश निकालें और इसे Slack पर भेजें और मानव हस्तक्षेप (Human-in-the-loop) का अनुरोध करें।

एजेंट को पूर्ण अधिकार देना साहस नहीं, बल्कि गैर-जिम्मेदारी है। सुरक्षा उपायों के बिना एजेंट सिस्टम को संचालित न करना ही बेहतर है।

एजेंट टीम के लिए समर्पित ऑब्जर्वेबिलिटी (Observability) डैशबोर्ड

तीन एजेंटों के एक साथ काम करने की प्रक्रिया एक ब्लैक बॉक्स की तरह है। यदि आप नहीं जानते कि बाधा (bottleneck) कहाँ है, तो सुधार करना असंभव है। OpenTelemetry मानकों का पालन करने वाले ट्रेसिंग सिस्टम को जोड़ें ताकि एजेंटों के बीच संदेश प्रवाह को देखा जा सके। Redis-आधारित चेकपॉइंटिंग लागू करें ताकि यदि सिस्टम क्रैश हो जाए, तो आपको शुरू से शुरू करने के बजाय अंतिम सफल बिंदु से जारी रखने की अनुमति मिले।

API प्रतिक्रिया हेडर से cache_read_input_tokens मान निकालें और इसे डैशबोर्ड पर प्रदर्शित करें। यदि कैश हिट दर कम है, तो यह प्रमाण है कि प्रॉम्प्ट संरचना गलत है। इसके अलावा, लूप के कन्वर्ज होने की गति को एक मीट्रिक के रूप में प्रबंधित करके आप प्रॉम्प्ट इंजीनियरिंग के परिणामों को संख्याओं में सिद्ध कर सकते हैं। PostgreSQL में सत्र आईडी और आर्टिफैक्ट संस्करणों को सहेज कर रखें ताकि आप सटीक रूप से विश्लेषण कर सकें कि एजेंट टीम अतीत में कहाँ भटक गई थी। जिस एजेंट का रिकॉर्ड नहीं रखा जाता, वह कभी स्मार्ट नहीं बनता।

Claude 4 युग के लिए एजेंट रिफैक्टरिंग: जटिल शार्डिंग को छोड़ें और कोड में 3-एजेंट लूप को लागू करने का तरीका

लेगेसी शार्डिंग से 3-Agent लूप में डेटा माइग्रेशन रणनीति

Evaluator के लिए मात्रात्मक स्कोरकार्ड कोड कार्यान्वयन

एक RubricScore क्लास घोषित करें और प्रत्येक संकेतक को 1 से 5 के बीच एक पूर्णांक (integer) फ़ील्ड के रूप में सेट करें।
प्रॉम्प्ट के भीतर प्रत्येक स्कोर रेंज के लिए विशिष्ट शर्तें (जैसे: समय जटिलता $O(n)$ या उससे कम होने पर दक्षता में 5 अंक देना) स्पष्ट करें।
यदि औसत स्कोर 4.0 से कम है, तो Merge Block चलाएं ताकि CI/CD पाइपलाइन में परिनियोजन (deployment) स्वतः रुक जाए और पुनर्रचना (re-work) का संकेत मिले।

Anthropic Prompt Caching का उपयोग करके लागत अनुकूलन

अपरिवर्तनीय निर्देशों और टूल परिभाषाओं को सबसे ऊपर रखें और cache_control चेकपॉइंट सेट करें।
उपयोगकर्ता संदेशों के भीतर, परिवर्तनीय जानकारी डालने के लिए <system-reminder> टैग का उपयोग करें। यह सुनिश्चित करता है कि शीर्ष उपसर्ग का कैश बना रहे।
लंबी बातचीत के दौरान, प्रत्येक 20-ब्लॉक लुकबैक विंडो बिंदु पर रणनीतिक रूप से अतिरिक्त चेकपॉइंट रखें।

अनंत लूप को रोकने के लिए सर्किट ब्रेकर डिजाइन

मुख्य लूप में एक काउंटर डालें जो प्रति सत्र अधिकतम मोड़ (Max-Turn Limit) को 15 तक सीमित करे।
प्रत्येक सत्र के लिए अधिकतम स्वीकार्य बजट (Budget Cap) निर्धारित करें और API गेटवे के माध्यम से वास्तविक समय में इसकी निगरानी करें।
यदि सर्किट ब्रेकर ट्रिगर होता है, तो तुरंत निष्पादन ट्रेस का सारांश निकालें और इसे Slack पर भेजें और मानव हस्तक्षेप (Human-in-the-loop) का अनुरोध करें।

Claude 4 युग के लिए एजेंट रिफैक्टरिंग: जटिल शार्डिंग को छोड़ें और कोड में 3-एजेंट लूप को लागू करने का तरीका

Related Video

Anthropic ने आपके AI Agent Harnesses को बेकार साबित कर दिया

Claude 4 युग के लिए एजेंट रिफैक्टरिंग: जटिल शार्डिंग को छोड़ें और कोड में 3-एजेंट लूप को लागू करने का तरीका

लेगेसी शार्डिंग से 3-Agent लूप में डेटा माइग्रेशन रणनीति

Evaluator के लिए मात्रात्मक स्कोरकार्ड कोड कार्यान्वयन

Anthropic Prompt Caching का उपयोग करके लागत अनुकूलन

अनंत लूप को रोकने के लिए सर्किट ब्रेकर डिजाइन

एजेंट टीम के लिए समर्पित ऑब्जर्वेबिलिटी (Observability) डैशबोर्ड

Comments (0)

Claude 4 युग के लिए एजेंट रिफैक्टरिंग: जटिल शार्डिंग को छोड़ें और कोड में 3-एजेंट लूप को लागू करने का तरीका

लेगेसी शार्डिंग से 3-Agent लूप में डेटा माइग्रेशन रणनीति

Evaluator के लिए मात्रात्मक स्कोरकार्ड कोड कार्यान्वयन

Anthropic Prompt Caching का उपयोग करके लागत अनुकूलन

अनंत लूप को रोकने के लिए सर्किट ब्रेकर डिजाइन

एजेंट टीम के लिए समर्पित ऑब्जर्वेबिलिटी (Observability) डैशबोर्ड