Log in to leave a comment
No posts yet
केवल API को कनेक्ट करने और लंबे प्रॉम्प्ट लिखने का युग समाप्त हो गया है। जैसे-जैसे कार्यक्षमता बढ़ती है, एजेंट और अधिक अक्षम होता जाता है। यदि सिस्टम प्रॉम्प्ट बहुत बड़ा हो जाता है, तो मॉडल भ्रमित हो जाता है और मतिभ्रम (hallucinations) पैदा करता है, और आपका बटुआ अर्थहीन टोकन लागत के कारण खाली हो जाता है। 2026 में, एंटरप्राइज परिवेश में जीवित रहने वाला एजेंट वह मॉडल नहीं है जो सब कुछ याद रखता है, बल्कि वह है जिसमें मॉड्युलर स्किल सिस्टम होता है जो केवल आवश्यकता पड़ने पर ही स्मार्ट बनता है।
कई डेवलपर्स जो गलती करते हैं वह यह है कि वे एजेंट को एक साथ सभी निष्पादन निर्देश दे देते हैं। इसे स्किल ब्लोट (Skill Bloat) कहा जाता है। जब निर्देश एक-दूसरे के साथ संघर्ष करते हैं, तो एजेंट अपनी तर्क क्षमता खो देता है। सीनियर इंजीनियरों का विश्लेषण है कि जब एजेंट विशिष्ट स्थितियों में प्राथमिकताओं का न्याय नहीं कर पाता है, तो मॉडल का वास्तविक IQ तेजी से गिर जाता है।
समाधान स्पष्ट है। एक बुद्धिमान प्रबंधन प्रणाली के माध्यम से वास्तविक समय में एजेंट की मस्तिष्क क्षमता को अनुकूलित किया जाना चाहिए।
एजेंट को हर समय सभी जानकारी रखने के लिए मजबूर करना संसाधनों की बर्बादी है। आधुनिक फ्रेमवर्क प्रोग्रेसिव डिस्क्लोज़र (Progressive Disclosure) पद्धति का उपयोग करते हैं।
शुरू से ही हजारों लाइनों की SKILL.md लोड न करें। शुरुआती चरण में, केवल कुछ दर्जन टोकन का मेटाडेटा डालें जिसमें कौशल का नाम और मुख्य सारांश हो। केवल उस निर्णायक क्षण में जब एजेंट उपयोगकर्ता के इरादे का विश्लेषण करता है और यह निर्णय लेता है कि एक विशिष्ट टूल की आवश्यकता है, विस्तृत निर्देशों को गतिशील रूप से (dynamically) कॉल किया जाना चाहिए।
वैश्विक वित्तीय क्षेत्र के वास्तविक कार्यान्वयन मामलों को देखें, तो अकेले इस रणनीति ने पूरे संवाद की टोकन खपत को 80% तक कम कर दिया है। यह सीधे तौर पर परिचालन लागत में 40% की कमी लाता है।
जब उप-कौशल (sub-skills) आपस में टकराते हैं, तो भावनात्मक प्रॉम्प्ट के बजाय डेटा-आधारित मास्टर रूल्स (Master Rules) की आवश्यकता होती है। इष्टतम पथ खोजने के लिए निम्नलिखित स्कोरिंग मॉडल लागू करने का प्रयास करें:
यहाँ प्रासंगिकता, विलंबता (latency), संसाधन लागत और पिछली सफलता दर को दर्शाता है। संख्यात्मक प्राथमिकताएँ एजेंट को अनिश्चित व्यवहार करने से रोकने का सबसे शक्तिशाली नियंत्रण साधन हैं।
कॉर्पोरेट एजेंटों के लिए सुरक्षा और पूर्वानुमान ही सब कुछ है। अब जबकि ओपन सोर्स में प्रॉम्प्ट इंजेक्शन की घटनाएं आम हो गई हैं, बिना शासन (governance) वाला एजेंट एक टिक-टिक करते टाइम बम की तरह है।
आपको एक आंतरिक रजिस्ट्री बनानी चाहिए जो केवल सत्यापित कौशलों का प्रबंधन करती है। विशेष रूप से, एक IAM सिस्टम जो एजेंट को मनुष्यों से अलग क्षणिक (Ephemeral) क्रेडेंशियल प्रदान करता है, अनिवार्य है। यह अनुमति जोखिम (permission exposure) को भौतिक रूप से ब्लॉक करने का एकमात्र तरीका है।
स्टैटिक टेक्स्ट टेम्प्लेट की स्पष्ट सीमाएँ होती हैं। डायनेमिक कॉन्टेक्स्ट इंजेक्शन को अपनाएं, जो निष्पादन के समय बाहरी डेटाबेस से वास्तविक समय की जानकारी प्राप्त करता है और उसे निर्देशों में संयोजित करता है। शोध डेटा के अनुसार, स्टेट मैनेजमेंट और डायनेमिक इंजेक्शन को संयोजित करने वाले मॉडल ने एकल निष्पादन मॉडल की तुलना में उच्च-स्तरीय तर्क कार्यों में 81% बेहतर प्रदर्शन दर्ज किया है।
"क्या मेरा एजेंट वास्तव में अच्छा काम कर रहा है?" इस प्रश्न का उत्तर देने के लिए आपको व्यक्तिपरक निर्णय छोड़ना होगा। GPT-4o या Claude 3.5 Sonnet जैसे उच्च मॉडल को जज के रूप में नियुक्त करें और प्राकृतिक भाषा रूब्रिक (natural language rubric) के अनुसार एजेंट के कार्य प्रक्षेपवक्र (work trajectory) को स्कोर करें।
| मूल्यांकन आयाम | मुख्य माप संकेतक | अनुशंसित मूल्यांकन विधि |
|---|---|---|
| बुद्धिमत्ता और सटीकता | उत्तर सटीकता, साक्ष्य-आधारित तर्क | LLM-as-a-judge |
| परिचालन दक्षता | TTFT (प्रथम टोकन समय), प्रति टोकन लागत | सिस्टम लॉग विश्लेषण |
| सुरक्षा | सुरक्षा नीति उल्लंघन की संख्या, पूर्वाग्रह स्कोर | रेड टीम टेस्टिंग |
एजेंट कौशल एक बार इस्तेमाल होने वाला नोट नहीं है, बल्कि एक सॉफ्टवेयर पैकेज है। चूंकि प्रॉम्प्ट में मामूली बदलाव गैर-नियतात्मक (non-deterministic) परिणाम दे सकते हैं, इसलिए हर संशोधन के बाद गोल्ड सेट (Gold Set) डेटा का उपयोग करके रिग्रेशन टेस्ट किया जाना चाहिए।
GitHub Copilot अपनाने वाले संगठनों ने इन मात्रात्मक मूल्यांकनों और पाइपलाइन अनुकूलन के माध्यम से विकास चक्र को 75% तक कम कर दिया है और बिल्ड सफलता दर को 84% तक बढ़ा दिया है। तैनाती के समय, कैनरी परिनियोजन (Canary deployment) पद्धति को लागू करने की सावधानी बरतनी चाहिए, जिसमें पहले कुछ ट्रैफ़िक पर सफलता दर की पुष्टि की जाती है और फिर इसे पूरे सिस्टम में विस्तारित किया जाता है।
अंततः, एक उत्कृष्ट एजेंट आर्किटेक्चर स्थिर निर्देशों से परे जाकर खुद से सर्वोत्तम टूल चुनने और विकसित होने वाले सिस्टम से आता है। लागत कम करने और प्रदर्शन बढ़ाने की कुंजी आपके डिज़ाइन दर्शन को कम करने और इसे डेटा एवं संरचना पर छोड़ने में निहित है।