Anthropic ने आपके AI Agent Harnesses को बेकार साबित कर दिया

हिन्दीالعربية Deutsch English Español Français Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareManagementInternet Technology

Transcript

00:00:00पिछले कुछ महीनों में हमने BMAD, GSD, Speckit और Superpowers सहित कई AI कोडिंग फ्रेमवर्क कवर किए हैं,

00:00:08और आप में से बहुत से लोगों ने वास्तव में उनका उपयोग करना शुरू कर दिया है। लेकिन Anthropic ने अभी अपने स्वयं के हारनेस पर प्रयोग किए,

00:00:14एक-एक करके घटकों को हटाया, और मापा कि वास्तव में क्या मायने रखता है। उनका निष्कर्ष यह था कि

00:00:17अब इसमें से अधिकांश व्यर्थ का बोझ है। फ्रेमवर्क का हर घटक इस बारे में एक धारणा बनाता है कि मॉडल अपने आप क्या नहीं कर सकता,

00:00:25और Opus 4.6 के साथ, वे धारणाएं पुरानी हो गई हैं। हमने पूरी चीज़ का विश्लेषण किया और मैप किया कि अब क्या मायने रखता है,

00:00:32आप क्या हटा सकते हैं, और आपका सेटअप वास्तव में अब कैसा दिखना चाहिए। एजेंट हारनेस लंबी अवधि में एजेंटों को काफी बेहतर

00:00:37बनाने में महत्वपूर्ण भूमिका निभाते हैं। Anthropic पहले ही एक एजेंट हारनेस जारी कर चुका है, जिसे हमने पिछले वीडियो में विस्तार से कवर किया था,

00:00:43यह समझाते हुए कि इसे कैसे सेटअप और उपयोग करना है। हमने उसी संदर्भ में अन्य फ्रेमवर्क को भी कवर किया है, और हालांकि उनके कार्यान्वयन अलग हैं,

00:00:50वे सभी एक ही चीज़ करने की कोशिश कर रहे हैं। लेकिन जब ये फ्रेमवर्क जारी किए गए थे, तो मॉडल उतने सक्षम नहीं थे जितना कि Opus 4.6 अब है।

00:00:55उदाहरण के लिए, GSD जैसे फ्रेमवर्क कॉन्टेक्स्ट आइसोलेशन पर केंद्रित हैं, लेकिन Opus 4.6 के साथ यह कोई समस्या नहीं है।

00:01:01न केवल मिलियन टोकन कॉन्टेक्स्ट विंडो के कारण, बल्कि एक और कारण है जिसके बारे में हम थोड़ी देर में बात करेंगे।

00:01:06इसलिए, पहले से लागू किए गए बहुत सारे फ्रेमवर्क अब नई मॉडल क्षमताओं के लिए एक अतिरिक्त बोझ बन गए हैं।

00:01:11Anthropic ने वास्तव में हारनेस के विभिन्न पहलुओं का परीक्षण करते हुए प्रयोग किए, प्रत्येक को हटाया और उसके प्रभाव को मापा।

00:01:17अपने निष्कर्षों से, उन्होंने यह परिणाम निकाला कि एक एजेंट हारनेस को वास्तव में केवल योजना बनाने, निर्माण करने और मूल्यांकन करने के लिए एजेंटों की आवश्यकता होती है।

00:01:24बाकी सिर्फ काम करने के तरीके हैं जो मॉडल के अब इतने सक्षम होने के कारण व्यर्थ बोझ बन गए हैं।

00:01:29मूल सिद्धांत यह है कि एक एजेंट हारनेस का हर घटक, चाहे आप किसी का भी उपयोग कर रहे हों, उसी सिद्धांत पर निर्भर करता है।

00:01:35प्रत्येक घटक इस बारे में एक धारणा बनाता है कि मॉडल अपने आप क्या कर सकता है।

00:01:38इन धारणाओं का परीक्षण किया जाना चाहिए क्योंकि वे गलत हो सकती हैं, और मॉडल में सुधार के साथ वे पुरानी हो जाएंगी, और उन्होंने पूरे लेख में यही किया।

00:01:46इसलिए, मॉडलों के विकास के साथ, आपके हारनेस को भी विकसित होना चाहिए, और यदि आप कुछ महीने पहले निर्धारित सिद्धांतों के साथ काम कर रहे हैं, तो आप पीछे छूट रहे हैं।

00:01:54योजना बनाना (Planning) पहला कदम है जो हर फ्रेमवर्क में अपरिवर्तित रहता है, लेकिन अधिक सक्षम मॉडलों के लिए आपके योजना बनाने का तरीका बदलना होगा।

00:02:01Anthropic के पिछले लंबे समय तक चलने वाले हारनेस के लिए उपयोगकर्ता को पहले से विस्तृत निर्देश (spec) देने की आवश्यकता होती थी।

00:02:06BeMad और SpecKit जैसे फ्रेमवर्क सचमुच कार्य को छोटे टुकड़ों और सूक्ष्म कार्यों (microtasks) में विभाजित कर देते हैं जो AI एजेंट को इसे आसानी से लागू करने में मदद करते हैं।

00:02:14और ये केवल छोटे कार्य नहीं थे, वे सचमुच विस्तृत चरण थे जिनका एजेंटों को बिना सोचे-समझे पालन करना था।

00:02:20ऐसा इसलिए था क्योंकि उस समय, मॉडल पर्याप्त सक्षम नहीं थे और उन्हें सूक्ष्म मार्गदर्शन की आवश्यकता थी ताकि वे आपके इच्छानुसार प्रदर्शन कर सकें।

00:02:27लेकिन Opus 4.5 और 4.6 के साथ, यह बदल गया है।

00:02:30जब Anthropic ने इसका परीक्षण किया, तो उन्होंने पाया कि यदि प्लानर ने पहले से ही सूक्ष्म-तकनीकी विवरण निर्दिष्ट करने की कोशिश की, तो एक भी गलती पूरे कार्यान्वयन में फैल जाएगी,

00:02:43जिससे एजेंट के लिए रास्ते से हटकर समस्याओं को खुद ठीक करना मुश्किल हो जाएगा। यह सब इस बात पर निर्भर करता था कि योजना कितनी अच्छी तरह लिखी गई थी।

00:02:45इसलिए, योजना बनाना अब विस्तृत तकनीकी कार्यान्वयन के बजाय उच्च-स्तरीय (high-level) हो गया है।

00:02:50एजेंट अब अपने आप में बहुत स्मार्ट हैं और आपको बस उन्हें बताना है कि किन परिणामों (deliverables) की आवश्यकता है।

00:02:55वे उस तक पहुँचने का रास्ता खुद ही निकाल सकते हैं।

00:02:57इस बदलाव के साथ, BeMad और SpecKit जैसे योजना बनाने के दृष्टिकोण अब उतने प्रासंगिक नहीं रह गए हैं।

00:03:02आप BeMad को PRD जनरेशन तक योजना चरण तक सीमित कर सकते हैं, तकनीकी विभाजन प्रक्रिया (sharding) में जाने की कोई आवश्यकता नहीं है।

00:03:08जैसा कि हमने पहले उल्लेख किया है, BeMad के साथ PRD जनरेशन प्रभावी है क्योंकि इसमें उत्पाद आवश्यकताओं को समझने के लिए विशेष एजेंट हैं

00:03:18जो Claude की तुलना में बेहतर काम करते हैं। ऐसा इसलिए है क्योंकि उन एजेंटों के पास लेखक द्वारा जोड़े गए विशिष्ट कार्यों के लिए बाहरी संदर्भ (context) होता है।

00:03:23वैकल्पिक रूप से, आप Superpowers के प्रश्नोत्तर सत्र का उपयोग कर सकते हैं क्योंकि इसका उद्देश्य वास्तव में उन विशेष स्थितियों (edge cases) की पहचान करना था,

00:03:32जो बहु-स्तरीय कार्य दस्तावेज़ीकरण की तुलना में अधिक प्रभावी हो सकते हैं। लेकिन अत्यधिक विस्तृत योजना की मुख्य समस्या यह है कि

00:03:40यह एजेंट को बांध देता है और AI के लिए खुद से चीज़ें खोजने और समझने की गुंजाइश नहीं छोड़ता है। Anthropic ने एक उदाहरण योजना भी दी है

00:03:46जो प्लानर एजेंट द्वारा तैयार की गई थी, जिसका उपयोग आप अपना स्वयं का प्लानर एजेंट सेटअप करने के लिए कर सकते हैं। यह स्पष्ट रूप से रेखांकित करता है कि

00:03:52योजना को बड़े दायरे (scope) पर ध्यान केंद्रित करना चाहिए और आपके द्वारा दिए गए किसी भी ऐप विचार की सीमाओं को आगे बढ़ाना चाहिए।

00:03:56मुख्य विचार प्रोजेक्ट को उत्पाद स्तर पर रखना है, कार्यान्वयन स्तर पर नहीं। यह मायने रखता है क्योंकि यदि यह प्रोजेक्ट प्लान के भीतर कार्यान्वयन की योजना बनाने की कोशिश करता है,

00:04:06तो यह तकनीकी विवरणों पर बहुत अधिक केंद्रित हो जाता है और एक पूर्ण उत्पाद के लिए वास्तव में आवश्यक चीज़ों को वितरित करने में विफल हो सकता है।

00:04:12अब आप सोच सकते हैं कि Claude का अपना प्लान मोड पहले से ही सवाल पूछकर और विस्तृत योजना प्रदान करके समान योजना बनाता है।

00:04:22लेकिन यहाँ अंतर है। भले ही Claude के पास एक प्लानिंग एजेंट है, फिर भी यह कार्यान्वयन विवरणों पर भारी ध्यान केंद्रित करता है और वास्तव में उत्पाद स्तर पर काम नहीं करता है,

00:04:31जो Anthropic के निष्कर्षों के विपरीत है। इसलिए, एक बार जब आपके पास यह तैयार हो जाए, तो आप बस Claude से अपने द्वारा बनाए गए एजेंट का उपयोग करके

00:04:40अपने ऐप की योजना बनाने के लिए कह सकते हैं, और यह एक पूर्ण योजना तैयार करेगा और आगे बढ़ने पर इसे आपके फ़ोल्डर में दस्तावेज़ित करेगा। इस योजना में उत्पाद स्तर पर

00:04:44एक पूर्ण फीचर ब्रेकडाउन शामिल है, और प्रत्येक चरण के साथ, इसमें उपयोगकर्ता कहानियाँ (user stories) शामिल हैं जो दिखाती हैं कि उपयोगकर्ता का दृष्टिकोण कैसा दिखता है।

00:04:47इससे Claude को सही वर्कफ़्लो लागू करने में मदद मिलती है जिसकी उपयोगकर्ता वास्तव में अपेक्षा करते हैं। लेकिन इससे पहले कि हम आगे बढ़ें, आइए हमारे प्रायोजक Minimax के बारे में कुछ बातें करते हैं।

00:04:56AI एजेंट सेटअप करना एक दुःस्वप्न है। API की, सर्वर कॉन्फ़िगरेशन, डॉकर सेटअप, और इन सब के बाद, टैब बंद करते ही आपका सहायक सब कुछ भूल जाता है।

00:04:59समाधान MaxClaw है, जो आपकी उंगलियों पर क्लाउड-पावर्ड AI है। कोई सेटअप नहीं, कोई सिरदर्द नहीं, आप अपना खुद का OpenClaw तैनात कर सकते हैं।

00:05:02बस डिप्लॉय पर क्लिक करें, और आप 10 सेकंड से कम समय में लाइव हो जाएंगे। यह वेबसाइट बनाता है, कोड लिखता है, शोध करता है, और साधारण टेक्स्ट संकेतों से आपके व्यस्त काम को स्वचालित करता है।

00:05:12MaxClaw सीधे Telegram, Slack, Discord और अन्य से जुड़ता है, जिससे आप वर्कफ़्लो को स्वचालित कर सकते हैं, वेब ब्राउज़ कर सकते हैं, और साधारण चैट से चित्र या वीडियो भी बना सकते हैं।

00:05:21यह Minimax Agent का हिस्सा है, एक AI-नेटिव वर्कस्पेस जहाँ हर कोई एजेंट डिज़ाइनर बन जाता है। यह Mac, Windows पर काम करता है, M 2.7 द्वारा संचालित है,

00:05:27जो Sweetbench पर Claude Opus 4.6 के बराबर है। जटिल सेटअपों से जूझना बंद करें, MaxClaw को इसे संभालने दें, और शुरू करने के लिए पिन किए गए कमेंट में दिए गए लिंक पर क्लिक करें।

00:05:33कोड लिखने वाले एजेंट को उसका मूल्यांकन करने वाला एजेंट नहीं होना चाहिए।

00:05:39यह दूसरी सबसे आम समस्या है, और आमतौर पर इस पर ज्यादा चर्चा नहीं की जाती है।

00:05:42स्व-मूल्यांकन समस्याग्रस्त है क्योंकि यदि आप उसी एजेंट का उपयोग करते हैं जिसने कोड लिखा है, तो वह बहुत आत्मविश्वास से जवाब देता है

00:05:46और अपने काम की प्रशंसा करता है, भले ही गुणवत्ता स्पष्ट रूप से निम्न स्तर की हो। उन कार्यों के लिए इसे प्रबंधित करना आसान हो सकता है जिनमें मात्रात्मक मेट्रिक्स होते हैं,

00:05:56जैसे कि लागू किए गए API वास्तव में काम कर रहे हैं या नहीं। लेकिन यह समस्या उन कार्यों के लिए बहुत अधिक स्पष्ट हो जाती है

00:06:03जिनके परिणाम स्पष्ट रूप से सत्यापन योग्य नहीं होते हैं। इसका सबसे बड़ा उदाहरण UI है।

00:06:08एक अच्छा UI क्या होता है यह व्यक्तिपरक है, और AI शायद आपके इरादों को पूरी तरह से न समझ पाए।

00:06:10यह अपने स्वयं के कार्यान्वयन को अच्छी तरह से किया गया मान सकता है, भले ही वह आपके मानकों को पूरा न करता हो।

00:06:15इस मुद्दे को कई फ्रेमवर्क के रचनाकारों ने पहले ही पहचान लिया था, और उन्होंने इसे हल करने के लिए अपने स्वयं के मूल्यांकन तंत्र लागू किए।

00:06:19GSD, BMAD और Superpowers जैसे सभी फ्रेमवर्क जिन्हें हमने कवर किया है, यह सुनिश्चित करते हैं कि

00:06:26वही एजेंट जिसने कोड लिखा है उसे उसकी गुणवत्ता का मूल्यांकन करने का मौका न मिले।

00:06:34यह दृष्टिकोण एजेंट के मूल्यांकन की सटीकता और विश्वसनीयता में काफी सुधार करता है।

00:06:39इसलिए, चाहे आप मौजूदा फ्रेमवर्क का उपयोग कर रहे हों या अपना खुद का बना रहे हों, आपको यह सुनिश्चित करना होगा कि मूल्यांकनकर्ता (evaluator) लागू करने वाले (implementer) से पूरी तरह अलग हो।

00:06:47कार्यान्वयन शुरू होने से पहले, जनरेटर और इवैल्यूएटर दोनों एजेंट एक अनुबंध पर बातचीत करते हैं, इस बात पर सहमत होते हैं कि काम के लिए "पूर्ण" (done) कैसा दिखता है।

00:06:54इससे मदद मिलती है क्योंकि दोनों एजेंटों को स्पष्ट रूप से पता होता है कि क्या हासिल करना है और क्या सत्यापित करना है।

00:06:58उच्च-स्तरीय योजना के साथ, अभी भी कार्रवाई योग्य, लागू करने योग्य कदमों की आवश्यकता है।

00:07:02लेकिन हारनेस के साथ परीक्षण के दौरान, उन्होंने स्प्रिंट अनुबंध को हटाने की कोशिश की। उन्होंने पाया कि Opus 4.5 इस परिदृश्य में कम कुशल था

00:07:06क्योंकि मूल्यांकनकर्ता को अभी भी समस्याओं को पकड़ने के लिए हस्तक्षेप करना पड़ता था। लेकिन Opus 4.6 के साथ, मॉडल की क्षमताओं में इतना सुधार हो गया था

00:07:12कि अनुबंध की आवश्यकता नहीं थी। जनरेटिव एजेंट अधिकांश काम को अपने आप संभालने में सक्षम था।

00:07:18इसलिए, Sonnet या Haiku जैसे छोटे मॉडलों के लिए, आपको अभी भी कार्यों को दस्तावेज़ित करने की आवश्यकता है।

00:07:22उन्हें स्प्रिंट संरचनाओं में ठीक से तोड़ें और प्रत्येक एजेंट को इस बात पर सहमत करें कि "पूर्ण" कैसा दिखता है।

00:07:27लेकिन अधिक सक्षम मॉडलों के साथ, आप इन अतिरिक्त चरणों के बिना उच्च-स्तरीय योजना को निष्पादित करने के लिए Opus पर भरोसा कर सकते हैं।

00:07:32अब हमने कहा कि कॉन्टेक्स्ट आइसोलेशन के मायने रखने का एक कारण है।

00:07:38ऐसा इसलिए है क्योंकि छोटे मॉडल "कॉन्टेक्स्ट एंग्जायटी" का अनुभव करते हैं, एक ऐसी घटना जहाँ मॉडल लंबे कार्यों पर सामंजस्य खोने लगते हैं

00:07:42जैसे-जैसे उनकी कॉन्टेक्स्ट विंडो भरती जाती है। जब ऐसा होता है, तो वे काम को समय से पहले ही समेट लेते हैं और दावा करते हैं कि

00:07:51उन्होंने कार्यों को सही ढंग से लागू किया है, भले ही उन्होंने ऐसा न किया हो। समाधान जिसने मदद की वह था कॉन्टेक्स्ट रीसेट,

00:07:57कार्यान्वयन शुरू करने से पहले उनकी कॉन्टेक्स्ट विंडो को साफ़ करना। चूंकि कॉन्टेक्स्ट साफ़ हो गया था, वे बाहरी रूप से दस्तावेज़ित कार्य विवरण पर भरोसा कर सकते थे,

00:08:02जो कॉन्टेक्स्ट रीसेट के बाद भी बना रहता था। लेकिन मॉडलों ने इतनी अधिक कॉन्टेक्स्ट एंग्जायटी दिखाई कि केवल कंपैक्शन (compaction) ही पर्याप्त नहीं था।

00:08:08उन्हें लंबे कार्यों पर समस्याओं को रोकने के लिए अतिरिक्त उपायों की आवश्यकता थी। हालाँकि, Opus 4.5 से शुरू होकर, मॉडल अब यह व्यवहार नहीं दिखाते हैं।

00:08:13ये एजेंट पूरे सत्र में लगातार चल सकते हैं, और जिस तरह से Claude कंपैक्शन को संभालता है वह उनके काम करने के लिए पर्याप्त है।

00:08:17इसलिए, कॉन्टेक्स्ट रीसेट अब आवश्यक नहीं हैं, और BMAD और SpecKit जैसे विस्तृत कार्य विवरणों की भी आवश्यकता नहीं है,

00:08:21केवल उच्च-स्तरीय मार्गदर्शन ही पर्याप्त है। जनरेटर एजेंट मुख्य कार्यान्वयनकर्ता है जो वास्तव में ऐप को एक-एक करके फीचर बनाता है।

00:08:28यह योजना से विनिर्देशों (specs) को लेता है और संस्करण नियंत्रण के लिए Git के साथ एकीकृत करते हुए उन्हें लगातार लागू करता है।

00:08:37जनरेटर मूल्यांकनकर्ता एजेंट के साथ समन्वय में काम करता है। एक फीचर बनाने के बाद, यह इसे परीक्षण के लिए सौंप देता है

00:08:42और इसके कार्यान्वयन को बेहतर बनाने के लिए फीडबैक प्राप्त करता है। इसका वर्कफ़्लो कई चरणों में व्यवस्थित है: कार्य को समझना, उसे लागू करना और कार्यान्वयन को परिष्कृत करना।

00:08:47कार्यान्वयन चरण के भीतर भी, काम को विभिन्न पहलुओं को कवर करने वाले चार उप-चरणों में विभाजित किया गया है।

00:08:50यह डिज़ाइन दिशा का पालन करता है, अपने काम की पुष्टि करता है, और फिर इसे मूल्यांकनकर्ता को सौंप देता है।

00:08:56यह एक संरचित, चरण-दर-चरण पैटर्न बनाता है, जिससे एजेंट स्वतंत्र रूप से और व्यवस्थित रूप से पूरे ऐप को लागू करने में सक्षम होता है।

00:09:02इवैल्यूएटर एजेंट जनरेटर के प्रतिद्वंद्वी के रूप में कार्य करता है। इसका काम यह सुनिश्चित करना है कि ऐप सही ढंग से लागू किया गया है,

00:09:07न कि केवल एक सामान्य "बग खोजें" प्रक्रिया करके, बल्कि इस दृष्टिकोण के साथ कि बग मौजूद हैं। यह ऐप का परीक्षण करने के लिए PlayWrite जैसे टूल का उपयोग कर सकता है,

00:09:11उपयोगकर्ता के व्यवहार का अनुकरण करके, पूर्वनिर्धारित मानदंडों के आधार पर बग की पहचान कर सकता है और जनरेटर को वापस फीडबैक भेज सकता है।

00:09:18योजना को पढ़कर, मूल्यांकनकर्ता को इस बात की स्पष्ट समझ हो जाती है कि "पूर्ण" कैसा दिखना चाहिए और इसे अनुमोदित करने से पहले सब कुछ अच्छी तरह से जांचता है।

00:09:21प्रत्येक फ्रेमवर्क का अपना सत्यापनकर्ता (validator) होता है, लेकिन दृष्टिकोण काफी भिन्न होते हैं।

00:09:30BMAD विशेष कोड समीक्षा और QA एजेंटों का उपयोग करता है जो परीक्षण उत्पन्न करते हैं और चलाते हैं, कई कोणों से कोड का मूल्यांकन करते हैं।

00:09:39GSD एक सत्यापनकर्ता उप-एजेंट का उपयोग करता है जो मौजूदा योजना के खिलाफ कार्यान्वयन की जांच करता है और एक दस्तावेज़ रिपोर्ट तैयार करता है।

00:09:46Superpowers नए उप-एजेंटों पर निर्भर करता है और सख्त TDD लागू करता है, जहाँ परीक्षण मामलों से पहले कोई कोड नहीं लिखा जा सकता है।

00:09:50यदि एजेंट इसे बायपास करने की कोशिश करता है, तो उसे ब्लॉक कर दिया जाता है। SpecKit विनिर्देशों (specs) को सत्य का स्रोत मानता है

00:09:57और एजेंट को दस्तावेज़ों के विरुद्ध कोड सत्यापित करने की अनुमति देता है। लेकिन इनमें से कोई भी फ्रेमवर्क उस स्तर की कठोरता के साथ स्कोरिंग तंत्र प्रदान नहीं करता है

00:10:04जिसका Anthropic लक्ष्य बना रहा था। इसलिए, Anthropic के हारनेस में इवैल्यूएटर, Claude के लिए Ralph Loop के सख्त कार्यान्वयन प्रवर्तन के सबसे करीब है,

00:10:10यह सुनिश्चित करते हुए कि एजेंट वास्तव में एक उचित श्रेणीबद्ध मूल्यांकन तंत्र के साथ वह वितरित करता है जिसकी आवश्यकता है।

00:10:13इसके अलावा, यदि आप हमारी सामग्री का आनंद ले रहे हैं, तो हाइप बटन दबाने पर विचार करें, क्योंकि यह हमें इस तरह की और अधिक सामग्री बनाने और अधिक लोगों तक पहुँचने में मदद करता है।

00:10:18एजेंट के पास यह जानने का कोई साधन नहीं है कि आपके लिए सही आउटपुट कैसा दिखता है, विशेष रूप से उन मामलों में जहाँ कार्यान्वयन मात्रात्मक नहीं है।

00:10:24इसलिए, आप श्रेणीबद्ध मूल्यांकन तंत्र (graded evaluation mechanisms) का उपयोग करते हैं ताकि उन्हें पता चले कि आपके लिए सही आउटपुट कैसा दिखता है।

00:10:35जब Anthropic ने फ्रंट-एंड के लिए मूल्यांकन मेट्रिक्स का एक उदाहरण दिया, तो उन्होंने उल्लेख किया कि AI अधिकांश समय समान आउटपुट पर ही केंद्रित रहता है।

00:10:43उन्होंने जनरेटर और इवैल्यूएटर दोनों एजेंटों के लिए चार ग्रेडिंग मानदंड निर्धारित किए। पहला डिज़ाइन की गुणवत्ता है,

00:10:49जो इसे यह जांचने का निर्देश देता है कि फील्ड सुसंगत है या सिर्फ अलग-अलग घटक एक साथ जुड़े हुए हैं। फिर मौलिकता (originality), जो मुख्य मानदंडों में से एक है

00:10:54क्योंकि AI अधिकांश UI के लिए उसी पर्पल और व्हाइट ग्रेडिएंट पैटर्न को डिफॉल्ट करने की प्रवृत्ति रखता है।

00:11:02यह इंसानों के डिजाइन करने के तरीके के खिलाफ जाता है, क्योंकि एक इंसान के लिए, हर डिजाइन विकल्प सोच-समझकर लिया जाता है और इससे यह आसानी से पहचाना जा सकता है कि

00:11:06वेबसाइट कब अच्छी नहीं लग रही है। तीसरा है क्राफ्ट (craft), टाइपोग्राफी, स्पेसिंग स्थिरता और रंग सद्भाव जैसे छोटे विवरण,

00:11:12जहाँ कंट्रास्ट अनुपात इसे अधिक रचनात्मक लुक देने के बजाय तकनीकी रूप से संतुलित होता है। और आखिरी है कार्यक्षमता (functionality),

00:11:19क्योंकि UI के संदर्भ में, प्रत्येक घटक उपयोगकर्ता अनुभव को बढ़ाने में एक दृश्य भूमिका निभाता है। Claude पहले से ही क्राफ्ट और कार्यक्षमता पर अच्छा स्कोर करता है,

00:11:27लेकिन बाकी सबसे आम संघर्ष हैं, और प्रॉम्प्ट को इस बात पर जोर देकर अपनी सर्वोत्तम क्षमता तक धकेलने की आवश्यकता है कि सबसे अच्छा डिज़ाइन गुणवत्ता से आता है।

00:11:37इसलिए, जब आप अपना ऐप बना रहे हों, तो आप कोड आर्किटेक्चर, फ्रंट-एंड, UX यूजर फ्लो और बहुत कुछ जैसी जितनी चाहें उतनी सुविधाओं के लिए समान मानदंड सेट कर सकते हैं।

00:11:44मानदंडों में उल्लिखित प्रत्येक भाग का एक समर्पित स्कोर होना चाहिए ताकि मॉडल यह पहचान सके कि वह कितना अच्छा प्रदर्शन करता है।

00:11:54इन फ़ाइलों को इवैल्यूएटर एजेंट में संदर्भित किया जाता है क्योंकि इवैल्यूएटर का काम स्कोर करना है, इसलिए उसे पता होता है कि उसे किस रूब्रिक का पालन करना चाहिए।

00:12:02हमने जो कुछ भी कवर किया है, उसे देखते हुए आप सोच सकते हैं कि आपको वास्तव में अब क्या करना चाहिए।

00:12:10यदि आप एक फ्रेमवर्क चाहते हैं ताकि आपका सेटअप आसान हो, तो GSD चुनें, क्योंकि GSD स्वाभाविक रूप से डिफॉल्ट रूप से प्लानर, जनरेटर, इवैल्यूएटर लूप का उपयोग करता है,

00:12:17लेकिन इसका इवैल्यूएटर सिर्फ मौजूदा योजनाओं के साथ कोड का मिलान करता है और यूजर एक्सेप्टेंस टेस्टिंग पर निर्भर करता है। यह एक पास और फेल तंत्र का उपयोग करता है,

00:12:21स्कोर्ड कार्यान्वयन का नहीं। इसलिए, आप Anthropic फ्रेमवर्क के सबसे अच्छे हिस्सों को ले सकते हैं और उन्हें GSD के साथ जोड़ सकते हैं,

00:12:35उदाहरण के लिए इवैल्यूएटर एजेंट को बदलना और इसे मानदंडों के साथ जोड़ना ताकि एजेंट को पता चल सके कि सही कार्यान्वयन क्या है।

00:12:49लेकिन यदि आप Anthropic के फ्रेमवर्क का उपयोग करना चाहते हैं और इसे अपने आप सेटअप करना चाहते हैं, तो आप उनकी संबंधित भूमिकाओं के आधार पर एजेंट बनाकर

00:12:58और एजेंट टीमों का उपयोग करके उन्हें एक साथ काम करवाकर इसे लागू कर सकते हैं। आप एक एजेंट टीम के सदस्य को जनरेटर के रूप में और दूसरे को इवैल्यूएटर के रूप में उपयोग कर सकते हैं।

00:13:03एजेंट टीमों का उपयोग करने का कारण यह है कि वे एक-दूसरे के साथ संवाद कर सकते हैं, जबकि उप-एजेंट ऐसा नहीं कर सकते और उन्हें दस्तावेज़ में लिखना होगा, जिससे अतिरिक्त बोझ (overhead) पैदा होता है।

00:13:10इसलिए, Claude उच्च-स्तरीय योजना से कार्य बनाता है और एक ही समय में दोनों एजेंट बनाता है, जहाँ एक लागू कर रहा होता है

00:13:24जबकि दूसरा ब्राउज़र के साथ Playwright MCP का उपयोग करके परीक्षण चला रहा होता है, जनरेटर से अपडेट की प्रतीक्षा करता है ताकि वह परीक्षण प्रक्रिया शुरू कर सके।

00:13:33इवैल्यूएटर काम को सत्यापित करता रहता है और जनरेटर के साथ समस्याओं का संवाद करता है और वे आपके मानकों से मेल खाने वाले पूरे ऐप को लागू करने के लिए समन्वय में काम करते हैं।

00:13:43अब यहाँ उपयोग किए गए सभी एजेंट और सभी संसाधन इस वीडियो और हमारे पिछले सभी वीडियो के लिए AI Labs Pro में उपलब्ध हैं, जहाँ से आप इसे डाउनलोड कर सकते हैं

00:13:48और अपने प्रोजेक्ट्स के लिए उपयोग कर सकते हैं। यदि आपको हमारे काम में मूल्य मिला है और चैनल का समर्थन करना चाहते हैं, तो यह करने का सबसे अच्छा तरीका है। लिंक विवरण में है।

00:13:57यह हमें इस वीडियो के अंत में लाता है। यदि आप चैनल का समर्थन करना चाहते हैं और हमें इस तरह के वीडियो बनाते रहने में मदद करना चाहते हैं, तो आप नीचे दिए गए सुपर थैंक्स बटन का उपयोग करके ऐसा कर सकते हैं। हमेशा की तरह, देखने के लिए धन्यवाद और मैं आपसे अगले वीडियो में मिलूँगा।

Key Takeaway

Anthropic के शोध के अनुसार, Opus 4.6 जैसे मॉडलों के साथ अब जटिल कोडिंग हारनेस के बजाय केवल एक 'प्लानर-जनरेटर-इवैल्यूएटर' लूप और श्रेणीबद्ध ग्रेडिंग तंत्र ही सर्वोत्तम परिणाम देने के लिए पर्याप्त है।

Highlights

Opus 4.6 जैसे सक्षम मॉडलों के लिए अब GSD और SpecKit जैसे पुराने फ्रेमवर्क का सूक्ष्म-कार्य विभाजन (micro-task sharding) एक व्यर्थ बोझ बन गया है।
विस्तृत तकनीकी योजना बनाने के बजाय अब प्रोजेक्ट को उच्च-स्तरीय उत्पाद आवश्यकताओं (high-level product deliverables) पर केंद्रित रखना 3x अधिक प्रभावी है।
कोड लिखने वाले एजेंट को स्वयं का मूल्यांकन नहीं करना चाहिए क्योंकि स्व-मूल्यांकन पक्षपाती होता है और गुणवत्ता मानकों में गिरावट लाता है।
Opus 4.5 और उसके बाद के मॉडल 'कॉन्टेक्स्ट एंग्जायटी' प्रदर्शित नहीं करते हैं, जिससे अब बार-बार कॉन्टेक्स्ट रीसेट करने की आवश्यकता समाप्त हो गई है।
UI डिजाइन की गुणवत्ता सुनिश्चित करने के लिए Anthropic ने डिज़ाइन सुसंगतता, मौलिकता, क्राफ्ट और कार्यक्षमता के आधार पर चार-स्तरीय श्रेणीबद्ध ग्रेडिंग (graded evaluation) का उपयोग किया है।
एजेंट टीमों (Agent Teams) का उपयोग उप-एजेंटों की तुलना में बेहतर है क्योंकि वे सीधे संवाद कर सकते हैं और दस्तावेज़ीकरण के ओवरहेड को कम करते हैं।

Timeline

पुराने कोडिंग फ्रेमवर्क की वर्तमान अप्रासंगिकता

BMAD, GSD और SpecKit जैसे फ्रेमवर्क उन धारणाओं पर आधारित थे जो अब Opus 4.6 की क्षमताओं के सामने पुरानी हो गई हैं।
आधुनिक एजेंट हारनेस को अब केवल योजना बनाने, निर्माण करने और मूल्यांकन करने के लिए न्यूनतम घटकों की आवश्यकता है।

एजेंट हारनेस के प्रत्येक घटक को इस आधार पर हटाया गया कि मॉडल स्वयं क्या कर सकता है। मिलियन टोकन कॉन्टेक्स्ट विंडो और बेहतर तर्क क्षमता ने पुराने आइसोलेशन तकनीकों को अनावश्यक बना दिया है। यदि हारनेस पिछले महीनों के सिद्धांतों पर चल रहा है, तो वह मॉडल की गति को धीमा कर रहा है।

विस्तृत सूक्ष्म-कार्यों के बजाय उच्च-स्तरीय योजना

सूक्ष्म-तकनीकी विवरण (micro-tasks) निर्दिष्ट करने से एक छोटी सी गलती पूरे कार्यान्वयन को खराब कर देती है और एजेंट की समस्या सुलझाने की क्षमता को सीमित करती है।
योजना अब तकनीकी कार्यान्वयन स्तर के बजाय केवल उत्पाद स्तर (Product Level) की विशेषताओं और उपयोगकर्ता कहानियों पर केंद्रित होनी चाहिए।

BeMad और SpecKit जैसे पुराने तरीके एजेंट को बांध देते थे। नए प्रयोगों से पता चला है कि एजेंट अब पर्याप्त स्मार्ट हैं और उन्हें केवल अंतिम परिणामों की जानकारी चाहिए। Claude का अपना प्लान मोड भी अक्सर तकनीकी विवरणों में उलझ जाता है, जबकि Anthropic प्रोजेक्ट के व्यापक दायरे और सीमाओं को आगे बढ़ाने की सलाह देता है।

स्वतंत्र मूल्यांकनकर्ता और अनुबंध का महत्व

कोड लिखने वाले और उसका परीक्षण करने वाले एजेंट का पूरी तरह अलग होना अनिवार्य है ताकि व्यक्तिपरक कार्यों में गुणवत्ता बनी रहे।
Opus 4.6 के साथ अब जनरेटर और इवैल्यूएटर के बीच औपचारिक स्प्रिंट अनुबंध (sprint contracts) की आवश्यकता समाप्त हो गई है।

स्व-मूल्यांकन करने वाले AI अक्सर अपने खराब काम की भी प्रशंसा करते हैं, विशेषकर UI जैसे कार्यों में जहाँ सफलता के मापदंड व्यक्तिपरक होते हैं। पहले छोटे मॉडलों को कार्य शुरू करने से पहले 'पूर्ण' की परिभाषा पर सहमत होना पड़ता था, लेकिन अब बड़े मॉडल बिना इस अतिरिक्त चरण के भी उच्च-स्तरीय योजना को सटीक रूप से निष्पादित कर सकते हैं।

कॉन्टेक्स्ट एंग्जायटी का समाधान और कार्य निष्पादन

पुराने मॉडलों में लंबी बातचीत के दौरान सामंजस्य खोने या काम को अधूरा छोड़ने की प्रवृत्ति थी जिसे कॉन्टेक्स्ट एंग्जायटी कहा जाता था।
Opus 4.5 और उसके बाद के संस्करण पूरे सत्र में बिना किसी रीसेट या कंपैक्शन समस्याओं के लगातार और सटीक रूप से काम कर सकते हैं।

अब जनरेटर एजेंट सीधे Git के साथ एकीकृत होकर फीचर्स बना सकता है और इवैल्यूएटर के साथ समन्वय कर सकता है। यह वर्कफ़्लो कार्य को समझने, लागू करने और परिष्कृत करने के संरचित चरणों में विभाजित है। Ralph Loop जैसे सख्त प्रवर्तन तंत्र यह सुनिश्चित करते हैं कि एजेंट वास्तव में वही वितरित करे जिसकी आवश्यकता है।

ग्रेडिंग रूब्रिक्स और एजेंट टीम सेटअप

केवल पास/फेल के बजाय चार ग्रेडिंग मानदंडों (डिज़ाइन, मौलिकता, क्राफ्ट, कार्यक्षमता) का उपयोग करने से आउटपुट की गुणवत्ता कई गुना बढ़ जाती है।
एजेंट टीमों का उपयोग संचार के ओवरहेड को कम करता है और ब्राउज़र-आधारित परीक्षण (Playwright) के साथ वास्तविक समय में समन्वय की अनुमति देता।

AI अक्सर साधारण और दोहराव वाले UI डिज़ाइन बनाता है, जिसे सुसंगत टाइपोग्राफी, स्पेसिंग और रंग सद्भाव के लिए विशिष्ट स्कोरिंग तंत्र के माध्यम से सुधारा जा सकता है। सर्वोत्तम सेटअप के लिए GSD जैसे फ्रेमवर्क को Anthropic के मूल्यांकन रूब्रिक्स के साथ जोड़ना चाहिए। एजेंट टीमों के माध्यम से एक सदस्य जनरेटर और दूसरा इवैल्यूएटर के रूप में काम करते हुए पूरे ऐप को स्वायत्त रूप से बना सकते हैं।

Community Posts

Write about this video