लूप इंजीनियरिंग: हर्मेस एजेंट्स को पूरी तरह से 10 गुना बेहतर बनाना

AAI LABS
컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00एक नया शब्द चलन में है और शायद आपने इसे पहले ही सुन लिया होगा। इसे लूप इंजीनियरिंग कहते हैं
00:00:04और हर दूसरे हाइप शब्द की तरह हर कोई इसके बारे में ऐसे बात कर रहा है जैसे यह कुछ नया हो। ऐसा नहीं है
00:00:09लेकिन जब आप इसे हर्मेस जैसे हमेशा चलने वाले एजेंट के साथ जोड़ते हैं तो यह हाइप नहीं रहता। ज्यादातर लोग
00:00:13जो इन्हें सेट करने की कोशिश कर रहे हैं, वे लूप को तो सही कर रहे हैं लेकिन उस चीज़ को छोड़ रहे हैं जो वास्तव में
00:00:17इसे काम करने लायक बनाती है और अगर आप पहले से ही जानते हैं कि लूप दो प्रकार के होते हैं, तो उनमें से एक के अंदर
00:00:22एक विशिष्ट सेटअप है जो लगभग कोई नहीं कर रहा है। एक बार जब आप इसे देख लेते हैं, तो एजेंटों के साथ निर्माण करने के बारे में आपकी सोच
00:00:27पूरी तरह से बदल जाती है। इस वीडियो के अंत तक आप समझ जाएंगे कि यह क्या है और आपके पास यह
00:00:31हर्मेस और यहां तक कि क्लॉड कोड पर भी चल रहा होगा, बिना आपको बिल्कुल भी हस्तक्षेप किए। लूप इंजीनियरिंग के साथ
00:00:36मुख्य विचार सरल है। आप वह व्यक्ति नहीं रहते जो एजेंट को चलाने वाला प्रॉम्प्ट लिखता है और
00:00:41इसके बजाय आप एजेंट को खुद को चलाने देते हैं, लेकिन यह पहली जगह में एक बदलाव क्यों है, इसे देखने के लिए आपको
00:00:46इसकी तुलना उससे करनी होगी जो पहले आया था। वह कौशल जो पहले मायने रखता था, वह प्रॉम्प्ट इंजीनियरिंग था जहां हमारा पूरा ध्यान
00:00:51कोडिंग एजेंट को ठीक से चलाने के लिए निर्देशों की सही श्रृंखला लिखने पर था, लेकिन लूप इंजीनियरिंग
00:00:56इसे पलट देती है। खुद प्रॉम्प्ट लिखने के बजाय आप वह सिस्टम डिज़ाइन करते हैं जो आपके लिए
00:01:01प्रॉम्प्ट इंजीनियरिंग करता है और एजेंट को अपने आप चलाता है, इसलिए ध्यान निर्देश तैयार करने से हटकर
00:01:05उन प्रणालियों को डिज़ाइन करने की ओर चला जाता है जो खुद चलती हैं। यह सब तब शुरू हुआ जब ओपनक्लॉ के निर्माता
00:01:10ने कहा कि आपको अब अपने कोडिंग एजेंटों को प्रॉम्प्ट नहीं देना चाहिए और आपको उन लूप्स को डिज़ाइन करने पर
00:01:15ध्यान केंद्रित करना चाहिए जो आपके लिए एजेंट को प्रॉम्प्ट करते हैं और केवल वही नहीं हैं। बोरिस जो
00:01:20क्लॉड कोड के निर्माता हैं, उन्होंने भी एंथ्रोपिक के वार्षिक डेवलपर सम्मेलन में यही दावा किया, जहां उन्होंने कहा कि वह
00:01:25अब क्लॉड को प्रॉम्प्ट नहीं देते हैं। उनके पास ऐसे लूप चल रहे हैं जो क्लॉड को प्रॉम्प्ट करते हैं और यह खुद पता लगा लेता है
00:01:30कि क्या करने की आवश्यकता है। तो सवाल यह है कि आप उनके साथ शुरुआत कैसे करें? यह सब इस बात पर निर्भर करता है कि
00:01:34आप उन प्रणालियों को कितनी अच्छी तरह से सेटअप कर सकते हैं जहां आपको एजेंट को बिल्कुल भी प्रॉम्प्ट करने की चिंता न करनी पड़े।
00:01:39आप परिभाषित करते हैं कि आपको क्या चाहिए और एजेंट बाकी काम कर देता है। यही वह जगह है जहां एआई पावर्ड डेवलपमेंट
00:01:45आगे बढ़ रहा है। इससे पहले कि हम इस पर जाएं कि वास्तव में उन्हें कैसे बनाया जाए, आपको यह स्पष्ट होना चाहिए कि लूप क्या है। एक लूप
00:01:50मूल रूप से एक प्रक्रिया है जहां आप अंतिम लक्ष्य को परिभाषित करते हैं और एजेंट उस तक पहुंचने के चरणों का पता
00:01:56अपने आप लगाता है। यह रास्ते में खुद को ठीक करता है और आपके द्वारा निर्धारित लक्ष्य तक पहुंचने तक समस्याओं के इर्द-गिर्द काम करता है।
00:02:01कुछ महीने पहले जब तक मॉडल लंबे कार्यों को बनाए रखने के लिए सक्षम नहीं हुए थे, तब तक यह संभव नहीं था। यदि आपको
00:02:06एक ऐप बनाने की आवश्यकता होती, तो आप एजेंट को प्रॉम्प्ट देते, वह क्या कर रहा है इसकी निगरानी करते, आउटपुट की खुद जांच करते,
00:02:11समस्याओं का पता लगाते और उन्हें ठीक करने के लिए दोबारा प्रॉम्प्ट देते। आप लूप थे। आप वह हिस्सा थे जो त्रुटि
00:02:16जांच कर रहे थे और हर कदम के बीच सुधार कर रहे थे। अधिकांश लोगों के लिए विकास अभी भी ऐसा ही दिखता है
00:02:20और लूप इंजीनियरिंग ठीक वही है जिसे आपके ऊपर से हटाने वाली है। अब यह
00:02:25एक बिल्कुल नई अवधारणा की तरह लग सकता है लेकिन लूप वास्तव में काफी समय से मौजूद हैं। क्रॉन जॉब्स
00:02:30एक लूप का एक अच्छा उदाहरण है जिसे आपने शायद पहले ही देखा होगा। वे बस बार-बार चलने के लिए निर्धारित कार्य हैं
00:02:35और स्वचालित रूप से बिना आपको हर बार उन्हें ट्रिगर किए। केवल वास्तविक अंतर यह है कि एक
00:02:39क्रॉन जॉब एक निश्चित समय पर चलता है। इसलिए लूप के साथ काम प्रॉम्प्ट लिखने के बारे में नहीं रह जाता।
00:02:44किसी कार्य पर आपके एजेंट का प्रदर्शन इस बात पर निर्भर करता है कि आप अंतिम लक्ष्य को कितनी अच्छी तरह परिभाषित करते हैं। आप में से कुछ के लिए
00:02:49यह प्रक्रिया सुदृढीकरण सीखने (reinforcement learning) जैसी लगेगी। यदि आपने इस पर ध्यान नहीं दिया है, तो सुदृढीकरण सीखना
00:02:54मूल रूप से एक मॉडल को प्रशिक्षित करने का एक तरीका है जहां आप उसे सही उत्तर नहीं दिखाते हैं। इसके बजाय आप बस उसे बताते हैं
00:02:59कि कब उसने अच्छा किया और कब नहीं और वह धीरे-धीरे पता लगा लेता है कि खुद कैसे बेहतर होना है।
00:03:04मॉडल अलग-अलग चीजें आज़माकर सही रास्ता ढूंढता है। उसे सकारात्मक संकेत मिलता है जब वह
00:03:09सही दिशा में आगे बढ़ता है और नकारात्मक संकेत जब वह नहीं बढ़ता। यहाँ भी वही विचार लागू होता है सिवाय इसके कि मॉडल खुद
00:03:14को प्रशिक्षित नहीं किया जा रहा है। इसके बजाय एजेंट आपके द्वारा किए जाने वाले कार्य को पूरा करने की दिशा में काम कर रहा है,
00:03:19उसी तरह से दोहरा रहा है जैसे कोई मॉडल प्रशिक्षण के दौरान सुधार करेगा। यदि वह विफल रहता है तो आपने जो लूप
00:03:23एजेंट पर लगाया है वह कार्य को पूरा नहीं मानता है। यह फिर से कोशिश करता है, चलता रहता है और खुद को तब तक ठीक करता है जब तक
00:03:28यह आपके द्वारा निर्धारित लक्ष्य तक नहीं पहुंच जाता। अब यह सब सुनने के बाद आप सोच सकते हैं कि आपके लिए वास्तव में क्या बचा है
00:03:33करने के लिए यदि सब कुछ स्वायत्त हो रहा है। लेकिन आपकी भूमिका कम नहीं होती, यह और अधिक महत्वपूर्ण हो जाती है।
00:03:38क्योंकि यह आपका डोमेन ज्ञान और अनुभव है जो पहली बार में अंतिम लक्ष्य को परिभाषित करता है और
00:03:43जो आपके द्वारा बनाई और शिप की जाने वाली हर चीज़ में दिखाई देता है। यही कारण है कि स्वायत्त
00:03:48लूप्स की ओर धक्का केवल तेज़ हो रहा है और यह अभी जारी होने वाली हर नई सुविधा में दिखाई दे रहा है। फेबल 5 इसका
00:03:54सबसे स्पष्ट उदाहरण है। एंथ्रोपिक ने इसे छोड़ दिया भले ही वे एआई
00:03:59विकास में धीमा होने का आह्वान कर रहे थे क्योंकि मॉडल इतनी तेज़ गति से सक्षम हो रहे हैं कि उनका साथ रखना मुश्किल है। और
00:04:03कुछ समय के लिए इसे जारी करने के बाद, उन्होंने इसे वापस ले लिया। उन्होंने इसे लंबे और जटिल कार्यों के लिए बनाया था और यह
00:04:08जितना लंबा और जटिल कार्य होता है, उतना ही बेहतर प्रदर्शन करता है, जो मूल रूप से मॉडलों के काम करने के तरीके के विपरीत है
00:04:13जिस तरह से वे काम करते थे। यह बदलाव वास्तव में ओपस 4.5 के साथ शुरू हुआ। एक बार जब वह आया, तो लंबे समय तक चलने वाले कार्य
00:04:19नाटकीय रूप से बेहतर हो गए। और आपको एजेंटों को सावधानीपूर्वक निर्देशित हार्नेस के साथ सेट करने की आवश्यकता नहीं थी,
00:04:23मूल रूप से संरचित सेटअप जो एजेंट को प्रत्येक चरण के माध्यम से चलाते हैं। इसके बजाय ध्यान इस ओर गया
00:04:28कि प्रोजेक्ट को लंबे समय तक चलाने के लिए तैयार किया जाए क्योंकि मॉडल अब इतने सक्षम हैं कि
00:04:33वे बिना अधिक चरण-दर-चरण हैंडलिंग के अपने आप चीजों को संभाल सकें। लेकिन लूप ही एकमात्र चीज नहीं है जो
00:04:38मायने रखती है। आपको अपने प्रोजेक्ट को इस तरह से संरचित करने की भी आवश्यकता है जो एजेंट को लंबे समय तक
00:04:43बिना आपको हस्तक्षेप किए अपने आप काम करने दे। इसलिए बहुत से लोग इस तरह के सेटअप के लिए सिस्टम बना रहे हैं और ओपन सोर्स कर रहे हैं।
00:04:48RALF लूप पहले में से एक था। यह अंतिम लक्ष्य को सेट करके और यह सुनिश्चित करके काम करता था कि
00:04:53एजेंट इससे दूर न भटके। इसने इसे हुक के माध्यम से किया, जो मूल रूप से
00:04:57ऐसी स्क्रिप्ट हैं जो कुछ विशिष्ट होने पर स्वचालित रूप से चलती हैं। तो यह स्क्रिप्ट एजेंट को सख्ती से रोकता है कि वह
00:05:03किसी कार्य को पूर्ण के रूप में चिह्नित न करे जब तक कि उसने वास्तव में शर्त पूरी न कर ली हो। लेकिन हुक कठोर होते हैं, इसलिए क्लॉड ने अपना स्वयं का लक्ष्य
00:05:09कमांड पेश किया, जिसने वही काम किया लेकिन अधिक लचीलेपन के साथ। हार्ड कोडेड जांच के बजाय, यह
00:05:14किसी अन्य मॉडल को यह तय करने देता है कि कार्य वास्तव में समाप्त हो गया है या नहीं। हमने गोल बडी 2 को कवर किया, जिसने उस पर
00:05:19आधार बनाकर एजेंट को अपनी प्रगति को स्थानीय फ़ाइलों में ट्रैक करने और यह परिभाषित करने दिया कि समाप्त होने का क्या अर्थ है
00:05:24इससे पहले कि वह शुरू भी करे, इसलिए उसे हमेशा पता होता है कि वह किस ओर काम कर रहा है। हर्मेस एजेंट और ओपनक्लॉ दोनों
00:05:29उसी दर्शन पर बने थे। वे आपको पूरी तरह से तस्वीर से बाहर निकालते हैं और एजेंट को सब कुछ अपने आप
00:05:35संभालने देते हैं। अब, यदि आप इन लूप्स को बनाना चाहते हैं, तो हमारे पास आपके लिए एक सरल पांच-चरणीय प्रणाली है और चूंकि
00:05:40लूप के दो प्रकार हैं, उनमें से कुछ चरण थोड़ा अलग तरह से काम करते हैं लेकिन हम दोनों प्रकारों में विस्तार से जाएंगे
00:05:45बाद में। अभी के लिए, हम क्लॉड कोड में शुरुआत करेंगे और वीडियो में बाद में, हम देखेंगे कि हर्मेस एजेंट
00:05:49में भी ऐसा ही कैसे किया जाए। पहला कदम यह जांचना है कि प्रोजेक्ट किस स्थिति में है। उस स्थिति से, मॉडल
00:05:54तय करता है कि अगला कदम क्या होना चाहिए। फिर वह उस निर्णय पर कार्य करता है और यहीं पर वास्तविक काम
00:05:59होता है। एजेंट टूल कॉल करता है, फ़ाइलों में लिखता है और कार्य पूरा करने के लिए कमांड चलाता है। एक बार जब वह
00:06:04समाप्त हो जाता है, तो वह यह देखने के लिए फीडबैक इकट्ठा करता है कि वास्तव में क्या हुआ और उसके आधार पर, वह तय करता है कि
00:06:09कार्य पूरा हो गया है या नहीं। यहीं पर प्रॉम्प्ट इंजीनियरिंग और लूप इंजीनियरिंग के बीच का अंतर स्पष्ट हो जाता है
00:06:14है। प्रॉम्प्ट इंजीनियरिंग के साथ, आप केवल निर्णय चरण को नियंत्रित कर रहे हैं जबकि लूप इंजीनियरिंग
00:06:19सभी पांचों को एक साथ संभालती है। एक ऐसा लूप बनाना जो अच्छा काम करे, इसका मतलब है कि कुछ चीजों को सही करना और
00:06:24हर एक वहां इसलिए है क्योंकि यह एक विशिष्ट समस्या को हल करता है। पहला है संदर्भ प्रबंधन (context management)। आप ध्यान देते हैं
00:06:29कि हर मोड़ पर संदर्भ में क्या जाता है क्योंकि यही वह है जो निर्धारित करता है कि एजेंट
00:06:34वास्तव में किसी भी बिंदु पर क्या जानता है। आप केवल चैट संदर्भ पर भरोसा नहीं कर सकते, यहां तक कि दस लाख टोकन
00:06:39जितने बड़े संदर्भ विंडो के साथ भी, मूल रूप से एजेंट एक बार में स्मृति में कितना रख सकता है, क्योंकि जैसे-जैसे
00:06:44बातचीत बढ़ती है, आपका सिस्टम प्रॉम्प्ट और निर्देश हालिया टूल आउटपुट के नीचे दब जाते हैं। एजेंट का ध्यान
00:06:50प्राकृतिक रूप से जो सबसे हालिया है उसकी ओर खिंचा चला जाता है, इसलिए महत्वपूर्ण चीजें खो जाती हैं। यही कारण है कि
00:06:55संदर्भ का प्रबंधन करना इतना मायने रखता है। अगला सही करने वाली चीज फीडबैक गुणवत्ता है। फीडबैक वह है जो
00:07:00एजेंट को बताता है कि उसने कैसा प्रदर्शन किया और यह पूरे सिस्टम में सबसे महत्वपूर्ण संकेतों में से एक है। यह बहुत
00:07:05सारे रूपों को ले सकता है जैसे टेस्ट रन का आउटपुट या उसके द्वारा बनाए गए यूआई का स्क्रीनशॉट और चाहे वह कोई भी रूप ले,
00:07:11यही वह है जिसे एजेंट अपनी अगली चाल का पता लगाने के लिए पढ़ता है। सत्यापन गेट (verification gates) वह हैं जो उस फीडबैक को
00:07:16एक स्पष्ट निर्णय में बदल देते हैं। वे चेकपॉइंट्स हैं जो एजेंट को बताते हैं कि क्या कोई कार्य वास्तव में पूर्ण हो गया है या
00:07:21नहीं। आपको एक समाप्ति शर्त (termination condition) की भी आवश्यकता है, मूल रूप से एक नियम जो लूप को बताता है कि कब रुकना है और इसे
00:07:26स्पष्ट रूप से सेट किया जाना चाहिए, अन्यथा एजेंट या तो बहुत जल्दी छोड़ देता है या वास्तविक प्रगति किए बिना चलता रहता है।
00:07:31जो चीज लोग सबसे अधिक अनदेखा करते हैं वह है त्रुटि प्रबंधन (error handling)। आपको यह बताना होगा कि मॉडल
00:07:36को क्या करना चाहिए जब कोई टूल कॉल विफल हो जाए, ताकि सिस्टम इसे साफ-सुथरे तरीके से संभाले बजाय इसे
00:07:41ऐसी टूटी स्थिति में छोड़ने के जो सिर्फ और अधिक समस्याएं पैदा करती है। और अंत में, आपको टर्न के बीच स्थिति का प्रबंधन करना होगा,
00:07:46मूल रूप से बातचीत के बढ़ने के साथ-साथ यह ट्रैक रखें कि कार्य कहां है। संदर्भ विंडो सब कुछ
00:07:51हमेशा के लिए नहीं रख सकती, इसलिए आप बाहरी फ़ाइलों पर निर्भर रहते हैं जो एजेंट के लिए जानकारी ट्रैक करती हैं और उसे
00:07:57धागा खोए बिना काम करने देती हैं। एक बात ध्यान में रखें, क्योंकि आप
00:08:01खुद रास्ता खोजने का काम मॉडल को सौंप रहे हैं, लूप टोकन में महंगे हो जाते हैं,
00:08:06इसलिए आपको इस बारे में विचारशील होने की आवश्यकता है कि आप वास्तव में उनका उपयोग कब करते हैं। लूप जितने अधिक टोकन के साथ
00:08:11काम कर सकता है, उतना ही बेहतर वह कार्य को संभालने की प्रवृत्ति रखता है। लेकिन आगे बढ़ने से पहले, हमारे प्रायोजक, स्क्रिम्बा से एक शब्द लें।
00:08:15अधिकांश पायथन पाठ्यक्रम केवल स्लाइड्स पर किसी के बात करने के बारे में हैं। स्क्रिम्बा अलग है,
00:08:21उनका वीडियो प्लेयर कोड एडिटर है, इसलिए आप कभी भी रुक सकते हैं, प्रशिक्षक के कोड को सीधे संपादित कर सकते हैं,
00:08:26और देख सकते हैं कि क्या होता है। कोई टैब स्विचिंग नहीं, कोई कॉपी पेस्ट नहीं, बस शुरुआत से ही हैंड्स-ऑन कोडिंग।
00:08:31उनके नए लर्न पायथन कोर्स ने मेरा ध्यान आकर्षित किया क्योंकि यादृच्छिक अभ्यासों के बजाय, आप वास्तव में
00:08:37कुछ वास्तविक बनाते हैं। पहले दिन से, आप पेअप बना रहे हैं, एक पूरी तरह कार्यात्मक व्यय-विभाजन ऐप,
00:08:42और हर अवधारणा को तुरंत लागू किया जाता है। आप पूर्ण शून्य से शुरू करते हैं, किसी पूर्व पायथन ज्ञान की आवश्यकता नहीं है,
00:08:47और चर, तार, उपयोगकर्ता इनपुट कैप्चरिंग, अंकगणितीय ऑपरेटरों, प्रकार रूपांतरण, के माध्यम से काम करते हैं,
00:08:53डेटा क्लीनिंग, और नंबर स्वरूपण, सब कुछ ऐप के लिए सुविधाएँ बनाकर। अंत तक,
00:08:57आपने खरोंच से एक काम करने वाला प्रोजेक्ट बनाया है जो साबित करता है कि आप वास्तव में पायथन जानते हैं। यह केवल
00:09:02उनमें से कई में से एक हिस्सा है जो आने वाले हफ्तों में उपलब्ध हो जाएगा, और वर्तमान में, इसे एक्सेस करना पूरी तरह से
00:09:07मुफ्त है। उनके मुफ्त पाठ्यक्रमों के साथ आज ही शुरुआत करें, और हमारे उपयोगकर्ताओं को उनकी प्रो योजनाओं पर अतिरिक्त 20% की छूट मिलेगी।
00:09:12इसलिए पिन की गई टिप्पणी में लिंक पर क्लिक करें, या क्यूआर कोड को स्कैन करें, और आज ही निर्माण शुरू करें।
00:09:18जैसा कि हमने उल्लेख किया है, लूप के दो प्रकार हैं। पहला वाला नियतात्मक लूप (deterministic loop) कहलाता है। आप इसका उपयोग
00:09:23उन कार्यों के लिए करते हैं जिनमें एक स्पष्ट परिभाषा होती है कि पूर्ण दिखने का क्या अर्थ है, वह परीक्षण उत्तीर्ण होना,
00:09:28कोड का सफलतापूर्वक संकलन होना, या ऐसा कुछ भी हो सकता है। इन लूप्स के साथ काम करना
00:09:33काफी सीधा है, क्योंकि अंतिम लक्ष्य स्पष्ट है, इसलिए मॉडल को ठीक से पता है कि उसे क्या करने की आवश्यकता है इससे पहले कि वह
00:09:38कार्य को पूर्ण घोषित कर सके। चूंकि हर्मेस हमेशा चल रहा है, यह इस लूप को लागू करने के लिए वास्तव में एक अच्छा एजेंट है। हमने
00:09:43इस पर कई वर्कफ़्लो पहले ही बना चुके हैं, और अपने पिछले वीडियो में दिखाया था कि यह हमारे बहुत सारे काम को
00:09:49अपने दम पर कैसे संभालता है। एक नियतात्मक लूप का मूल अंतिम लक्ष्य की स्पष्ट परिभाषा है, और उन ऐप्स के लिए
00:09:54जिन्हें आपने होस्ट किया है, वह परिभाषा आपके परीक्षण हैं। तो आप हर्मेस एजेंट को किसी भी ऐप पर इंगित कर सकते हैं जिसे आपने
00:09:59परीक्षण मामलों के साथ तैनात किया है और इसे अपने लिए मॉनिटर करवा सकते हैं। अब यदि कोई परिवर्तन या कमिट उत्पादन को
00:10:04तोड़ने में समाप्त होता है, तो आप इसे पकड़ने के लिए हर्मेस पर एक स्वचालन (automation) सेट कर सकते हैं। यह यहाँ सबसे अच्छा काम इसलिए करता है कि यह
00:10:09स्व-विकसित कौशल सुविधा के साथ आता है, इसलिए यह स्वचालित रूप से वर्कफ़्लो के आधार पर कौशल बनाता और विकसित करता है जो ऐप के स्वास्थ्य को जांच में रखता है।
00:10:14एक बार जब आपने वह मॉनिटरिंग स्वचालन सेट कर लिया है, तो आप इसे गैर-इंटरैक्टिव मोड में क्लॉड कोड लॉन्च करने के लिए कह सकते हैं,
00:10:18मूल रूप से इसे अपने दम पर चलाकर बिना आपको इसे चलाने की आवश्यकता के और इसे एक लूप में समस्याओं को ठीक करने के लिए कह सकते हैं जब तक कि सभी परीक्षण मामले उत्तीर्ण न हो जाएं।
00:10:23वहां से यह क्या करता है, स्वचालन वर्कफ़्लो सेट करता है और सब-एजेंट संचालित विकास कौशल जैसे कौशल लोड करता है
00:10:28और गिटहब पीआर वर्कफ़्लो कौशल जो इसे बताते हैं कि गिटहब पर ऐप को कैसे प्रबंधित करना है। यह पहले
00:10:34उन मुद्दों की पहचान करता है जो उत्पादन को तोड़ रहे थे फिर क्लॉड कोड को गैर-इंटरैक्टिव मोड में लॉन्च करता है जो
00:10:39परीक्षणों को लेता है और परिवर्तनों को कमिट करता है एक बार जब वे सभी उत्तीर्ण हो जाते हैं। हर परीक्षण चलाने और जो कुछ भी
00:10:44उत्पादन को विफल करने का कारण बन रहा था उसे ठीक करने के बाद, यह परिवर्तनों को कमिट करने के लिए गिटहब सीएलआई का उपयोग करता है। ऐप अंततः
00:10:50बिना किसी विफलता के चलने में समाप्त होता है क्योंकि इसने पुष्टि की है कि सफल तैनाती के लिए सभी जांचें मौजूद हैं।
00:10:55यदि आप इन विवरणों को पसंद करते हैं, तो चैनल को सब्सक्राइब करें, नोटिफिकेशन बेल पर क्लिक करें और हाइप
00:11:00बटन को भी दबाएं। चैनल पर, हम ऐसी सामग्री पोस्ट करते हैं जो आपको अलग-अलग व्यवसायों में एआई के साथ
00:11:05विभिन्न प्रक्रियाओं को अनुकूलित करने के नए तरीके सीखने में मदद करती है। आपका समर्थन, चाहे वह सब्सक्राइब करना हो, नोटिफिकेशन
00:11:10बेल या हाइप बटन हो, हमें इस तरह की और सामग्री बनाने और अधिक लोगों तक पहुंचने में मदद करता है। यह हमारे लिए बहुत मायने रखता है।
00:11:15अब दूसरा प्रकार गैर-नियतात्मक लूप (non-deterministic loop) है और ये ऐसे कार्य हैं जहां आप केवल यह जांचने के लिए स्पष्ट नियम सेट नहीं कर सकते कि कार्य हो गया है
00:11:21जैसा कि आप नियतात्मक लूप के साथ कर सकते हैं। उस वजह से,
00:11:26परिणाम को सत्यापित करने का कोई साफ तरीका नहीं है। ये वे चीजें हैं जिन्हें हम इंसान
00:11:31देख सकते हैं और खुद जज कर सकते हैं जैसे कि यूआई बनाना या ऐसी सुविधा लागू करना जिसे निर्णय लेने की आवश्यकता हो।
00:11:36इसलिए जब आप गैर-नियतात्मक लूप के साथ काम कर रहे होते हैं, तो वर्कफ़्लो अलग होता है। यदि आप
00:11:41एआई को यूआई पर लागू कर रहे हैं, तो आप पहले से ही जानते हैं कि यह हर समय एक ही पैटर्न पर वापस जाने की प्रवृत्ति रखता है। इसीलिए हमने
00:11:46एआई स्लोप डिटेक्टर नामक एक कौशल बनाया है जिसमें इस बात के सभी निर्देश हैं कि एआई स्लोप से कैसे बचें और उन पैटर्न को सूचीबद्ध किया है
00:11:51जो वास्तव में इसे दूर करते हैं। और हम हर्मेस का फिर से उपयोग करने का कारण स्व-विकसित
00:11:57कौशल है। यदि हम कौशल चलाने के बाद भी यूआई में एआई स्लोप पाते हैं, तो कौशल खुद को अपडेट कर सकता है
00:12:02ताकि सीधे फीडबैक को शामिल किया जा सके और यही कारण है कि हमने इस वर्कफ़्लो को हर्मेस पर सेट किया है। इसलिए हमने
00:12:07हर्मेस से कौशल का उपयोग करने और यह जांचने के लिए कहा कि क्या यूआई में उन पैटर्न में से कोई है। यदि ऐसा है, तो यह उन्हें ठीक करता है
00:12:13और कौशल चलाने के लिए गैर-इंटरैक्टिव मोड में क्लॉड कोड लॉन्च करता है और जो कुछ भी इसे मिलता है उसे ठीक करता रहता है जब तक कि
00:12:18ठीक करने के लिए कुछ भी न बचे। हर्मेस से हमें मिलने वाला एक और लाभ यह है कि काम की समीक्षा करने वाला मॉडल
00:12:23इसे बनाने वाले से अलग है। हम जीपीटी मॉडल का उपयोग कर रहे थे जो कोड समीक्षा के लिए सबसे अच्छे माने जाते हैं, इसलिए
00:12:28क्लॉड मॉडल बिल्डर बन जाता है और दूसरा एजेंट वेरिफायर बन जाता है। यही वह है
00:12:33जो प्रतिकूल लूप को पूरा करता है जहां दोनों एक-दूसरे के काम की जांच करते हैं। एक बार जब वह लूप चला, तो उसने
00:12:38जेनेरिक आउटपुट की तुलना में बहुत बेहतर यूआई उत्पन्न किया जो ओपस मॉडल आजकल डाल रहे हैं। और यदि आप अभी भी यूआई में एआई स्लोप का कोई संकेत देखते हैं
00:12:43एजेंट लूप समाप्त होने के बाद, आप बस इसका उल्लेख कर सकते हैं और यह आपके लिए कौशल को अपडेट कर देगा, उस वेरिफायर को मजबूत करेगा जो आपके पास पहले से है।
00:12:49हमने इस कौशल को कई एआई स्लोप पैटर्न से मेल खाने के लिए बढ़ाया है जिसे हमने और हर्मेस ने सामूहिक रूप से पहचाना है। यदि आप इस कौशल का उपयोग करना चाहते हैं, तो आप इसे हमारी
00:12:54कम्युनिटी एआई लैब्स प्रो से प्राप्त कर सकते हैं। लिंक विवरण में होगा। वह इस वीडियो के अंत में लाता है।
00:12:59यदि आप चैनल का समर्थन करना चाहते हैं और हमें इस तरह के वीडियो बनाना जारी रखने में मदद करना चाहते हैं, तो आप
00:13:04नीचे सुपर थैंक्स बटन का उपयोग करके ऐसा कर सकते हैं। हमेशा की तरह, देखने के लिए धन्यवाद और मैं आपसे अगले वाले में मिलूंगा।
00:13:09यदि आप चैनल का समर्थन करना चाहते हैं और हमें इस तरह के और वीडियो बनाने में मदद करना चाहते हैं, तो आप ऐसा कर सकते हैं
00:13:14नीचे दिए गए सुपर थैंक्स बटन का उपयोग करके। हमेशा की तरह, देखने के लिए धन्यवाद और मैं आपसे अगले वीडियो में मिलूंगा।

Key Takeaway

लूप इंजीनियरिंग का उपयोग करके, उपयोगकर्ता केवल प्रॉम्प्ट लिखने के बजाय ऐसे स्व-सुधार करने वाले सिस्टम डिजाइन करते हैं जहाँ एजेंट पूर्व-निर्धारित लक्ष्यों तक पहुँचने के लिए स्वयं समस्याओं को पहचानते हैं और सुधारते हैं।

Highlights

  • लूप इंजीनियरिंग पारंपरिक प्रॉम्प्ट इंजीनियरिंग से हटकर ऐसे सिस्टम डिजाइन करने पर केंद्रित है जो एजेंटों को स्वायत्त रूप से कार्य करने और खुद को ठीक करने की अनुमति देते हैं।

  • नियतात्मक लूप (deterministic loops) स्पष्ट परीक्षण मामलों या संकलन सफलताओं का उपयोग करते हैं, जो हर्मेस जैसे एजेंटों को बिना मानवीय हस्तक्षेप के उत्पादन समस्याओं को ठीक करने में सक्षम बनाते हैं।

  • गैर-नियतात्मक लूप (non-deterministic loops) यूआई निर्माण जैसे कार्यों के लिए प्रतिकूल मॉडल सेटअप का उपयोग करते हैं, जहाँ एक एजेंट बिल्डर और दूसरा वेरिफायर के रूप में कार्य करता है।

  • सफल लूप इंजीनियरिंग के लिए संदर्भ प्रबंधन, फीडबैक गुणवत्ता, सत्यापन गेट और स्पष्ट समाप्ति शर्तों का एक साथ कार्यान्वयन अनिवार्य है।

  • एजेंट का प्रदर्शन अब निर्देशों के बजाय अंतिम लक्ष्य को परिभाषित करने की सटीकता और सिस्टम के भीतर फीडबैक लूप की मजबूती पर निर्भर करता है।

Timeline

लूप इंजीनियरिंग का परिचय

  • लूप इंजीनियरिंग निर्देश लिखने के बजाय स्वयं चलने वाली प्रणालियों को डिजाइन करने पर केंद्रित है।
  • यह दृष्टिकोण एजेंटों को मानव हस्तक्षेप के बिना जटिल कार्यों को पूरा करने की अनुमति देता है।

यह तकनीक पारंपरिक प्रॉम्प्ट इंजीनियरिंग को पलट देती है। अब ध्यान निर्देश तैयार करने से हटकर उन प्रणालियों को बनाने पर है जो एजेंट को स्वयं संचालित करती हैं। ओपनक्लॉ और क्लॉड कोड जैसे टूल्स का उपयोग करके, डेवलपर्स एजेंटों को यह पता लगाने देते हैं कि कार्य पूरा करने के लिए क्या आवश्यक है।

लूप की कार्यप्रणाली और संरचना

  • एक लूप वह प्रक्रिया है जहाँ एजेंट अंतिम लक्ष्य को परिभाषित करता है और उसे प्राप्त करने के चरणों का पता स्वयं लगाता है।
  • लूप इंजीनियरिंग सुदृढीकरण सीखने (reinforcement learning) के समान कार्य करती है, जहाँ एजेंट सकारात्मक और नकारात्मक संकेतों के आधार पर खुद को सुधारता है।
  • प्रभावी लूप के लिए संदर्भ प्रबंधन, फीडबैक गुणवत्ता, सत्यापन गेट और त्रुटि प्रबंधन आवश्यक घटक हैं।

एजेंटों के साथ विकास करते समय, लूप का उपयोग करने से त्रुटि जांच और सुधार की मानवीय भूमिका समाप्त हो जाती है। सिस्टम को यह बताना आवश्यक है कि टूल कॉल विफल होने पर क्या करना है और कब कार्य को पूर्ण मानना है। संदर्भ विंडो की सीमाओं के कारण, बाहरी फ़ाइलों का उपयोग करके बातचीत के दौरान स्थिति को ट्रैक करना महत्वपूर्ण है।

नियतात्मक बनाम गैर-नियतात्मक लूप

  • नियतात्मक लूप परीक्षण मामलों जैसे स्पष्ट मानदंडों का उपयोग करते हैं, जो स्वचालित तैनाती और बग फिक्सिंग के लिए उपयुक्त हैं।
  • गैर-नियतात्मक लूप, जैसे यूआई निर्माण, में एक एजेंट बिल्डर और दूसरा वेरिफायर के रूप में कार्य करता है ताकि आउटपुट की गुणवत्ता बनी रहे।

नियतात्मक लूप हर्मेस एजेंट के साथ अच्छी तरह से काम करते हैं, जो परीक्षण उत्तीर्ण होने तक कोड को ठीक करते हैं। इसके विपरीत, गैर-नियतात्मक लूप 'एआई स्लोप' से बचने के लिए एक एडवर्सरियल सेटअप का उपयोग करते हैं, जहाँ एजेंट एक-दूसरे के कार्य की जांच करते हैं। यह सुनिश्चित करता है कि जेनेरिक आउटपुट के बजाय उच्च गुणवत्ता वाले परिणाम प्राप्त हों।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video