Codex बनाम Claude Code को भूल जाइए, Goal Buddy ने आखिरकार दोनों की कमियों को दूर कर दिया है

AAI LABS
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00यह गैरी घोंघा है और उसने घोंघों के लिए एक डेटिंग प्लेटफॉर्म बनाने के लिए बाजार में एक अवसर की पहचान की है
00:00:04लेकिन चूंकि वह बहुत धीमा है, वह चाहता है कि क्लाउड कोड स्वायत्त रूप से उसके लंबे समय तक चलने वाले कार्यों को संभाले
00:00:09सौभाग्य से उसके लिए, एजेंट लंबे समय तक चलने वाले कार्यों में बहुत अच्छे हो गए हैं, क्लाउड कोड में एक
00:00:13गोल कमांड है जो एजेंट को तब तक चालू रखता है जब तक कार्य पूरा नहीं हो जाता, लेकिन हमारे
00:00:18परीक्षण के दौरान हमने गोल कमांड के साथ बहुत सारी समस्याएं पाईं, चूंकि गैरी हाल ही में
00:00:22तलाक से गुजरा है और हम चाहते हैं कि वह खुश रहे, हमें यह ओपन सोर्स टूल मिला जो वास्तव में समस्या को ठीक करता है
00:00:28और यह न केवल क्लाउड कोड के साथ काम करता है बल्कि कोडेक्स के साथ भी, प्यार फैला रहा है, बिल्कुल आपकी माँ की तरह जो मुझे
00:00:32यकीन है कि आपसे उतना ही प्यार करती है जितना आपके कामकाजी भाई से, क्लाउड कोड ने पहले एक कमांड जारी की थी जिसे
00:00:38गोल कहा जाता है जो एजेंट को तब तक काम पर रखती है जब तक एक निश्चित शर्त पूरी नहीं हो जाती, हमने इसे अपने
00:00:42चैनल पर कवर नहीं किया, लेकिन आप शायद इसके बारे में पहले से जानते होंगे, इससे पहले राल्फ विगम नाम का एक प्लगइन था
00:00:47जिसने बहुत अधिक लोकप्रियता हासिल की, जो अनिवार्य रूप से वही काम करता था, यह प्रॉम्प्ट को क्लाउड कोड में
00:00:52वापस फीड करने के लिए हुक का उपयोग करता था जब तक कि शर्त वास्तव में पूरी नहीं हो जाती, लेकिन बात यह है कि इन शर्तों का
00:00:57सटीक मिलान होना चाहिए क्योंकि राल्फ लूप शर्त की जाँच करने के लिए एक शेल स्क्रिप्ट का उपयोग करता है, बिल्कुल
00:01:02एयरपोर्ट गार्ड की तरह जो आपको अंदर नहीं आने देता क्योंकि आपका मैली बॉडी स्प्रे बैगेज
00:01:06लिमिट से ज्यादा है, गोल कमांड अलग तरह से काम करती है, यह शर्त और अब तक की बातचीत को लेती है और
00:01:11इसे एक छोटे मॉडल को देती है जो हाईकू है और यह मॉडल बुद्धिमानी से मूल्यांकन करता है कि कार्य पूरा हुआ है या नहीं
00:01:17यह हाँ या ना में निर्णय लौटाता है और एक 'ना' क्लाउड को उसी कार्य पर पुनरावृति जारी रखने के लिए कहता है, जैसे कि जब आपका बॉस
00:01:22आपसे यूजर एक्सपीरियंस को बेहतर बनाने के लिए कहता है क्योंकि वह पेज पर बटन नहीं ढूंढ पा रहा है, तो यह
00:01:27मूल्यांकन को व्यक्तिपरक बनाता है और उन चीजों के लिए जिन्हें हम अपने दम पर नहीं माप सकते, यह एक वास्तविक सुधार है
00:01:32गोल बहुत सारे कार्यों के लिए अच्छा काम करता है, लेकिन इसमें अभी भी बहुत सारी समस्याएं हैं, पहली समस्या यह है कि
00:01:37यह किसी भी ज्ञान आधार या फाइल सिस्टम का उपयोग नहीं करता है जो कार्य की प्रगति को ट्रैक करता है और चूंकि यह
00:01:42ऐसा नहीं कर रहा है, तो एजेंट के लिए सत्य का एकमात्र स्रोत चैट संदर्भ बन जाता है, यह आपको ट्रिगर कर सकता है
00:01:47क्योंकि आपके पिता ही थे जिन्होंने 2017 में फ्रिज पर लगी स्टिकी नोट पर क्रिप्टो फॉर्च्यून लिखा था जो गिर गई थी,
00:01:52एक बार जब सत्र किसी भी कारण से समाप्त हो जाता है और गोल पूरा नहीं हुआ था, तो आप निश्चित रूप से इसे क्लाउड रिज़्यूम कमांड का उपयोग करके
00:01:58फिर से शुरू कर सकते हैं, गोल खो नहीं जाएगा, लेकिन इसे केवल यह पता है कि यह कहाँ छोड़ा गया था, वह
00:02:03चैट संदर्भ है और चूंकि यह कमांड सरल कार्यों के लिए नहीं, बल्कि लंबे समय तक चलने वाले कार्यों के लिए है, चीजें बीच में गड़बड़ हो सकती हैं
00:02:08और निश्चित रूप से, घंटों तक चलने वाले गोल के साथ, संदर्भ का फूलना और कॉम्पेक्शन को हिट करना
00:02:13किसी बिंदु पर एक वास्तविक समस्या बनना निश्चित है, कॉम्पेक्शन के बाद एजेंट का आउटपुट खराब हो जाता है,
00:02:18यह मेरी दादी की तरह व्यवहार करना शुरू कर देगा जो अपने डिमेंशिया के कारण इस चैनल का नाम भूल रही है,
00:02:22मुझे आप लोगों की आवश्यकता है कि आप उनके लिए आखिरी वीडियो देखें, एक और समस्या यह है कि यह
00:02:27कार्यों को छोटे कार्यों में विभाजित नहीं करता है, इसके बजाय यह सिर्फ मुख्य एजेंट का उपयोग करता है और कार्य का विभाजन
00:02:32अपने आप करता है, जिस तरह क्लाउड कोड सामान्य रूप से करता है, इसलिए कोई संरचित योजना नहीं है और एजेंट ट्रैक खो सकता है
00:02:37कि क्या करना बाकी है और भले ही यह कुछ मामलों के लिए अच्छी तरह से काम कर सकता है, 'किया हुआ' क्या दिखता है, इसकी एक अस्पष्ट
00:02:42परिभाषा एजेंटों के लिए कभी भी सही चीज नहीं है, गोल पूरी तरह से मॉडल पर निर्भर करता है
00:02:47ताकि पूर्णता का मूल्यांकन किया जा सके, इसलिए यह कुछ मामलों में उतना प्रभावी नहीं हो सकता है, यह राल्फ विगम की तुलना में
00:02:52स्क्रिप्ट का उपयोग करके पूरी तरह से सख्त होने से बेहतर है, लेकिन कम से कम कुछ मेट्रिक तो होनी चाहिए
00:02:56जो एजेंट को बताए कि 'किया हुआ' क्या दिख सकता है, बिल्कुल आपके वेडिंग फोटोग्राफर की तरह जो कहता रहता था
00:03:01एक और शॉट, जब तक पूरा इवेंट खत्म नहीं हो गया, तो यहीं पर गोल कम पड़ जाता है और ये चीजें
00:03:05बहुत ज्यादा नहीं लग सकती हैं, लेकिन जब इन्हें भारी वर्कफ़्लो में डाला जाता है, तो वे कुछ गंभीर समस्याएं ला सकती हैं,
00:03:10अब गोल बडी एक ऐसा टूल है जिसे एक ही उद्देश्य के साथ बनाया गया था, गोल कमांड को वास्तव में उस तरह से काम करने के लिए
00:03:16बनाना जैसा उसे करना चाहिए, यह उन सभी समस्याओं को हल करता है जिनके बारे में हमने अभी बात की है, लेकिन इसे वास्तव में उतना
00:03:20ध्यान नहीं मिल रहा है जितना इसे मिलना चाहिए, यह कितनी उपयोगी है, यह हॉट बेबीसिटर की तरह है, सिवाय इसके कि वह आपके साथ फ्लर्ट करने के बजाय
00:03:25सिर्फ आपके लंबे समय तक चलने वाले कार्यों की बेबीसिटिंग कर रही है, गोल काम की स्थिति को स्थानीय रूप से
00:03:30संरक्षित नहीं करता है, इसलिए यह टूल उसे ठीक करता है और वास्तव में चैट इतिहास पर भरोसा करने के बजाय गोल को स्थानीय स्थिति को पढ़ने और अपडेट करने के लिए मजबूर करता है
00:03:36और यह सबूत के साथ समाप्त होता है ताकि एजेंट वास्तव में जानता हो कि शुरू करने से पहले 'किया हुआ' क्या दिखता है,
00:03:42प्रगति को ट्रैक करने के लिए, इसमें एक पूरा डैशबोर्ड भी शामिल है जहाँ आप
00:03:46अपने एजेंट को काम करते हुए देख सकते हैं और इस सबको संभालने के लिए, यह तीन एजेंटों पर बनाया गया है जो हैं
00:03:51स्काउट, वर्कर और जज, मूल रूप से एक वाई कॉम्बिनेटर स्टार्टअप टीम जहाँ एक सारा काम करता है, एक
00:03:56उसे काम करते हुए देखता है और एक ट्विटर पर दोनों को जज करता है, इंस्टॉलेशन बहुत सीधा है, बस
00:04:01इंस्टॉल कमांड कॉपी करें और अपने प्रोजेक्ट फोल्डर में पेस्ट करें, यह एक प्लगइन के रूप में स्थापित हो जाएगा
00:04:06जो क्लाउड कोड और कोडेक्स दोनों के लिए उपलब्ध है, एक बार जब आप एक नया सत्र शुरू करते हैं, तो आप कमांड देख सकते हैं
00:04:10उपयोग के लिए उपलब्ध है, इसलिए इन तीन एजेंटों में से प्रत्येक की सख्ती से परिभाषित भूमिका और एक्सेस स्तर है, क्योंकि यह
00:04:16टूल कोडेक्स के लिए भी बनाया गया है, एजेंट मानक मार्कडाउन के बजाय TOML में परिभाषित हैं, पहला एजेंट
00:04:21जज है जिसके पास केवल रीड एक्सेस है, यह जोखिम भरे दायरे, विरोधाभासी स्रोतों और अन्य पैटर्न जैसे कठिन निर्णयों का संदेह के साथ विश्लेषण करता है
00:04:26ताकि यह सुनिश्चित किया जा सके कि कार्य सुरक्षित रूप से पूरा हो गया है, इसके निर्देश संपादन (एडिट) करने से मना करते हैं
00:04:31क्योंकि यह केवल निर्णय लेने के लिए मौजूद है, कुछ और नहीं और चूंकि इसका
00:04:36कार्य अत्यधिक महत्वपूर्ण है, इस एजेंट की तर्क क्षमता को उच्चतम पर सेट किया गया है ताकि निर्णय ठीक से लिए जा सकें
00:04:42यह बिल्कुल वैसा ही है जैसे आप आधी रात को लगातार चार घंटे तक अपने क्रश को वह एक टेक्स्ट लिख रहे हों,
00:04:47इसके काम पूरा करने के बाद, यह तर्क के साथ अनुमोदित और
00:04:52अस्वीकृत निर्णयों के साथ एक JSON संरचना लौटाता है, स्काउट एक और रीड-ओनली एजेंट है जो एक सक्रिय कार्य को मैप करता है
00:04:57और इसके लिए एक कॉम्पैक्ट साक्ष्य रसीद बनाता है, क्योंकि इसका काम केवल कार्य की स्थिति की जांच करना है,
00:05:02इसकी तर्क क्षमता कम रखी गई है, बिल्कुल आपके पसंदीदा स्ट्रिप क्लब के बाउंसर की तरह, इसे वास्तव में
00:05:07उतनी परवाह नहीं है और फिर वर्कर एजेंट है, एकमात्र जिसके पास एडिट एक्सेस है, यह वास्तविक काम करता है और
00:05:12इसे एक समय में केवल एक कार्य करने की अनुमति है, पीएम भूमिका भी है जो मुख्य थ्रेड है जो
00:05:17वर्कफ़्लो का समन्वय करती है, यह एक वास्तविक प्रोजेक्ट मैनेजर की तरह व्यवहार करता है जो कम से कम काम करता है,
00:05:22यह एकमात्र प्राधिकरण है जो वास्तव में कार्य को 'किया हुआ' के रूप में चिह्नित कर सकता है, मुख्य वर्कफ़्लो
00:05:27कार्य के इरादे को उचित शब्दों में व्यक्त करके शुरू होता है, अस्पष्ट रूप से नहीं जैसे हम होमो सेपियन्स आमतौर पर करते हैं, लेकिन इस तरह से
00:05:33एजेंट जिसे ठीक से समझ सके और फिर ओरेकल को परिभाषित किया जाता है, ओरेकल मूल रूप से एक अवलोकन योग्य
00:05:38संकेत है जो परिणाम की पहचान करता है, यह वही है जिसके खिलाफ सिस्टम पुनरावृति करता है यह देखने के लिए कि क्या कार्य को
00:05:43किया हुआ के रूप में चिह्नित किया जा सकता है या नहीं, यह कुछ भी हो सकता है, एक टेस्ट सुइट, ब्राउज़र रंडाउन, कोई भी आर्टिफैक्ट बेंचमार्क या कोड
00:05:49जो मेरे माइक्रोवेव को टाइम मशीन में बदल दे, क्योंकि क्यों नहीं, एआई एजेंट इस समय कुछ भी कर रहे हैं,
00:05:54फिर अगला कदम सरफेस है, यह कार्य को क्रियाशील चरणों में विभाजित करता है, डैशबोर्ड बनाता है और
00:06:00कार्यों को एक दृश्य प्रारूप में मैप करता है, अंतिम टुकड़ा पीएम है, वह इस मामले में प्रबंधक है और गोल को चालू रखता है
00:06:06जब तक अंतिम ऑडिट यह चिह्नित नहीं करता कि गोल पूरा हो गया है, गोल बडी का उपयोग करने के लिए आप बस 'गोल प्रेप' कमांड चलाएं,
00:06:11यह वह है जो वर्कफ़्लो को प्रारंभ करता है और आप उस गोल को परिभाषित करते हैं जिसे आप चाहते हैं कि यह प्राप्त करे, यह
00:06:16पहले यह सुनिश्चित करता है कि एजेंट स्थापित हैं और उपयोग के लिए तैयार हैं, यह फिर वर्कफ़्लो को शुरू करता है लेकिन देशी
00:06:21गोल कमांड के विपरीत यह बेहद आत्म-जागरूक है और यह आपसे प्रश्न पूछकर अपनी अस्पष्टताओं को पहले दूर करता है
00:06:27ताकि आप कार्यान्वयन को स्पष्ट रूप से परिभाषित कर सकें और बिल्कुल आपकी संदेही पत्नी की तरह,
00:06:32यह तब तक प्रश्न पूछती रहेगी जब तक उसे पहला चरण समझ नहीं आ जाता, यह गोल फाइल बनाने पर केंद्रित है, यह
00:06:38मूल अनुरोध को हमारे उत्तरों के साथ रखता है और फिर इसे एजेंट
00:06:43समझने योग्य भाषा में उचित उद्देश्य के साथ मैप करता है, इसमें सभी जानकारी का सारांश होता है और फिर ओरेकल को परिभाषित करता है
00:06:48जो सबसे महत्वपूर्ण हिस्सा है, इस कार्य के लिए ओरेकल सीधा है, सभी परीक्षणों को उचित व्यवहार के साथ पास होना चाहिए,
00:06:53इस प्रकार का गोल विशिष्ट है क्योंकि इसका प्रोग्रामेटिक रूप से मूल्यांकन किया जा सकता है,
00:06:57कल रात की आपकी कवर स्टोरी के विपरीत जिसे आपकी पत्नी बिल्कुल नहीं मान रही है, गोल बडी पूरे वर्कफ़्लो को
00:07:03छोटे करने योग्य कार्यों में तोड़ देता है, इन्हें स्लाइस कहा जाता है, लेकिन वास्तविक दुनिया के विपरीत यहाँ आकार मायने नहीं रखता
00:07:08क्योंकि एक छोटे स्लाइस का मतलब छोटा कार्य नहीं है, इसका मतलब है कुछ ऐसा जो सुरक्षित है, जिसे आसानी से सत्यापित किया जा सकता है
00:07:14और जिसे व्यक्तिगत रूप से चलाया जा सकता है, यह दस्तावेज़ में सुरक्षित स्लाइसिंग आकार को भी स्पष्ट रूप से परिभाषित करता है, यह
00:07:19state.yaml बनाता है जो प्रोजेक्ट और कार्यों को ट्रैक करता है और परिभाषित करता है कि पीएम लूप कैसा दिखेगा, state.yaml में शामिल है
00:07:26सभी लक्ष्य और नियम, जिसमें सभी कार्य उनकी आईडी और सौंपे गए एजेंट द्वारा विभाजित हैं, इसमें
00:07:31सक्रिय कार्य को ट्रैक करने के लिए भी एक फ़ील्ड है, यह लिंक किए गए डैशबोर्ड का भी उल्लेख करता है, यह सभी टू-डू
00:07:36कार्यों और प्रगति पर चल रहे कार्यों को सूचीबद्ध करता है, हमारे मामले में स्काउट एजेंट वर्तमान में प्रगति पर है और सभी
00:07:42फाइलों और एंडपॉइंट्स को मैप कर रहा है, तो लूप शुरू करने के लिए आप बस इस कमांड को कॉपी करें और इसे चलाएं, यह क्लाउड को
00:07:47goal.md फाइल में सब कुछ करने का गोल सेट करने के लिए निर्देश देता है, वहाँ से यह पहले सक्रिय
00:07:52कार्य को एक राजा की तरह उठाएगा और फिर उसे करने के लिए अपने अधीनस्थ एजेंटों को बुलाएगा, एक बार स्काउट ने काम पूरा कर लिया
00:07:58तो यह अपनी सभी खोजों के साथ प्रगति फाइल को अपडेट करता है और उन्हें एक अलग निर्देशिका में दस्तावेजीकृत करता है,
00:08:03यह बोर्ड को सक्रिय से पूर्ण में भी अपडेट करता है, फिर लूप अगले कार्य को चुनता है, इसे सक्रिय
00:08:08के रूप में चिह्नित करता है और जज एजेंट को शुरू करता है, जज आलोचनात्मक रूप से खोजों की समीक्षा करता है और रिपोर्ट को
00:08:13कम से कम संभव वर्टिकल स्लाइस में अनुक्रमित करता है, जो वर्कर के लिए स्वतंत्र रूप से पूरा करने के लिए कार्य का विभाजन है,
00:08:18यह फिर स्लाइस गणना को अपडेट करता है और state फाइल को तदनुसार अपडेट करता है, प्रत्येक कार्य
00:08:22स्पष्ट रूप से अनुमत फाइलों को सूचीबद्ध करता है, उन्हें कैसे सत्यापित करना है और कब रुकना है, यह प्रत्येक स्लाइस को इसी तरह परिभाषित करता है
00:08:28ताकि एजेंटों के पास स्पष्ट अपेक्षित आउटपुट चेक और सभी आवश्यक विवरण हों, फिर एक-एक करके यह
00:08:33वर्कर एजेंट को प्रारंभ करता है और पहले स्लाइस के साथ शुरू करता है, प्रत्येक एजेंट की प्रगति को
00:08:39डैशबोर्ड का उपयोग करके ट्रैक किया जा सकता है, आपको पता होगा कि प्रत्येक कार्य क्या कर रहा है, कौन सा एजेंट सक्रिय है, कौन से कार्य कतार में हैं और
00:08:44कौन से पूर्ण हो गए हैं, इसलिए आपको खुद चीजों की निगरानी करने की आवश्यकता नहीं है और आप वास्तव में अपने बच्चों को
00:08:48वह समय दे सकते हैं जिसकी उन्हें आवश्यकता है, एक बार सभी कार्य पूरे हो जाने के बाद, यह पीएम के रूप में अंतिम ऑडिट करता है
00:08:53यह सुनिश्चित करते हुए कि सभी परीक्षण उचित रूप से संचालित किए गए हैं, एक बार ऑडिट हो जाने के बाद यह जज
00:08:58एजेंट के अंतिम ऑडिट कार्य को पूर्ण के रूप में चिह्नित करता है और फिर गोल को पूरा के रूप में चिह्नित करता है, इसके बाद आपको
00:09:03प्रार्थना शुरू करनी होगी और आशा करनी होगी कि उन एजेंटों ने मतिभ्रम (हैलुसिनेशन) नहीं किया, कुल मिलाकर यह
00:09:09जटिलता और उस ऐप के पैमाने को देखते हुए काफी अच्छा काम किया जो हमने इसे दिया था, लेकिन हमें लगता है कि अधिक प्रभावी समानांतरकरण (पैरेललाइजेशन)
00:09:13जोड़ा जा सकता था क्योंकि इसने सब कुछ अनुक्रमिक रूप से किया, इसने एक बार में एक कार्य संभाला और
00:09:18क्लाउड कोड की समानांतरकरण क्षमताओं का बिल्कुल भी उपयोग नहीं किया, डारियो इसे देखकर वास्तव में निराश होते,
00:09:23लेकिन जिस तरह से इसने वर्कफ़्लो की योजना बनाई, उसने काफी अच्छा काम किया, साथ ही अगर आप हमारी सामग्री का आनंद ले रहे हैं
00:09:28तो हाइप बटन दबाने पर विचार करें क्योंकि यह हमें इस तरह की और सामग्री बनाने और अधिक लोगों तक पहुंचने में मदद करता है,
00:09:33हम गोलबडी का परीक्षण UI डिजाइन करने जैसी अधिक सामान्य चीज पर भी करना चाहते थे ताकि यह देखा जा सके कि यह
00:09:38उन कार्यों को कैसे संभालता है जिनका प्रोग्रामेटिक रूप से मूल्यांकन नहीं किया जा सकता, पिछला परीक्षण एक विशिष्ट वर्कफ़्लो पर था जिसमें
00:09:44स्पष्ट पास और फेल मानदंड थे, लेकिन बिल्कुल आपके नाई से ताजा कट पाने की तरह, कुछ कार्यों
00:09:49में बस वो बात नहीं होती, इसलिए हमने पहले सामान्य गोल कमांड को एक अस्पष्ट प्रॉम्प्ट दिया, इसने गोल
00:09:54कार्यों को शुरू किया, सलाहकार से परामर्श किया और बिना किसी समय के एक वेबसाइट दी, आलसी होने के कारण इसने बस एक सरल HTML पेज बनाया
00:10:00और किसी फ्रेमवर्क के लिए नहीं गया, लेकिन लैंडिंग पेज बुरा नहीं लग रहा था, इसलिए हमने वही सटीक प्रॉम्प्ट
00:10:05गोल बडी को भी दिया, एक बार शुरू होने के बाद, इसने उसी वर्कफ़्लो का पालन किया और हमारे साथ
00:10:10इरादे को स्पष्ट करने के लिए वैसा ही प्रश्न सत्र दिया, यहाँ गोल बडी ने वास्तव में टेक स्टैक के लिए भी पूछा, सामान्य तौर पर
00:10:14मैं इसे चापलूसी कहूंगा, लेकिन चूंकि मैं अपने एआई एजेंट को गंभीरता से लेता हूं, मैं इसे पूरी तरह से होना कहूंगा, इसी तरह इसने
00:10:20बोर्ड और goal.md फाइल बनाई और हमारे मूल अनुरोध को एक उचित उद्देश्य में अनुवादित किया, इसने ओरेकल को भी
00:10:26ठीक से पहचाना, लेकिन पिछले कार्य में ओरेकल सरल था, इसे बस सभी
00:10:31परीक्षणों को पास करना था, इसमें अलग लक्ष्य थे, इसने कार्य को तब पूर्ण के रूप में परिभाषित किया जब देव सर्वर ऊपर हो
00:10:36और चल रहा हो और ब्राउज़र वॉकथ्रू पुष्टि करें कि सभी अनुभाग परिभाषित रूप से काम करते हैं, इस तरह इसने एक
00:10:41गैर-मात्रात्मक कार्य को कुछ मात्रात्मक में बदल दिया, इसने ओरेकल
00:10:47नियमों, एजेंटों और सूचीबद्ध सभी कार्यों के साथ state.yaml को फिर से बनाया और फिर उसी तरह काम करना शुरू किया, इसने
00:10:52सामान्य गोल कमांड की तुलना में अधिक समय लिया, लेकिन इसने अंततः ऐप को ठीक से लागू किया, यह गैरी घोंघे के लिए
00:10:57समस्या नहीं होगी, लेकिन आपको इस बीच कुछ पुश-अप्स करने चाहिए, मैं देख सकता हूं कि आप मोटे हो गए हैं,
00:11:02तुलनात्मक रूप से, पूरी वेबसाइट ने उस से काफी बेहतर प्रदर्शन किया जो साधारण गोल कमांड ने बनाई थी,
00:11:07यदि आप वास्तव में एक एआई बी2बी सास संस्थापक बनना चाहते हैं जो केवल ट्यूटोरियल देखने के बजाय निर्माण करना पसंद करता है
00:11:12तो आपको एआई लैब्स प्रो होना चाहिए, आपको वास्तव में वहां हमारी टीम की तरह समान विचारधारा वाले नर्ड्स मिलेंगे
00:11:17वीडियो से संसाधनों और बहुत सारी अन्य अच्छी चीजों के साथ भी, लिंक विवरण में होगा और
00:11:22आप उसे देख सकते हैं, यह हमें इस वीडियो के अंत तक लाता है, यदि आप चैनल का समर्थन करना चाहते हैं
00:11:27और इस तरह के वीडियो बनाने में हमारी मदद करना चाहते हैं, तो आप नीचे दिए गए सुपर थैंक्स बटन का उपयोग करके ऐसा कर सकते हैं, हमेशा की तरह
00:11:32देखने के लिए धन्यवाद और मैं आपको अगले वीडियो में देखूंगा

Key Takeaway

Goal Buddy एक ओपन-सोर्स टूल है जो Claude Code और Codex में एजेंटों के कार्यों को स्थानीय स्थिति ट्रैकिंग और तीन-स्तरीय भूमिका-आधारित संरचना (स्काउट, वर्कर, जज) के माध्यम से अधिक सटीक और विश्वसनीय बनाता है।

Highlights

  • Goal Buddy का उपयोग Claude Code और Codex में लंबे समय तक चलने वाले कार्यों (long-running tasks) की सीमाओं को दूर करने के लिए किया जाता है।

  • Goal Buddy कार्यों को स्लाइस (slices) में विभाजित करता है और state.yaml फ़ाइल का उपयोग करके स्थानीय रूप से स्थिति (local state) को ट्रैक करता है।

  • यह टूल स्काउट, वर्कर और जज नामक तीन विशिष्ट भूमिकाओं वाले एजेंटों का उपयोग करता है।

  • सामान्य 'गोल कमांड' के विपरीत, Goal Buddy कार्यों को शुरू करने से पहले उपयोगकर्ता से प्रश्न पूछकर अस्पष्टताओं को दूर करता है।

  • यह जटिल कार्यों को मात्रात्मक (quantitative) मानदंडों में बदल देता है, जिससे ओरेकल (oracle) द्वारा उनकी सफलता का स्पष्ट मूल्यांकन संभव होता है।

Timeline

सामान्य गोल कमांड की सीमाएं

  • मौजूदा 'गोल कमांड' लंबे समय तक चलने वाले कार्यों के लिए चैट संदर्भ पर पूरी तरह निर्भर करती है।
  • यह टूल कार्यों को छोटे, प्रबंधनीय टुकड़ों में स्वचालित रूप से विभाजित नहीं करता है।
  • सत्र समाप्त होने पर एजेंट अपनी पिछली स्थिति को प्रभावी ढंग से याद नहीं रख पाते।

क्लाउड कोड और कोडेक्स में मौजूद 'गोल' कमांड कार्यों की सफलता का मूल्यांकन एक छोटे हाईकू मॉडल के माध्यम से करती है। यह पद्धति ज्ञान आधार (knowledge base) या फ़ाइल सिस्टम का उपयोग नहीं करती, जिससे लंबी अवधि के कार्यों में संदर्भ खोने या आउटपुट खराब होने की समस्या होती है। बिना संरचित योजना और 'किया हुआ' की स्पष्ट परिभाषा के, एजेंट अक्सर भटक जाते हैं।

Goal Buddy का आर्किटेक्चर और वर्किंग

  • Goal Buddy चैट इतिहास के बजाय स्थानीय फ़ाइल (state.yaml) में कार्यों की स्थिति को संरक्षित करता है।
  • इसमें तीन एजेंट शामिल हैं: स्काउट (खोज), वर्कर (संपादन), और जज (सत्यापन)।
  • परियोजना प्रबंधक (PM) भूमिका कार्यप्रवाह का समन्वय करती है और पूर्णता की अंतिम पुष्टि करती है।

यह टूल कार्यों की प्रगति को ट्रैक करने के लिए एक डैशबोर्ड प्रदान करता है। जज एजेंट केवल रीड-एक्सेस के साथ निर्णयों का विश्लेषण करता है, स्काउट एजेंट कार्य को मैप करता है, और वर्कर एजेंट वास्तविक संपादन का कार्य करता है। यह संरचना सुनिश्चित करती है कि कार्य सुरक्षित और पारदर्शी तरीके से पूरे हों।

कार्य निष्पादन और ओरेकल का महत्व

  • कार्य निष्पादन के लिए 'गोल प्रेप' कमांड का उपयोग करके उद्देश्य को स्पष्ट रूप से परिभाषित किया जाता है।
  • ओरेकल एक अवलोकन योग्य संकेत है जो कार्य पूरा होने की पुष्टि करता है।
  • Goal Buddy सामान्य कार्यों की तुलना में अधिक समय लेता है, लेकिन यह जटिल ऐप्स के लिए अधिक सटीक परिणाम देता है।

कार्य शुरू करने से पहले Goal Buddy उपयोगकर्ता से स्पष्टीकरण मांगता है ताकि अस्पष्टताएं खत्म हो सकें। यह जटिल कार्यों को सुरक्षित 'स्लाइस' में तोड़ता है, जिन्हें व्यक्तिगत रूप से सत्यापित किया जा सकता है। गैर-मात्रात्मक कार्यों के लिए भी यह विशिष्ट ओरेकल नियम निर्धारित करता है, जिससे प्रोग्रामेटिक मूल्यांकन संभव हो जाता है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video