एंथ्रोपिक ने

AAI LABS
Internet TechnologyComputing/Software

Transcript

00:00:00AI एजेंट्स की मुख्य समस्या उनकी सीमित कॉन्टेक्स्ट विंडो है,
00:00:03जिससे वे पिछली कार्रवाइयों को ठीक से याद नहीं रख पाते।
00:00:06जब हम क्लाउड कोड को कोई बड़ा काम देते हैं,
00:00:08तो यह एक ही फीचर को बनाते समय कई बार कॉम्पैक्ट होता है। इस प्रक्रिया में यह अपने मुख्य काम को भूल जाता है,
00:00:13जिससे यह लंबे समय तक चलने वाले कामों के लिए कम प्रभावी हो जाता है।
00:00:17एंथ्रोपिक ने हाल ही में एक ऐसा समाधान पेश किया है जो वास्तविक इंजीनियरिंग माहौल में टीमों के काम करने के तरीके पर आधारित है।
00:00:22उन्होंने दो मुख्य कारण बताए कि यह लंबे कामों में क्यों विफल हो जाता है।
00:00:26हम में से कई लोगों ने पूरे एप्लिकेशन या कुछ बड़ी सुविधाओं को एक बार में बनाने की कोशिश की है,
00:00:30और ज़्यादा काम करने से मॉडल अपनी कॉन्टेक्स्ट विंडो से बाहर हो जाता है।
00:00:34बार-बार कॉम्पैक्ट होने के बाद,
00:00:35कॉन्टेक्स्ट विंडो आधे-अधूरे फीचर के साथ रीफ्रेश हो जाती है। इसमें फीचर की प्रगति की कोई जानकारी नहीं रहती,
00:00:41जिससे काम अधूरा रह जाता है।
00:00:43दूसरी समस्या यह है कि,
00:00:44कम टेस्टिंग क्षमताओं के कारण,
00:00:46क्लाउड बिना टेस्ट किए गए फीचर्स को भी पूरा मान लेता है।
00:00:49यह मान लेता है कि फीचर पूरा हो गया है,
00:00:51भले ही वह ठीक से काम न कर रहा हो।
00:00:53उनके समाधान में एक इनिशियलाइज़िंग एजेंट और एक कोडिंग एजेंट को तालमेल से इस्तेमाल करना शामिल था,
00:00:57जो वास्तविक सॉफ्टवेयर टीमों के काम करने के तरीके से प्रेरित था।
00:00:59यह वर्कफ़्लो मूल रूप से उन एजेंट्स के लिए है जिन्हें आप खुद बनाते हैं,
00:01:02लेकिन मुझे लगा कि इसे क्लाउड कोड इंस्टेंस पर भी लागू किया जा सकता है।
00:01:06पहला एजेंट आपके कोडिंग एजेंट को ठीक से इनिशियलाइज़ करने पर ध्यान देता है,
00:01:09और आपको यहाँ धैर्य रखना होगा क्योंकि इसमें थोड़ा समय लगता है।
00:01:12मेरे पास एक खाली Next.js प्रोजेक्ट है और मैं एक ऑनलाइन पायथन कंपाइलर बनाना चाहता हूँ।
00:01:16शुरू करने से पहले,
00:01:17init कमांड का उपयोग करके एक Claude.md फ़ाइल बनाएँ।
00:01:20यह फ़ाइल आपके कोडबेस का एक दस्तावेज़ है और आपके प्रोजेक्ट के रूट में होती है,
00:01:24जिसमें एक ओवरव्यू और सभी ज़रूरी जानकारी शामिल होती है।
00:01:27इसके बाद, प्रोजेक्ट रूट में फीचर लिस्ट JSON जेनरेट करें।
00:01:30इसमें सभी फीचर्स और उनके टेस्टिंग स्टेप्स भी होने चाहिए,
00:01:33और सभी टेस्ट को शुरू में 'फेल' के रूप में मार्क किया जाना चाहिए,
00:01:35ताकि क्लाउड उन्हें टेस्ट करने के लिए मजबूर हो।
00:01:38हम मार्कडाउन की जगह JSON का इस्तेमाल करते हैं क्योंकि कॉन्टेक्स्ट में JSON फ़ाइलों को मैनेज करना आसान होता है।
00:01:43चूंकि क्लाउड केवल कोड को टेस्ट कर सकता है,
00:01:45न कि उस इंटरफ़ेस को जो हम ब्राउज़र पर देखते हैं,
00:01:47मैंने ब्राउज़र टेस्टिंग के लिए पपेटियर को कनेक्ट किया।
00:01:49उसके बाद,
00:01:49देव सर्वर शुरू करने के लिए एक इनिट स्क्रिप्ट और एक प्रोग्रेस ट्रैकिंग फ़ाइल बनाएँ,
00:01:54ताकि सिस्टम प्रोजेक्ट की कंप्लीशन स्टेटस पर नज़र रख सके।
00:01:57गाइडलाइंस के लिए,
00:01:58क्लाउड को हर रन के बाद progress.md को अपडेट करना होगा और हर फीचर को लागू करने के बाद टेस्ट करना होगा।
00:02:04सबसे महत्वपूर्ण अभ्यास गिट में कमिट करना है।
00:02:07हम इस बात को कम आंकते हैं कि मर्ज करने योग्य स्थिति में कमिट करना कितना ज़रूरी है।
00:02:10स्पष्ट लॉग वाले गिट कमिट दिखाते हैं कि क्या पूरा हो गया है और अगर लागू करने में कोई दिक्कत आती है तो आपको वापस लौटने की सुविधा देते हैं।
00:02:15अंत में,
00:02:16क्लाउड को फीचर्स लिस्ट में केवल 'लागू' के रूप में मार्क करने के अलावा कोई बदलाव नहीं करना चाहिए।
00:02:20जब एनवायरनमेंट तैयार हो जाए, तो हम कोडिंग पार्ट पर चलते हैं।
00:02:23विचार यह था कि फीचर्स JSON से हर फीचर को एक-एक करके लागू किया जाए।
00:02:27क्लाउड ने हर टेस्ट किए गए फीचर के बाद विस्तृत कमिट मैसेज भी बनाए और ज़रूरत पड़ने पर ब्राउज़र भी लॉन्च किया।
00:02:33एक बार जब इसने ऐप के काम करने की पुष्टि कर ली,
00:02:35तो इसने JSON फ़ील्ड को 'फॉल्स' से 'ट्रू' में अपडेट किया और progress.md में अब तक के पूरे हुए काम की जानकारी अपडेट की।
00:02:42अंत में,
00:02:42इसने बदलावों को कमिट किया और पुष्टि की कि कमिट सफल रहा।
00:02:45इस इंक्रीमेंटल अप्रोच का फायदा यह है कि अगर सेशन खत्म भी हो जाए,
00:02:48तो आप वहीं से फिर से शुरू कर सकते हैं जहाँ आपने छोड़ा था।
00:02:51सब कुछ गिट लॉग्स में ट्रैक होता है,
00:02:53इसलिए आपको कोड खराब होने की चिंता करने की ज़रूरत नहीं है।
00:02:55क्लाउड प्रोजेक्ट को गिट लॉग्स और प्रोग्रेस फ़ाइल से समझ सकता है,
00:02:59न कि कोड से,
00:02:59इसलिए आप सेशन को आसानी से फिर से शुरू कर सकते हैं।
00:03:02आपका अगला प्रॉम्प्ट बस उस अगले फीचर को लागू करना है जिसे 'पूरा नहीं हुआ' के रूप में मार्क किया गया है।
00:03:06यह तरीका क्लाउड की बिना ठीक से टेस्ट किए फीचर्स को पूरा मार्क करने की प्रवृत्ति को भी कम करता है।
00:03:11हर इटरेशन यह सुनिश्चित करता है कि ऐप को एंड-टू-एंड वास्तविक टेस्टिंग के साथ बनाया गया है,
00:03:15जिससे उन बग्स की पहचान करने में मदद मिलती है जो केवल कोड से स्पष्ट नहीं होते।
00:03:19हम इस चक्र को तब तक दोहराते हैं जब तक सभी फीचर्स को 'ट्रू' के रूप में मार्क नहीं कर दिया जाता।
00:03:22आप सोच सकते हैं कि यह BMAD विधि के समान है।
00:03:24इसमें समानताएं हैं,
00:03:25लेकिन मुझे लगता है कि क्लाउड का वर्कफ़्लो कुछ मायनों में बेहतर है।
00:03:28यह आसान था क्योंकि इसमें एजेंट्स को अलग से कॉल नहीं करना पड़ता था,
00:03:31और कॉन्टेक्स्ट का इस्तेमाल भी बेहतर था।
00:03:33इतने सारे फीचर्स को लागू करने के बाद,
00:03:35इसने केवल 84% कॉन्टेक्स्ट का इस्तेमाल किया,
00:03:38जबकि BMAD ने अपनी बड़ी स्टोरीज के कारण दो बार कॉम्पैक्ट किया होता।
00:03:42फिर भी,
00:03:42BMAD एक रेडी-टू-यूज़ फुल सिस्टम है,
00:03:44जबकि यह अभी भी एक विचार है जिसे लागू करने की ज़रूरत है।
00:03:48लेकिन BMAD इससे कुछ चीज़ें इस्तेमाल कर सकता है,
00:03:50जैसे कि गिट सिस्टम।
00:03:51लाखों लोगों को AI के साथ बनाना सिखाने के बाद,
00:03:54हमने खुद इन वर्कफ़्लो को लागू करना शुरू कर दिया।
00:03:57हमने पाया कि हम पहले से कहीं बेहतर उत्पाद तेजी से बना सकते हैं।
00:04:00हमने आपके विचारों को हकीकत में बदलने में मदद की,
00:04:02चाहे वे ऐप्स हों या वेबसाइट्स।
00:04:04शायद आपने हमारे वीडियो यह सोचते हुए देखे होंगे,
00:04:06'मेरे पास एक शानदार आइडिया है,
00:04:07लेकिन इसे बनाने के लिए मेरे पास कोई टेक टीम नहीं है।' यहीं पर हम काम आते हैं।
00:04:10हमें अपना टेक्निकल को-पायलट समझें।
00:04:12हमने लाखों लोगों को जो वर्कफ़्लो सिखाए हैं,
00:04:14उन्हें सीधे आपके प्रोजेक्ट पर लागू करते हैं,
00:04:16जिससे कॉन्सेप्ट्स वास्तविक,
00:04:18काम करने वाले सॉल्यूशंस में बदल जाते हैं,
00:04:20बिना किसी हायरिंग या देव टीम को मैनेज करने के सिरदर्द के।
00:04:22अपने विचार को वास्तविकता में बदलने के लिए तैयार हैं?
00:04:25hello@autometer.dev पर संपर्क करें। इसी के साथ यह वीडियो यहीं खत्म होता है।
00:04:29अगर आप चैनल को सपोर्ट करना चाहते हैं और हमें ऐसे वीडियो बनाने में मदद करना चाहते हैं,
00:04:33तो आप नीचे दिए गए सुपर थैंक्स बटन का इस्तेमाल कर सकते हैं।
00:04:36हमेशा की तरह,
00:04:36देखने के लिए धन्यवाद,
00:04:37और मैं आपसे अगले वीडियो में मिलूँगा।

Key Takeaway

एंथ्रोपिक ने AI एजेंट्स की सीमित कॉन्टेक्स्ट विंडो और टेस्टिंग अक्षमताओं को दूर करने के लिए एक संरचित, इंक्रीमेंटल डेवलपमेंट वर्कफ़्लो प्रस्तावित किया है जो वास्तविक इंजीनियरिंग प्रथाओं और गिट-आधारित प्रगति ट्रैकिंग का लाभ उठाता है।

Highlights

AI एजेंट्स की सीमित कॉन्टेक्स्ट विंडो और लंबे कामों में उनकी अक्षमता एक बड़ी समस्या है, जिसे एंथ्रोपिक ने एक नए समाधान के साथ संबोधित किया है।

एंथ्रोपिक का समाधान वास्तविक इंजीनियरिंग वर्कफ़्लो से प्रेरित है, जिसमें इनिशियलाइज़िंग और कोडिंग एजेंट्स का तालमेल शामिल है।

प्रोजेक्ट सेटअप में Claude.md, फीचर लिस्ट JSON और प्रोग्रेस ट्रैकिंग फ़ाइलों का व्यवस्थित निर्माण शामिल है, जिसमें सभी टेस्ट को शुरू में 'फेल' मार्क किया जाता है।

ब्राउज़र टेस्टिंग के लिए पपेटियर का उपयोग और गिट में इंक्रीमेंटल कमिट्स इस विकास प्रक्रिया के महत्वपूर्ण हिस्से हैं, जो स्पष्ट लॉग और रिकवरी पॉइंट प्रदान करते हैं।

यह इंक्रीमेंटल अप्रोच सेशन खत्म होने पर भी काम को वहीं से शुरू करने और AI की बिना टेस्ट किए फीचर्स को पूरा मानने की प्रवृत्ति को कम करता है, जिससे एंड-टू-एंड टेस्टिंग सुनिश्चित होती है।

यह वर्कफ़्लो BMAD जैसी अन्य विधियों की तुलना में बेहतर कॉन्टेक्स्ट उपयोग दक्षता प्रदान करता है, जिससे कम कॉम्पैक्टिंग की आवश्यकता होती है।

Automater.dev एक तकनीकी सह-पायलट के रूप में कार्य करता है, जो AI-आधारित वर्कफ़्लो को लागू करके विचारों को वास्तविक, काम करने वाले समाधानों में बदलने में मदद करता है।

Timeline

AI एजेंट्स की समस्याएँ

यह खंड AI एजेंट्स की मुख्य समस्या पर प्रकाश डालता है, जो उनकी सीमित कॉन्टेक्स्ट विंडो है। इस सीमा के कारण, एजेंट्स पिछली कार्रवाइयों को ठीक से याद नहीं रख पाते, जिससे वे लंबे समय तक चलने वाले कामों में कम प्रभावी हो जाते हैं। उदाहरण के तौर पर, जब क्लाउड कोड को कोई बड़ा काम दिया जाता है, तो वह एक ही फीचर को बनाते समय कई बार कॉम्पैक्ट होता है। इस प्रक्रिया में, वह अपने मुख्य काम को भूल जाता है, जिससे कार्य अधूरा रह जाता है और दक्षता प्रभावित होती है।

एंथ्रोपिक का समाधान और विफलता के कारण

एंथ्रोपिक ने हाल ही में एक समाधान पेश किया है जो वास्तविक इंजीनियरिंग माहौल में टीमों के काम करने के तरीके पर आधारित है। उन्होंने लंबे कामों में AI की विफलता के दो मुख्य कारण बताए: पहला, पूरे एप्लिकेशन या बड़ी सुविधाओं को एक बार में बनाने की कोशिश करने से मॉडल अपनी कॉन्टेक्स्ट विंडो से बाहर हो जाता है। दूसरा, बार-बार कॉम्पैक्ट होने के बाद, कॉन्टेक्स्ट विंडो आधे-अधूरे फीचर के साथ रीफ्रेश हो जाती है, जिसमें फीचर की प्रगति की कोई जानकारी नहीं रहती, जिससे काम अधूरा रह जाता है।

टेस्टिंग क्षमताओं की कमी

इस खंड में AI एजेंट्स की दूसरी महत्वपूर्ण समस्या पर चर्चा की गई है, जो उनकी कम टेस्टिंग क्षमताएं हैं। क्लाउड जैसे AI एजेंट्स अक्सर बिना टेस्ट किए गए फीचर्स को भी पूरा मान लेते हैं। यह एक बड़ी चुनौती है क्योंकि AI यह मान लेता है कि फीचर पूरा हो गया है, भले ही वह ठीक से काम न कर रहा हो। इससे गलत सकारात्मक परिणाम मिलते हैं और अंततः एक दोषपूर्ण उत्पाद बन सकता है।

एंथ्रोपिक का समाधान: एजेंटों का तालमेल

एंथ्रोपिक के समाधान में एक इनिशियलाइज़िंग एजेंट और एक कोडिंग एजेंट को तालमेल से इस्तेमाल करना शामिल है, जो वास्तविक सॉफ्टवेयर टीमों के काम करने के तरीके से प्रेरित है। यह वर्कफ़्लो मूल रूप से उन एजेंट्स के लिए है जिन्हें उपयोगकर्ता खुद बनाते हैं, लेकिन इसे क्लाउड कोड इंस्टेंस पर भी लागू किया जा सकता है। पहला एजेंट कोडिंग एजेंट को ठीक से इनिशियलाइज़ करने पर ध्यान केंद्रित करता है, जिसमें धैर्य की आवश्यकता होती है क्योंकि इसमें थोड़ा समय लगता है। यह सुनिश्चित करता है कि कोडिंग प्रक्रिया शुरू होने से पहले सभी आवश्यक सेटअप पूरे हो जाएं।

प्रोजेक्ट सेटअप और प्रारंभिक कॉन्फ़िगरेशन

इस खंड में एक Next.js प्रोजेक्ट में ऑनलाइन पायथन कंपाइलर बनाने के लक्ष्य के साथ प्रारंभिक सेटअप प्रक्रिया का वर्णन किया गया है। शुरू करने से पहले, init कमांड का उपयोग करके एक Claude.md फ़ाइल बनाई जाती है, जो कोडबेस का दस्तावेज़ होती है और इसमें प्रोजेक्ट का ओवरव्यू और सभी ज़रूरी जानकारी शामिल होती है। इसके बाद, प्रोजेक्ट रूट में फीचर लिस्ट JSON जेनरेट किया जाता है, जिसमें सभी फीचर्स और उनके टेस्टिंग स्टेप्स होते हैं, और सभी टेस्ट को शुरू में 'फेल' के रूप में मार्क किया जाता है ताकि क्लाउड उन्हें टेस्ट करने के लिए मजबूर हो। JSON का उपयोग इसलिए किया जाता है क्योंकि कॉन्टेक्स्ट में JSON फ़ाइलों को मैनेज करना आसान होता है।

टेस्टिंग और प्रगति ट्रैकिंग

चूंकि क्लाउड केवल कोड को टेस्ट कर सकता है, न कि ब्राउज़र पर दिखने वाले इंटरफ़ेस को, इसलिए ब्राउज़र टेस्टिंग के लिए पपेटियर को कनेक्ट किया जाता है। इसके अतिरिक्त, देव सर्वर शुरू करने के लिए एक इनिट स्क्रिप्ट और एक प्रोग्रेस ट्रैकिंग फ़ाइल बनाई जाती है, ताकि सिस्टम प्रोजेक्ट की कंप्लीशन स्टेटस पर नज़र रख सके। गाइडलाइंस के अनुसार, क्लाउड को हर रन के बाद progress.md को अपडेट करना होगा और हर फीचर को लागू करने के बाद टेस्ट करना होगा। सबसे महत्वपूर्ण अभ्यास गिट में कमिट करना है, क्योंकि स्पष्ट लॉग वाले गिट कमिट दिखाते हैं कि क्या पूरा हो गया है और अगर लागू करने में कोई दिक्कत आती है तो वापस लौटने की सुविधा देते हैं।

कोडिंग प्रक्रिया और इंक्रीमेंटल अपडेट

इस चरण में, क्लाउड को फीचर्स लिस्ट में केवल 'लागू' के रूप में मार्क करने के अलावा कोई बदलाव नहीं करना चाहिए। जब एनवायरनमेंट तैयार हो जाता है, तो कोडिंग पार्ट शुरू होता है, जिसमें फीचर्स JSON से हर फीचर को एक-एक करके लागू किया जाता है। क्लाउड हर टेस्ट किए गए फीचर के बाद विस्तृत कमिट मैसेज भी बनाता है और ज़रूरत पड़ने पर ब्राउज़र भी लॉन्च करता है। एक बार जब यह ऐप के काम करने की पुष्टि कर लेता है, तो यह JSON फ़ील्ड को 'फॉल्स' से 'ट्रू' में अपडेट करता है और progress.md में अब तक के पूरे हुए काम की जानकारी अपडेट करता है।

इंक्रीमेंटल अप्रोच के लाभ

इस इंक्रीमेंटल अप्रोच का एक बड़ा फायदा यह है कि अगर सेशन खत्म भी हो जाए, तो उपयोगकर्ता वहीं से फिर से शुरू कर सकते हैं जहाँ उन्होंने छोड़ा था। सब कुछ गिट लॉग्स में ट्रैक होता है, इसलिए कोड खराब होने की चिंता करने की ज़रूरत नहीं है। क्लाउड प्रोजेक्ट को गिट लॉग्स और प्रोग्रेस फ़ाइल से समझ सकता है, न कि केवल कोड से, जिससे सेशन को आसानी से फिर से शुरू किया जा सकता है। यह तरीका क्लाउड की बिना ठीक से टेस्ट किए फीचर्स को पूरा मार्क करने की प्रवृत्ति को भी कम करता है, क्योंकि हर इटरेशन यह सुनिश्चित करता है कि ऐप को एंड-टू-एंड वास्तविक टेस्टिंग के साथ बनाया गया है, जिससे उन बग्स की पहचान करने में मदद मिलती है जो केवल कोड से स्पष्ट नहीं होते।

BMAD से तुलना और कॉन्टेक्स्ट दक्षता

यह खंड इस वर्कफ़्लो की तुलना BMAD विधि से करता है, जिसमें कुछ समानताएं हैं। हालांकि, क्लाउड का वर्कफ़्लो कुछ मायनों में बेहतर माना जाता है, क्योंकि इसमें एजेंट्स को अलग से कॉल नहीं करना पड़ता था और कॉन्टेक्स्ट का इस्तेमाल भी बेहतर था। कई फीचर्स को लागू करने के बाद भी, इसने केवल 84% कॉन्टेक्स्ट का इस्तेमाल किया, जबकि BMAD ने अपनी बड़ी स्टोरीज के कारण दो बार कॉम्पैक्ट किया होता। फिर भी, BMAD एक रेडी-टू-यूज़ फुल सिस्टम है, जबकि यह अभी भी एक विचार है जिसे लागू करने की ज़रूरत है, लेकिन BMAD इससे गिट सिस्टम जैसी कुछ चीज़ें इस्तेमाल कर सकता है।

Automater.dev: आपके तकनीकी सह-पायलट

वीडियो के इस हिस्से में Automater.dev का परिचय दिया गया है, जो लाखों लोगों को AI के साथ बनाना सिखाने के बाद खुद इन वर्कफ़्लो को लागू करना शुरू कर चुका है। कंपनी का दावा है कि वे पहले से कहीं बेहतर उत्पाद तेजी से बना सकते हैं और आपके विचारों को हकीकत में बदलने में मदद करते हैं, चाहे वे ऐप्स हों या वेबसाइट्स। वे खुद को एक टेक्निकल को-पायलट के रूप में प्रस्तुत करते हैं, जो सिखाए गए वर्कफ़्लो को सीधे आपके प्रोजेक्ट पर लागू करते हैं, जिससे कॉन्सेप्ट्स वास्तविक, काम करने वाले सॉल्यूशंस में बदल जाते हैं, बिना किसी हायरिंग या देव टीम को मैनेज करने के सिरदर्द के।

निष्कर्ष और समर्थन

वीडियो का समापन Automater.dev से संपर्क करने के लिए एक कॉल टू एक्शन के साथ होता है, जिसका ईमेल hello@autometer.dev है। स्पीकर दर्शकों को चैनल को सपोर्ट करने और ऐसे वीडियो बनाने में मदद करने के लिए सुपर थैंक्स बटन का उपयोग करने के लिए प्रोत्साहित करता है। अंत में, वह दर्शकों को देखने के लिए धन्यवाद देता है और अगले वीडियो में मिलने की उम्मीद करता है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video