Harness Engineer क्या होता है और यह क्यों महत्वपूर्ण है?

AAI Jason
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00इस वीडियो को स्पॉन्सर करने के लिए HubSpot का धन्यवाद।
00:00:03तो असल में दिसंबर 2025 में कुछ बहुत बड़ा हुआ।
00:00:07और ज़्यादातर लोगों को इसका अहसास तक नहीं हुआ।
00:00:09एंड्रयू कपसी ने पिछले हफ्ते इस बारे में ट्वीट किया था।
00:00:10"यह बताना बहुत मुश्किल है कि पिछले दो महीनों में AI के कारण प्रोग्रामिंग कितनी बदल गई है,
00:00:15खासकर पिछले दिसंबर से।"
00:00:17और OpenAI के ग्रेग ने भी इस बारे में बात की।
00:00:20दिसंबर से, मॉडल और टूल्स की क्षमताओं में बहुत बड़े सुधार हुए हैं।
00:00:24और कुछ इंजीनियरों ने उन्हें बताया कि दिसंबर 2025 से
00:00:28उनका काम बुनियादी तौर पर बदल गया है।
00:00:29तो दिसंबर 2025 में आखिर हुआ क्या था?
00:00:32संक्षेप में कहें तो, तब पेश किया गया नवीनतम मॉडल आखिरकार पूरी तरह से स्वायत्त,
00:00:37लंबे समय तक चलने वाले कार्यों के लिए तैयार है।
00:00:38AI के साथ, अंतिम सपना हमेशा यही रहा है कि जब हम सो रहे हों, तब AI
00:00:4324/7 पूरी तरह से स्वायत्त रूप से काम कर सके।
00:00:462023 में भी, सबसे लोकप्रिय प्रोजेक्ट, अगर आपको याद हो, AutoGPT था।
00:00:50यह पहली बार था जब ऐसे पूरी तरह से स्वायत्त एजेंट सिस्टम पेश किए गए थे।
00:00:54और उनकी संरचना काफी बुनियादी थी जो उपयोगकर्ता के लक्ष्य के आधार पर कार्यों को
00:00:59स्वायत्त रूप से विभाजित करने के लिए GPT-4 का उपयोग करती थी और परिणामों को सहेजने के लिए
00:01:03सरल मेमोरी स्टोरेज रखती थी।
00:01:04लोग कुछ काफी दीवानगी भरे काम कर रहे थे जैसे लक्ष्य देना, $100,000 कमाओ और
00:01:08इसे तब तक टास्क लूप में चलने देना जब तक काम पूरा न हो जाए।
00:01:11तब, सिस्टम बस टूट जाता था और बुरी तरह विफल होता था क्योंकि मॉडल तैयार ही नहीं था।
00:01:15लेकिन पिछले साल दिसंबर से, यह वास्तव में बदल गया है।
00:01:18मॉडल्स की गुणवत्ता और दीर्घकालिक निरंतरता अब काफी बेहतर है, और वे
00:01:22बहुत बड़े और लंबे कार्यों को पूरा कर सकते हैं।
00:01:24और हमने इंडस्ट्री से हर तरह के अलग-अलग प्रयोग निकलते देखे।
00:01:28सबसे पहले, जनवरी से, हमें यह 'रफ लूप' (rough loop) नाम का कॉन्सेप्ट मिला, जो सबसे बुनियादी
00:01:33एजेंट इटरेशन लूप है जो मॉडल को लंबे समय तक काम करने के लिए मजबूर करता है ताकि वह
00:01:37जटिल कार्यों को संभाल सके।
00:01:38हमने बस कुछ सरल कंडीशन चेक के साथ मॉडल को लूप में रखा, लेकिन हमें
00:01:42फर्क दिखना शुरू हो गया।
00:01:43और एक हफ्ते बाद, Cursor ने अपना प्रयोग जारी किया जहां उन्होंने GPT-5.2 का उपयोग करके
00:01:4930 लाख लाइनों वाले कोड के साथ शुरू से एक ब्राउज़र बनाया।
00:01:52और Anthropic ने भी अपना यह प्रयोग जारी किया जहां उन्होंने क्लाउड कोडर्स की एक टीम से
00:01:57दो हफ्तों तक एक C कंपाइलर पर स्वायत्त रूप से काम करवाया।
00:02:01और अंत में, इसने बिना किसी मैन्युअल कोडिंग के एक कार्यात्मक वर्ज़न दिया।
00:02:05यह इस कंपाइलर के अंदर 'Doom' गेम भी चला सकता है।
00:02:08और उसी समय, OpenClaw पर ध्यान जाना शुरू हुआ और इसमें ऐसी जबरदस्त बढ़ोतरी हुई
00:02:13जैसी हमने पहले कभी नहीं देखी थी।
00:02:14और OpenClaw के साथ क्या हो रहा था, यह समझना बहुत मुश्किल था क्योंकि बाहर से,
00:02:18इसे बस एक और परेशानी मानना आसान है, जो आपके कंप्यूटर के अंदर रहता है
00:02:23और जिसे टेलीग्राम से भी एक्सेस किया जा सकता है।
00:02:27जैसे, यह इतना लोकप्रिय क्यों है?
00:02:29और बाद में जब मैंने इसे गहराई से इस्तेमाल किया, तब मुझे अहसास हुआ कि असली अंतर यह है कि OpenClaw
00:02:35हमेशा चालू रहने वाले, लंबे समय तक चलने वाले, पूरी तरह से स्वायत्त एजेंटों का प्रतिनिधित्व करता है जो
00:02:40उन अन्य एजेंट प्रणालियों से बहुत अलग है जिनका हमने पहले उपयोग किया था जहां
00:02:45इंसान अगले कदम के लिए मुख्य चालक होता है।
00:02:46OpenClaw हमेशा चालू रहता है और यह सक्रिय (proactive) है।
00:02:49और यह स्वायत्त अनुभव एक काफी सरल आर्किटेक्चर द्वारा बनाया गया है जहां इसमें
00:02:53ट्रिगर और क्रोन जॉब के साथ मेमोरी कॉन्टेक्स्ट लेयर है ताकि यह स्वचालित रूप से एक्शन ले सके और
00:02:58इसे कंप्यूटर का पूरा एक्सेस है, जो काम करने के लिए एक शक्तिशाली वातावरण है।
00:03:02और मेरा मानना है कि OpenClaw पहला प्रोजेक्ट है जिसने 2026 के सबसे बड़े वैचारिक बदलाव
00:03:06की शुरुआत की है कि हम एक को-पायलट टास्क-बेस्ड एजेंट सिस्टम से हटकर
00:03:13लंबे समय तक चलने वाले पूरी तरह से स्वायत्त एजेंट की ओर बढ़ रहे हैं।
00:03:15कुछ ऐसा जो हमेशा चालू है, हमेशा तैयार है, और बेहद जटिल समन्वित कार्य डिलीवर कर रहा है।
00:03:20यह एक महत्वपूर्ण बदलाव है जिसे आपको समझना होगा।
00:03:22आज का मॉडल वास्तव में आपकी सोच से कहीं अधिक शक्तिशाली है, बशर्ते आप इसे
00:03:27अनलॉक करने के लिए सही सिस्टम डिज़ाइन करें।
00:03:28और यही आज मेरी बातचीत का मुख्य केंद्र है।
00:03:30लंबे समय तक चलने वाले स्वायत्त सिस्टम को सक्षम करने के लिए 'हार्नेस इंजीनियरिंग' (Harness Engineer)।
00:03:34अगर आप पहली बार हार्नेस इंजीनियरिंग के बारे में सुन रहे हैं, तो यह उस चीज़ का विकास है जिसके बारे में
00:03:38हमने पहले बात की है, यानी कॉन्टेक्स्ट इंजीनियरिंग या प्रॉम्प्ट इंजीनियरिंग।
00:03:41तो पहले हम वास्तव में इस बात पर ध्यान केंद्रित करते थे कि एक ही एजेंट लूप सेशन के लिए
00:03:46मॉडल का सर्वश्रेष्ठ प्रदर्शन पाने के लिए प्रभावी कॉन्टेक्स्ट विंडो के भीतर प्रॉम्प्ट को कैसे अनुकूलित किया जाए।
00:03:49लेकिन हार्नेस इंजीनियरिंग वास्तव में उन लंबे कार्यों पर केंद्रित है जिसका अर्थ है कि आप ऐसा
00:03:53सिस्टम कैसे डिज़ाइन करते हैं जो अलग-अलग सेशन और कई अलग-अलग एजेंटों के बीच काम कर सके।
00:03:57और आप सही वर्कफ़्लो कैसे डिज़ाइन करते हैं ताकि यह सुनिश्चित हो सके कि प्रत्येक सेशन के लिए
00:04:01प्रासंगिक कॉन्टेक्स्ट प्राप्त हो और मॉडल से अधिकतम परिणाम निकालने के लिए सही टूल्स उपलब्ध हों।
00:04:05यह काफी नया कॉन्सेप्ट है, लेकिन अच्छी बात यह है कि इंडस्ट्री पहले ही कुछ
00:04:09बेहतरीन तरीकों पर सहमत हो गई है जिनका उपयोग आप Anthropic, Vercel, LangChain और कई अन्य से कर सकते हैं।
00:04:14मैं एक-एक करके उन पर जाऊंगा ताकि आप पैटर्न देख सकें।
00:04:16लेकिन इससे पहले कि हम इसमें गहराई से उतरें, पूरी तरह से स्वायत्त एजेंटों के इस बदलाव के साथ,
00:04:21अगले 6-12 महीनों के लिए सबसे बड़े अवसरों में से एक किसी विशिष्ट वर्टिकल के लिए ओपन क्लाउड बनाना है।
00:04:25इसका मतलब है कि आप किसी वर्टिकल के शुरू से अंत तक के वर्कफ़्लो की गहराई से जांच करें और उसे समझें।
00:04:29और एंड-टू-एंड प्रक्रिया को सक्षम करने के लिए सही वातावरण और टूल्स के साथ एक स्वायत्त एजेंट बनाएं।
00:04:34इसीलिए मैं आपको HubSpot द्वारा ईमेल मार्केटिंग रिपोर्ट में
00:04:39AI एडॉप्शन पर किए गए इस शानदार रिसर्च से परिचित कराना चाहता हूँ।
00:04:40ईमेल मार्केटिंग जैसे वर्टिकल को समझने के लिए यह एक दिलचस्प रिपोर्ट है कि लोग वास्तव में
00:04:44आज AI का उपयोग कहाँ करते हैं और कमियाँ क्या हैं।
00:04:47क्योंकि यह रिपोर्ट ईमेल मार्केटिंग में स्पष्ट वर्कफ़्लो और अवसर दिखाती है जिसे आप
00:04:51संभावित रूप से स्वचालित कर सकते हैं।
00:04:52उन्होंने शीर्ष कंपनियों के सैकड़ों ईमेल मार्केटर्स का सर्वेक्षण किया ताकि यह समझ सकें कि
00:04:57AI उनके वर्कफ़्लो को वास्तव में कैसे नया आकार दे रहा है।
00:04:58वे इस बारे में बात करते हैं कि मार्केटर्स अभी भी बहुत अधिक भारी एडिटिंग क्यों कर रहे हैं,
00:05:03इसका कारण क्या था, साथ ही ईमेल मार्केटिंग में AI लागू करते समय
00:05:06वे आज किन सबसे बड़ी चुनौतियों का सामना कर रहे हैं।
00:05:07और इनमें से प्रत्येक आपके लिए पूरी तरह से स्वायत्त एजेंट बनाने का एक बड़ा अवसर है।
00:05:11वे उन विशिष्ट KPI की भी गहराई से जानकारी देते हैं जिनकी वे अधिक परवाह करते हैं और जहाँ
00:05:15AI ने प्रमाणित परिणाम दिखाए हैं।
00:05:16साथ ही ईमेल मार्केटर्स वास्तव में AI से क्या चाहते हैं।
00:05:20तो अगर आप एक बिल्डर हैं जो अगले बड़े एजेंट प्रोडक्ट बनाने के बारे में सोच रहे हैं, तो मैं
00:05:24दृढ़ता से अनुशंसा करता हूँ कि आप इस शानदार संसाधन को देखें।
00:05:27मैंने आपके लिए मुफ्त में डाउनलोड करने के लिए नीचे डिस्क्रिप्शन में लिंक दिया है।
00:05:30और इस वीडियो को स्पॉन्सर करने के लिए HubSpot का धन्यवाद।
00:05:32अब लंबे समय तक चलने वाले एजेंट सिस्टम के लिए हार्नेस इंजीनियरिंग पर वापस आते हैं।
00:05:36और उच्च स्तर पर, उनसे मुझे तीन सीख मिली हैं।
00:05:39एक यह कि लंबे समय तक चलने वाले टास्क एजेंटों के लिए, सिस्टम डिज़ाइन का महत्वपूर्ण हिस्सा
00:05:44ऐसा स्पष्ट वातावरण बनाना है जहाँ प्रत्येक सब-एजेंट या सेशन वास्तव में समझ सके कि
00:05:49चीजें किस स्थिति में हैं।
00:05:50संभवतः कुछ ऐसे वर्कफ़्लो हैं जो वातावरण की स्पष्टता सुनिश्चित करने के लिए किए जा सकते हैं।
00:05:54और मैं इस पर थोड़ा और विस्तार से बताऊंगा।
00:05:56दूसरा यह कि सत्यापन (verification) अत्यंत महत्वपूर्ण है।
00:05:58आप सिस्टम को तेज़ फीडबैक लूप के साथ प्रभावी ढंग से अपने काम को सत्यापित करने की
00:06:03अनुमति देकर उसके आउटपुट में काफी सुधार कर सकते हैं।
00:06:04और तीसरा यह कि हमें मॉडल पर अधिक भरोसा करने की ज़रूरत है, बजाय इसके कि हम ऐसे
00:06:08विशेष उपकरण बनाएं जो बहुत अधिक तर्क और लॉजिक को समय से पहले ही समेट लेते हैं।
00:06:11हमें मॉडल को जेनेरिक टूल्स के साथ अधिकतम कॉन्टेक्स्ट देना चाहिए जिन्हें वे स्वाभाविक रूप से समझते हैं और
00:06:16उन्हें इंसानों की तरह एक्सप्लोर करने देना चाहिए।
00:06:17और जैसे-जैसे हम प्रत्येक ब्लॉक को देखेंगे, मैं इन तीनों चीजों को एक-एक करके खोलूंगा।
00:06:20पहला है Anthropic का लंबे समय तक चलने वाले एजेंटों के लिए प्रभावी हार्नेस ब्लॉक।
00:06:24उन्होंने क्लाउड कोड SDK का उपयोग करके क्लाउड.एआई (cloud.ai) वेबसाइट जैसा क्लोन बनाने
00:06:29जैसे सुपर लॉन्ग-रनिंग टास्क के लिए एक विशेष एजेंट बनाने का प्रयोग किया है।
00:06:32पहली विफलता जो उन्होंने देखी वह यह थी कि एजेंट एक बार में बहुत कुछ करने की कोशिश करते हैं।
00:06:37अनिवार्य रूप से, वे पूरे ऐप को एक ही बार में बनाने की कोशिश करेंगे।
00:06:40और इससे मॉडल कार्यान्वयन के बीच में ही कॉन्टेक्स्ट से बाहर हो जाता था और
00:06:45अगले सेशन को आधे-अधूरे फीचर या डॉक्यूमेंटेशन के साथ शुरू करना पड़ता था।
00:06:49फिर एजेंट को अनुमान लगाना पड़ता था कि वास्तव में क्या हुआ था और उसे बेसिक ऐप को फिर से
00:06:52चालू करने की कोशिश में काफी समय बिताना पड़ता था।
00:06:55और दूसरी विफलता जो उन्होंने देखी वह यह थी कि एजेंट काम को समय से पहले ही पूरा घोषित कर देते हैं।
00:07:00आपने शायद खुद भी कुछ बार ऐसा अनुभव किया होगा।
00:07:02क्लाउड कोड या कर्सर बस दावा कर देगा कि प्रोजेक्ट या फीचर पूरा हो गया है।
00:07:05लेकिन एक बार जब आप इसका परीक्षण करते हैं, तो यह वास्तव में काम नहीं करता।
00:07:07इसलिए मॉडल के इस डिफॉल्ट विफलता व्यवहार को हल करने के लिए उनका दृष्टिकोण यह है कि पहले
00:07:12एक ऐसा प्रारंभिक वातावरण सेटअप करें जो दिए गए प्रॉम्प्ट के अनुसार सभी फीचर्स की नींव रखे,
00:07:16जो एजेंट को कदम दर कदम और फीचर दर फीचर काम करने के लिए तैयार करे।
00:07:20तो यह उस प्लान या PRD दृष्टिकोण के समान है जिसे हम सामान्य रूप से अपनाते हैं।
00:07:23दूसरा यह कि यह प्रत्येक एजेंट को अपने लक्ष्य की दिशा में क्रमिक प्रगति करने के लिए प्रॉम्प्ट
00:07:27देना शुरू करता है और साथ ही प्रत्येक सेशन के अंत में वातावरण को साफ़-सुथरी स्थिति में छोड़ता है।
00:07:32उन्होंने जो किया वह इस दो-भाग वाले समाधान को डिज़ाइन करना शुरू करना था।
00:07:35उनके पास एक इनीशियलाइज़र एजेंट (initializer agent) होगा जो मॉडल को init.sh स्क्रिप्ट के साथ
00:07:40शुरुआती वातावरण सेटअप करने के लिए कहने हेतु एक विशेष प्रॉम्प्ट का उपयोग करता है,
00:07:45जो उदाहरण के लिए देव सर्वर सेटअप करेगा, ताकि अगले मॉडल को उन चीजों के बारे में चिंता करने की ज़रूरत न हो।
00:07:48और एक cloud progress.txt फ़ाइल भी जो एजेंट द्वारा किए गए कार्यों का लॉग रखती है और साथ ही
00:07:53शुरुआती git कमिट जो दिखाता है कि कौन सी फ़ाइल जोड़ी गई है।
00:07:55फिर प्रत्येक अगले सेशन के लिए एक कोडिंग एजेंट जो मॉडल को क्रमिक प्रगति करने और
00:08:01फिर व्यवस्थित अपडेट छोड़ने के लिए कहता है।
00:08:02और ये सभी प्रयास वास्तव में एक ही उद्देश्य की सेवा करने के लिए हैं कि वे ऐसा वातावरण कैसे
00:08:07परिभाषित कर सकते हैं जहाँ एजेंट नए कॉन्टेक्स्ट विंडो के साथ शुरू करते समय काम की
00:08:11स्थिति को जल्दी से समझ सकें।
00:08:13तो वर्कफ़्लो यह है कि इनीशियलाइज़र एजेंट पहले एक वातावरण या
00:08:17आप इसे समग्र योजना को ट्रैक करने और बनाए रखने के लिए डॉक्यूमेंटेशन सिस्टम कह सकते हैं, सेटअप करने का प्रयास करेगा।
00:08:21और यहाँ वे जो वातावरण डिज़ाइन करते हैं वह यह है कि पहले उनके पास एजेंट को एक बार में पूरा ऐप बनाने
00:08:25या समय से पहले प्रोजेक्ट को पूरा समझने से रोकने के लिए एक फीचर लिस्ट डॉक्यूमेंट होगा।
00:08:30और वे इनीशियलाइज़र एजेंट से प्रोजेक्ट को 200 से अधिक फीचर्स में विभाजित करवाएंगे
00:08:34और उन्हें एक स्थानीय JSON फ़ाइल में लॉग करेंगे जो कुछ इस तरह दिखती है, जहाँ प्रत्येक टास्क का विस्तृत स्पेक
00:08:39और पास या फेल स्थिति होती है।
00:08:41डिफ़ॉल्ट रूप से, सभी कार्यों को फेल के रूप में चिह्नित किया जाएगा।
00:08:43ताकि मॉडल को हमेशा समग्र प्रोजेक्ट लक्ष्य और प्रगति को देखने, उच्चतम प्राथमिकता
00:08:49वाले कार्य को चुनने और अगली चीज़ करने के लिए मजबूर किया जा सके।
00:08:50लेकिन इस वर्कफ़्लो को काम करने के लिए, उन्हें मॉडल को कोड परिवर्तन करने के बाद वातावरण को साफ़ स्थिति में
00:08:55छोड़ने के लिए मजबूर करने का एक तरीका भी चाहिए।
00:08:59उनके प्रयोगों में उन्होंने पाया कि सबसे अच्छा तरीका मॉडल को वर्णनात्मक कमिट संदेश के साथ
00:09:05Git में प्रगति कमिट करने के लिए कहना और प्रगति फ़ाइल में अपनी प्रगति का सारांश लिखना है,
00:09:08लेकिन केवल डॉक्यूमेंटेशन और कॉन्टेक्स्ट वातावरण ही पर्याप्त नहीं है क्योंकि मॉडल में डिफ़ॉल्ट रूप से
00:09:13उचित परीक्षण के बिना किसी चीज़ को पूरा चिह्नित करने की प्रवृत्ति होती है।
00:09:17शुरुआत में, वे क्लाउड कोड को देव सर्वर के लिए यूनिट टेस्ट या API टेस्ट करके कोड परिवर्तन के बाद
00:09:22हमेशा परीक्षण करने के लिए प्रॉम्प्ट दे रहे थे।
00:09:23लेकिन वे सभी चीज़ें अक्सर यह पहचानने में विफल रहती थीं कि कोई फीचर एंड-टू-एंड काम नहीं कर रहा है।
00:09:27क्योंकि चीज़ें वास्तव में तब बदलना शुरू हुईं जब उन्होंने मॉडल को खुद से एंड-टू-एंड टेस्ट करने के लिए
00:09:30उचित टूल्स दिए, जैसे Puppeteer MCP या Chrome dev tool, जहाँ एजेंट उन बग्स को पहचानने और
00:09:35ठीक करने में सक्षम था जो सीधे कोड से स्पष्ट नहीं थे।
00:09:39तो मूल रूप से, वे वह संरचना स्थापित कर रहे हैं जहाँ उनके पास इनीशियलाइज़र एजेंट है जो उपयोगकर्ता के लक्ष्य को
00:09:43देव सर्वर और प्रोग्रेस फ़ाइलों को चलाने में सक्षम होने के लिए init.sh के साथ फीचर्स की एक सूची में विभाजित करता है।
00:09:49ताकि अगला कोडिंग एजेंट समग्र प्रोजेक्ट योजना के बारे में समझ पाने के लिए फीचर लिस्ट को पढ़ सके और
00:09:53उच्च प्राथमिकता वाले कार्यों को चुन सके और यह समझने के लिए प्रोग्रेस फ़ाइल और लॉग देख सके कि
00:09:57चीजें कहाँ पर हैं।
00:09:59फिर देव सर्वर को तुरंत शुरू करने के लिए init.sh चलाए और यह सत्यापित करने के लिए एंड-टू-एंड टेस्ट करे कि वातावरण
00:10:04साफ़ है ताकि वह पूरी तस्वीर और तेज़ फीडबैक लूप प्राप्त कर सके जबकि प्रत्येक नया सेशन
00:10:09और कॉन्टेक्स्ट विंडो हो रहा हो।
00:10:10OpenAI के ब्लॉग में, वे बहुत ही समान चीजों के बारे में बात करते हैं।
00:10:13आपको यह सुनिश्चित करना होगा कि आपका एप्लिकेशन वातावरण सुपाठ्य (legible) हो।
00:10:16वे पूरे रिपॉजिटरी को ज्ञान प्रणाली या रिकॉर्ड का आधार बनाते हैं।
00:10:19शुरू में, उन्होंने एक विशाल agents.md फ़ाइल रखी और वह अनुमानित तरीकों से विफल रही क्योंकि यह
00:10:23किसी भी एजेंट के लिए प्रबंधित और बनाए रखने के लिए बहुत अधिक कॉन्टेक्स्ट था।
00:10:27इसलिए उन्होंने एक उचित डॉक वातावरण संरचना डिज़ाइन की और agents.md फ़ाइल को इंडेक्स
00:10:32या विषय सूची (table of contents) के रूप में माना।
00:10:33तो उन्होंने आर्किटेक्चर, डिज़ाइन डॉक्स, निष्पादन योजना, DB स्कीमा, प्रोडक्ट स्पेक्स और
00:10:37डिज़ाइन फ्रंट-एंड प्लान, सुरक्षा और बहुत कुछ से यह डॉक्यूमेंटेशन सिस्टम स्थापित किया, और
00:10:42इस विषय सूची को agents.md फ़ाइल में डाल दिया ताकि ज़रूरत पड़ने पर एजेंट वास्तव में संबंधित
00:10:47जानकारी वापस प्राप्त कर सके।
00:10:49और यह जानकारी को धीरे-धीरे खोलने (progressive disclosure) में सक्षम बनाता है और OpenAI वास्तव में इसे और आगे ले जाता है।
00:10:53वे न केवल कोड जानकारी को, बल्कि Google डॉक्स, स्लैक संदेश, उन सभी अन्य खंडित सूचनाओं को भी
00:10:58रिपॉजिटरी में डेटा के रूप में फीड करने की कोशिश करेंगे जैसे कि वे रिपॉजिटरी के स्थानीय वर्ज़न
00:11:03आर्टिफ़ैक्ट्स हों।
00:11:04ताकि एजेंट उसे भी प्राप्त कर सके क्योंकि एजेंट के दृष्टिकोण से, यदि वातावरण में किसी चीज़ तक
00:11:09पहुंच नहीं हो सकती, तो प्रभावी रूप से उसका अस्तित्व ही नहीं है।
00:11:11लेकिन फिर से, डॉक्यूमेंटेशन अपने आप में पूरी तरह से एजेंट-जनरेटेड कोडबेस को सुसंगत नहीं रखता।
00:11:16उन्होंने अपरिवर्तनीय नियमों (invariants) को लागू करने के लिए कुछ प्रोग्रामेटिक वर्कफ़्लो भी पेश किए।
00:11:20उदाहरण के लिए, वे स्पष्ट क्रॉस-कटिंग सीमाओं के साथ डोमेन आर्किटेक्चर की परतें बनाते हैं, जो
00:11:25उन्हें कस्टम चेक, लिंटर्स और स्ट्रक्चरल टेस्ट के साथ उन नियमों को लागू करने की अनुमति देता है, जिन्हें
00:11:29प्रत्येक git प्री-कमिट द्वारा स्वचालित रूप से ट्रिगर और इंजेक्ट किया जा सकता है।
00:11:33और इस प्रकार के आर्किटेक्चर को आमतौर पर आप तब तक के लिए टाल देते हैं जब तक कि आपके पास एक पारंपरिक सॉफ्टवेयर कंपनी में
00:11:37सैकड़ों इंजीनियर न हों, लेकिन कोडिंग एजेंट के साथ यह एक शुरुआती शर्त है।
00:11:41उन सीमाओं के भीतर, आप टीमों और एजेंटों को समाधान व्यक्त करने के तरीके में काफी स्वतंत्रता देते हैं
00:11:46बिना माइक्रोमैनेजमेंट किए और आर्किटेक्चर के बिगड़ने की चिंता किए बिना।
00:11:49इस बीच, उन्होंने कोडबेस में भी काफी सुधार किया।
00:11:52उदाहरण के लिए, उन्होंने ऐप को git वर्क ट्री के अनुसार बूटेबल बनाया, ताकि कोडेक्स (codecs) बस लॉन्च कर सकें और
00:11:55कई अलग-अलग इंस्टेंस चला सकें।
00:11:57और उन्होंने एजेंट रनटाइम में Chrome dev protocol को भी जोड़ा ताकि एजेंट
00:12:01DOM स्नैपशॉट, स्क्रीनशॉट और नेविगेशन द्वारा बग्स को फिर से उत्पन्न कर सके और समाधान को मान्य कर सके।
00:12:05और वातावरण और वर्कफ़्लो सेटअप के साथ, रिपॉजिटरी ने आखिरकार उस न्यूनतम
00:12:09थ्रेसहोल्ड को पार कर लिया जहाँ कोडेक्स एंड-टू-एंड एक नया फीचर चला सकते हैं।
00:12:13तो हर बार जब कोडेक्स को एक प्रॉम्प्ट मिलता है, तो एजेंट कोडबेस की वर्तमान स्थिति को मान्य
00:12:17करना शुरू करेगा, रिपोर्ट किए गए बग को फिर से उत्पन्न करेगा, विफलता दिखाने के लिए एक वीडियो रिकॉर्ड करेगा,
00:12:21फिक्स लागू करेगा, एप्लिकेशन चलाकर फिक्स को मान्य करेगा, समाधान का प्रदर्शन करते हुए
00:12:25दूसरा वीडियो रिकॉर्ड करेगा, और अंततः परिवर्तन को मर्ज कर देगा।
00:12:29तो ये दो ब्लॉक्स बहुत अच्छी सीख और आवश्यक हार्नेस सिस्टम दिखाते हैं जिन्हें आपको
00:12:32पूरी तरह से स्वायत्त प्रणाली के लिए स्थापित करने की आवश्यकता है।
00:12:34इस बीच, कुछ और सीख भी हैं।
00:12:36अक्सर जब हम एजेंट बनाते हैं, विशेष रूप से वर्टिकल-विशिष्ट एजेंट, तो हमारी प्रवृत्ति
00:12:40डोमेन-विशिष्ट कार्यों को करने के लिए विशेष उपकरण बनाने की होती है।
00:12:43सीखने का लक्ष्य यह है कि बड़े लर्निंग मॉडल लगभग हमेशा उन जेनेरिक टूल्स के साथ बेहतर काम करते हैं
00:12:47जिन्हें वे स्वाभाविक रूप से समझते हैं।
00:12:49Vercel ने इस बारे में एक शानदार लेख जारी किया कि कैसे उन्होंने अपने 'टास्क टू SQL' एजेंटों को फिर से डिज़ाइन किया।
00:12:53उन्होंने विशेष टूल-हैवी प्रॉम्प्ट इंजीनियरिंग और सावधानीपूर्वक कॉन्टेक्स्ट प्रबंधन के साथ परिष्कृत
00:12:58आंतरिक टास्क-टू-SQL एजेंट D0 बनाने में महीनों बिताए।
00:13:02लेकिन जैसा कि हम में से कई लोगों ने पहले अनुभव किया है, इस प्रकार के सिस्टम काम तो करते हैं लेकिन बहुत ही नाजुक,
00:13:06धीमे होते हैं और निरंतर रखरखाव की आवश्यकता होती है।
00:13:09क्योंकि हर बार जब कोई नया एज केस होता है, तो आपको एजेंट में एक नया प्रॉम्प्ट डालना होगा।
00:13:12लेकिन बाद में उन्होंने एक ऐसी चीज़ आज़माई जिसने पूरा रास्ता ही बदल दिया।
00:13:15उन्होंने एजेंट से अधिकांश विशेष उपकरणों को हटाकर उसे केवल एक सिंगल बैच कमांड टूल तक सीमित कर दिया।
00:13:20और इस बहुत ही सरल आर्किटेक्चर के साथ, एजेंट ने वास्तव में 3.5 गुना तेज़ी से प्रदर्शन किया और
00:13:2537% कम टोकन का उपयोग किया, साथ ही सफलता दर 80% से बढ़कर 100% हो गई।
00:13:30ऐसी ही सीख Anthropic टीम द्वारा भी साझा की गई है जहाँ वे इस बारे में बात करते हैं कि
00:13:34विशेष सर्च-लिंक्ड एक्ज़ीक्यूट टूल्स रखने के बजाय, उनके पास बस एक बैच टूल है जहाँ
00:13:38वे grep, tail, npm, npm run lint चला सकते हैं।
00:13:41और मौलिक रूप से, मुझे लगता है कि ऐसा इसलिए है क्योंकि बड़े लर्निंग मॉडल उन कोड नेटिव टूल्स से
00:13:45कहीं अधिक परिचित हैं जिनमें अरबों ट्रेनिंग टोकन होते हैं, बजाय उन बेस्पोक टूल कॉलिंग
00:13:49JSON के जिन्हें उसे जनरेट करना पड़ता है।
00:13:51और मैंने पिछले हफ्ते जारी किए गए प्रोग्रामेटिक टूल कॉलिंग वीडियो में इस बारे में बात की है।
00:13:55और मेरा मानना है कि यहाँ भी समान मौलिक सिद्धांत हैं, लेकिन उन सरल आर्किटेक्चर की नींव
00:13:59फिर से वही अच्छा कॉन्टेक्स्ट और डॉक्यूमेंटेशन वातावरण है जहाँ मॉडल जेनेरिक टूल्स का उपयोग करके
00:14:05धीरे-धीरे कॉन्टेक्स्ट प्राप्त कर सकता है।
00:14:06और OpenClaw के साथ भी यही मामला है।
00:14:09OpenClaw के इतना दिलचस्प होने का एक कारण यह है कि उनके पास आश्चर्यजनक रूप से सरल लेकिन प्रभावी
00:14:13कॉन्टेक्स्ट वातावरण है।
00:14:15इस आधार के साथ मुख्य जानकारी संग्रहीत करने के लिए उनके पास डॉक्यूमेंटेशन की सूची है।
00:14:18उनके पास केवल सबसे बुनियादी उपकरण हैं जैसे फ़ाइलें पढ़ना, लिखना, संपादित करना, बैच कमांड चलाना
00:14:23और संदेश भेजना।
00:14:24बाकी सब एजेंट को प्रासंगिक कॉन्टेक्स्ट प्राप्त करने के लिए वातावरण देने और क्षमताओं का विस्तार करने के लिए
00:14:29बड़ी स्किल लाइब्रेरीज़ से आता है।
00:14:31तो, ये लंबे समय तक चलने वाले जटिल एजेंटों के लिए हार्नेस इंजीनियरिंग करने के बारे में तीन व्यावहारिक सीख थीं।
00:14:35प्रत्येक सेशन को प्रभावी ढंग से कॉन्टेक्स्ट हासिल करने में सक्षम बनाने के लिए एक सुपाठ्य कॉन्टेक्स्ट वातावरण स्थापित करके
00:14:36और सही वर्कफ़्लो और टूलिंग के साथ ताकि मॉडल अपने काम को प्रभावी ढंग से सत्यापित कर सके,
00:14:41तेज़ फीडबैक लूप चला सके और एजेंट पर उन जेनेरिक टूल्स के साथ भरोसा कर सके जिन्हें वह स्वाभाविक रूप से समझता है।
00:14:50अगर आप रुचि रखते हैं, तो मैं और गहराई से साझा करने जा रहा हूँ कि मैं इन सीखों को
00:14:54डेवलपमेंट लाइफसाइकिल प्रक्रिया में कैसे बदलता हूँ।
00:14:58AI Builder Club में, हमारे पास वाइब कोडिंग और प्रोडक्शन एजेंट बनाने के बारे में
00:15:02कोर्स और वर्कथ्रू हैं।
00:15:03और हर हफ्ते, मैं और इंडस्ट्री के विशेषज्ञ नवीनतम व्यावहारिक सीख साझा करते हैं।
00:15:08तो अगर आप वह सीखने में रुचि रखते हैं जो मैं हर दिन सीख रहा हूँ, तो आप कम्युनिटी में शामिल होने के लिए
00:15:12नीचे दिए गए लिंक पर क्लिक कर सकते हैं।
00:15:13मुझे आशा है कि आपने इस वीडियो का आनंद लिया होगा।
00:15:14धन्यवाद और अगली बार मिलते हैं।

Key Takeaway

भविष्य की AI प्रोग्रामिंग 'हार्नेस इंजीनियरिंग' पर टिकी है, जहाँ स्वायत्त एजेंटों के लिए स्पष्ट वातावरण, जेनेरिक टूल्स और निरंतर फीडबैक लूप के माध्यम से जटिल, लंबे समय तक चलने वाले कार्यों को पूरा किया जाता है।

Highlights

दिसंबर 2025 AI के इतिहास में एक महत्वपूर्ण मोड़ था जब मॉडल्स पूरी तरह से स्वायत्त और लंबे समय तक चलने वाले कार्यों के सक्षम हुए।

हार्नेस इंजीनियरिंग (Harness Engineering) प्रॉम्प्ट इंजीनियरिंग का अगला चरण है, जो कई सत्रों और एजेंटों के बीच जटिल वर्कफ़्लो डिज़ाइन करने पर केंद्रित है।

OpenClaw जैसे प्रोजेक्ट्स एक को-पायलट मॉडल से हटकर हमेशा चालू रहने वाले 'प्रोएक्टिव' स्वायत्त एजेंटों की ओर बदलाव का संकेत देते हैं।

एजेंटों की सफलता के लिए एक 'सुपाठ्य वातावरण' (Legible Environment) बनाना अनिवार्य है ताकि वे हर नए सत्र में अपनी प्रगति को समझ सकें।

विशिष्ट उपकरणों के बजाय जेनेरिक 'कोड-नेटिव' टूल्स (जैसे Bash या SQL) का उपयोग करने से AI एजेंटों की सटीकता और गति में भारी सुधार होता है।

सत्यापन (Verification) के लिए Puppeteer या Chrome DevTools जैसे एंड-टू-एंड परीक्षण उपकरणों का उपयोग करना एजेंट की स्वायत्तता के लिए महत्वपूर्ण है।

Timeline

दिसंबर 2025: AI की स्वायत्तता का उदय

वीडियो की शुरुआत दिसंबर 2025 में AI के क्षेत्र में आए एक बड़े बदलाव की चर्चा से होती है, जहाँ प्रोग्रामिंग का तरीका पूरी तरह बदल गया। एंड्रयू कपसी और ग्रेग जैसे विशेषज्ञों के अनुसार, नवीनतम मॉडल अब पूरी तरह से स्वायत्त और लंबे समय तक चलने वाले कार्यों के लिए तैयार हैं। 2023 में AutoGPT जैसे शुरुआती प्रयोगों की तुलना में अब मॉडल अधिक सुसंगत और विश्वसनीय हो गए हैं। पहले जहाँ सिस्टम कार्यों को विभाजित करने में विफल रहते थे, अब वे 24/7 बिना मानवीय हस्तक्षेप के काम कर सकते हैं। यह खंड यह स्पष्ट करता है कि हम को-पायलट युग से स्वायत्त एजेंट युग में प्रवेश कर चुके हैं।

सफलता की कहानियाँ: GPT-5.2 और OpenClaw

इस अनुभाग में हाल के सफल प्रयोगों जैसे Cursor द्वारा 30 लाख लाइनों का कोड लिखना और Anthropic द्वारा C कंपाइलर बनाने का विवरण दिया गया है। विशेष रूप से OpenClaw प्रोजेक्ट पर ध्यान केंद्रित किया गया है, जो हमेशा चालू रहने वाले और सक्रिय (proactive) एजेंटों का प्रतिनिधित्व करता है। लेखक बताते हैं कि OpenClaw का सरल आर्किटेक्चर इसे ट्रिगर्स और मेमोरी लेयर्स के साथ कंप्यूटर का पूरा एक्सेस देता है। यह वैचारिक बदलाव 2026 की सबसे बड़ी उपलब्धि मानी जा रही है जहाँ टास्क-बेस्ड सिस्टम की जगह स्वायत्त सिस्टम ले रहे हैं। यहीं पर 'हार्नेस इंजीनियरिंग' की अवधारणा को पेश किया गया है जो इन प्रणालियों को सक्षम बनाती है।

हार्नेस इंजीनियरिंग क्या है और ईमेल मार्केटिंग में अवसर

हार्नेस इंजीनियरिंग को प्रॉम्प्ट या कॉन्टेक्स्ट इंजीनियरिंग के विकास के रूप में परिभाषित किया गया है, जो लंबे कार्यों और कई सत्रों के वर्कफ़्लो पर केंद्रित है। वक्ता HubSpot की एक रिपोर्ट का हवाला देते हुए ईमेल मार्केटिंग जैसे वर्टिकल में AI एडॉप्शन की संभावनाओं पर चर्चा करते हैं। यह रिपोर्ट दिखाती है कि मार्केटर्स आज भी भारी एडिटिंग की चुनौतियों का सामना कर रहे हैं, जो स्वायत्त एजेंटों के लिए एक बड़ा अवसर है। एक बिल्डर के रूप में, किसी विशिष्ट क्षेत्र के लिए एंड-टू-एंड वर्कफ़्लो समझना और उसे स्वचालित करना भविष्य का सबसे बड़ा व्यवसाय हो सकता है। यह खंड तकनीकी सिद्धांतों को व्यावहारिक व्यावसायिक अवसरों के साथ जोड़ता है।

Anthropic की सीख: वातावरण की स्पष्टता और परीक्षण

यहाँ Anthropic के अनुभवों के माध्यम से लंबे समय तक चलने वाले एजेंटों की विफलताओं और उनके समाधानों को समझाया गया है। अक्सर एजेंट एक साथ बहुत अधिक काम करने की कोशिश करते हैं और कॉन्टेक्स्ट खो देते हैं, जिसे हल करने के लिए 'इनीशियलाइज़र एजेंट' और 'फीचर लिस्ट' का उपयोग किया जाता है। एजेंट को अपनी प्रगति को Git कमिट्स और प्रोग्रेस फाइलों में लॉग करने के लिए मजबूर किया जाता है ताकि अगले सत्र में निरंतरता बनी रहे। सबसे महत्वपूर्ण बात यह है कि केवल यूनिट टेस्ट पर्याप्त नहीं हैं; एजेंटों को एंड-टू-एंड टेस्ट करने के लिए Puppeteer जैसे टूल देने चाहिए। यह दृष्टिकोण सुनिश्चित करता है कि वातावरण हमेशा साफ-सुथरा रहे और एजेंट अपने काम को स्वयं सत्यापित कर सकें।

OpenAI का दृष्टिकोण और जेनेरिक टूल्स का महत्व

OpenAI के अनुसार, पूरे रिपॉजिटरी को एक ज्ञान आधार बनाना चाहिए और सूचनाओं को धीरे-धीरे (progressive disclosure) खोलना चाहिए। वे अपरिवर्तनीय नियमों (invariants) को लागू करने के लिए प्री-कमिट चेक और डोमेन आर्किटेक्चर की परतों का उपयोग करते हैं। Vercel का एक उदाहरण दिया गया है जहाँ विशेष 'टास्क-टू-SQL' टूल्स को हटाकर साधारण बैच कमांड का उपयोग करने से सफलता दर 100% हो गई। सिद्धांत यह है कि बड़े मॉडल उन जेनेरिक उपकरणों को बेहतर समझते हैं जिन पर उन्हें प्रशिक्षित किया गया है, न कि जटिल बेस्पोक टूल्स को। यह खंड एजेंटों के लिए सरल लेकिन शक्तिशाली आर्किटेक्चर बनाने पर जोर देता है।

निष्कर्ष और भविष्य की राह

वीडियो का समापन तीन मुख्य सीखों के सारांश के साथ होता है: सुपाठ्य वातावरण, कार्य सत्यापन, और जेनेरिक टूल्स पर भरोसा। वक्ता बताते हैं कि कैसे ये सिद्धांत डेवलपमेंट लाइफसाइकिल को बदलते हैं और उत्पादक AI सिस्टम बनाने में मदद करते हैं। दर्शकों को AI Builder Club और वाइब कोडिंग जैसे उन्नत कोर्स में शामिल होने के लिए आमंत्रित किया जाता है। यह स्पष्ट संदेश देता है कि आज के मॉडल हमारी सोच से अधिक शक्तिशाली हैं, यदि हम उन्हें सही सिस्टम डिज़ाइन के साथ अनलॉक करें। अंत में, भविष्य के स्वायत्त प्रणालियों के निर्माण के लिए निरंतर सीखने की आवश्यकता पर बल दिया गया है।

Community Posts

View all posts