मुझे हर कोडिंग एजेंट से नफरत थी, इसलिए मैंने अपना खुद का बनाया — मारियो ज़ेचनर (Pi)

MMastra
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00[संगीत बज रहा है]
00:00:02नमस्ते, मेरा नाम मारियो है।
00:00:04मैं अर्नाल्ड श्वार्ज़नेगर की धरती से आता हूँ,
00:00:06जिस पर शायद आपने अभी तक ध्यान नहीं दिया होगा
00:00:09मेरी बहुत अच्छी अंग्रेज़ी के आधार पर।
00:00:12मैं इसकी शुरुआत इस बात से करना चाहता हूँ कि
00:00:13हम पूरे दिन अपने चार साल के बच्चे के साथ भाग-दौड़ कर रहे थे
00:00:16पूरे लंदन में।
00:00:17तो हम डायनासोर, ममी, और ज़ाहिर है, नैंडोस देखने गए,
00:00:24और ऐसी चीज़ें जो मैं पहले ही भूल चुका हूँ।
00:00:26मैं बहुत, बहुत थक गया हूँ।
00:00:28और अगर आपको मेरी कही हुई कोई बात समझ न आए,
00:00:31तो बस अपना हाथ उठाएं और कहें, दादाजी, जाग जाइए।
00:00:36मेरे यहाँ होने का कारण वास्तव में एक और व्यक्ति है,
00:00:39जो आज यहाँ कॉकनीविले में है।
00:00:40चलिए उसे स्टेटर पाइनबर्गर कहते हैं।
00:00:442025 की बात है, मुझे लगता है अप्रैल के आसपास,
00:00:53उसने मुझे और आर्मिन रोनेचा को बताया, जिन्हें आप शायद
00:00:58फ्लास्क और सेंट्री की प्रसिद्धि से जानते होंगे, कि दोस्त, वे कोडिंग एजेंट्स,
00:01:02वे अब वास्तव में काम करते हैं।
00:01:04और मैं ऐसा था, अरे, बकवास बंद करो।
00:01:06माफ़ करना, मैं अपशब्दों का भी इस्तेमाल कर रहा हूँ।
00:01:09बिल्कुल नहीं।
00:01:10और एक महीने बाद, हमने 24 घंटे के लिए इस फ्लैट में टीम बनाई
00:01:13रात भर और बस खुद को क्लैंकर्स में डूबने दिया,
00:01:19वाइप कोड और वाइप स्लॉप के ज़रिए।
00:01:21और तब से, हम में से किसी ने भी वास्तव में--
00:01:23हम अब सो नहीं रहे हैं, मूल रूप से।
00:01:27तो हम चीज़ें बना रहे थे, बहुत सारी चीज़ें, जिनमें से अधिकांश
00:01:32हमने वास्तव में कभी इस्तेमाल नहीं कीं, क्योंकि 2025 में यही नई चीज़ है,
00:01:36'26।
00:01:37हम बहुत सारी चीज़ें बनाते हैं, लेकिन हम ऐसी बहुत सी चीज़ें नहीं बनाते
00:01:39जिन्हें हम वास्तव में इस्तेमाल करते हैं।
00:01:40हमने बहुत कुछ लिखा।
00:01:42और अंततः, उसका समापन इस सोच में हुआ,
00:01:46कि हे, मुझे मौजूदा सभी कोडिंग एजेंट्स या हार्नेस से नफ़रत है।
00:01:50इसे खुद लिखना कितना कठिन हो सकता है?
00:01:53और पीटर ऐसा था, ओह, मैं बस एक चीज़ करना चाहता हूँ।
00:01:56शायद इसके बारे में कोई नहीं सुनेगा।
00:01:58और यह एक व्यक्तिगत सहायक होने जा रहा है,
00:02:01क्योंकि मैं हमेशा से यही चाहता था।
00:02:03आप में से अधिकांश लोग जानते होंगे कि उसकी कहानी कैसी रही।
00:02:05तो आज, मैं आपको अपनी बहुत कम प्रभावशाली कहानी सुनाने जा रहा हूँ।
00:02:08लेकिन मुझे उम्मीद है कि मैं कुछ सीख साझा कर सकूँगा,
00:02:11जैसा कि हम उद्योग में देखते हैं, जिन्हें मैं इकट्ठा करने में सक्षम रहा
00:02:16पिछले कुछ महीनों में।
00:02:17तो पाई।
00:02:19शुरुआत में, क्लाउड कोड (Cloud Code) था।
00:02:21वास्तव में, चैटजीपीटी (ChatGPT) से कॉपी और पेस्ट करना था।
00:02:25हम सब ने 2023 की शुरुआत में ऐसा किया था।
00:02:27फिर वहां था-- मूल गिटहब को-पायलट (GitHub copilot) किसे याद है?
00:02:32हाँ, वास्तव में, आप में से कितने इंजीनियर हैं?
00:02:35आप में से कितने लोग कोडिंग एजेंट्स का उपयोग कर रहे हैं,
00:02:37ओपन--
00:02:39[अस्पष्ट]
00:02:40हाँ।
00:02:43कोडेक्स सीएलआई (Codex CLI)?
00:02:45कर्सर?
00:02:48ओपन--
00:02:48[अस्पष्ट]
00:02:49हाँ।
00:02:50ओपन कोड?
00:02:50एंटी-ग्रेविटी (Anti-gravity)।
00:02:51ओह, यह बहुत ज़्यादा नहीं है।
00:02:52क्या कोई इसका उपयोग कर रहा है?
00:02:55आप मुझे पसंद आए।
00:02:56हम बाद में एक बीयर पिएंगे।
00:02:58वैसे भी, तो मूल रूप से 2025 में यही हुआ था
00:03:03और उससे पहले।
00:03:04चैटजीपीटी से कॉपी और पेस्ट करने के साथ शुरुआत हुई।
00:03:06यह सब ज़्यादातर टूटा हुआ था।
00:03:07यह ज़्यादातर एकल फंक्शन थे, ऐसी चीज़ें जो आप नहीं लिखना चाहते।
00:03:10और इस तरह की चीज़ें, जिसमें बहुत मज़ा आया।
00:03:13गिटहब को-पायलट मिला, जहाँ आप बस टैप, टैप, टैप करके खुश होते थे,
00:03:15जिसने कभी-कभी काम किया, ज़्यादातर नहीं किया।
00:03:17कभी-कभी यह सिर्फ़ [अस्पष्ट] GPL कोड सुनाता था,
00:03:22जैसे जॉन कारमैक का इनवर्स स्क्वायर रूट
00:03:25और वैसी ही चीज़ें, जो बहुत मज़ेदार थीं।
00:03:29और फिर एडीर (Adir) था।
00:03:30किसी को एडीर याद है?
00:03:31हाँ।
00:03:32पुराने लोग।
00:03:33नमस्ते।
00:03:33हाँ।
00:03:37आपके बाल सफेद हैं।
00:03:37आप ज़ाहिर तौर पर एडीर को जानते हैं।
00:03:41वहाँ ऑटोजीपीटी (AutoGPT) भी था।
00:03:43शायद बहुत ज़्यादा नहीं।
00:03:44हाँ, ठीक है।
00:03:45वह सब कुछ जानता है।
00:03:48हाँ, फरवरी, मार्च, ऐसा ही कुछ, 2025।
00:03:51मुझे लगता है कि उन्होंने इसे नवंबर में रिलीज़ किया था,
00:03:52वास्तव में, 2024 में एक बीटा के रूप में।
00:03:55लेकिन इसका उपयोग वास्तव में केवल अधिक हुआ, फिर से कहें?
00:03:59सिर्फ फरवरी।
00:04:01हाँ, फरवरी, मार्च, वैसा ही कुछ, 2025।
00:04:03और मैं ऐसा था, मुझे यह पसंद है।
00:04:05यह कमाल का है।
00:04:06क्लाउड टीम भी कमाल की है।
00:04:07वे सोशल मीडिया पर हैं।
00:04:08और वे सभी बहुत अच्छे और प्रतिभाशाली लोग हैं।
00:04:13और उन्होंने मूल रूप से पूरी विधा (genre) बनाई।
00:04:15और यह वास्तव में ठीक से काम नहीं कर रहा है।
00:04:18लेकिन किसी ने भी ऐसा नहीं किया था।
00:04:20और यह मूल रूप से पूरी एजेंटिक सर्च वाली चीज़ थी।
00:04:22तो कर्सर के आपके कोड बेस में जाने के बजाय,
00:04:25चीज़ों को इंडेक्स करना, ASTs बनाना और उसे भी इंडेक्स करना।
00:04:29और यह एक तरह से वास्तव में काम नहीं कर रहा है।
00:04:31उन्होंने बस कहा, एह।
00:04:33हमने अपने मॉडल्स को सुदृढ़ीकरण (reinforcement) द्वारा प्रशिक्षित किया है
00:04:35ताकि वे बस फ़ाइल टूल्स, बैश (bash) टूल्स का उपयोग कर सकें,
00:04:37तदर्थ (ad hoc) रूप से आपके कोड बेस का पता लगाने और उन जगहों को खोजने के लिए
00:04:41जिन्हें कोड समझने और फिर कोड को संशोधित करने के लिए खोजने की आवश्यकता है।
00:04:44और इसने इतनी अच्छी तरह काम किया कि, हाँ, हमने
00:04:46सोना बंद कर दिया क्योंकि अचानक से हम
00:04:48पहले की तुलना में हाथ से कहीं अधिक कोड तैयार कर सकते थे।
00:04:52उस समय, यह सरल और पूर्वानुमेय (predictable) था
00:04:54और वास्तव में मेरे वर्कफ़्लो में पूरी तरह फिट बैठता था।
00:04:57ठीक है।
00:04:58लेकिन फिर वे उस जाल में फंस गए जिसमें हम में से अधिकांश
00:05:05शायद फंस जाते हैं।
00:05:06क्लैंकर्स इतना सारा कोड लिख सकते हैं।
00:05:08क्यों न इसे उन सभी फीचर्स को लिखने दिया जाए जिनकी आप कभी
00:05:11कल्पना कर सकते हैं, है ना?
00:05:11क्या यह बढ़िया नहीं है?
00:05:12चलिए बस यह फीचर जोड़ते हैं, और वह फीचर,
00:05:14और यह फीचर, और वह फीचर।
00:05:15और अंततः, आप होमर सिम्पसन के--
00:05:18मुझे यह भी नहीं पता कि इसे क्या कहा जाता है।
00:05:20मैं इसे स्पेसशिप कहता हूँ।
00:05:21और क्लाउड कोड अब एक स्पेसशिप है।
00:05:23यह इतनी सारी चीज़ें करता है कि आप वास्तव में शायद
00:05:26इसके द्वारा दी जाने वाली चीज़ों का केवल 5% ही उपयोग करते हैं।
00:05:28आप कुल मिलाकर केवल 10% के बारे में जानते हैं।
00:05:30और बाकी, जो 90% बचा है,
00:05:33वह एआई और एजेंट्स के डार्क मैटर की तरह है।
00:05:36कोई नहीं जानता कि यह वास्तव में क्या कर रहा है।
00:05:37और मुझे व्यक्तिगत रूप से यह बहुत मददगार नहीं लगता
00:05:40क्योंकि मुझे अभी भी लगता है कि आपको एक तरह से
00:05:43यह जानने की ज़रूरत है कि एजेंट क्या कर रहा है।
00:05:45यह व्यक्ति कुछ हद तक असहमत हो सकता है।
00:05:49और हम यहाँ टीईएसओएल (TESOL) में हैं, और वे भी
00:05:51संदर्भ प्रबंधन (context management) या संदर्भ इंजीनियरिंग पसंद करते हैं,
00:05:54जैसा कि हमने इसे कहा है।
00:05:55अस्पष्ट टिमटिमाहट को कौन पसंद करता है?
00:05:58खैर, वास्तव में, मैं जानता हूँ कि इसे कैसे समझाना है और यह क्यों होता है,
00:06:01लेकिन उन्होंने अभी तक इसे ठीक नहीं किया है।
00:06:04यहाँ तारिक है।
00:06:06वह वाकई बहुत शानदार है।
00:06:09झिलमिलाहट (flicker), अकथनीय झिलमिलाहट?
00:06:10खैर, वास्तव में, मुझे पता है कि इसे कैसे समझाना है और यह क्यों होता है,
00:06:13लेकिन उन्होंने अभी तक इसे ठीक नहीं किया है।
00:06:15यहाँ तारिक है।
00:06:16वह वास्तव में महान है।
00:06:16मैं उसे पसंद करता हूँ।
00:06:17वह उनका डेवरेल (DevRel) बंदा है, ज़्यादातर ट्विटर पर, और वह अद्भुत है।
00:06:21लेकिन कभी-कभी वह संदिग्ध बातें भी कहता है
00:06:24जैसे, हमारा टर्मिनल यूजर इंटरफेस अब एक गेम इंजन है।
00:06:27अब, आपको पता होना चाहिए कि मेरी पृष्ठभूमि गेम डेवलपमेंट की है।
00:06:30मैं वहीं से आता हूँ।
00:06:31और अगर मैं ऐसा कुछ पढ़ता हूँ,
00:06:32तो यह मुझे थोड़ा दुख पहुँचाता है
00:06:34क्योंकि यह एक मामूली टर्मिनल यूजर इंटरफेस है, दोस्त।
00:06:37यह गेम इंजन नहीं है।
00:06:38मुझ पर विश्वास करो।
00:06:39एकमात्र कारण जो आपको लगता है कि यह एक गेम इंजन है
00:06:41वह यह है कि आप अपने टर्मिनल इंटरफेस में रिएक्ट (React) का उपयोग कर रहे हैं,
00:06:44और इसमें लगभग 12 मिलीसेकंड लगते हैं
00:06:45आपके पूरे यूजर इंटरफेस ग्राफ को फिर से व्यवस्थित करने में।
00:06:49बस ऐसा मत करो, यार।
00:06:51यह गेम इंजन नहीं है, ठीक है?
00:06:54तो और फिर मिशेल, जो घोस्टी (Ghosty) लिख रहा है,
00:06:56वह ऐसा था, दोस्त, यह अपमानजनक है, यार।
00:06:59जैसे, इसका दोष घोस्टी या किसी अन्य टर्मिनल पर मत मढ़ो।
00:07:02तुम्हारा कोड कचरा है।
00:07:04टर्मिनल सैकड़ों फ्रेम प्रति सेकंड की
00:07:05रफ़्तार से रेंडर कर सकते हैं, सब-मिलीसेकंड प्रति फ्रेम।
00:07:09तो ऐसा मत करो, ठीक है?
00:07:12और फिर उन्होंने अंततः झिलमिलाहट को ठीक कर दिया।
00:07:15लेकिन फिर दूसरी चीज़ें हुईं।
00:07:16तो ऐसा है कि उन्होंने पूरी तरह से वाइब कोडिंग (vibe coding) के आगे घुटने टेक दिए।
00:07:20व्यक्तिगत रूप से, मैं बस एक पुराना व्यक्ति हूँ
00:07:23जिसे पूर्वानुमानित सरल उपकरण पसंद हैं।
00:07:27और यह अब मेरे वर्कफ्लो और मेरी ज़रूरतों के अनुकूल नहीं था।
00:07:28तो हाँ।
00:07:30साथ ही, वे बैकग्राउंड में बहुत कुछ करते हैं,
00:07:32आपके कॉन्टेक्स्ट में हेरफेर करते हुए।
00:07:34मैंने 2025 की गर्मियों में कुछ उपकरण बनाए थे
00:07:37जो मुझे उनके बैकएंड पर क्लाउड कोड से किए जा रहे
00:07:41अनुरोधों को बीच में रोकने और यह पता लगाने की अनुमति देते थे
00:07:42कि आपके पीछे से आपके कॉन्टेक्स्ट में
00:07:44किस तरह के छोटे अतिरिक्त टेक्स्ट डाले जाते हैं।
00:07:46और वह सब बहुत हानिकारक था
00:07:50और हर समय बदलता भी रहता था।
00:07:52जैसे हर दिन या दूसरे दिन, वहाँ
00:07:55कि किस तरह का छोटा अतिरिक्त टेक्स्ट
00:07:58आपकी जानकारी के बिना आपके कॉन्टैक्ट्स में डाल दिया जाता है।
00:08:00और वह सब बहुत हानिकारक था
00:08:01और हर समय बदलता भी रहता था।
00:08:04जैसे हर दिन या दूसरे दिन, वहाँ
00:08:06हर एक या दूसरे दिन, वहाँ
00:08:08एक नई रिलीज़ होगी जहाँ यह बदल जाएगा कि क्या इंजेक्ट किया जाता है, जो मूल रूप से
00:08:11आपके मौजूदा वर्कफ़्लो को गड़बड़ कर देगा।
00:08:13यह बस एक स्थिर टूल नहीं था।
00:08:14और अब मैं इसे उनके दृष्टिकोण से समझता हूँ।
00:08:16उन्हें प्रयोग करने की ज़रूरत है।
00:08:17और उनका एक विशाल उपयोगकर्ता आधार है।
00:08:18और प्रयोग करना वास्तव में कठिन है
00:08:19जब आपके पास एक विशाल उपयोगकर्ता आधार हो।
00:08:21लेकिन उन्होंने परवाह नहीं की।
00:08:23इसलिए हम सभी को भुगतना पड़ा।
00:08:25आप इस नए टूल के साथ काम कर रहे हैं।
00:08:27आप पूर्वानुमानित वर्कफ़्लो बनाने की कोशिश करते हैं।
00:08:31और फिर टूल वेंडर पर्दे के पीछे एक छोटी सी चीज़ बदल देता है
00:08:35जो आपके मौजूदा वर्कफ़्लो के साथ
00:08:36LLM को पागल कर देता है।
00:08:38यह बस टिकाऊ नहीं है।
00:08:39मुझे उस पर नियंत्रण चाहिए।
00:08:40मैं उनके द्वारा मुझे एक स्थिर चीज़ प्रदान करने पर भरोसा नहीं कर सकता।
00:08:46इसलिए मेरा मानना है कि UI डिज़ाइन के परिणामस्वरूप,
00:08:52उन्हें आपके पास मौजूद दृश्यता की मात्रा को कम करने की आवश्यकता है।
00:08:54मुझे व्यक्तिगत रूप से यह बहुत पसंद नहीं है।
00:08:56लेकिन यह सिर्फ एक व्यक्तिगत पसंद है।
00:08:57मैं समझता हूँ कि अधिकांश लोग
00:08:58जानकारी की उस मात्रा से खुश होंगे
00:09:00जो Cloud Code आपको प्रस्तुत करेगा।
00:09:03वहाँ शून्य मॉडल विकल्प है, जाहिर है,
00:09:06क्योंकि यह एक एंथ्रोपिक नेटिव टूल है, एक तरह से।
00:09:09यह नकारात्मक पहलू नहीं है, क्योंकि Claude मॉडल—
00:09:12मुझे वे पसंद हैं।
00:09:13वे वास्तव में अच्छे हैं।
00:09:15और इसमें लगभग शून्य विस्तार क्षमता है।
00:09:17और आपको यह थोड़ा अजीब लग सकता है, क्योंकि
00:09:19उनके पास यह पूरा हुक सिस्टम और वह सब है।
00:09:21लेकिन यदि आप इसकी तुलना उससे करते हैं जो Pi आपको करने की अनुमति देता है,
00:09:25तो यह उतना गहराई से एकीकृत नहीं है।
00:09:28यह मूल रूप से एक प्रक्रिया चलाने पर आधारित है जब
00:09:32हुक इवेंट शुरू होता है, जो बहुत महंगा है यदि
00:09:36आपको उस प्रक्रिया को बार-बार शुरू करना पड़े।
00:09:40तो अंततः, मेरा Cloud Code से मोहभंग हो गया,
00:09:42इसलिए नहीं कि यह भयानक था।
00:09:44यह सिर्फ मेरे लिए फिट बैठना बंद हो गया।
00:09:47उस अवधि में यह बहुत अधिक लोगों के लिए फिट हो गया।
00:09:50तो जाहिर है, वे चीजें सही कर रहे हैं, लेकिन मेरे लिए नहीं,
00:09:54क्योंकि मैं पुराना हो गया हूँ।
00:09:56तो फिर मैं विकल्पों की तलाश कर रहा था।
00:09:59और वहाँ Codex CLI है, जो मुझे वास्तव में पसंद नहीं आया।
00:10:01शुरुआत में यूजर इंटरफेस और मॉडल दोनों,
00:10:05वह बदल गया है, कम से कम मॉडल के संबंध में।
00:10:08Codex अब वास्तव में काफी अच्छा है।
00:10:10फिर AMP है।
00:10:12इसके पीछे की टीम पहले Sourcegraph में काम करती थी।
00:10:15वे Sourcegraph से अलग हो गए।
00:10:20और वे सुपर अच्छे इंजीनियर हैं।
00:10:21उन्होंने एक व्यावसायिक कोडिंग हार्नेस बनाने में कामयाबी हासिल की जहाँ
00:10:25वे फीचर्स जोड़ने के बजाय उन्हें हटा देते हैं।
00:10:28और उनके अधिकांश चुनाव मुझे बहुत समझ में आते हैं।
00:10:33तो हाँ, यदि आप एक व्यावसायिक कोडिंग हार्नेस की तलाश में हैं,
00:10:36तो मैं निश्चित रूप से आपको AMP की सिफारिश करूँगा, क्योंकि यह वास्तव में अच्छा है।
00:10:39Factory Droid, कुछ इसी तरह की बात है, वह भी वास्तव में अच्छा है,
00:10:44हालांकि वे AMP जितने प्रयोगात्मक नहीं हैं।
00:10:47और फिर OpenCode है, जो ओपन सोर्स है
00:10:50कोडिंग हार्नेस जिसे बहुत से लोग उपयोग करते हैं।
00:10:53तो मेरा ओपन सोर्स का एक इतिहास रहा है।
00:10:55मैं 17 वर्षों से ओपन सोर्स में हूँ।
00:11:00मैंने बड़े और छोटे ओपन सोर्स प्रोजेक्ट्स का प्रबंधन किया है।
00:11:04तो यह मेरे दिल के करीब है।
00:11:05और इसलिए मैंने सोचा, मैं OpenCode को एक कोशिश देता हूँ,
00:11:08क्योंकि वह मेरे करीब है।
00:11:12और AMP के बाद, उनके पास सबसे अधिक धरातल से जुड़ी
00:11:15या व्यावहारिक टीमों में से एक है।
00:11:16वे आपको उन फीचर्स के साथ हाइप नहीं करते
00:11:18जिनका आप शायद कभी उपयोग नहीं करेंगे।
00:11:20वे एक सुखद मार्ग को बनाए रखने की कोशिश करते हैं जो
00:11:23बहुत स्थिर है।
00:11:26और उनके पास कोडिंग एजेंट्स के हमारे पेशे के लिए
00:11:27क्या मायने हैं, इस पर भी काफी अच्छे विचार हैं,
00:11:29जिससे मैं व्यक्तिगत रूप से जुड़ सकता हूँ।
00:11:32OpenCode के साथ समस्या यह है कि यह आपके कॉन्टेक्स्ट को
00:11:37मैनेज करने में भी बहुत अच्छा नहीं है।
00:11:38उदाहरण के लिए, हर टर्न पर, यह sessionCompaction.prune को कॉल कर रहा है,
00:11:44जो निम्नलिखित कार्य करता है।
00:11:46यह पिछले 40,000 टोकन से पहले के सभी परिणामों को हटा देता है।
00:11:52अब, यहाँ कौन जानता है कि प्रॉम्प्ट कैशिंग क्या है?
00:11:56यह आपके प्रॉम्प्ट कैश के साथ क्या करता है?
00:11:58तो OpenCode और एंथ्रोपिक का एक दिलचस्प इतिहास रहा है।
00:12:05और अंततः, एंथ्रोपिक ने, मेरी राय में, सही ही
00:12:11कहा, दोस्तों, यह बस नहीं होने वाला है।
00:12:14और इसके बारे में कभी कोई सार्वजनिक बात नहीं हुई।
00:12:17लेकिन तारेक यहाँ इसे समझाते हैं।
00:12:19यदि आप एक जिम में आते हैं और ठीक से व्यवहार नहीं करते और
00:12:22इंफ्रास्ट्रक्चर का दुरुपयोग करते हैं, तो आपको बैन कर दिया जाएगा।
00:12:25और मुझे लगता है—
00:12:27मेरे पास इसके लिए कोई सबूत नहीं है,
00:12:28लेकिन मुझे लगता है कि यही कारण है कि
00:12:30एंथ्रोपिक और OpenCode के बीच यह शत्रुता है।
00:12:33और मैं पूरी तरह से सहमत हो सकता हूँ, या कम से कम मुझे
00:12:36लगता है कि एंथ्रोपिक यहाँ स्पष्ट रूप से सही है।
00:12:39इंफ्रास्ट्रक्चर के साथ खिलवाड़ मत करो।
00:12:42फिर अन्य चीज़ें भी हैं, जैसे OpenCode
00:12:44बॉक्स से बाहर LSP, लैंग्वेज सर्वर प्रोटोकॉल सपोर्ट के साथ आता है।
00:12:46वापस कॉन्टेक्स्ट इंजीनियरिंग पर आते हुए,
00:12:48मान लीजिए कि आप अपने एजेंट को बहुत सारी फ़ाइलों को
00:12:51संशोधित करने का कार्य देते हैं।
00:12:53व्यवहार में इसका क्या अर्थ है?
00:12:55यह एक के बाद एक कई संपादन करेगा,
00:12:57फ़ाइलों के एक समूह में।
00:13:02इसकी कितनी संभावना है कि 10 संपादनों में से पहले संपादन के बाद,
00:13:03कोड कंपाइल होगा?
00:13:09क्या होता है यदि आप अपने कोड को लाइन दर लाइन संशोधित करते हैं?
00:13:12इसे फिर से स्थिर होने और सफाई से कंपाइल होने में
00:13:15कितना समय लगता है?
00:13:17यह नहीं होता।
00:13:19यह पहले संपादन के बाद कंपाइल नहीं होगा, शायद
00:13:20दूसरे संपादन के बाद भी नहीं, और इसी तरह।
00:13:22तो यदि आप फिर मुड़ते हैं और कहते हैं, हे प्रिय LSP सर्वर,
00:13:24मैंने अभी इस फ़ाइल में एक लाइन संपादित की है।
00:13:28क्या यह टूट गया है?
00:13:30तो LSP सर्वर कहेगा, हाँ, यह वास्तव में टूट गया है।
00:13:31और यह फीचर जो करता है वह यह है कि यह
00:13:34मॉडल को फीडबैक के रूप में टूल कॉल के तुरंत बाद
00:13:36इस त्रुटि को इंजेक्ट करता है।
00:13:39ओह, आपने अभी जो किया वह गलत है।
00:13:43और मॉडल ऐसा होता है, क्या बकवास है भाई?
00:13:45मैंने अभी चीजें संपादित करना खत्म नहीं किया है।
00:13:47तुम मुझे यह क्यों बता रहे हो?
00:13:49जाहिर है, यह गलत नहीं है।
00:13:50लेकिन यदि आप ऐसा पर्याप्त बार करते हैं, तो मॉडल हार मान लेगा।
00:13:51और इससे बहुत बुरे परिणाम निकलते हैं।
00:13:54इसलिए मैं LSP का प्रशंसक नहीं हूँ।
00:13:58मुझे लगता है कि इसे सक्षम करना एक बहुत ही भयानक विचार है।
00:13:59प्राकृतिक सिंक्रोनाइज़ेशन पॉइंट होते हैं
00:14:02जहाँ आप लिंटिंग और टाइप चेकिंग
00:14:03और वह सब चाहते हैं।
00:14:06और वह तब होता है जब एजेंट को लगता है कि वह काम पूरा कर चुका है, केवल तभी।
00:14:07यह हाल ही में बदल गया है।
00:14:10यह open code का एक सिंगल सेशन है, जहाँ हर संदेश
00:14:14अपनी खुद की JSON फ़ाइल बन जाता है।
00:14:20हर एक संदेश डिस्क पर अपनी खुद की JSON फ़ाइल बन जाता है।
00:14:22यह मुझे इंगित करता है कि पूरी चीज़ की संरचना
00:14:26में बहुत अधिक सोच-विचार नहीं किया गया था।
00:14:29और यदि मैं उस पर से विश्वास खो देता हूँ, तो मैं
00:14:31उस टूल का उपयोग और नहीं करना चाहता।
00:14:33फिर से, मुझे लगता है कि टीम वास्तव में बहुत अच्छी है।
00:14:35मुझे लगता है कि उन्होंने बहुत तेज़ी से काम किया
00:14:37और कुछ ऐसा बनाया जो बहुत से लोगों के लिए बहुत उपयोगी है, जाहिर है।
00:14:39बस, फिर से, ऐसे निर्णय जो मैं नहीं लेता
00:14:42उन्हीं के कारण मैंने अपना खुद का बनाने का फैसला किया।
00:14:43फिर यह भी था।
00:14:46Open code डिफ़ॉल्ट रूप से एक सर्वर के साथ आता है।
00:14:50तो कोर आर्किटेक्चर एक सर्वर पर आधारित है।
00:14:51और क्लाइंट इससे जुड़ते हैं।
00:14:54और टर्मिनल यूजर इंटरफेस क्लाइंट्स में से एक है।
00:14:56एक डेस्कटॉप इंटरफेस भी है।
00:14:57और मुझे नहीं पता।
00:15:00वह डिफ़ॉल्ट रूप से बेक्ड-इन रिमोट कोड एक्ज़ीक्यूशन के साथ
00:15:01एक सुरक्षा भेद्यता बन गया।
00:15:03और वह भी—यदि आपको अपने सर्वर इंफ्रास्ट्रक्चर
00:15:05या सर्वर आर्किटेक्चर पर इतना गर्व है,
00:15:09तो मैं मानूँगा कि आप अनुभवी इंजीनियर हैं जिन्होंने
00:15:12सुरक्षा के बारे में भी सोचा होगा।
00:15:15और जाहिरा तौर पर, ऐसा नहीं हुआ।
00:15:18और यह लंबे समय तक खुला रहा।
00:15:20और फिर से, मैं यहाँ किसी पर दोष नहीं लगा रहा हूँ।
00:15:21यह वह चीज़ है जो बस तब होती है जब आप
00:15:23एक ऐसे उद्योग में काम कर रहे होते हैं जो बहुत तेज़ गति से चल रहा है
00:15:25जिसे हमने पहले कभी नहीं देखा है।
00:15:27बस बात यह है कि मैं उस टूल का उपयोग नहीं करना चाहता यदि वैसी बात है।
00:15:31तो मौजूदा कोडिंग संदर्भों के संबंध में
00:15:33ये मेरे अवलोकन थे।
00:15:36AMP और Droid कुछ ऐसा हो सकता था जिसका मैं उपयोग कर सकता था।
00:15:42लेकिन फिर से, कोई नियंत्रण नहीं।
00:15:42AMP के मामले में, वे यह भी तय करते हैं कि आप किन मॉडलों का उपयोग कर सकते हैं।
00:15:45और यह एक ही प्रकार के कार्य के लिए केवल एक ही मॉडल है।
00:15:47और वह मैं नहीं हूँ।
00:15:50Droid के संदर्भ में, मुझे लगता है कि यह थोड़ा अधिक खुला है।
00:15:53लेकिन जिस समय मैंने इसे आज़माया,
00:15:55यह बस—
00:15:58मुझे क्लाउड कोड पर कोई बड़ा फायदा नहीं दिखा।
00:16:00और फिर मैंने पूरी तरह से अलग कारणों से बेंचमार्क देखे
00:16:02और टर्मिनल बेंच पाया।
00:16:07कौन जानता है कि टर्मिनल बेंच क्या है?
00:16:10ठीक है, मूल रूप से, यह एक कोडिंग या एजेंट मूल्यांकन
00:16:12हार्नेस है, जिसमें बहुत सारे कंप्यूटर उपयोग और प्रोग्रामिंग
00:16:15से संबंधित—
00:16:20क्षमा करें, पुराना और थका हुआ हूँ क्योंकि 4 साल का बच्चा है।
00:16:24इसमें कंप्यूटर उपयोग और कोडिंग से संबंधित बहुत सारे कार्य हैं
00:16:24जिन्हें एक एजेंट या एजेंट हार्नेस के अंदर के LLM को
00:16:31पूरा करने की आवश्यकता होती है।
00:16:35मुझे लगता है कि यह लगभग 82 या उससे अधिक हैं।
00:16:39और वे बहुत विविध हैं।
00:16:40वे मेरे विंडो सेटअप को ठीक करने से लेकर मेरे लिए मोंटे कार्लो
00:16:43सिमुलेशन या ऐसा ही कुछ कोड करने तक हैं।
00:16:44और उनका एक लीडरबोर्ड है।
00:16:48और उस लीडरबोर्ड पर, आप कोडिंग एजेंट हार्नेस
00:16:51और मॉडल का संयोजन देखते हैं।
00:16:52और उनका अपना कोडिंग एजेंट है जिसे टर्मिनस कहा जाता है।
00:16:54और मुझे लगता है कि यह शानदार है क्योंकि यह
00:16:57बेंचमार्क में सबसे अच्छा प्रदर्शन करने वाले हार्नेस में से एक है।
00:17:03हम इसे बाद में देखेंगे।
00:17:06बेंचमार्क में सबसे अच्छा प्रदर्शन करने वाले हार्नेस में से एक है।
00:17:09हम इसे बाद में देखेंगे।
00:17:11यह वास्तव में क्या करता है?
00:17:12खैर, मॉडल को केवल एक TMUX सेशन मिलता है।
00:17:17और यह केवल उसमें कीस्ट्रोक्स भेज सकता है
00:17:19और वापस आने वाले VT कोड सीक्वेंस को पढ़ सकता है।
00:17:23तो यह आपके कंप्यूटर के लिए एक मॉडल का
00:17:27सबसे छोटा और न्यूनतम इंटरफ़ेस जैसा है।
00:17:31और यह पूरे लीडरबोर्ड में टॉप-ऑफ-द-लाइन प्रदर्शन करता है।
00:17:36तो यह हमें मौजूदा कोडिंग एजेंट हार्नेस के बारे में क्या बताता है?
00:17:39क्या मॉडल को वास्तव में प्रदर्शन करने के लिए
00:17:41इन सभी सुविधाओं की आवश्यकता है?
00:17:43मेरे लिए व्यक्तिगत रूप से, यह सिर्फ मॉडल के
00:17:48वास्तव में अच्छा होने के बारे में नहीं है।
00:17:49यह मेरे बारे में भी है, एक यूजर और इंसान के तौर पर,
00:17:51कि मेरे पास अपने एजेंट या मॉडल के साथ बातचीत करने का एक तरीका हो।
00:17:54और Terminus स्पष्ट रूप से वह यूजर एक्सपीरियंस या डेवलपर
00:17:58एक्सपीरियंस नहीं है जो मैं चाहता हूँ।
00:18:00लेकिन यह हमें बताता है कि इन सभी कोडिंग हार्नेस में
00:18:03मौजूद ये सभी फीचर्स शायद
00:18:08एजेंटों से अच्छे परिणाम प्राप्त करने के लिए आवश्यक न हों।
00:18:10तो न कोई फाइल टूल्स, न सब-एजेंट्स, न वेब सर्च, कुछ भी नहीं।
00:18:13इन सभी निष्कर्षों के आधार पर दो थीसिस हैं।
00:18:16हम अभी प्रयोग करने और सीखने के चरण में हैं।
00:18:18और किसी को पता नहीं है कि एक आदर्श कोडिंग एजेंट कैसा होना चाहिए
00:18:21या एक आदर्श कोडिंग हार्नेस कैसा दिखना चाहिए।
00:18:23हम मिनिमलिज्म और फुल स्पेसशिप स्वार्म्स,
00:18:27एजेंटों की टीमों, बिना किसी नियंत्रण और पूरी स्वायत्तता,
00:18:30इन सभी चीजों को आजमा रहे हैं।
00:18:31मुझे लगता है कि यह अभी पूरा नहीं हुआ है।
00:18:33हमने अभी तक इस सवाल का जवाब नहीं दिया है कि इसे आदर्श रूप में
00:18:35कैसा दिखना चाहिए और इंडस्ट्री स्टैंडर्ड क्या बनेगा।
00:18:37और दूसरी बात यह है कि हमें कोडिंग एजेंटों के साथ
00:18:38प्रयोग करने के बेहतर तरीकों की जरूरत है।
00:18:40यानी, हमें उन्हें इस काबिल बनाना होगा कि वे खुद को
00:18:42संशोधित कर सकें और लचीले बन सकें।
00:18:47ताकि हम विचारों के साथ तेजी से प्रयोग कर सकें
00:18:48और देख सकें कि क्या यह ऐसी चीज़ है जिसे हम
00:18:50इंडस्ट्री स्टैंडर्ड या नया वर्कफ़्लो बना सकते हैं
00:18:53जिसे हम शायद सभी अपनाने जा रहे हैं।
00:18:58तो मूल विचार यह था—
00:18:59और यह बहुत सरल है, कोई रॉकेट साइंस नहीं है—
00:19:01सब कुछ हटा दें और एक न्यूनतम विस्तार योग्य कोर बनाएँ।
00:19:05इसमें कुछ सुख-सुविधाएँ हैं।
00:19:06यह पूरी तरह खाली स्लेट नहीं है।
00:19:09तो वह Py है।
00:19:10और सामान्य मूलमंत्र यह है कि अपने कोडिंग एजेंट को
00:19:13अपनी जरूरतों के अनुसार ढालें, न कि इसके विपरीत।
00:19:16यह चार पैकेजों के साथ आता है, एक AI पैकेज, जो मूल रूप से
00:19:21विभिन्न प्रोवाइडर्स पर सिर्फ एक सरल एब्स्ट्रैक्शन है, जो
00:19:24सभी अलग-अलग ट्रांसपोर्ट प्रोटोकॉल का उपयोग करते हैं।
00:19:27इसलिए सभी प्रोवाइडर्स से बात करना
00:19:29और एक ही कॉन्टेक्स्ट या सेशन में उनके बीच स्विच करना बहुत आसान है।
00:19:34एजेंट कोर, जो टूलिंग लोकेशंस, वेरिफिकेशन
00:19:36इत्यादि के साथ सिर्फ एक सामान्य एजेंट लूप है।
00:19:38और स्ट्रीमिंग, एक टर्मिनल यूजर इंटरफ़ेस
00:19:39जो लगभग 600 लाइनों के कोड का है और वास्तव में
00:19:42हैरानीजनक रूप से अच्छा काम करता है,
00:19:47क्योंकि इसे किसी "क्लैंकर" (बॉट) ने नहीं लिखा था।
00:19:51और कोडिंग एजेंट खुद, जो एक SDK भी है
00:19:54जिसे आप हेडलेस मोड में उपयोग कर सकते हैं
00:19:57या एक पूर्ण टर्मिनल यूजर इंटरफ़ेस कोडिंग एजेंट के रूप में।
00:20:02यह पूरा सिस्टम प्रॉम्प्ट है।
00:20:05अन्य कोडिंग सिस्टम प्रॉम्प्ट्स की तुलना में
00:20:08यहाँ और कुछ भी नहीं है।
00:20:10यह टोकन में है।
00:20:13यह पता चला है कि फ्रंटियर मॉडल्स को यह जानने के लिए भारी RL-ट्रेनिंग दी जाती है
00:20:16कि कोडिंग एजेंट क्या होता है।
00:20:18तो आप उन्हें बार-बार क्यों बताते रहते हैं कि वे एक कोडिंग एजेंट हैं
00:20:21और उन्हें कोडिंग कार्य कैसे करने चाहिए?
00:20:27डिफ़ॉल्ट रूप से YOLO, ऐसा क्यों है?
00:20:30फिलहाल अधिकांश कोडिंग एजेंट हार्नेस में दो मोड होते हैं।
00:20:33या तो एजेंट जो चाहे कर सकता है
00:20:36या एजेंट आपसे पूछता है, "क्या आप सच में
00:20:40इस फ़ाइल को डिलीट करना चाहते हैं?"
00:20:41"क्या आप वाकई इस डायरेक्टरी की फाइलों को लिस्ट करना चाहते हैं?"
00:20:44और इसी तरह।
00:20:44और यहाँ इसके अलग-अलग स्तर हैं।
00:20:47लेकिन अंत में, बात इस पर आती है कि यूजर को
00:20:49एजेंट द्वारा की जाने वाली कार्रवाई को मंजूरी देनी होगी।
00:20:52और फिर हम सुरक्षित हैं।
00:20:53मुझे लगता है कि यह गलत है क्योंकि इससे थकान होती है।
00:20:55और लोग या तो इसे पूरी तरह बंद कर देंगे, यानी YOLO मोड,
00:20:58या बस वहाँ बैठकर बिना कुछ पढ़े एंटर दबाते रहेंगे।
00:21:01तो मुझे नहीं लगता कि यह कोई समाधान है।
00:21:02कंटेनराइजेशन भी कोई समाधान नहीं है
00:21:04अगर आप डेटा चोरी और प्रॉम्प्ट इंजेक्शन
00:21:06के बारे में चिंतित हैं।
00:21:07लेकिन मुझे लगता है कि यह एकमात्र चीज़ है जिसे आप—
00:21:10मुझे लगता है कि यह अप्रूवल या डायलॉग जैसे
00:21:14गार्डरेल्स की तुलना में सबसे अच्छा आधार है।
00:21:17इसमें केवल चार टूल्स हैं: रीड फ़ाइल, राइट फ़ाइल,
00:21:19एडिट फ़ाइल और Bash।
00:21:21Bash ही काफी है।
00:21:22इसमें क्या नहीं है?
00:21:23कोई MCP नहीं, कोई सब-एजेंट नहीं, कोई प्लान नहीं, कोई बैकग्राउंड Bash नहीं,
00:21:25कोई इन-बिल्ट टू-डू नहीं।
00:21:26इसके बजाय आप यह कर सकते हैं।
00:21:28MCP के लिए, CLI टूल्स और स्किल्स का उपयोग करें,
00:21:30या एक एक्सटेंशन बनाएँ, जिसे हम थोड़ी देर में देखेंगे।
00:21:34कोई सब-एजेंट क्यों नहीं?
00:21:35क्योंकि वे ऑब्जर्वेबल नहीं होते।
00:21:36इसके बजाय tmux का उपयोग करें और एजेंट को फिर से स्पॉन करें।
00:21:41आपका एजेंट के आउटपुट और इनपुट पर पूरा नियंत्रण होता है
00:21:44और आप सब-एजेंट में होने वाली हर चीज़ देख सकते हैं।
00:21:48दिलचस्प बात यह है कि कोड स्पॉन—
00:21:50टीम मोड अब बिल्कुल यही करता है।
00:21:55कोई प्लान मोड नहीं, एक plan.md फ़ाइल लिखें।
00:21:57आपके पास किसी जंकी UI के बजाय
00:21:59एक स्थायी आर्टिफैक्ट होता है
00:22:02जो आपके टर्मिनल व्यूपोर्ट में ठीक से फिट नहीं होता।
00:22:04और आप इसे कई सेशन्स में फिर से उपयोग कर सकते हैं।
00:22:07कोई बैकग्राउंड Bash नहीं, इसकी जरूरत नहीं है, हमारे पास tmux है।
00:22:09यह एक ही बात है।
00:22:11और कोई इन-बिल्ट टू-डू नहीं, एक todo.md लिखें।
00:22:13वही चीज़ है।
00:22:14या यह सब अपनी पसंद के अनुसार खुद बनाएँ।
00:22:17और Py आपको यही करने देता है, क्योंकि यह बहुत विस्तार योग्य है।
00:22:21तो आप कस्टम टूल्स को बढ़ा सकते हैं।
00:22:22आप LLM को वे टूल्स दे सकते हैं जिन्हें आप परिभाषित करते हैं।
00:22:26मुझे नहीं लगता कि कोई अन्य कोडिंग एजेंट हार्नेस
00:22:28वर्तमान में यह सुविधा देता है, जब तक कि आप ओपन कोड को फोर्क न करें।
00:22:31आपको यहाँ ऐसा करने की आवश्यकता नहीं है।
00:22:32आप बस एक साधारण टाइपस्क्रिप्ट फ़ाइल लिखते हैं,
00:22:34और यह अपने आप लोड हो जाती है।
00:22:37आप कस्टम UI भी लिख सकते हैं।
00:22:39स्किल्स जाहिर तौर पर उनके प्रॉम्प्ट टेम्पलेट्स और थीम्स में हैं।
00:22:43और आप उस सब को बंडल कर सकते हैं, उसे NPM या Git पर डाल सकते हैं,
00:22:46और एक सिंगल कमांड से इंस्टॉल कर सकते हैं, जो बहुत अच्छा है।
00:22:49और सब कुछ हॉट रीलोड होता है।
00:22:51इसलिए मैं Py में प्रोजेक्ट के अंदर अपने खुद के एक्सटेंशन विकसित करता हूँ
00:22:53जो प्रोजेक्ट या टास्क स्पेसिफिक होते हैं।
00:22:59और जैसे ही एजेंट एक्सटेंशन को संशोधित करता है, मैं बस रीलोड करता हूँ।
00:23:05और यह तुरंत चल रहे सभी कोड को अपडेट कर देता है,
00:23:10जो कि बहुत अच्छा है।
00:23:11और व्यवहार में, इसका मतलब है कि आप कस्टम कॉम्पेक्शन कर सकते हैं।
00:23:14मुझे लगता है कि यह उन चीज़ों में से एक है जिस पर लोगों को
00:23:16अधिक प्रयोग करना चाहिए, क्योंकि वर्तमान में सभी
00:23:19कॉम्पेक्शन इम्प्लीमेंटेशन अच्छे नहीं हैं।
00:23:21परमिशन गेट्स, आप उन्हें 50 लाइनों के कोड में आसानी से
00:23:23लागू कर सकते हैं, और वह सब कवर कर सकते हैं
00:23:24जो अन्य एजेंट हार्नेस करते हैं, अगर आप वह चाहते हैं।
00:23:27कस्टम प्रोवाइडर्स, सेल्फ-होस्टेड मॉडल्स के प्रॉक्सी रजिस्टर करें।
00:23:31कोई फर्क नहीं पड़ता।
00:23:32आपको इसके लिए मेरी ज़रूरत नहीं है।
00:23:33आप यह कर सकते हैं, और वास्तव में, आपका क्लैंकर (बॉट) आपके लिए यह कर सकता है।
00:23:37या किसी भी इन-बिल्ट टूल को ओवरराइट करें।
00:23:38रीड, राइट, एडिट और Bash कैसे काम करते हैं, उसे बदलें।
00:23:41कोई फर्क नहीं पड़ता।
00:23:42मेरे पास रीड, राइट, एडिट और Bash का एक वर्ज़न है
00:23:43जो रिमोट मशीन पर SSH के माध्यम से काम करता है।
00:23:47इसे लागू करने में मुझे पाँच मिनट लगे, लेकिन यह काम करता है।
00:23:51और आपके पास पूर्ण TUI एक्सेस है, तो आप कोडिंग एजेंट में
00:23:54पूरी तरह से कस्टम UI लिख सकते हैं।
00:23:58Cloud Code Shipped—वैसे, किसी को Py में
00:24:02अधिक फीचर्स के साथ उसे दोहराने में पाँच मिनट लगे।
00:24:05PyMessenger, मुझे नहीं पता कि यह क्या कर रहा है,
00:24:07लेकिन जाहिर तौर पर, यह कई Py एजेंटों के लिए एक चैट रूम की तरह है
00:24:10जो आपस में संवाद करते हैं, और जिसमें कस्टम UI है।
00:24:13हम देख सकते हैं कि वे क्या कर रहे हैं, और हाँ, यह बस काम करता है।
00:24:18या PyMess, अगर आप बोर हो रहे हैं, तो बस एक गेम खेलें
00:24:23जब एजेंट चल रहा हो, है ना?
00:24:24आप ऐसा कर सकते हैं।
00:24:25या PyAnnotate, उस वेबसाइट को खोलें
00:24:28जिस पर आप अभी काम कर रहे हैं, और फ्रंट एंड में चीज़ों को एनोटेट करें,
00:24:31और सीधे लाइन में एजेंट को फीडबैक दें।
00:24:35इसे वापस कॉन्टेक्स्ट में डालें, और उससे चीज़ को संशोधित करवाएँ।
00:24:39या कुछ ऐसा जो मैं उपयोग करता हूँ, File Switch It।
00:24:42मैं किसी IDE या एडिटर पर स्विच नहीं करना चाहता।
00:24:43मैं बस उस फ़ाइल को जल्दी से देखना चाहता हूँ जिसे संशोधित किया गया है।
00:24:46तो यह सब एक्सटेंशन हैं।
00:24:48इनमें से कुछ भी इन-बिल्ट नहीं है, और लोगों को आमतौर पर
00:24:50इसे अपनी पसंद के अनुसार बनाने में
00:24:52कुछ मिनटों से लेकर एक दोपहर तक का समय लगता है।
00:24:56PyWavic भी है, पता नहीं वह क्या कर रहा है।
00:25:00Py ट्री स्ट्रक्चर के साथ भी आता है।
00:25:01मैं इसे समझाने नहीं जा रहा हूँ।
00:25:03बस py.dev पर देखें।
00:25:04आपका सेशन एक ट्री है, न कि चैट्स की एक लीनियर लिस्ट।
00:25:07तो आप मूल रूप से कुछ एजेंट का काम ऐसे कर सकते हैं
00:25:09कि डायरेक्टरी की सभी फाइलों को पढ़ें,
00:25:11इसे सारांशित करें, बातचीत के मूल (root) पर वापस जाएँ,
00:25:14सारांश को अपने साथ लें, और वास्तविक काम करें।
00:25:19आपकी पीठ पीछे कुछ भी इंजेक्ट नहीं किया जाता है।
00:25:22एजेंट, स्किल्स, फुल कॉस्ट ट्रैकिंग।
00:25:24बहुत सारे हार्नेस यहाँ यह नहीं करते।
00:25:26ओपन कोड इसे ठीक से नहीं करता है।
00:25:29HTML एक्सपोर्ट, JSON फॉर्मेट, हेडलेस JSON स्ट्रीम, इत्यादि।
00:25:33क्या यह वास्तव में काम करता है?
00:25:34खैर, टर्मिनल बेंच।
00:25:35मुझे यहाँ ज़ूम करने दें।
00:25:36मैं नहीं कर सकता।
00:25:37यह अद्भुत है।
00:25:38यहाँ Claude Opus 4.5 का उपयोग करके Py, Terminus 2 के बिल्कुल पीछे है।
00:25:45यह अक्टूबर की बात है जब Py में कॉम्पेक्शन भी नहीं था।
00:25:49डेमो का समय, उसे छोड़ते हुए, सीधे "क्लैंकर्स" के खिलाफ
00:25:51क्योंकि वे ओपन सोर्स को नुकसान पहुँचा रहे हैं।
00:25:54अगर आप इस व्यक्ति के प्रोजेक्ट से जुड़े हैं,
00:25:56तो आपके पास OpenClaw से आने वाले सैकड़ों लोग होंगे
00:26:02जो आपकी रिपॉजिटरी पर क्लैंकर कचरा भर देंगे।
00:26:06इसलिए मुझे कुछ उपाय खोजने पड़े।
00:26:09मैंने OSS वेकेशन का आविष्कार किया।
00:26:11इसलिए मैंने कुछ हफ्तों के लिए इश्यूज और PRs को बंद कर दिया
00:26:14और अपने दम पर चीजों पर काम किया।
00:26:16जो कुछ भी महत्वपूर्ण होगा उसे वैसे भी बाद में
00:26:20या डिस्कॉर्ड में रिपोर्ट किया जाएगा।
00:26:21और फिर मैंने एक कस्टम एक्सेस स्कीम भी लागू की
00:26:26जहाँ रिपॉजिटरी में मेरे पास एक मार्कडाउन फ़ाइल है।
00:26:28अगर कोई बिना उस मार्कडाउन फ़ाइल में
00:26:32अपना अकाउंट नाम डाले PR खोलता है, तो PR अपने आप बंद हो जाता है।
00:26:34मुझे परवाह नहीं है।
00:26:35सबसे पहले, एक इश्यू के माध्यम से मानवीय आवाज़ में अपना परिचय दें।
00:26:39ऐसा इश्यू लिखें जो डिस्प्ले से ज्यादा लंबा न हो
00:26:42क्योंकि बाकी सब शायद क्लैंकर्स का काम है।
00:26:45और एक बार जब आप ऐसा कर लेते हैं, तो मुझे खुशी होगी—सब ठीक है।
00:26:47तो आप उस फ़ाइल में शामिल हो जाते हैं और अब रिपॉजिटरी में
00:26:50PR सबमिट कर सकते हैं।
00:26:51मैं बस मानवीय सत्यापन (human verification) माँग रहा हूँ।
00:26:53और फिर घोस्टी के मिशेल ने इसे लिया और
00:26:57Vouch नामक एक प्रोजेक्ट बनाया, जो आपके अपने
00:27:00ओपन सोर्स रिपॉजिटरी पर अधिक आसानी से लागू किया जा सकता है।
00:27:02और वह Py है।
00:27:03आगे बढ़िए और इसे आज़माइए।
00:27:05मेरे लिए बस इतना ही।
00:27:06[तालियां]
00:27:07[संगीत बज रहा है]

Key Takeaway

कोडिंग एजेंटों की प्रभावशीलता जटिल फीचर्स या सब-एजेंटों पर नहीं, बल्कि एक न्यूनतम विस्तार योग्य कोर और सटीक कॉन्टेक्स्ट इंजीनियरिंग पर निर्भर करती है जैसा कि Pi के 4-टूल सेटअप और उच्च बेंचमार्क स्कोर से सिद्ध होता है।

Highlights

Cloud Code जैसे मौजूदा कोडिंग एजेंट 90% ऐसे फीचर्स से भरे हुए हैं जिन्हें 'AI डार्क मैटर' कहा जाता है और जिनका उपयोग कोई नहीं करता।

Terminus जैसे न्यूनतम एजेंट जो केवल TMUX और कीस्ट्रोक्स का उपयोग करते हैं, बेंचमार्क में सबसे जटिल एजेंटों के बराबर या उनसे बेहतर प्रदर्शन करते हैं।

OpenCode जैसे टूल्स में हर एडिट के बाद LSP (Language Server Protocol) फीडबैक इंजेक्ट करना मॉडल को भ्रमित करता है और उसे बीच में ही हार मानने पर मजबूर कर देता है।

Pi एक विस्तार योग्य कोडिंग फ्रेमवर्क है जिसमें केवल 4 मुख्य टूल्स (Read, Write, Edit, Bash) हैं और यह 600 लाइनों के कोड वाले कस्टम TUI पर चलता है।

ओपन सोर्स रिपॉजिटरी को AI बॉट्स के 'कचरे' से बचाने के लिए 'OSS Vacation' और 'Vouch' जैसे मानवीय सत्यापन सिस्टम की आवश्यकता है।

Timeline

कोडिंग एजेंटों का विकास और वर्तमान समस्याएं

  • 2023 की शुरुआत में ChatGPT से कोड कॉपी-पेस्ट करने से लेकर अब एजेंटिक वर्कफ़्लो तक का सफर तय हुआ है।
  • Claude और अन्य मॉडल्स को अब फ़ाइल और बैश टूल्स का उपयोग करके स्वायत्त रूप से कोड खोजने और बदलने के लिए प्रशिक्षित किया गया है।

शुरुआती कोडिंग सहायक केवल एकल फ़ंक्शन लिखने तक सीमित थे और अक्सर टूटे हुए कोड देते थे। 2025 तक एडिर (Aider) और ऑटोजीपीटी जैसे टूल्स ने एजेंटिक सर्च की शुरुआत की। इन मॉडल्स के सुदृढ़ीकरण प्रशिक्षण (reinforcement training) ने उन्हें मैन्युअल कोडिंग की तुलना में बहुत तेज़ी से कोड तैयार करने के काबिल बना दिया है।

मौजूदा कोडिंग हार्नेस की कमियां

  • Cloud Code जैसे टूल्स 'स्पेसशिप' बन गए हैं जहाँ उपयोगकर्ता केवल 5% सुविधाओं का उपयोग करते हैं।
  • पर्दे के पीछे कॉन्टेक्स्ट में गुप्त टेक्स्ट डालना स्थिर वर्कफ़्लो को बिगाड़ देता है और मॉडल के व्यवहार को अनिश्चित बनाता है।

डेवलपर को अपने टूल पर पूर्ण नियंत्रण की आवश्यकता होती है, लेकिन कई व्यावसायिक वेंडर बिना बताए प्रॉम्प्ट्स और बैकएंड सेटिंग्स बदलते रहते हैं। टर्मिनल आधारित इंटरफेस में रिएक्ट (React) का उपयोग करने से 12 मिलीसेकंड की देरी और विजुअल झिलमिलाहट (flicker) पैदा होती है। यह जटिलता 'वाइब कोडिंग' की ओर ले जाती है जो पुराने अनुभवी इंजीनियरों के लिए अनुपयुक्त है।

ओपन सोर्स विकल्पों का विश्लेषण और सुरक्षा मुद्दे

  • OpenCode जैसे टूल्स में टोकन प्रूनिंग (session compaction) प्रॉम्प्ट कैशिंग के लाभों को नष्ट कर देती है।
  • आर्किटेक्चर में सुरक्षा की कमी के कारण डिफॉल्ट रूप से रिमोट कोड एक्जीक्यूशन (RCE) जैसी कमजोरियां सामने आई हैं।

LSP सपोर्ट का गलत कार्यान्वयन हर छोटे संपादन के बाद एरर इंजेक्ट करता है, जिससे मॉडल को लगता है कि वह असफल हो रहा है। AMP और Droid जैसे विकल्प बेहतर हैं लेकिन उनमें मॉडल चयन और विस्तार की स्वतंत्रता सीमित है। डिस्क पर हर संदेश को अलग JSON फ़ाइल के रूप में सहेजना खराब सॉफ्टवेयर डिजाइन को दर्शाता है।

Pi: एक न्यूनतम और विस्तार योग्य समाधान

  • Pi में केवल चार बुनियादी टूल्स हैं: रीड, राइट, एडिट और बैश।
  • हॉट रीलोडिंग की सुविधा से डेवलपर प्रोजेक्ट के बीच में ही एजेंट के टूल्स और UI को अपडेट कर सकते हैं।

टर्मिनल बेंच लीडरबोर्ड पर Pi ने अक्टूबर 2025 में बिना किसी जटिल फीचर के शीर्ष प्रदर्शन किया। यह 'येलो' (YOLO) मोड के बजाय कंटेनराइजेशन को सुरक्षा का आधार मानता है। इसमें MCP या सब-एजेंट्स की जगह Tmux और साधारण टाइपस्क्रिप्ट एक्सटेंशन का उपयोग किया जाता है जो पूरी तरह ऑब्जर्वेबल हैं।

AI बॉट्स से ओपन सोर्स रिपॉजिटरी की सुरक्षा

  • AI एजेंटों द्वारा उत्पन्न निम्न-स्तरीय PRs और इश्यूज ओपन सोर्स प्रोजेक्ट्स के लिए खतरा बन रहे हैं।
  • PR स्वीकार करने से पहले एक मार्कडाउन फ़ाइल में नाम दर्ज करने जैसा मानवीय सत्यापन अनिवार्य होना चाहिए।

स्वचालित कोडिंग बॉट्स (क्लैंकर्स) बड़ी मात्रा में अर्थहीन कोड सबमिट करके मेंटेनर्स का समय बर्बाद कर रहे हैं। 'OSS Vacation' के माध्यम से इश्यूज को अस्थायी रूप से बंद करना एक समाधान है। 'Vouch' प्रोजेक्ट इसी मानवीय सत्यापन प्रक्रिया को सरल बनाने के लिए बनाया गया है ताकि केवल वास्तविक डेवलपर्स ही योगदान दे सकें।

Community Posts

View all posts