हार्नेस इंजीनियरिंग: वो कौशल जो 2026 में सोलो डेवलपर्स की पहचान बनेगा

SSolo Swift Crafter
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00तो, ठीक है।
00:00:02अभी सबसे अच्छा AI मॉडल कौन सा है?
00:00:04Claude, GPT, Gemini.
00:00:07और सच कहूँ तो, मुझे लगता है कि यह सवाल ही गलत है।
00:00:11मतलब, पूरी तरह से गलत सवाल।
00:00:14बस जल्दी से बता दूँ, मैं डैनियल हूँ।
00:00:16मैं पिछले आठ सालों से iOS डेवलपमेंट की गहराइयों में हूँ।
00:00:20मैंने फ्रीलांसिंग और UI डिजाइनिंग से शुरुआत की थी,
00:00:24एक क्लाइंट से दूसरे क्लाइंट के पास भटकते हुए,
00:00:25दूसरों के आइडियाज़ पर काम करते हुए
00:00:27और साथ ही अपने खुद के आइडियाज़ को समझने की कोशिश करते हुए।
00:00:28फिर 2025 के बाद, मैं पूरी तरह से सोलो हो गया।
00:00:33अब कोई क्लाइंट नहीं, कोई सुरक्षा कवच नहीं।
00:00:36तब से, मैंने खुद के 15 से ज़्यादा ऐप्स बनाए हैं,
00:00:39सब Swift UI में, और सब सबके सामने (in public) बनाए गए।
00:00:41और अभी, सच कहूँ तो, मेरी पूरी ऊर्जा
00:00:44इस सोलो स्टूडियो को
00:00:46कुछ ऐसा बनाने में लग रही है जो वाकई टिक सके।
00:00:49सिर्फ जल्दबाज़ी में बने MVPs या AI से बना कूड़ा नहीं,
00:00:52बल्कि असली ऐप्स जो बड़े पैमाने पर काम कर सकें।
00:00:55और हाँ, वह पूरी प्रक्रिया।
00:00:57वह पूरा मुश्किल सफर crafterslab पर मौजूद है।
00:01:00यह crafterslab.dev पर है,
00:01:01और यह कोई ट्यूटोरियल का कब्रिस्तान या AI क्लोन फैक्ट्री नहीं है।
00:01:06यह वास्तव में मेरा होम बेस है,
00:01:08जो उन सोलो डेवलपर्स के लिए बना है जो AI को एक असली टीममेट की तरह इस्तेमाल करते हैं।
00:01:12न कि किसी वेंडिंग मशीन की तरह जिसे अटकने पर आप बस ठोकते हैं
00:01:14और उम्मीद करते हैं कि सब ठीक हो जाए।
00:01:16अगर आप अपने काम की बारीकियों की परवाह करते हैं,
00:01:18अगर आप खुद को बेहतर बनाने
00:01:20और ऐसी चीज़ें बनाने के लिए गंभीर हैं जो टिक सकें,
00:01:23तो हाँ, आपको यहाँ बिल्कुल अपनापन महसूस होगा।
00:01:24और अगर आप अभी भी Patreon पर हैं,
00:01:26तो उसके लिए बहुत शुक्रिया, लेकिन एक बात जान लें।
00:01:29सब कुछ crafterslab.dev पर शिफ्ट हो गया है।
00:01:32पूरी टीम अब वहीं है।
00:01:33आइए हमारे साथ जुड़िए।
00:01:35तो, यहाँ से मुझे इस सब के बारे में सोचने का विचार आया।
00:01:38हाल ही में एक स्टडी सामने आई थी।
00:01:41रिसर्चर्स ने "Epic's Agent" नाम का एक बेंचमार्क पब्लिश किया।
00:01:45और जो बात इसे उन बाकी बेंचमार्क से अलग बनाती है
00:01:49जिनके बारे में लोग ऑनलाइन बहस करते रहते हैं,
00:01:51वो यह है कि यह एजेंट्स को असली प्रोफेशनल काम पर टेस्ट करता है,
00:01:55कोडिंग पज़ल्स या मल्टीपल चॉइस सवालों पर नहीं।
00:01:58हम उन असल कामों की बात कर रहे हैं जो कंसल्टेंट्स, वकील,
00:02:03और एनालिस्ट रोज़ाना करते हैं।
00:02:05हर काम को पूरा करने में एक इंसान को लगभग एक से दो घंटे लगते हैं।
00:02:08तो उन्होंने सभी बड़े मॉडल्स को इसमें टेस्ट किया।
00:02:11सबसे अच्छे मॉडल ने उन कामों को
00:02:13लगभग 24% बार ही पूरा किया, यानी चार में से एक बार।
00:02:17और उसी मॉडल के साथ आठ कोशिशों के बाद भी,
00:02:20यह आंकड़ा केवल 40% तक ही पहुँच सका।
00:02:23अब याद रखिए, ये वही मॉडल्स हैं
00:02:26जो उन बेंचमार्क्स पर 90% से ज़्यादा स्कोर करते हैं
00:02:29जिनके पीछे हर कोई पागल रहता है।
00:02:32तो या तो वे बेंचमार्क गलत हैं
00:02:33या फिर हम गलत चीज़ को माप रहे हैं।
00:02:36और मुझे लगता है कि बात दूसरी वाली ही है, है न?
00:02:37लेकिन ठीक है, यहाँ से बात हमारे लिए गंभीर हो जाती है।
00:02:41रिसर्चर्स ने गहराई से पड़ताल की कि एजेंट्स फेल क्यों हुए।
00:02:46और जवाब यह नहीं था कि मॉडल्स कमज़ोर हैं।
00:02:49उनके पास वो सारी जानकारी थी जिसकी उन्हें ज़रूरत थी।
00:02:51वे समस्याओं को अच्छी तरह से समझ और तर्क कर सकते थे।
00:02:54असफलताएं लगभग पूरी तरह से
00:02:56काम को लागू करने और तालमेल बिठाने (execution and orchestration) से जुड़ी थीं।
00:03:00एजेंट्स बहुत ज़्यादा स्टेप्स के बाद भटक जाते थे।
00:03:02वे उन्हीं तरीकों को बार-बार दोहराते जो पहले ही फेल हो चुके थे।
00:03:05वे बस इस बात का ध्यान ही खो देते थे कि आख़िर
00:03:09उन्हें शुरुआत में करना क्या था।
00:03:11और अगर आप एक सोलो डेवलपर हैं जो हर दिन Claude Code
00:03:14या Cursor इस्तेमाल करते हैं, तो हाँ, आपके साथ भी ऐसा हुआ होगा।
00:03:18आपने एजेंट को वही बेकार चीज़
00:03:21तीन बार दोहराते हुए देखा होगा,
00:03:23जो 20 स्टेप्स पहले के कॉन्टेक्स्ट को पूरी तरह भूल चुका होता है।
00:03:26और आप वहाँ बैठकर सोचते हैं,
00:03:28शायद मुझे Opus पर स्विच कर लेना चाहिए।
00:03:30शायद मुझे किसी दूसरे प्रोवाइडर की ज़रूरत है,
00:03:32लेकिन डेटा कह रहा है कि बात वो नहीं है।
00:03:34मॉडल रुकावट की वजह नहीं है।
00:03:36रुकावट उसके आस-पास का पूरा ढांचा है।
00:03:38और इसके लिए एक शब्द है।
00:03:40मुझे लगता है कि यह 2026 को वैसे ही परिभाषित करेगा
00:03:43जैसे 2025 में "एजेंट्स" ने किया था।
00:03:46वो शब्द है "Harness" (हार्नेस)।
00:03:47एक एजेंट हार्नेस का मतलब है मॉडल के आस-पास का सारा इंफ्रास्ट्रक्चर,
00:03:50वो क्या देख सकता है,
00:03:52उसके पास किन टूल्स का एक्सेस है,
00:03:54चीज़ें बिगड़ने पर वो खुद को कैसे संभालता है,
00:03:56और एक लंबे सेशन के दौरान वो अपने काम का ट्रैक कैसे रखता है।
00:03:59OpenAI ने सचमुच एक ब्लॉग पोस्ट पब्लिश किया है
00:04:02जिसका नाम है "Harness Engineering"।
00:04:04Anthropic ने लंबे समय तक चलने वाले एजेंट्स के लिए
00:04:07प्रभावी हार्नेस बनाने पर एक पूरी गाइड जारी की है।
00:04:09Manish, वो AI कंपनी जिसे Meta ने हाल ही में खरीदा है,
00:04:13उन्होंने कॉन्टेक्स्ट इंजीनियरिंग से जुड़े अपने सबक शेयर किए हैं
00:04:16जब उन्होंने अपने पूरे एजेंट फ्रेमवर्क को
00:04:19छह महीनों में पांच बार फिर से बनाया।
00:04:22और वे सब एक ही बात कह रहे हैं।
00:04:24असली इंजीनियरिंग का काम हार्नेस में है,
00:04:27मॉडल में नहीं।
00:04:28ठीक है, तो, और यह वो हिस्सा है जिसने मुझे वाकई हैरान कर दिया
00:04:32क्योंकि यह उस सोच के बिल्कुल उलट है
00:04:34जैसा हम इन टूल्स के साथ काम करने के बारे में सोचते हैं।
00:04:38तो Vercel की एक कहानी है।
00:04:41उनके पास एक "Text to SQL" एजेंट था।
00:04:43आप एक सवाल पूछते हैं, वो एक SQL क्वेरी लिखता है,
00:04:46और उन्होंने इसे वैसे ही बनाया जैसे ज़्यादातर लोग एजेंट्स बनाते हैं।
00:04:49उसे बहुत सारे खास टूल्स दिए,
00:04:51एक डेटाबेस स्कीमा समझने के लिए,
00:04:54एक क्वेरी लिखने के लिए, और एक रिजल्ट्स को वैलिडेट करने के लिए।
00:04:58उसके चारों ओर एरर हैंडलिंग की परतें चढ़ाई गई थीं
00:05:01और वो लगभग 80% बार सही काम करता था।
00:05:04फिर उन्होंने कुछ हटकर करने की कोशिश की।
00:05:06उन्होंने 80% टूल्स को हटा दिया, बस बाहर निकाल दिया,
00:05:11एजेंट को बस बेसिक चीज़ें दीं, जैसे bash कमांड्स चलाना, फाइलें पढ़ना,
00:05:15साधारण कमांड लाइन टूल्स जैसे grep और cat,
00:05:18वही चीज़ें जो आप या मैं असल में इस्तेमाल करेंगे।
00:05:20और उसकी एक्यूरेसी 80% से बढ़कर 100% हो गई।
00:05:25उसने 40% कम टोकन्स का इस्तेमाल किया,
00:05:28और वो साढ़े तीन गुना ज़्यादा तेज़ था।
00:05:31सच कहूँ तो, यह काफी हैरान करने वाला है, है न?
00:05:33और इसे बनाने वाले इंजीनियर ने एक बात कही
00:05:36그게 정말 뇌리에 남았어요.
00:05:38मॉडल्स अब और स्मार्ट हो रहे हैं।
00:05:40कॉन्टेक्स्ट विंडोज़ बड़ी होती जा रही हैं।
00:05:42तो शायद सबसे अच्छा एजेंट आर्किटेक्चर
00:05:44वो है जिसमें लगभग कोई आर्किटेक्चर हो ही ना।
00:05:46और यह सब कुछ बदल देता है, आप समझ रहे हैं न?
00:05:50क्योंकि स्वाभाविक रूप से, खासकर जब आप अकेले काम कर रहे हों
00:05:54और इसे भरोसेमंद बनाना चाह रहे हों,
00:05:57तो मन करता है कि और टूल्स, और गार्डरेल्स,
00:06:01और राउटिंग लॉजिक जोड़ते जाएँ।
00:06:02आपको लगता है कि ज़्यादा स्ट्रक्चर मदद करेगा,
00:06:04लेकिन वो टूल्स मॉडल की मदद नहीं कर रहे थे।
00:06:06वे उसके रास्ते में आ रहे थे।
00:06:08और यह कोई इकलौती घटना नहीं है।
00:06:10Manus को भी ठीक इसी बात का एहसास हुआ।
00:06:13उन्होंने अपने पूरे एजेंट फ्रेमवर्क को
00:06:16छह महीने में पांच बार फिर से बनाया,
00:06:19और उनके परफॉरमेंस में सबसे बड़ा सुधार
00:06:21नए फीचर्स जोड़ने से नहीं आया।
00:06:23बल्कि उन्हें हटाने से आया।
00:06:25उन्होंने जटिल डॉक्यूमेंट रिट्रीवल हटा दिया,
00:06:28भारी-भरकम राउटिंग लॉजिक खत्म कर दिया,
00:06:29और मैनेजमेंट एजेंट्स की जगह साधारण स्ट्रक्चर्ड हैंड-ऑफ्स ले आए।
00:06:34हर बार जब उन्होंने इसे सरल बनाया, तो यह और बेहतर होता गया।
00:06:37और यहाँ एक ऐसी बात है जो हर सोलो डेवलपर को
00:06:40सुननी चाहिए जो लंबे Claude Code सेशन्स चलाते हैं।
00:06:42Manus ने पाया कि उनके एजेंट्स ने औसतन
00:06:45एक काम के लिए लगभग 50 टूल कॉल्स किए।
00:06:49यह बहुत सारे स्टेप्स हैं।
00:06:50और उन मॉडल्स के साथ भी जो तकनीकी रूप से
00:06:53बहुत बड़ी कॉन्टेक्स्ट विंडोज़ को सपोर्ट करते हैं,
00:06:54एक पॉइंट के बाद परफॉरमेंस गिरने लगती है।
00:06:58मॉडल अचानक सब कुछ भूल नहीं जाता।
00:07:01यह ऐसा है जैसे असली सिग्नल शोर के नीचे दब जाता है।
00:07:04सेशन की शुरुआत के आपके ज़रूरी निर्देश
00:07:07सैकड़ों बीच के रिज़ल्ट्स के नीचे खो जाते हैं।
00:07:10तो उनका समाधान बहुत ही सरल था।
00:07:12उन्होंने फाइल सिस्टम को
00:07:14मॉडल की एक्सटर्नल मेमोरी की तरह इस्तेमाल करना शुरू कर दिया।
00:07:17सब कुछ कॉन्टेक्स्ट विंडो में ठूंसने के बजाय,
00:07:20एजेंट ज़रूरी जानकारी को एक फाइल में लिखता है
00:07:23और ज़रूरत पड़ने पर उसे वापस पढ़ लेता है।
00:07:25और हाँ, अगर आप Claude Code इस्तेमाल करते हैं,
00:07:27तो आपने इसे अपनी आँखों से देखा होगा।
00:07:29वो claude.md फाइलें, टू-डू लिस्ट, प्रोग्रेस ट्रैकिंग,
00:07:34यही वो पैटर्न है जो हर दिन
00:07:36आपके टर्मिनल पर चल रहा है।
00:07:37ठीक है, तो याद है मैंने क्या कहा था
00:07:40कि सब लोग एक ही विचार पर आकर मिल रहे हैं?
00:07:44क्योंकि जब आप देखते हैं
00:07:45कि अभी के तीन सबसे सफल एजेंट सिस्टम कौन से हैं,
00:07:49तो वे सब अलग-अलग रास्तों से चलकर
00:07:51एक ही नतीजे पर पहुँचे हैं।
00:07:53OpenAI का Codex, इसमें परतों वाला नज़रिया है।
00:07:57एक ऑर्केस्ट्रेटर जो प्लान बनाता है,
00:07:59एक एक्ज़ीक्यूटर जो अलग-अलग कामों को संभालता है,
00:08:02और एक रिकवरी लेयर जो गलतियों को पकड़ती है।
00:08:06यह काफी मज़बूत है।
00:08:07आप इसे काम सौंपकर निश्चिंत हो सकते हैं।
00:08:09यह एक तरीका है।
00:08:10Claude Code, जिसे मैं हर रोज़ इस्तेमाल करता हूँ।
00:08:14इसका कोर असल में सिर्फ चार टूल्स पर टिका है।
00:08:16फाइल पढ़ना, फाइल लिखना, फाइल एडिट करना,
00:08:19और bash कमांड चलाना, बस इतना ही।
00:08:21ज़्यादातर समझदारी खुद मॉडल के अंदर है।
00:08:23हार्नेस को बहुत छोटा और सरल रखा गया है।
00:08:25और जब आपको और ज़्यादा चाहिए, तो MCP और उन स्किल्स से विस्तार मिलता है
00:08:28जिन्हें एजेंट ज़रूरत के हिसाब से सीख लेता है।
00:08:30और फिर Manus उस नतीजे पर पहुँचा जिसे मैं कहूँगा
00:08:33कम करना, लोड हटाना और अलग करना; कॉन्टेक्स्ट को सक्रिय रूप से छोटा करना,
00:08:38मेमोरी के लिए फाइल सिस्टम का इस्तेमाल करना,
00:08:40भारी कामों के लिए सब-एजेंट्स बनाना,
00:08:43और उनसे बस समरी वापस माँगना।
00:08:45तीन बिल्कुल अलग तरीके,
00:08:47लेकिन सब एक ही बात की ओर इशारा कर रहे हैं।
00:08:50हार्नेस मॉडल से ज़्यादा मायने रखता है।
00:08:52और सोलो डेवलपर्स के लिए,
00:08:55यह उस बात को बदल देता है जिस पर आपको
00:08:57चाहिए कि आप अपना समय असल में कहाँ लगा रहे हैं।
00:08:59क्योंकि, आप तो जानते ही हैं, हमारे पास अनंत घंटे नहीं हैं।
00:09:01Reddit पर बहस करने में बिताया गया हर एक घंटा,
00:09:05कि Claude बेहतर है या GPT, वह एक घंटा है जिसमें आप काम नहीं कर रहे।
00:09:08और रिचर्ड सटन का एक विचार है,
00:09:11जो रीइन्फोर्समेंट लर्निंग के रचनाकारों में से एक हैं,
00:09:14जिसे "कड़वा सबक" (the bitter lesson) कहा जाता है।
00:09:16उनका मुख्य तर्क यह है कि
00:09:18वे तरीके जो कंप्यूट (compute) के साथ स्केल करते हैं
00:09:21वे हमेशा उन तरीकों को हरा देते हैं
00:09:23जो मानवीय रूप से तैयार किए गए ज्ञान पर निर्भर करते हैं
00:09:26और जो हम कर रहे हैं उस पर लागू होते हैं।
00:09:27इसका मतलब बहुत ही खास है।
00:09:29जैसे-जैसे मॉडल और स्मार्ट होते जा रहे हैं,
00:09:31आपका ढांचा (harness) सरल होना चाहिए,
00:09:33जटिल नहीं।
00:09:34अगर आप हर मॉडल अपग्रेड के साथ
00:09:36ज़्यादा हैंड-कोडेड लॉजिक और कस्टम पाइपलाइन जोड़ रहे हैं,
00:09:40तो आप धारा के विपरीत तैर रहे हैं।
00:09:42और सच कहूँ तो, यह ज़रूरत से ज़्यादा इंजीनियरिंग ही
00:09:44शायद वह वजह है जिससे आपका एजेंट बार-बार फेल हो जाता है।
00:09:47तो यहाँ बताया गया है कि मैं असल में क्या आज़माऊँगा।
00:09:49सबसे पहले, खुद Vercel वाला प्रयोग करें।
00:09:52अगर आपके पास कोई एजेंट सेटअप है,
00:09:54तो उसे छोटा करें, खास टूल्स हटा दें,
00:09:57उसे बस एक बैश टर्मिनल और बेसिक फ़ाइल एक्सेस दें
00:10:00और बस देखें कि क्या होता है।
00:10:02मॉडल शायद उस टूल पाइपलाइन से कहीं ज़्यादा स्मार्ट है
00:10:03जो आपने उसके इर्द-गिर्द बनाई है।
00:10:06दूसरा, एक प्रोग्रेस फ़ाइल जोड़ें।
00:10:08अपने एजेंट से एक चलती-फिरती टू-डू लिस्ट बनवाएँ
00:10:10जिसे वह हर कदम के बाद अपडेट करे।
00:10:13वह हर एक्शन की शुरुआत में फ़ाइल पढ़ता है,
00:10:15और अंत में उसमें लिखता है।
00:10:17बिल्कुल यही चीज़ Claude Code उन
00:10:19मार्कडाउन फ़ाइलों के साथ करता है।
00:10:20और यही वह पैटर्न है जिस पर मनीष पाँच बार
00:10:22पूरा कोड फिर से लिखने के बाद पहुँचे।
00:10:24मेरे पास इसके लिए लैब में एक पूरा सिस्टम तैयार है,
00:10:26जिसमें मेरे सभी एजेंट निर्देश
00:10:29और .md टेम्पलेट्स तैयार हैं, अगर आप जानना चाहें।
00:10:33और तीसरा, MCP और स्किल्स के बारे में सीखना शुरू करें।
00:10:37ये मॉडल को बाहरी टूल्स के साथ काम करने के लिए
00:10:40साफ-सुथरे और मानक तरीके देते हैं,
00:10:42बिना आपको हर एक चीज़ को खुद हार्ड-कोड किए।
00:10:44अब विस्तार की गुंजाइश वहीं पर है।
00:10:462025 एजेंटों का साल था।
00:10:50और काफी हद तक, हाँ, ऐसा ही हुआ।
00:10:53लेकिन 2026, मुझे लगता है कि 2026 हार्नेस (harnesses) का साल है।
00:10:58और वही मॉडल, बिल्कुल वही मॉडल,
00:11:03Claude Code में बिल्कुल अलग तरह से व्यवहार करता है,
00:11:06Cursor या CodeX के मुकाबले।
00:11:08तो अपना हार्नेस बहुत सोच-समझकर चुनें,
00:11:11चाहे आप कोडिंग एजेंट इस्तेमाल कर रहे हों या खुद बना रहे हों।
00:11:14तो हाँ, अगर आप अभी भी यहाँ हैं,
00:11:17तो सच में, आप कमाल के इंसान हैं।
00:11:18और देखिए, मुझे पता है कि मॉडल्स की चर्चा अभी बहुत ज़ोरों पर है।
00:11:22हर हफ्ते एक नया मॉडल, एक नया बेंचमार्क आता है,
00:11:24और एक नई बहस छिड़ती है कि कौन राजा है।
00:11:27लेकिन जो असली डेटा और इंजीनियरिंग
00:11:30इन चीज़ों को बनाने वाली कंपनियों से आ रही है,
00:11:32वो सब किसी और दिशा में इशारा कर रही है।
00:11:34असली जीत हार्नेस में ही छिपी है।
00:11:37और सोलो डेवलपर्स के लिए, यह असल में बहुत अच्छी खबर है
00:11:40क्योंकि एक बेहतर हार्नेस बनाना
00:11:42ऐसी चीज़ है जो आप आज ही कर सकते हैं,
00:11:45बिना अगले मॉडल रिलीज़ का इंतज़ार किए।
00:11:47और अगर आप गहराई से जानना चाहते हैं कि मैं असल में
00:11:51ये सब कैसे सेटअप करता हूँ - वे .md फ़ाइलें, एजेंट वर्कफ़्लो,
00:11:56और मैं अपने ऐप्स के लिए सब कुछ कैसे जोड़ता हूँ,
00:11:59तो crafterslab.dev पर ज़रूर आएँ।
00:12:02यह कोई साधारण ट्यूटोरियल या AI कंटेंट फार्म नहीं है।
00:12:06यह सच में सोलो डेवलपर्स के लिए बना मेरा होम बेस है
00:12:09जो AI को एक असली टीम के साथी की तरह मानते हैं
00:12:11और जो वे बना रहे हैं उसकी उन्हें वाकई परवाह है।
00:12:13इसके अंदर, आपको पूरे वॉकथ्रू मिलेंगे,
00:12:15असली छोटे वीडियो ट्यूटोरियल, ढेर सारी Claude Code स्किल्स,
00:12:19जिन्हें आप तुरंत इस्तेमाल कर सकते हैं,
00:12:21और डाउनलोड करने योग्य संसाधन जिन्हें आप सीधे
00:12:24अपने प्रोजेक्ट्स में डाल सकते हैं।
00:12:26सदस्य कमेंट्स में चर्चा करते हैं, सवाल पूछते हैं,
00:12:29और आपस में विचार साझा करते हैं।
00:12:30यह एक असली बातचीत है, न कि केवल एकतरफा कंटेंट फ़ीड।
00:12:34लेकिन इसका असली केंद्र Notion टीम स्पेसेज़ हैं,
00:12:37मेरी लाइव प्लेबुक, जहाँ आप करीब से देख सकते हैं
00:12:40कि मैं अपने बनाए हुए हर एक ऐप को कैसे चलाता हूँ,
00:12:42वे असली .md फ़ाइलें जो मैं असली प्रोजेक्ट्स पर इस्तेमाल करता हूँ,
00:12:46प्रॉम्प्ट लाइब्रेरी, वो डॉक्यूमेंट्स जो मैं काम के साथ लिखता हूँ,
00:12:49पर्दे के पीछे चलने वाले सभी ऑटोमेशन,
00:12:51कैमरे के लिए कुछ भी सजाया नहीं गया है, बस असली प्रक्रिया है,
00:12:55कमियों के साथ, और वहाँ Swift Brain भी है,
00:12:58एक चुनिंदा Swift और SwiftUI लाइब्रेरी
00:13:01जिसे मैं सालों से बना रहा हूँ, खास कीनोट्स,
00:13:04प्राइवेट टॉक्स जिन्हें मैंने पैसे खर्च करके इकट्ठा किया है,
00:13:07ऐसी सामग्री जो आपको सार्वजनिक
00:13:10ट्रेनिंग डेटा में कहीं नहीं मिलेगी।
00:13:11यही वो चीज़ है जिसका इस्तेमाल मैं कस्टम MCPs बनाने के लिए करता हूँ,
00:13:16Claude Code और Cursor के लिए स्किल्स सेट करने के लिए, सब कुछ,
00:13:20हमेशा नए प्रयोग करना और जो काम करे उसे शेयर करना,
00:13:23और फिर है Ops Lab।
00:13:25जहाँ सभी AI एजेंट निर्देश मौजूद हैं,
00:13:28Notion टेम्पलेट्स, Claude Code स्किल्स,
00:13:31वर्कफ़्लोज़, ऑटोमेशन सब कुछ जुड़ा हुआ है
00:13:33और आपके लिए कॉपी करने, उन्हें बारीकी से समझने,
00:13:36या पूरी तरह बदलकर अपने तरीके से बनाने के लिए तैयार है।
00:13:38इसका पूरा मकसद इंडी स्टैक को जोड़े रखना है
00:13:41ताकि आप कभी भी अकेले महसूस न करें,
00:13:44भले ही आप कीबोर्ड पर अकेले काम कर रहे हों।
00:13:46तो हाँ, अगर आप तब शामिल होना चाहते हैं जब टीम छोटी है
00:13:49और कीमतें कम हैं, तो अभी सही मौका है।
00:13:52यह किसी बड़े बेनाम फोरम की तुलना में
00:13:55एक पर्दे के पीछे के डेवलपर्स लाउंज जैसा लगता है
00:13:57मैं सच में आपको वहाँ देखना चाहूँगा।
00:14:00इस हार्नेस वाली चीज़ पर अपने विचार साझा करें,
00:14:02शायद आप जो अगला बना रहे हैं उससे मुझे कुछ सीखने को मिले।
00:14:05बनाते रहिए, प्रयोग करते रहिए,
00:14:08और बेंचमार्क के शोर को अपना ध्यान
00:14:10असली ज़रूरी चीज़ों से भटकने न दें।
00:14:12शांति।

Key Takeaway

भविष्य के सोलो डेवलपर्स के लिए असली इंजीनियरिंग चुनौती सही AI मॉडल चुनना नहीं, बल्कि एक सरल और प्रभावी 'हार्नेस' बनाना है जो मॉडल को बिना भटकाए काम पूरा करने में मदद करे।

Highlights

2026 में AI की सफलता 'मॉडल' से ज़्यादा उसके 'हार्नेस' (Harness) यानी उसके आस-पास के इंफ्रास्ट्रक्चर पर निर्भर करेगी।

Epic's Agent बेंचमार्क से पता चला कि सबसे अच्छे AI मॉडल्स भी जटिल वास्तविक कार्यों को केवल 24% बार ही पूरा कर पाते हैं।

एजेंट्स की असफलता का मुख्य कारण तर्क (reasoning) की कमी नहीं, बल्कि निष्पादन (execution) और समन्वय की समस्याएं हैं।

Vercel के प्रयोग ने साबित किया कि कम और सरल टूल्स (जैसे bash और file access) देने से एजेंट की सटीकता 80% से बढ़कर 100% हो गई।

लंबी कॉन्टेक्स्ट विंडो में जानकारी खोने से बचने के लिए फाइल सिस्टम (जैसे claude.md) को बाहरी मेमोरी के रूप में इस्तेमाल करना एक प्रभावी रणनीति है।

रिचर्ड सटन का 'कड़वा सबक' (Bitter Lesson) सिखाता है कि जैसे-जैसे मॉडल स्मार्ट होते हैं, हमें अपना कोडेड लॉजिक कम और सरल करना चाहिए।

Claude Code, Codex और Manus जैसे सफल सिस्टम अलग-अलग तरीकों से 'हार्नेस इंजीनियरिंग' को प्राथमिकता दे रहे हैं।

Timeline

भूमिका और सोलो डेवलपर का सफर

डैनियल अपने 8 साल के iOS डेवलपमेंट के अनुभव को साझा करते हैं और बताते हैं कि कैसे वे 2025 के बाद पूरी तरह सोलो हो गए। उन्होंने Swift UI में 15 से ज़्यादा ऐप्स बनाए हैं और अब 'Crafters Lab' नामक प्लेटफॉर्म के माध्यम से सोलो डेवलपर्स की मदद कर रहे हैं। वे इस बात पर ज़ोर देते हैं कि AI को एक वेंडिंग मशीन के बजाय एक असली टीममेट की तरह इस्तेमाल किया जाना चाहिए। उनका मानना है कि सही सवाल यह नहीं है कि कौन सा AI मॉडल सबसे अच्छा है, बल्कि यह है कि आप उसे कैसे इस्तेमाल करते हैं। यह खंड उनके व्यक्तिगत अनुभव और उनके नए प्लेटफॉर्म के उद्देश्यों को स्थापित करता है।

बेंचमार्क की वास्तविकता और एजेंट्स की विफलता

लेखक 'Epic's Agent' नामक एक नए बेंचमार्क का विश्लेषण करते हैं जो एजेंट्स को कोडिंग पज़ल्स के बजाय वास्तविक प्रोफेशनल कामों पर टेस्ट करता है। हैरानी की बात यह है कि जो मॉडल्स सामान्य बेंचमार्क पर 90% स्कोर करते हैं, वे यहाँ केवल 24% से 40% तक ही सफल हो पाते हैं। डेटा से पता चलता है कि एजेंट्स की विफलता का कारण मॉडल की कमज़ोरी नहीं, बल्कि बहुत सारे स्टेप्स के बाद उनका भटक जाना है। वे अक्सर वही गलतियाँ दोहराते हैं जो पहले फेल हो चुकी होती हैं और शुरुआती निर्देशों को भूल जाते हैं। यह खंड स्पष्ट करता है कि असली बाधा मॉडल नहीं, बल्कि उसके आस-पास का ढांचा है।

हार्नेस इंजीनियरिंग: 2026 का मुख्य कौशल

यहाँ 'Harness' (हार्नेस) शब्द को परिभाषित किया गया है, जो मॉडल के टूल्स, एक्सेस और रिकवरी सिस्टम के इंफ्रास्ट्रक्चर को दर्शाता है। OpenAI और Anthropic जैसी बड़ी कंपनियाँ अब 'Harness Engineering' पर ध्यान केंद्रित कर रही हैं क्योंकि असली मूल्य यहीं छिपा है। Vercel का एक उदाहरण दिया गया है जहाँ उन्होंने एक SQL एजेंट से 80% जटिल टूल्स हटा दिए और उसे केवल बेसिक कमांड्स दिए। इस सरलीकरण के परिणामस्वरूप एजेंट की सटीकता 80% से बढ़कर 100% हो गई और वह साढ़े तीन गुना तेज़ हो गया। यह सेक्शन साबित करता है कि कभी-कभी 'कम' ही 'ज़्यादा' होता है जब बात AI आर्किटेक्चर की आती है।

सरलीकरण की शक्ति और बाहरी मेमोरी

Manus जैसी कंपनियों के अनुभवों से पता चलता है कि जटिल राउटिंग लॉजिक और भारी फीचर्स को हटाने से परफॉरमेंस में सुधार होता है। जब एजेंट्स 50 से अधिक टूल कॉल्स करते हैं, तो वे अपनी कॉन्टेक्स्ट विंडो में 'शोर' (noise) के कारण मुख्य सिग्नल खो देते हैं। इसका समाधान फाइल सिस्टम को एक बाहरी मेमोरी के रूप में उपयोग करना है, जैसे कि Claude Code में `claude.md` फाइलों का उपयोग किया जाता है। एजेंट महत्वपूर्ण जानकारी को फाइल में लिखता है और ज़रूरत पड़ने पर उसे दोबारा पढ़ता है ताकि वह अपना लक्ष्य न भूले। यह रणनीति सोलो डेवलपर्स के लिए लंबे कोडिंग सेशन्स को सफल बनाने के लिए महत्वपूर्ण है।

सफल एजेंट सिस्टम की तुलना और 'कड़वा सबक'

इस खंड में OpenAI Codex, Claude Code और Manus के आर्किटेक्चर की तुलना की गई है, जो अलग-अलग होते हुए भी सरलता की ओर इशारा करते हैं। रिचर्ड सटन के 'कड़वे सबक' (Bitter Lesson) का ज़िक्र किया गया है, जो कहता है कि कंप्यूट के साथ स्केल करने वाले तरीके हमेशा मानव-निर्मित जटिल ज्ञान को हरा देते हैं। डैनियल चेतावनी देते हैं कि यदि आप हर मॉडल अपडेट के साथ अधिक कस्टम कोड जोड़ रहे हैं, तो आप गलती कर रहे हैं। जैसे-जैसे मॉडल्स अधिक स्मार्ट होते हैं, आपके द्वारा बनाया गया ढांचा (harness) और भी सरल होना चाहिए। यह दर्शन सोलो डेवलपर्स को अपना कीमती समय सही जगह लगाने के लिए प्रेरित करता है।

कार्य योजना और Crafters Lab के संसाधन

अंत में, लेखक तीन व्यावहारिक सुझाव देते हैं: अपने एजेंट सेटअप को सरल बनाएं, प्रोग्रेस फाइलों का उपयोग करें और MCP (Model Context Protocol) के बारे में सीखें। वे अपने प्लेटफॉर्म crafterslab.dev का विस्तार से परिचय देते हैं, जहाँ Notion टेम्पलेट्स, प्रॉम्ट लाइब्रेरी और 'Swift Brain' जैसी विशेष सामग्री उपलब्ध है। वे इसे एक 'डेवलपर लाउंज' की तरह बताते हैं जहाँ सदस्य असली प्रोजेक्ट्स के पर्दे के पीछे की प्रक्रिया देख सकते हैं। वीडियो इस संदेश के साथ समाप्त होता है कि 2026 हार्नेस का वर्ष होगा और सोलो डेवलपर्स को बेंचमार्क के शोर से बचकर काम करते रहना चाहिए। लेखक दर्शकों को समुदाय में शामिल होने और प्रयोग जारी रखने के लिए आमंत्रित करते हैं।

Community Posts

View all posts