00:00:00अब जब AI एजेंट्स ज़्यादा से ज़्यादा उपयोगी और आम होते जा रहे हैं,
00:00:05कम से कम कुछ कामों के लिए तो ज़रूर, तो मुझे लगता है कि यह देखना दिलचस्प है कि हम कैसे वापस वहीं पहुँच रहे हैं जहाँ से शुरू किया था।
00:00:11मेरा मतलब क्या है, यहाँ देखिए। अगर हम कंप्यूटर और इंटरनेट के इतिहास को
00:00:16समग्र रूप से देखें, तो हम 'इस्तेमाल में आसानी' का एक चार्ट बना सकते हैं जो कुछ ऐसा दिखेगा।
00:00:23बेशक यह पूरी तरह से काल्पनिक है, लेकिन आप शायद मेरी बात समझ जाएंगे। हमने 1970 के दशक में शुरुआत की थी,
00:00:30या उसके आस-पास – मुझे किसी खास साल के लिए टोकिएगा मत – लेकिन शुरुआती दिनों में,
00:00:36जब आपके और मेरे – खैर, मेरा तो जन्म भी नहीं हुआ था – लेकिन जब सामान्य घरों में
00:00:41कंप्यूटर तक नहीं होते थे, तब कंप्यूटर से बातचीत मुख्य रूप से टर्मिनल इंटरफेस के ज़रिए केवल टेक्स्ट में होती थी,
00:00:47अनिवार्य रूप से कमांड-लाइन के माध्यम से। और शानदार ग्राफिकल यूजर इंटरफेस और बेहतरीन
00:00:54वेबसाइटें और वो सब मज़ेदार चीज़ें – सामान्य उपयोगकर्ताओं के लिए बने ऑपरेटिंग सिस्टम – वे सब
00:01:0190 के दशक और 2000 के आसपास शुरू हुए और आज तक विकसित होते रहे। और यह
00:01:09अभी भी विकसित हो रहा है, मुझे गलत मत समझिएगा, मैं यह नहीं कह रहा हूँ कि यह सब खत्म हो रहा है,
00:01:14लेकिन एक बात जो साफ़ दिख रही है और जिसे समझना आसान है, वह यह है कि AI एजेंट्स के साथ
00:01:22सिर्फ टेक्स्ट-इनपुट, टर्मिनल यूजर इंटरफेस, CLI टूल्स, मार्कडाउन, JSON और इन बुनियादी चीज़ों की तरफ वापस जाने का एक मज़बूत रुझान दिख रहा है।
00:01:31और मेरा मतलब सिर्फ यह नहीं है कि हमारे पास Claude Code जैसे टूल्स हैं
00:01:37जिनमें कोई ग्राफिकल यूजर इंटरफेस नहीं है – हालाँकि एक डेस्कटॉप ऐप है लेकिन इसे मुख्य रूप से कमांड-लाइन टूल के रूप में इस्तेमाल किया जाता है –
00:01:43मेरा मतलब सिर्फ इतना नहीं है।
00:01:48इसके बजाय, मेरा मतलब यह है कि ये सभी AI एजेंट्स, ये 'एजेंटिक' टूल्स – आप इन्हें जो भी कहना चाहें –
00:01:54अन्य कमांड-लाइन टूल्स और प्रोग्राम्स के साथ बातचीत करने में बहुत माहिर हैं जिन्हें वे
00:02:02कमांड-लाइन के ज़रिए बुला सकते हैं, उन्हें सरल टेक्स्ट और मार्कडाउन जैसा फ़ॉर्मेटेड टेक्स्ट चाहिए, वहीं वे असल में कमाल करते हैं।
00:02:09और इसीलिए ज़्यादा से ज़्यादा कंपनियाँ – जैसे कि उदाहरण के लिए
00:02:15कुछ घंटे पहले ही, जब मैं इसे रिकॉर्ड कर रहा हूँ, Google ने कई कमांड-लाइन टूल्स जारी किए हैं।
00:02:21जैसे कि Google ने एक Google Workspace CLI जारी किया है। यकीन मानिए या न मानिए, यह अब तक नहीं था
00:02:27और यह एक ऐसा टूल है जिसका उपयोग आप अपनी Google Workspace सेवाओं जैसे Gmail, Google Drive के साथ
00:02:35एक आधिकारिक CLI के माध्यम से बातचीत करने के लिए कर सकते हैं। अब पहले से ही अन्य समाधान उपलब्ध थे – जैसे
00:02:41OpenClaw के निर्माता पीटर स्टीनबर्गर का GOG CLI – उन्होंने इसे इसलिए बनाया था
00:02:48क्योंकि वे Google सेवाओं के साथ जुड़ने का एक प्रोग्रामेटिक और CLI-आधारित तरीका चाहते थे जो कि
00:02:54कुछ घंटों पहले तक मौजूद नहीं था, लेकिन अब यह है। और यह Google द्वारा प्रायोजित वीडियो नहीं है,
00:02:59बस यह देखना दिलचस्प है कि सेवाएँ देने वाली ज़्यादा से ज़्यादा कंपनियाँ इस तरह के टूल्स जारी कर रही हैं।
00:03:04MCP सर्वर्स भी कुछ ऐसी ही चीज़ होंगे,
00:03:11हालाँकि मेरी राय में MCP के कई नुकसान हैं और मुझे पूरा विश्वास है कि भविष्य में हम CLI टूल्स
00:03:18और APIs को देखेंगे – और आख़िरकार CLI टूल्स भी APIs को ही कवर करते हैं – एजेंटिक टूल्स के माध्यम से
00:03:27सेवाओं का उपयोग करने के मुख्य तरीके के रूप में। और मैं जो कह रहा हूँ उसका एक ठोस उदाहरण यहाँ है।
00:03:32पिछले कुछ दिनों और हफ्तों से मैं PyCoding एजेंट के साथ काम कर रहा हूँ।
00:03:37PyCoding एजेंट, आप कह सकते हैं कि Codex या Claude Code का एक विकल्प है। यह एक अच्छे तरीके से सरल है,
00:03:46सुविधाओं के मामले में थोड़ा सीमित है लेकिन बहुत शक्तिशाली है और आप इसे अपने Codex सब्सक्रिप्शन के साथ उपयोग कर सकते हैं।
00:03:51अब यह वीडियो मुख्य रूप से इस एजेंट के बारे में नहीं है और
00:03:57इससे कोई फर्क नहीं पड़ता कि आप इसका उपयोग करते हैं या Codex, Cursor या किसी और का, वे सभी आपका काम कर सकते हैं।
00:04:01लेकिन मुझे यह टूल भी बहुत पसंद है और सबसे ज़रूरी बात, Claude Code और Codex की तरह ही
00:04:07आप इस टूल का उपयोग इसके नाम के बावजूद कोडिंग के अलावा अन्य कार्यों के लिए भी कर सकते हैं। उदाहरण के लिए,
00:04:13वास्तव में यही Py एजेंट आंतरिक रूप से OpenClaw द्वारा उपयोग किया जा रहा है। तो यह OpenClaw का दिल है,
00:04:19उसका तार्किक केंद्र कह सकते हैं। और फिर OpenClaw ने निश्चित रूप से इसमें बहुत कुछ और जोड़ा है
00:04:24जैसे मेमोरी और टेलीग्राम और व्हाट्सएप जैसे चैनल्स और वो सब मज़ेदार चीज़ें। लेकिन
00:04:30यह एक ऐसा एजेंटिक टूल है जिसे आप काम करने के लिए अपने सिस्टम पर चला सकते हैं। आप
00:04:35बेशक अपना खुद का एजेंट भी बना सकते हैं। और मेरा इस पर एक कोर्स भी है जहाँ मैं यह बताता हूँ कि AI
00:04:40एजेंट्स वास्तव में कैसे काम करते हैं और वर्कफ़्लो से उनका क्या अंतर है, क्योंकि अक्सर आप शायद वर्कफ़्लो चाहते हैं,
00:04:44असली एजेंट नहीं। लेकिन अगर आप इस बारे में गहराई से जानना चाहते हैं तो मेरा एक कोर्स है।
00:04:49अगर आप इन टूल्स के बारे में और सीखना चाहते हैं तो मेरे पास Claude Code और Codex पर भी कोर्सेस हैं।
00:04:54लेकिन आप कोई भी टूल इस्तेमाल कर रहे हों, जो बात वास्तव में दिलचस्प और साफ़ दिख रही है,
00:04:58वह यह है कि वे अन्य CLI टूल्स के साथ कितनी अच्छी तरह बातचीत कर सकते हैं। जो कि समझ में आता है
00:05:03क्योंकि उन्होंने CLI के बहुत सारे काम देखे हैं जैसे curl जैसे CLI टूल्स का उपयोग करना,
00:05:10या cd, ls जैसे कमांड-लाइन कमांड्स, आप जानते ही हैं ये सभी Linux कमांड्स। उन्होंने अपने ट्रेनिंग डेटा में
00:05:16यह सब बहुत देखा है। और उन्होंने सिर्फ मानक Linux कमांड्स ही नहीं देखे हैं जिन्हें वे
00:05:21मुजबानी जानते हैं। बल्कि सबसे महत्वपूर्ण बात यह है कि उन्होंने देखा कि इन टूल्स का उपयोग कैसे करना है। CLI टूल्स को आपस में कैसे जोड़ना है।
00:05:28एक टूल के नतीजों को दूसरे टूल में कैसे भेजना (pipe करना) है। उन्होंने यह सब देखा है और
00:05:35वे इसमें माहिर हैं। उन्होंने यह भी देखा है कि वे किसी टूल के बारे में और जानने के लिए --help का उपयोग कर सकते हैं।
00:05:41और यह उन्हें नए टूल्स का उपयोग करने के लिए भी एक बेहतरीन स्थिति में रखता है। वे टूल्स भी जो उन्होंने
00:05:47अपने ट्रेनिंग डेटा में नहीं देखे हैं, जैसे कि यह नया Google Workspace CLI।
00:05:52ज़ाहिर है कि अगर आप इसे किसी एजेंट के ज़रिए इस्तेमाल करना चाहते हैं, तो उसने इसे अपनी ट्रेनिंग में नहीं देखा होगा।
00:05:57उसे नहीं पता कि इसका उपयोग कैसे करना है। लेकिन अगर आप उसे इसकी ओर इशारा करते हैं, शायद उसे
00:06:01आधिकारिक दस्तावेज़ों का लिंक देते हैं, लेकिन अगर आप ऐसा नहीं भी करते हैं, तो भी वह संभवतः
00:06:05--help का उपयोग करके यह समझ जाएगा कि इसका उपयोग कैसे करना है। क्योंकि यह महज़ एक और CLI टूल है।
00:06:11और लार्ज लैंग्वेज मॉडल्स आख़िरकार इन CLI टूल्स को समझने, उनका वर्णन करने और उपयोग करने में
00:06:17बहुत ही बेहतरीन हैं।
00:06:20और उदाहरण के लिए, कल ही मुझे एक छोटी सी समस्या हुई थी। मुझे एक वेबसाइट पर
00:06:26एक PDF दस्तावेज़ अपलोड करना था। और आप उन साइटों को जानते हैं जो चाहती हैं कि आप बहुत सारे दस्तावेज़
00:06:32एक ही फाइल में अपलोड करें और वह फाइल 5 मेगाबाइट से ज़्यादा बड़ी नहीं होनी चाहिए? हाँ, मैं
00:06:38उन्हीं में से एक साइट पर था। और स्वाभाविक रूप से मुझे उस PDF दस्तावेज़ को कंप्रेस करना था।
00:06:43अब मैं कोई ऐसी वेबसाइट ढूँढने की कोशिश कर सकता था जो यह मेरे लिए कर दे। लेकिन मैं अपनी चीज़ें
00:06:49किसी भी रैंडम वेबसाइट पर अपलोड करने का बहुत बड़ा प्रशंसक नहीं हूँ। तो हाँ, मुझे यकीन नहीं था।
00:06:55मैं यह भी देख सकता था कि मेरे सिस्टम में कोई ऐसा टूल है क्या जो इसमें मेरी मदद कर सके।
00:07:01लेकिन मेरे पास अब Adobe का सब्सक्रिप्शन नहीं है, इसलिए इसमें कुछ शोध करना पड़ता। और शायद अंत में
00:07:07मैं इसे किसी संदिग्ध वेबसाइट पर अपलोड कर देता। खैर, AI के साथ ऐसा नहीं हुआ। बेशक, मैं कोडिंग करके एक छोटा
00:07:13कन्वर्जन/कम्प्रेशन टूल बनाने के लिए Codex या Claude या Cursor का इस्तेमाल कर सकता था। वह शायद
00:07:19काम कर भी जाता। लेकिन मैंने क्या किया, मैंने Py एजेंट चालू किया जिसे मैं अपने
00:07:26Codex सब्सक्रिप्शन के साथ इस्तेमाल कर रहा हूँ। और मैंने बस उससे कहा कि उस PDF फाइल को देखे और कृपया
00:07:33क्वालिटी को जितना हो सके बनाए रखते हुए उसे कंप्रेस कर दे।
00:07:36बस इतना ही था। यहाँ मेरा यही एकमात्र प्रॉम्प्ट था। और वह अनिवार्य रूप से काम पर लग गया,
00:07:41कमांड लाइन में कई कमांड्स चलाए, कुछ छोटी स्क्रिप्ट्स रन कीं। और वैसे, मैं इसे
00:07:46अपने सिस्टम पर चला रहा हूँ, लेकिन मैंने एक गार्डरेल्स एक्सटेंशन इंस्टॉल किया है। Py या PI, जो भी असली नाम हो,
00:07:53उसमें एक्सटेंशन का यह कॉन्सेप्ट है जिन्हें आप इंस्टॉल कर सकते हैं। तो मैंने एक ऐसा एक्सटेंशन इंस्टॉल किया जो
00:07:59एजेंट को मेरी हार्ड ड्राइव डिलीट करने से रोकता है, कम से कम सीधे तरीके से तो। और मैं
00:08:06उसे करीब से देख भी रहा था जब वह बता रहा था कि वह क्या करने वाला है। तो मैंने उसे अपना काम करने दिया
00:08:11और उसने यहाँ बहुत सारी चीज़ें चलाईं। और अंत में वह काम पूरा हो गया। और वास्तव में उसने सफलतापूर्वक
00:08:18इस दस्तावेज़ को कंप्रेस किया और इसे काफी छोटा बना दिया। अब यह शायद सिर्फ एक साधारण उदाहरण है।
00:08:25और इसके विकल्प भी हो सकते थे। मेरा मुद्दा बस यह है कि उसने वह सब कमांड लाइन में,
00:08:29टर्मिनल में हमारे प्रोग्राम्स और कमांड्स का उपयोग करके किया। और बेशक,
00:08:36यह सब बहुत तर्कसंगत लगता है क्योंकि हम कंप्यूटर का उपयोग करने वाले प्रोग्राम्स की बात कर रहे हैं।
00:08:41और ये सभी ग्राफिकल यूजर इंटरफेस और शानदार वेबसाइटें इंसानों के लिए बनाई गई थीं, आपके और मेरे लिए।
00:08:46और यह सब कहीं नहीं जाएगा। लेकिन अगर हम चाहते हैं कि छोटे उपयोगी टूल्स और AI एजेंट्स
00:08:53हमारे सिस्टम पर चलें जो कम से कम हमारे कुछ कामों को कर सकें जो हम अभी कर रहे हैं, तो
00:08:59हमें उन्हें कंप्यूटर का उपयोग करने का एक अधिक कुशल तरीका देना होगा। क्योंकि इंसानों के लिए बना
00:09:03ग्राफिकल यूजर इंटरफेस, ऐप या वेबसाइट किसी कंप्यूटर प्रोग्राम के लिए आदर्श तरीका नहीं है।
00:09:09उसे स्क्रीनशॉट लेना होगा, यह समझना होगा कि बटन कहाँ हैं, माउस को बटन पर ले जाना होगा,
00:09:13उसे क्लिक करना होगा, फिर से स्क्रीनशॉट लेकर देखना होगा कि नए पेज पर क्या है। वह बहुत ही
00:09:18अक्षम है, बहुत सारे टोकन खर्च करता है और बहुत समय लेता है। और मेरा मतलब है,
00:09:24इसीलिए हमारे पास AI एजेंट्स और लार्ज लैंग्वेज मॉडल्स के आने से बहुत पहले से APIs का कॉन्सेप्ट है।
00:09:31क्योंकि अगर हम कोई प्रोग्राम लिख रहे हैं, चाहे वह वेबसाइट हो या ऐप।
00:09:37अगर हम एक प्रोग्राम लिख रहे हैं और हम किसी दूसरे प्रोग्राम या सेवा के साथ जुड़ना चाहते हैं,
00:09:43तो बेशक अतीत में भी हम API का ही उपयोग करते थे और हमने ऐसी स्क्रिप्ट लिखने की कोशिश नहीं की जो
00:09:49इंसानों के लिए बनी वेबसाइट का उपयोग करे। इसीलिए APIs मौजूद हैं और CLIs, कमांड लाइन प्रोग्राम्स,
00:09:56आख़िरकार APIs के चारों ओर बस एक कवर (wrapper) मात्र हैं, कम से कम Google Workspace CLI जैसे CLIs के मामले में।
00:10:03लेकिन यह बिल्कुल वैसा ही प्रोग्राम है जिसे हम चाहते हैं कि एक एजेंट इस्तेमाल करे
00:10:10क्योंकि उसे सुंदर बटनों या ऐसी किसी चीज़ की परवाह नहीं है। उसे काम पूरा करने के लिए
00:10:15विभिन्न कमांड्स चलाने का एक सरल तरीका चाहिए। और इसीलिए यह तर्कसंगत लगता है।
00:10:22बेशक, इसीलिए मार्कडाउन अब पहले से कहीं ज़्यादा महत्वपूर्ण है और इसीलिए
00:10:28ज़्यादातर दस्तावेज़ पेजों पर पहले से ही इस तरह का एक कॉपी बटन होता है, जिससे सामग्री को
00:10:32मार्कडाउन के रूप में कॉपी करना आसान हो जाता है ताकि आप इसे अपने पसंदीदा लार्ज लैंग्वेज मॉडल,
00:10:38चैट सेशन या कोडिंग टूल में पेस्ट कर सकें। इसीलिए कुछ वेबसाइटें URL के अंत में .md जोड़ने की सुविधा भी देती हैं
00:10:46ताकि लेख मार्कडाउन में मिल सके, क्योंकि हम ऐसे भविष्य की ओर बढ़ रहे हैं जहाँ
00:10:52कम से कम कुछ सेवाएँ और सामग्री मुख्य रूप से एजेंट्स द्वारा उपयोग के लिए ही होंगी।
00:10:58मेरा मतलब है, TanStack Start जैसी लाइब्रेरी या फ्रेमवर्क के दस्तावेज़ों को ही ले लीजिए। अगर आप
00:11:03इन दिनों TanStack Start साइट बना रहे हैं, और बेशक इससे फर्क नहीं पड़ता कि आप कौन सा टेक स्टैक
00:11:09इस्तेमाल करते हैं, आप मेरी बात समझ रहे हैं, तो आप संभवतः किसी कोडिंग एजेंट, Cursor या किसी और की मदद से करेंगे।
00:11:15और अगर आप उन एजेंट्स को बताना चाहते हैं कि लाइब्रेरी का उपयोग कैसे करना है, अगर आप उन्हें
00:11:20किसी खास डॉक्यूमेंटेशन आर्टिकल की ओर ले जाना चाहते हैं, तो आप उन्हें इस तरह की वेबसाइट पर नहीं ले जाना चाहेंगे।
00:11:25आप नहीं चाहेंगे कि वे HTML कोड डाउनलोड करें, जो अनावश्यक रूप से बहुत सारे टोकन खर्च करता है।
00:11:32और यही कारण है कि CLI टूल्स और भी महत्वपूर्ण होते जा रहे हैं
00:11:38क्योंकि हम ऐसे भविष्य की ओर बढ़ रहे हैं जहाँ कम से कम कुछ कार्य
00:11:42AI एजेंट्स की मदद से या विशेष रूप से AI एजेंट्स द्वारा किए जाएंगे। जिसका अर्थ यह भी है कि
00:11:49यदि आप किसी प्रकार की सेवा बना रहे हैं जो मुख्य रूप से इंसानों के लिए नहीं है,
00:11:54तो आपको एक CLI बनाने और एक API देने के बारे में गंभीरता से सोचना चाहिए
00:12:02ताकि भविष्य में लोग आपकी सेवा का उपयोग एजेंट्स के माध्यम से कर सकें।
00:12:09और बेशक, हम अभी यहाँ बहुत शुरुआती दौर में हैं। ज़्यादातर लोगों को एजेंट्स की परवाह ही नहीं है।
00:12:14और यह कहना जल्दबाजी होगी कि AI एजेंट्स कितने अच्छे बनेंगे और भविष्य में वे किस तरह के
00:12:20कार्यों को करने में सक्षम होंगे। शायद हम मौजूदा स्तर पर ही अटक जाएं जहाँ वे कुछ काम कर सकते हैं,
00:12:26लेकिन निश्चित रूप से सब कुछ नहीं और उन्हें अभी भी मानवीय निगरानी की आवश्यकता होगी।
00:12:31लेकिन उस स्थिति में भी, ऐसे कार्य हैं जो एजेंट्स द्वारा किए जा सकते हैं और आप उन्हें
00:12:37सही टूल्स देकर और अधिक उपयोगी और शक्तिशाली बना सकते हैं, जो एजेंट्स के लिए हमारी सेवाओं,
00:12:42वेबसाइटों आदि के साथ जुड़ना आसान बना देते हैं। और इसीलिए हम एक तरह से वापस वहीं पहुँच रहे हैं जहाँ से चले थे।
00:12:49जाहिर है, इसका मतलब यह नहीं है कि ग्राफिकल यूजर इंटरफेस
00:12:55और वेबसाइटें खत्म हो रही हैं और शायद हमेशा ऐसे ऐप्स या वेबसाइटें रहेंगी
00:13:01जो इंसानों के इस्तेमाल के लिए बनी हैं और जिन्हें एजेंट्स द्वारा इस्तेमाल करने का कोई मतलब नहीं है।
00:13:07जैसे Netflix। मुझे इसमें कोई बड़ा फ़ायदा नहीं दिखता कि कोई एजेंट मुझे बताए कि कोई खास
00:13:13फिल्म किस बारे में है। मुझे लगता है कि मैं उसे खुद देखना चाहता हूँ। लेकिन कई सेवाओं के लिए, विशेष रूप से SaaS
00:13:21बिजनेस या प्रोफेशनल सर्विस सेक्टर में, यही आगे बढ़ने का रास्ता है।
00:13:28ज़ाहिर है कि अभी शुरुआती दिन हैं, लेकिन यहाँ हम एक स्पष्ट विकास देख सकते हैं। कम से कम
00:13:34यही मेरी राय है। लेकिन हमेशा की तरह, मैं आपकी राय भी जानना चाहता हूँ।
00:13:39तो कृपया इसे साझा करें। मुझे बताएं कि आप इसके बारे में क्या सोचते हैं, मैंने शायद क्या छोड़ दिया या अनदेखा कर दिया।
00:13:44और हाँ, चलिए देखते हैं कि एक या दो साल में CLI टूल्स की दुनिया कैसी दिखती है।