AI एजेंट्स को CLI बहुत पसंद हैं

MMaximilian Schwarzmüller
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00अब जब AI एजेंट्स ज़्यादा से ज़्यादा उपयोगी और आम होते जा रहे हैं,
00:00:05कम से कम कुछ कामों के लिए तो ज़रूर, तो मुझे लगता है कि यह देखना दिलचस्प है कि हम कैसे वापस वहीं पहुँच रहे हैं जहाँ से शुरू किया था।
00:00:11मेरा मतलब क्या है, यहाँ देखिए। अगर हम कंप्यूटर और इंटरनेट के इतिहास को
00:00:16समग्र रूप से देखें, तो हम 'इस्तेमाल में आसानी' का एक चार्ट बना सकते हैं जो कुछ ऐसा दिखेगा।
00:00:23बेशक यह पूरी तरह से काल्पनिक है, लेकिन आप शायद मेरी बात समझ जाएंगे। हमने 1970 के दशक में शुरुआत की थी,
00:00:30या उसके आस-पास – मुझे किसी खास साल के लिए टोकिएगा मत – लेकिन शुरुआती दिनों में,
00:00:36जब आपके और मेरे – खैर, मेरा तो जन्म भी नहीं हुआ था – लेकिन जब सामान्य घरों में
00:00:41कंप्यूटर तक नहीं होते थे, तब कंप्यूटर से बातचीत मुख्य रूप से टर्मिनल इंटरफेस के ज़रिए केवल टेक्स्ट में होती थी,
00:00:47अनिवार्य रूप से कमांड-लाइन के माध्यम से। और शानदार ग्राफिकल यूजर इंटरफेस और बेहतरीन
00:00:54वेबसाइटें और वो सब मज़ेदार चीज़ें – सामान्य उपयोगकर्ताओं के लिए बने ऑपरेटिंग सिस्टम – वे सब
00:01:0190 के दशक और 2000 के आसपास शुरू हुए और आज तक विकसित होते रहे। और यह
00:01:09अभी भी विकसित हो रहा है, मुझे गलत मत समझिएगा, मैं यह नहीं कह रहा हूँ कि यह सब खत्म हो रहा है,
00:01:14लेकिन एक बात जो साफ़ दिख रही है और जिसे समझना आसान है, वह यह है कि AI एजेंट्स के साथ
00:01:22सिर्फ टेक्स्ट-इनपुट, टर्मिनल यूजर इंटरफेस, CLI टूल्स, मार्कडाउन, JSON और इन बुनियादी चीज़ों की तरफ वापस जाने का एक मज़बूत रुझान दिख रहा है।
00:01:31और मेरा मतलब सिर्फ यह नहीं है कि हमारे पास Claude Code जैसे टूल्स हैं
00:01:37जिनमें कोई ग्राफिकल यूजर इंटरफेस नहीं है – हालाँकि एक डेस्कटॉप ऐप है लेकिन इसे मुख्य रूप से कमांड-लाइन टूल के रूप में इस्तेमाल किया जाता है –
00:01:43मेरा मतलब सिर्फ इतना नहीं है।
00:01:48इसके बजाय, मेरा मतलब यह है कि ये सभी AI एजेंट्स, ये 'एजेंटिक' टूल्स – आप इन्हें जो भी कहना चाहें –
00:01:54अन्य कमांड-लाइन टूल्स और प्रोग्राम्स के साथ बातचीत करने में बहुत माहिर हैं जिन्हें वे
00:02:02कमांड-लाइन के ज़रिए बुला सकते हैं, उन्हें सरल टेक्स्ट और मार्कडाउन जैसा फ़ॉर्मेटेड टेक्स्ट चाहिए, वहीं वे असल में कमाल करते हैं।
00:02:09और इसीलिए ज़्यादा से ज़्यादा कंपनियाँ – जैसे कि उदाहरण के लिए
00:02:15कुछ घंटे पहले ही, जब मैं इसे रिकॉर्ड कर रहा हूँ, Google ने कई कमांड-लाइन टूल्स जारी किए हैं।
00:02:21जैसे कि Google ने एक Google Workspace CLI जारी किया है। यकीन मानिए या न मानिए, यह अब तक नहीं था
00:02:27और यह एक ऐसा टूल है जिसका उपयोग आप अपनी Google Workspace सेवाओं जैसे Gmail, Google Drive के साथ
00:02:35एक आधिकारिक CLI के माध्यम से बातचीत करने के लिए कर सकते हैं। अब पहले से ही अन्य समाधान उपलब्ध थे – जैसे
00:02:41OpenClaw के निर्माता पीटर स्टीनबर्गर का GOG CLI – उन्होंने इसे इसलिए बनाया था
00:02:48क्योंकि वे Google सेवाओं के साथ जुड़ने का एक प्रोग्रामेटिक और CLI-आधारित तरीका चाहते थे जो कि
00:02:54कुछ घंटों पहले तक मौजूद नहीं था, लेकिन अब यह है। और यह Google द्वारा प्रायोजित वीडियो नहीं है,
00:02:59बस यह देखना दिलचस्प है कि सेवाएँ देने वाली ज़्यादा से ज़्यादा कंपनियाँ इस तरह के टूल्स जारी कर रही हैं।
00:03:04MCP सर्वर्स भी कुछ ऐसी ही चीज़ होंगे,
00:03:11हालाँकि मेरी राय में MCP के कई नुकसान हैं और मुझे पूरा विश्वास है कि भविष्य में हम CLI टूल्स
00:03:18और APIs को देखेंगे – और आख़िरकार CLI टूल्स भी APIs को ही कवर करते हैं – एजेंटिक टूल्स के माध्यम से
00:03:27सेवाओं का उपयोग करने के मुख्य तरीके के रूप में। और मैं जो कह रहा हूँ उसका एक ठोस उदाहरण यहाँ है।
00:03:32पिछले कुछ दिनों और हफ्तों से मैं PyCoding एजेंट के साथ काम कर रहा हूँ।
00:03:37PyCoding एजेंट, आप कह सकते हैं कि Codex या Claude Code का एक विकल्प है। यह एक अच्छे तरीके से सरल है,
00:03:46सुविधाओं के मामले में थोड़ा सीमित है लेकिन बहुत शक्तिशाली है और आप इसे अपने Codex सब्सक्रिप्शन के साथ उपयोग कर सकते हैं।
00:03:51अब यह वीडियो मुख्य रूप से इस एजेंट के बारे में नहीं है और
00:03:57इससे कोई फर्क नहीं पड़ता कि आप इसका उपयोग करते हैं या Codex, Cursor या किसी और का, वे सभी आपका काम कर सकते हैं।
00:04:01लेकिन मुझे यह टूल भी बहुत पसंद है और सबसे ज़रूरी बात, Claude Code और Codex की तरह ही
00:04:07आप इस टूल का उपयोग इसके नाम के बावजूद कोडिंग के अलावा अन्य कार्यों के लिए भी कर सकते हैं। उदाहरण के लिए,
00:04:13वास्तव में यही Py एजेंट आंतरिक रूप से OpenClaw द्वारा उपयोग किया जा रहा है। तो यह OpenClaw का दिल है,
00:04:19उसका तार्किक केंद्र कह सकते हैं। और फिर OpenClaw ने निश्चित रूप से इसमें बहुत कुछ और जोड़ा है
00:04:24जैसे मेमोरी और टेलीग्राम और व्हाट्सएप जैसे चैनल्स और वो सब मज़ेदार चीज़ें। लेकिन
00:04:30यह एक ऐसा एजेंटिक टूल है जिसे आप काम करने के लिए अपने सिस्टम पर चला सकते हैं। आप
00:04:35बेशक अपना खुद का एजेंट भी बना सकते हैं। और मेरा इस पर एक कोर्स भी है जहाँ मैं यह बताता हूँ कि AI
00:04:40एजेंट्स वास्तव में कैसे काम करते हैं और वर्कफ़्लो से उनका क्या अंतर है, क्योंकि अक्सर आप शायद वर्कफ़्लो चाहते हैं,
00:04:44असली एजेंट नहीं। लेकिन अगर आप इस बारे में गहराई से जानना चाहते हैं तो मेरा एक कोर्स है।
00:04:49अगर आप इन टूल्स के बारे में और सीखना चाहते हैं तो मेरे पास Claude Code और Codex पर भी कोर्सेस हैं।
00:04:54लेकिन आप कोई भी टूल इस्तेमाल कर रहे हों, जो बात वास्तव में दिलचस्प और साफ़ दिख रही है,
00:04:58वह यह है कि वे अन्य CLI टूल्स के साथ कितनी अच्छी तरह बातचीत कर सकते हैं। जो कि समझ में आता है
00:05:03क्योंकि उन्होंने CLI के बहुत सारे काम देखे हैं जैसे curl जैसे CLI टूल्स का उपयोग करना,
00:05:10या cd, ls जैसे कमांड-लाइन कमांड्स, आप जानते ही हैं ये सभी Linux कमांड्स। उन्होंने अपने ट्रेनिंग डेटा में
00:05:16यह सब बहुत देखा है। और उन्होंने सिर्फ मानक Linux कमांड्स ही नहीं देखे हैं जिन्हें वे
00:05:21मुजबानी जानते हैं। बल्कि सबसे महत्वपूर्ण बात यह है कि उन्होंने देखा कि इन टूल्स का उपयोग कैसे करना है। CLI टूल्स को आपस में कैसे जोड़ना है।
00:05:28एक टूल के नतीजों को दूसरे टूल में कैसे भेजना (pipe करना) है। उन्होंने यह सब देखा है और
00:05:35वे इसमें माहिर हैं। उन्होंने यह भी देखा है कि वे किसी टूल के बारे में और जानने के लिए --help का उपयोग कर सकते हैं।
00:05:41और यह उन्हें नए टूल्स का उपयोग करने के लिए भी एक बेहतरीन स्थिति में रखता है। वे टूल्स भी जो उन्होंने
00:05:47अपने ट्रेनिंग डेटा में नहीं देखे हैं, जैसे कि यह नया Google Workspace CLI।
00:05:52ज़ाहिर है कि अगर आप इसे किसी एजेंट के ज़रिए इस्तेमाल करना चाहते हैं, तो उसने इसे अपनी ट्रेनिंग में नहीं देखा होगा।
00:05:57उसे नहीं पता कि इसका उपयोग कैसे करना है। लेकिन अगर आप उसे इसकी ओर इशारा करते हैं, शायद उसे
00:06:01आधिकारिक दस्तावेज़ों का लिंक देते हैं, लेकिन अगर आप ऐसा नहीं भी करते हैं, तो भी वह संभवतः
00:06:05--help का उपयोग करके यह समझ जाएगा कि इसका उपयोग कैसे करना है। क्योंकि यह महज़ एक और CLI टूल है।
00:06:11और लार्ज लैंग्वेज मॉडल्स आख़िरकार इन CLI टूल्स को समझने, उनका वर्णन करने और उपयोग करने में
00:06:17बहुत ही बेहतरीन हैं।
00:06:20और उदाहरण के लिए, कल ही मुझे एक छोटी सी समस्या हुई थी। मुझे एक वेबसाइट पर
00:06:26एक PDF दस्तावेज़ अपलोड करना था। और आप उन साइटों को जानते हैं जो चाहती हैं कि आप बहुत सारे दस्तावेज़
00:06:32एक ही फाइल में अपलोड करें और वह फाइल 5 मेगाबाइट से ज़्यादा बड़ी नहीं होनी चाहिए? हाँ, मैं
00:06:38उन्हीं में से एक साइट पर था। और स्वाभाविक रूप से मुझे उस PDF दस्तावेज़ को कंप्रेस करना था।
00:06:43अब मैं कोई ऐसी वेबसाइट ढूँढने की कोशिश कर सकता था जो यह मेरे लिए कर दे। लेकिन मैं अपनी चीज़ें
00:06:49किसी भी रैंडम वेबसाइट पर अपलोड करने का बहुत बड़ा प्रशंसक नहीं हूँ। तो हाँ, मुझे यकीन नहीं था।
00:06:55मैं यह भी देख सकता था कि मेरे सिस्टम में कोई ऐसा टूल है क्या जो इसमें मेरी मदद कर सके।
00:07:01लेकिन मेरे पास अब Adobe का सब्सक्रिप्शन नहीं है, इसलिए इसमें कुछ शोध करना पड़ता। और शायद अंत में
00:07:07मैं इसे किसी संदिग्ध वेबसाइट पर अपलोड कर देता। खैर, AI के साथ ऐसा नहीं हुआ। बेशक, मैं कोडिंग करके एक छोटा
00:07:13कन्वर्जन/कम्प्रेशन टूल बनाने के लिए Codex या Claude या Cursor का इस्तेमाल कर सकता था। वह शायद
00:07:19काम कर भी जाता। लेकिन मैंने क्या किया, मैंने Py एजेंट चालू किया जिसे मैं अपने
00:07:26Codex सब्सक्रिप्शन के साथ इस्तेमाल कर रहा हूँ। और मैंने बस उससे कहा कि उस PDF फाइल को देखे और कृपया
00:07:33क्वालिटी को जितना हो सके बनाए रखते हुए उसे कंप्रेस कर दे।
00:07:36बस इतना ही था। यहाँ मेरा यही एकमात्र प्रॉम्प्ट था। और वह अनिवार्य रूप से काम पर लग गया,
00:07:41कमांड लाइन में कई कमांड्स चलाए, कुछ छोटी स्क्रिप्ट्स रन कीं। और वैसे, मैं इसे
00:07:46अपने सिस्टम पर चला रहा हूँ, लेकिन मैंने एक गार्डरेल्स एक्सटेंशन इंस्टॉल किया है। Py या PI, जो भी असली नाम हो,
00:07:53उसमें एक्सटेंशन का यह कॉन्सेप्ट है जिन्हें आप इंस्टॉल कर सकते हैं। तो मैंने एक ऐसा एक्सटेंशन इंस्टॉल किया जो
00:07:59एजेंट को मेरी हार्ड ड्राइव डिलीट करने से रोकता है, कम से कम सीधे तरीके से तो। और मैं
00:08:06उसे करीब से देख भी रहा था जब वह बता रहा था कि वह क्या करने वाला है। तो मैंने उसे अपना काम करने दिया
00:08:11और उसने यहाँ बहुत सारी चीज़ें चलाईं। और अंत में वह काम पूरा हो गया। और वास्तव में उसने सफलतापूर्वक
00:08:18इस दस्तावेज़ को कंप्रेस किया और इसे काफी छोटा बना दिया। अब यह शायद सिर्फ एक साधारण उदाहरण है।
00:08:25और इसके विकल्प भी हो सकते थे। मेरा मुद्दा बस यह है कि उसने वह सब कमांड लाइन में,
00:08:29टर्मिनल में हमारे प्रोग्राम्स और कमांड्स का उपयोग करके किया। और बेशक,
00:08:36यह सब बहुत तर्कसंगत लगता है क्योंकि हम कंप्यूटर का उपयोग करने वाले प्रोग्राम्स की बात कर रहे हैं।
00:08:41और ये सभी ग्राफिकल यूजर इंटरफेस और शानदार वेबसाइटें इंसानों के लिए बनाई गई थीं, आपके और मेरे लिए।
00:08:46और यह सब कहीं नहीं जाएगा। लेकिन अगर हम चाहते हैं कि छोटे उपयोगी टूल्स और AI एजेंट्स
00:08:53हमारे सिस्टम पर चलें जो कम से कम हमारे कुछ कामों को कर सकें जो हम अभी कर रहे हैं, तो
00:08:59हमें उन्हें कंप्यूटर का उपयोग करने का एक अधिक कुशल तरीका देना होगा। क्योंकि इंसानों के लिए बना
00:09:03ग्राफिकल यूजर इंटरफेस, ऐप या वेबसाइट किसी कंप्यूटर प्रोग्राम के लिए आदर्श तरीका नहीं है।
00:09:09उसे स्क्रीनशॉट लेना होगा, यह समझना होगा कि बटन कहाँ हैं, माउस को बटन पर ले जाना होगा,
00:09:13उसे क्लिक करना होगा, फिर से स्क्रीनशॉट लेकर देखना होगा कि नए पेज पर क्या है। वह बहुत ही
00:09:18अक्षम है, बहुत सारे टोकन खर्च करता है और बहुत समय लेता है। और मेरा मतलब है,
00:09:24इसीलिए हमारे पास AI एजेंट्स और लार्ज लैंग्वेज मॉडल्स के आने से बहुत पहले से APIs का कॉन्सेप्ट है।
00:09:31क्योंकि अगर हम कोई प्रोग्राम लिख रहे हैं, चाहे वह वेबसाइट हो या ऐप।
00:09:37अगर हम एक प्रोग्राम लिख रहे हैं और हम किसी दूसरे प्रोग्राम या सेवा के साथ जुड़ना चाहते हैं,
00:09:43तो बेशक अतीत में भी हम API का ही उपयोग करते थे और हमने ऐसी स्क्रिप्ट लिखने की कोशिश नहीं की जो
00:09:49इंसानों के लिए बनी वेबसाइट का उपयोग करे। इसीलिए APIs मौजूद हैं और CLIs, कमांड लाइन प्रोग्राम्स,
00:09:56आख़िरकार APIs के चारों ओर बस एक कवर (wrapper) मात्र हैं, कम से कम Google Workspace CLI जैसे CLIs के मामले में।
00:10:03लेकिन यह बिल्कुल वैसा ही प्रोग्राम है जिसे हम चाहते हैं कि एक एजेंट इस्तेमाल करे
00:10:10क्योंकि उसे सुंदर बटनों या ऐसी किसी चीज़ की परवाह नहीं है। उसे काम पूरा करने के लिए
00:10:15विभिन्न कमांड्स चलाने का एक सरल तरीका चाहिए। और इसीलिए यह तर्कसंगत लगता है।
00:10:22बेशक, इसीलिए मार्कडाउन अब पहले से कहीं ज़्यादा महत्वपूर्ण है और इसीलिए
00:10:28ज़्यादातर दस्तावेज़ पेजों पर पहले से ही इस तरह का एक कॉपी बटन होता है, जिससे सामग्री को
00:10:32मार्कडाउन के रूप में कॉपी करना आसान हो जाता है ताकि आप इसे अपने पसंदीदा लार्ज लैंग्वेज मॉडल,
00:10:38चैट सेशन या कोडिंग टूल में पेस्ट कर सकें। इसीलिए कुछ वेबसाइटें URL के अंत में .md जोड़ने की सुविधा भी देती हैं
00:10:46ताकि लेख मार्कडाउन में मिल सके, क्योंकि हम ऐसे भविष्य की ओर बढ़ रहे हैं जहाँ
00:10:52कम से कम कुछ सेवाएँ और सामग्री मुख्य रूप से एजेंट्स द्वारा उपयोग के लिए ही होंगी।
00:10:58मेरा मतलब है, TanStack Start जैसी लाइब्रेरी या फ्रेमवर्क के दस्तावेज़ों को ही ले लीजिए। अगर आप
00:11:03इन दिनों TanStack Start साइट बना रहे हैं, और बेशक इससे फर्क नहीं पड़ता कि आप कौन सा टेक स्टैक
00:11:09इस्तेमाल करते हैं, आप मेरी बात समझ रहे हैं, तो आप संभवतः किसी कोडिंग एजेंट, Cursor या किसी और की मदद से करेंगे।
00:11:15और अगर आप उन एजेंट्स को बताना चाहते हैं कि लाइब्रेरी का उपयोग कैसे करना है, अगर आप उन्हें
00:11:20किसी खास डॉक्यूमेंटेशन आर्टिकल की ओर ले जाना चाहते हैं, तो आप उन्हें इस तरह की वेबसाइट पर नहीं ले जाना चाहेंगे।
00:11:25आप नहीं चाहेंगे कि वे HTML कोड डाउनलोड करें, जो अनावश्यक रूप से बहुत सारे टोकन खर्च करता है।
00:11:32और यही कारण है कि CLI टूल्स और भी महत्वपूर्ण होते जा रहे हैं
00:11:38क्योंकि हम ऐसे भविष्य की ओर बढ़ रहे हैं जहाँ कम से कम कुछ कार्य
00:11:42AI एजेंट्स की मदद से या विशेष रूप से AI एजेंट्स द्वारा किए जाएंगे। जिसका अर्थ यह भी है कि
00:11:49यदि आप किसी प्रकार की सेवा बना रहे हैं जो मुख्य रूप से इंसानों के लिए नहीं है,
00:11:54तो आपको एक CLI बनाने और एक API देने के बारे में गंभीरता से सोचना चाहिए
00:12:02ताकि भविष्य में लोग आपकी सेवा का उपयोग एजेंट्स के माध्यम से कर सकें।
00:12:09और बेशक, हम अभी यहाँ बहुत शुरुआती दौर में हैं। ज़्यादातर लोगों को एजेंट्स की परवाह ही नहीं है।
00:12:14और यह कहना जल्दबाजी होगी कि AI एजेंट्स कितने अच्छे बनेंगे और भविष्य में वे किस तरह के
00:12:20कार्यों को करने में सक्षम होंगे। शायद हम मौजूदा स्तर पर ही अटक जाएं जहाँ वे कुछ काम कर सकते हैं,
00:12:26लेकिन निश्चित रूप से सब कुछ नहीं और उन्हें अभी भी मानवीय निगरानी की आवश्यकता होगी।
00:12:31लेकिन उस स्थिति में भी, ऐसे कार्य हैं जो एजेंट्स द्वारा किए जा सकते हैं और आप उन्हें
00:12:37सही टूल्स देकर और अधिक उपयोगी और शक्तिशाली बना सकते हैं, जो एजेंट्स के लिए हमारी सेवाओं,
00:12:42वेबसाइटों आदि के साथ जुड़ना आसान बना देते हैं। और इसीलिए हम एक तरह से वापस वहीं पहुँच रहे हैं जहाँ से चले थे।
00:12:49जाहिर है, इसका मतलब यह नहीं है कि ग्राफिकल यूजर इंटरफेस
00:12:55और वेबसाइटें खत्म हो रही हैं और शायद हमेशा ऐसे ऐप्स या वेबसाइटें रहेंगी
00:13:01जो इंसानों के इस्तेमाल के लिए बनी हैं और जिन्हें एजेंट्स द्वारा इस्तेमाल करने का कोई मतलब नहीं है।
00:13:07जैसे Netflix। मुझे इसमें कोई बड़ा फ़ायदा नहीं दिखता कि कोई एजेंट मुझे बताए कि कोई खास
00:13:13फिल्म किस बारे में है। मुझे लगता है कि मैं उसे खुद देखना चाहता हूँ। लेकिन कई सेवाओं के लिए, विशेष रूप से SaaS
00:13:21बिजनेस या प्रोफेशनल सर्विस सेक्टर में, यही आगे बढ़ने का रास्ता है।
00:13:28ज़ाहिर है कि अभी शुरुआती दिन हैं, लेकिन यहाँ हम एक स्पष्ट विकास देख सकते हैं। कम से कम
00:13:34यही मेरी राय है। लेकिन हमेशा की तरह, मैं आपकी राय भी जानना चाहता हूँ।
00:13:39तो कृपया इसे साझा करें। मुझे बताएं कि आप इसके बारे में क्या सोचते हैं, मैंने शायद क्या छोड़ दिया या अनदेखा कर दिया।
00:13:44और हाँ, चलिए देखते हैं कि एक या दो साल में CLI टूल्स की दुनिया कैसी दिखती है।

Key Takeaway

जैसे-जैसे AI एजेंट्स का उपयोग बढ़ रहा है, तकनीक का भविष्य जटिल ग्राफिकल इंटरफेस से हटकर सरल और कुशल कमांड-लाइन टूल्स (CLI) की ओर वापस जा रहा है।

Highlights

AI एजेंट्स के उदय के साथ हम वापस टेक्स्ट-आधारित कमांड-लाइन इंटरफेस (CLI) की ओर बढ़ रहे हैं।

ग्राफिकल यूजर इंटरफेस (GUI) इंसानों के लिए हैं, लेकिन AI एजेंट्स के लिए CLI और API अधिक कुशल और तेज़ हैं।

Google ने हाल ही में Workspace CLI जारी किया है, जो इस बात का संकेत है कि बड़ी कंपनियाँ एजेंट-अनुकूल टूल बना रही हैं।

AI मॉडल (LLMs) CLI टूल्स को समझने, --help कमांड का उपयोग करने और पाइपिंग के माध्यम से उन्हें जोड़ने में माहिर हैं।

मार्कडाउन और सरल टेक्स्ट डेटा अब और भी महत्वपूर्ण हो गए हैं क्योंकि वे AI के लिए कम टोकन खर्च करते हैं।

भविष्य में SaaS और व्यावसायिक सेवाओं को सफल होने के लिए CLI और API प्रदान करना आवश्यक होगा।

Timeline

CLI की ओर वापसी का परिचय

वक्ता इस बात से शुरुआत करते हैं कि AI एजेंट्स की लोकप्रियता के कारण हम कंप्यूटिंग के शुरुआती दिनों की तरह टेक्स्ट-आधारित इंटरफेस की ओर लौट रहे हैं। 1970 के दशक के टर्मिनल इंटरफेस से लेकर 90 के दशक के ग्राफिकल यूजर इंटरफेस (GUI) तक के इतिहास का संक्षेप में वर्णन किया गया है। लेखक का तर्क है कि हालांकि GUI का विकास जारी है, लेकिन AI के साथ टेक्स्ट-इनपुट, मार्कडाउन और JSON की तरफ एक मजबूत रुझान दिख रहा है। यह खंड स्थापित करता है कि कैसे तकनीकी विकास का चक्र वापस वहीं पहुँच रहा है जहाँ से वह शुरू हुआ था। यह परिवर्तन सामान्य उपयोगकर्ताओं के बजाय मुख्य रूप से मशीनों और एजेंटों द्वारा कंप्यूटर के उपयोग के तरीके पर आधारित है।

एजेंटिक टूल्स और Google Workspace CLI

इस अनुभाग में बताया गया है कि AI एजेंट्स कमांड-लाइन के माध्यम से अन्य प्रोग्राम्स के साथ बातचीत करने में बहुत सक्षम हैं। Google द्वारा हाल ही में जारी किए गए आधिकारिक Workspace CLI का उदाहरण दिया गया है, जो Gmail और Drive जैसी सेवाओं को CLI के माध्यम से नियंत्रित करने की अनुमति देता है। वक्ता बताते हैं कि इससे पहले GOG CLI जैसे अनौपचारिक समाधान मौजूद थे, लेकिन अब बड़ी कंपनियाँ खुद ऐसे टूल्स को प्राथमिकता दे रही हैं। MCP (Model Context Protocol) सर्वर का भी उल्लेख किया गया है, जो भविष्य में सेवाओं के उपयोग का एक मुख्य तरीका बन सकते हैं। यह हिस्सा दिखाता है कि कैसे कंपनियाँ अपने बुनियादी ढांचे को एजेंट-अनुकूल बनाने के लिए बदल रही हैं।

PyCoding एजेंट और CLI की शक्ति

वक्ता PyCoding एजेंट (या Py एजेंट) के साथ अपने अनुभव साझा करते हैं, जो Claude Code या Codex का एक सरल लेकिन शक्तिशाली विकल्प है। वे स्पष्ट करते हैं कि ये टूल्स केवल कोडिंग तक सीमित नहीं हैं, बल्कि विभिन्न CLI टूल्स और Linux कमांड्स (जैसे curl, cd, ls) का उपयोग करने में माहिर हैं। AI मॉडल्स ने अपने ट्रेनिंग डेटा में इन कमांड्स को बहुत देखा है और वे जानते हैं कि पाइपिंग के जरिए इन्हें आपस में कैसे जोड़ना है। सबसे महत्वपूर्ण बात यह है कि एजेंट किसी अज्ञात टूल को समझने के लिए --help कमांड का उपयोग कर सकते हैं। यह खंड LLMs की नई CLI टूल्स के साथ तालमेल बिठाने की प्राकृतिक क्षमता पर प्रकाश डालता है।

व्यावहारिक उदाहरण: PDF कम्प्रेशन

यहाँ एक वास्तविक जीवन की समस्या का वर्णन है जहाँ वक्ता को अपनी गोपनीयता से समझौता किए बिना एक PDF फाइल को कंप्रेस करना था। किसी संदिग्ध वेबसाइट पर फाइल अपलोड करने के बजाय, उन्होंने Py एजेंट का उपयोग किया और उसे केवल फाइल को छोटा करने का निर्देश दिया। एजेंट ने कमांड लाइन में कई छोटी स्क्रिप्ट्स और कमांड्स चलाकर सफलतापूर्वक काम पूरा कर लिया। सुरक्षा सुनिश्चित करने के लिए 'गार्डरेल्स' एक्सटेंशन का उपयोग किया गया था ताकि एजेंट सिस्टम को नुकसान न पहुँचा सके। यह उदाहरण साबित करता है कि CLI-आधारित एजेंट्स जटिल मानवीय कार्यों को कितनी सहजता से निपटा सकते हैं। यह दर्शाता है कि एक साधारण टेक्स्ट प्रॉम्प्ट कैसे जटिल CLI ऑपरेशन्स को ट्रिगर कर सकता है।

GUI बनाम CLI: कार्यक्षमता का अंतर

लेखक समझाते हैं कि इंसानों के लिए बनाए गए GUI (बटन, स्क्रीनशॉट, माउस क्लिक) AI के लिए बहुत अक्षम हैं क्योंकि उनमें बहुत अधिक समय और टोकन खर्च होते हैं। प्रोग्राम्स के बीच संचार के लिए APIs हमेशा से मौजूद रहे हैं और CLI इन्ही APIs के ऊपर एक सरल आवरण की तरह काम करते हैं। AI एजेंट्स को सुंदर बटनों की कोई आवश्यकता नहीं है; उन्हें केवल कार्य पूरा करने के लिए सीधा और सरल रास्ता चाहिए। यही कारण है कि मार्कडाउन अब पहले से कहीं अधिक महत्वपूर्ण हो गया है क्योंकि इसे कॉपी और पेस्ट करना मशीनों के लिए आसान है। यह खंड इस बात पर जोर देता है कि डिजिटल सामग्री का भविष्य 'एजेंट-उपभोग' के लिए तैयार किया जा रहा है।

निष्कर्ष और भविष्य की दिशा

वीडियो के समापन में वक्ता सलाह देते हैं कि यदि आप कोई नई सेवा या SaaS बना रहे हैं, तो CLI और API देना अनिवार्य है। हालांकि अभी भी शुरुआती दिन हैं और मानवीय निगरानी की आवश्यकता है, लेकिन व्यावसायिक सेवाओं के क्षेत्र में यह एक स्पष्ट विकासवादी पथ है। लेखक स्पष्ट करते हैं कि Netflix जैसी मनोरंजक सेवाएँ हमेशा इंसानों के लिए रहेंगी, लेकिन उत्पादकता वाले काम एजेंट ही करेंगे। वे दर्शकों से उनकी राय मांगते हैं और भविष्य में CLI टूल्स की दुनिया में होने वाले बदलावों को देखने की उत्सुकता व्यक्त करते हैं। कुल मिलाकर, यह खंड एक 'एजेंट-फर्स्ट' विकास दृष्टिकोण अपनाने की प्रेरणा देता है।

Community Posts

View all posts