00:00:00क्लाउड कोड को एक आदिमानव की तरह बात करने पर मजबूर करना न केवल आपके टोकन बचा सकता है,
00:00:04बल्कि यह वास्तव में आपके परफॉरमेंस में भी सुधार कर सकता है। अब सतही तौर पर,
00:00:07यह पूरी तरह से एक मीम जैसा लगता है। हमारे पास "caveman" नाम का एक GitHub रेपो है।
00:00:12जिसे 72 घंटों में 5,000 स्टार्स मिले हैं।
00:00:15और यह बस क्लाउड कोड को एक निएंडरथल की तरह बात करने के लिए मजबूर करता है।
00:00:19यह सभी फालतू शब्दों को छाँट देता है। विचार यह है कि इसे अधिक संक्षिप्त बनाकर,
00:00:24हम इस प्रक्रिया में ढेर सारे टोकन बचाते हैं,
00:00:27लेकिन इस रेपो में एक रिसर्च पेपर का लिंक छिपा है जो अभी कुछ
00:00:31हफ़्ते पहले ही आया है,
00:00:31जो हमें बताता है कि अगर हम अपने लार्ज लैंग्वेज मॉडल्स को अधिक संक्षिप्त होने के लिए मजबूर करते हैं,
00:00:36तो हम न केवल टोकन बचाते हैं, बल्कि हम उनके परफॉरमेंस में नाटकीय रूप से सुधार कर सकते हैं।
00:00:40तो आज मैं इस पूरे "caveman" कौशल का विश्लेषण करने जा रहा हूँ।
00:00:42मैं यह समझाने जा रहा हूँ कि यह वास्तव में आपको क्या लाभ देता है क्योंकि रेपो में दिए गए नंबर
00:00:46थोड़े भ्रामक हैं और हम इस रिसर्च पेपर पर चर्चा करेंगे ताकि आप
00:00:50समझ सकें कि आपके लिए इसका वास्तव में क्या मतलब है। तो यह है caveman,
00:00:54हमारा "क्यों कहें अधिक शब्द जब कम शब्द करें काम" रेपो।
00:00:58अब, शुरुआत में ही, यह क्या कर रहा है? बहुत सरल है,
00:01:02फालतू क्लाउड कोड को काट रहा है। अब यह एक आदिमानव की तरह बात करता है।
00:01:07यह हमें कुछ पहले और बाद के उदाहरण देता है, टोकन का अंतर दिखाता है और यहाँ तक कि
00:01:11एक पूरी बेंचमार्क लिस्ट भी है जो उन कार्यों को दिखाती है। इसने क्लाउड कोड को दिया,
00:01:15रिएक्ट री-एंटर बग समझाओ, इस्तेमाल होने वाले सामान्य टोकन,
00:01:19caveman टोकन और बचाई गई मात्रा।
00:01:21अब इस रेपो में पेश किए गए आंकड़े काफी हैरान करने वाले हैं।
00:01:23तो वे दावा कर रहे हैं कि इस कौशल के साथ,
00:01:26हम पूर्ण तकनीकी सटीकता बनाए रखते हुए 75% आउटपुट टोकन
00:01:30कम करने जा रहे हैं।
00:01:31यह caveman इस बात को नहीं बदलता कि क्लाउड कोड अंदरूनी तौर पर कैसे तर्क करता है।
00:01:35यह इस बात को नहीं बदलता कि यह वास्तव में कोड कैसे जेनरेट करता है। उनमें से कुछ भी नहीं बदलता।
00:01:38यह सिर्फ आउटपुट है। जो आप प्रतिक्रिया के रूप में देखते हैं।
00:01:41इसमें एक साथी टूल भी शामिल है जो आपकी मेमोरी फाइलों को कंप्रेस करता है।
00:01:45सोचिए claud.md को caveman भाषा में बदलना।
00:01:47और इससे हर सेशन में हमारे इनपुट टोकन में 45% की कमी आने की उम्मीद है।
00:01:52अब स्पष्ट हो जाएं। आप अपने कुल आउटपुट टोकन में 75% की कटौती नहीं कर रहे हैं,
00:01:57और कुल मिलाकर इनपुट टोकन में 45% की बिल्कुल नहीं। यह पूरी तरह से सच नहीं है।
00:02:01भले ही हम इन चीजों को देख सकते हैं जो कहती हैं, अरे,
00:02:03यह रिएक्ट री-एंटर बग को समझाने के तरीके पर 87% टोकन बचाता है।
00:02:07क्लाउड कोड से आपको जो प्रॉम्प्ट वापस मिलता है, वह प्रतिक्रिया स्वयं,
00:02:11वह टेक्स्ट बड़े पैमाने पर आउटपुट टोकन का एक छोटा सा हिस्सा है,
00:02:15ठीक वैसे ही जैसे मेमोरी फाइलें,
00:02:17claud.md की तरह, बड़े पैमाने पर इनपुट का एक छोटा सा हिस्सा है।
00:02:21तो चलिए बहुत स्पष्ट हो जाते हैं कि यह वास्तव में टोकन स्केल पर हमें क्या दे रहा है।
00:02:25आप अपने कुल टोकन का 80% नहीं बचा रहे हैं। और इसे थोड़ा और स्पष्ट करने के लिए,
00:02:28आइए आपके औसत एक लाख टोकन वाले क्लाउड कोड सेशन का विश्लेषण करें। अब,
00:02:32मैं समझता हूँ कि हर सेशन थोड़ा अलग होता है, लेकिन बस यहाँ मेरा साथ दें।
00:02:36हमारे पास एक लाख टोकन का सेशन है, और इसे दो भागों में बांटा गया है।
00:02:40इनपुट, जो कि सबसे बड़ा हिस्सा है।
00:02:42वह 75,000 टोकन है और आउटपुट, जो 25% है।
00:02:46अब caveman दावा कर रहा है कि हम आउटपुट को 75% कम करने जा रहे हैं।
00:02:51यह सच नहीं है। अगर हम आउटपुट पर नज़र डालें, तो यह वास्तव में तीन भागों में है, है ना?
00:02:56हमारे पास टूल कॉल हैं, जो इसका एक हिस्सा लेती हैं, कोड ब्लॉक हैं,
00:02:59जैसे वास्तविक कोड जनरेशन, जो इसका एक हिस्सा लेते हैं।
00:03:02और फिर वास्तविक गद्य (pros) प्रतिक्रियाएं, यह प्रतिक्रिया,
00:03:06वह टेक्स्ट रिस्पॉन्स इंटरनल, जिसे caveman एडजस्ट कर रहा है।
00:03:10यही वह है जिसे यह कम कर रहा है। यह उसका 75% कम कर सकता है। आप जानते हैं,
00:03:13अगर हम यहाँ नीचे जाएं, तो हम देख सकते हैं, ठीक है,
00:03:16तो सामान्य तौर पर गद्य छह हजार टोकन लेता है, caveman के साथ।
00:03:20हम 4,000 टोकन बचाते हैं। तो हमें 4% की कमी मिलती है। वह फिर भी बहुत अच्छा है।
00:03:25अगर हम पूरे सप्ताह के दौरान अपने कुल टोकन का 4% बचा रहे हैं,
00:03:29तो यह निश्चित रूप से जुड़ता जाता है,
00:03:30खासकर वर्तमान वातावरण में जहाँ हम सभी अपने उपयोग के प्रति इतने सचेत हैं।
00:03:33लेकिन समझें कि यह 87% नहीं है। यह 70% है,
00:03:38कुल सेशन के एक हिस्से के एक हिस्से का 60%।
00:03:43इसके अलावा,
00:03:44अगर आप इनपुट को देखें और यह caveman कंप्रेशन द्वारा 45% बचाने की बात करता है,
00:03:49तो फिर से, वास्तव में ऐसा नहीं है।
00:03:50हम सिस्टम प्रॉम्प्ट क्षेत्र की बात कर रहे हैं और सिस्टम प्रॉम्प्ट के केवल
00:03:54कुछ हिस्सों की। तो यहाँ कुल मिलाकर, क्या? हम शायद एक हजार टोकन बचा रहे हैं,
00:03:58शायद 2000 टोकन। और एक पूरे सेशन के दौरान।
00:04:03अगर मैं 5,000 टोकन कहता हूँ, हर सेशन का 5%, तो वह बढ़िया है, अच्छी बात है,
00:04:07लेकिन यह उन भारी-भरकम नंबरों जैसा नहीं है। तो इसे ध्यान में रखें,
00:04:13यह एक मामूली सुधार वाला खेल है। यह पूरी तरह से बदलाव नहीं है।
00:04:15आप ऐसा नहीं कर पाएंगे कि सीधे 5 गुना मैक्स प्लान से 20 गुना मैक्स
00:04:19प्लान पर चले जाएं क्योंकि हम 75% बचा रहे हैं। नहीं, नहीं, नहीं, नहीं,
00:04:22लेकिन यहाँ अभी भी जोड़ने के लिए बहुत सारी वैल्यू है और इससे और भी अधिक वैल्यू
00:04:25निकाली जा सकती है। एक बार जब हम स्टडी पर नज़र डालेंगे, तो यह यहाँ कहीं दबी हुई है।
00:04:29इसके लिए एक छोटा सा सेक्शन समर्पित है,
00:04:31लेकिन यह एक स्टडी है जिसका नाम है "brevity constraints,
00:04:34reverse performance hierarchies and language models"।
00:04:36और यह इस साल मार्च की शुरुआत में आई थी।
00:04:38तो मैं स्टडी का एक लिंक डिस्क्रिप्शन में डाल दूंगा अगर आप इसे देखना चाहते हैं,
00:04:41लेकिन आइए इसके बारे में जल्दी से बात करते हैं क्योंकि यह वास्तव में दिलचस्प है।
00:04:45क्योंकि विचार और उम्मीद यह है कि बड़ा मॉडल,
00:04:49छोटे मॉडल से हमेशा बेहतर होता है। खैर,
00:04:53ठीक ऐसा नहीं है, कम से कम इस स्टडी के अनुसार।
00:04:56तो इस स्टडी में उन्होंने 1500 समस्याओं पर
00:05:0131 मॉडल्स का मूल्यांकन किया,
00:05:02और उन्होंने इसकी वजह "स्वतः स्फूर्त स्केल-डिपेंडेंट वर्बोसिटी" को बताया जो
00:05:07अत्यधिक विस्तार के माध्यम से त्रुटियां पैदा करती है। इसका मतलब क्या है?
00:05:11इसका मतलब है कि इन 1500 समस्याओं और 31 मॉडल्स में से लगभग 8% समस्याओं पर,
00:05:16लार्ज लैंग्वेज मॉडल्स,
00:05:19जिनमें अधिक पैरामीटर्स थे, उन्होंने छोटे मॉडल्स की तुलना में 28
00:05:24प्रतिशत अंक कम प्रदर्शन किया, जबकि कुछ मामलों में उनके पैरामीटर्स सौ गुना अधिक थे।
00:05:28तो आपके पास ऐसे परिदृश्य थे जहाँ, फिर से, यह सभी ओपन वेट मॉडल्स के साथ है।
00:05:32आपके पास एक 2 बिलियन पैरामीटर वाला मॉडल एक 400 बिलियन पैरामीटर वाले
00:05:37मॉडल से बेहतर प्रदर्शन कर रहा था। ऐसा कई बार हुआ। यह पागलपन है।
00:05:41ऐसा क्यों है? खैर,
00:05:43उनका मानना है कि इसका कारण यह है कि ये लार्ज
00:05:49लैंग्वेज मॉडल्स बहुत ज़्यादा बात करते हैं।
00:05:51वे इस हद तक वर्बोस (शब्दों से भरे) होते हैं कि वे खुद को ही चक्कर में
00:05:55डाल देते हैं और उस वजह से गलत उत्तर देते हैं। और स्टडी में,
00:05:58उन्होंने पाया कि बड़े मॉडल्स को संक्षिप्त प्रतिक्रियाएं देने के लिए मजबूर करने से,
00:06:02आदिमानव (caveman) जैसी प्रतिक्रियाएं सटीकता में 26 प्रतिशत अंकों का सुधार करती हैं और
00:06:07परफॉरमेंस गैप को दो-तिहाई तक कम करती हैं।
00:06:09और कई मामलों में इन लार्ज लैंग्वेज मॉडल्स को अधिक संक्षिप्त होने के लिए मजबूर करके,
00:06:14अधिक caveman जैसा बनाकर इसने उस डायनेमिक को पूरी तरह से बदल दिया जहाँ पहले वे
00:06:18छोटे मॉडल्स से हार रहे थे। और अब वे उन्हें हरा रहे थे।
00:06:21इस GitHub रेपो के संदर्भ में यह काफी अजीब है। अब,
00:06:26जाहिर है कि ये ओपन वेट मॉडल्स हैं। यह Opus 4.6 नहीं है।
00:06:29यह Codex 5.4 नहीं है।
00:06:30क्या ये फ्रंटियर मॉडल्स भी बिल्कुल इसी तरह का व्यवहार दिखाते हैं?
00:06:34हम निश्चित रूप से नहीं जानते,
00:06:36लेकिन अगर आपने इनमें से कोई भी स्टडी देखी है तो आप समझते हैं कि आमतौर पर आप यहाँ जो देखते हैं
00:06:40वह फ्रंटियर मॉडल्स के साथ भी कुछ हद तक दोहराया जाता है।
00:06:44शायद यह इतना चरम न हो, लेकिन इसमें शायद कुछ तो बात है।
00:06:47अब स्टडी का बाकी हिस्सा इस बारे में बहुत विस्तार से बताता है कि वे टेस्ट कैसे चलाते हैं,
00:06:51वे सहसंबंध बनाम कार्य-कारण (correlation vs causation) को कैसे अलग करने की कोशिश कर रहे हैं और क्यों उन्हें लगता है
00:06:55कि यह एक समस्या है। और जैसा कि मैंने पहले कहा,
00:06:57वे परिकल्पना करते हैं कि बड़े मॉडल अत्यधिक वर्बोस प्रतिक्रियाएं उत्पन्न करते हैं जो
00:07:02सही तर्क को अस्पष्ट कर देती हैं, एक घटना जिसे उन्होंने "ओवरथिंकिंग" (अत्यधिक सोचना) कहा है।
00:07:06यह बस बहुत ज़्यादा बाहर निकालने की कोशिश कर रहा है।
00:07:07सिर्फ जवाब देने और अपने रास्ते से हटने के बजाय,
00:07:10यह सचमुच खुद से बात करते-करते गलत जवाब तक पहुँच जाता है।
00:07:13और वे विशेष रूप से कहते हैं कि संपूर्णता (thoroughness) की सीखी हुई प्रवृत्ति
00:07:17प्रतिकूल हो जाती है, जिससे त्रुटियों का संचय होता है,
00:07:21संक्षिप्तता की पाबंदियां बड़े मॉडल्स की नाटकीय रूप से मदद करती हैं जबकि
00:07:25छोटे मॉडल्स पर इसका बमुश्किल असर पड़ता है। और एक स्पष्ट सवाल जो आपके मन में होना चाहिए वह है, क्यों,
00:07:28आखिर ऐसा क्यों है? इन बड़े मॉडल्स को यह समस्या क्यों हो रही है?
00:07:31वे रीइन्फोर्समेंट लर्निंग (reinforcement learning) की ओर इशारा करते हैं।
00:07:34तो जब आप एक नया मॉडल ट्रेन करते हैं,
00:07:36कल्पना कीजिए कि Opus 5.0 ट्रेन होने की प्रक्रिया में है।
00:07:40वे जो करते हैं उसका एक हिस्सा रीइन्फोर्समेंट लर्निंग है।
00:07:42अब मुझे नहीं पता कि Anthropic विशेष रूप से ऐसा करता है या नहीं,
00:07:44लेकिन कई मॉडल्स के लिए ऐसा ही किया जाता है।
00:07:45अनिवार्य रूप से वे नए मॉडल को लेते हैं और इसके जवाबों को ग्रेड करने के लिए एक इंसान को लाते हैं।
00:07:50वे कई जवाब दिखाते हैं और वह कहता है,
00:07:52मुझे इसके मुकाबले यह वाला ज़्यादा पसंद है। और वे स्टडी में कह रहे हैं,
00:07:55संभावना है कि इंसान अधिक वर्बोस जवाबों, अधिक विस्तृत जवाबों को पसंद करते हैं।
00:08:00और उस वजह से,
00:08:01इन बड़े मॉडल्स को अनिवार्य रूप से संक्षिप्त होने के बजाय अधिक वर्बोस होने के लिए
00:08:05ट्रेन किया जाता है और कुछ मामलों में तो सही होने के बजाय भी।
00:08:08लेकिन यहाँ बड़ा निष्कर्ष यह है कि संक्षिप्तता की पाबंदियों ने
00:08:12परफॉरमेंस की पदानुक्रम को पूरी तरह से उलट दिया। तो जहाँ वे पहले हार रहे थे,
00:08:14अब वे सिर्फ यह कहकर जीत रहे थे कि अधिक संक्षिप्त बनो।
00:08:18उन्होंने उनके सोचने का तरीका नहीं बदला, उन्होंने अंदरूनी कुछ भी नहीं बदला।
00:08:20उन्होंने बस कहा, एक आदिमानव बनो। अब वे सचमुच इस GitHub का उपयोग नहीं कर रहे थे,
00:08:25लेकिन बात बिल्कुल वही थी।
00:08:28तो यही कारण है कि मुझे लगता है कि यह वास्तव में काफी दिलचस्प है,
00:08:31न केवल एक पूर्ण मीम, आप जानते हैं,
00:08:32इस तथ्य से परे कि यहाँ कुछ टोकन संबंधी फायदे हैं,
00:08:375% टोकन बचाना कोई मज़ाक नहीं है,
00:08:39खासकर यदि आप मैक्स 20 प्लान पर नहीं थे।
00:08:41लेकिन अगर कोई ऐसा संभावित परिदृश्य है जहाँ हमें वास्तव में इसकी वजह से बेहतर आउटपुट
00:08:44मिल रहे हैं, विशेष रूप से अधिक सीधे सवालों पर,
00:08:47क्योंकि अगर आप उस स्टडी में गहराई से जाते हैं,
00:08:49तो यह इस तरह के विवरण देता है कि किन सवालों में उन्हें यह समस्या और
00:08:53यह डायनेमिक देखने को मिला। यह दिलचस्प है, बहुत दिलचस्प,
00:08:56यही कारण है कि मुझे लगता है कि यह देखने लायक है।
00:08:58और इसका उपयोग करना भी बहुत सरल है। यह बस कौशलों का एक सेट है।
00:09:02इसे इंस्टॉल करना सचमुच एक लाइन का काम है और फिर इसे चलाना।
00:09:06हम इसे या तो forward slash caveman के साथ बुलाते हैं, या बस कुछ ऐसा कहते हैं,
00:09:09talk like a caveman, caveman mode या less tokens please. इसमें लेवल्स भी हैं।
00:09:13तो हम ultra caveman पर जा सकते हैं, है ना? जैसे हम अभी समुद्र से बाहर आए हैं।
00:09:17हम बमुश्किल सीधे खड़े हो सकते हैं। और फिर हमारे पास all in light है।
00:09:21तो आप पिछले कुछ सालों में अलग-अलग लेवल के caveman पा सकते हैं।
00:09:24और यह कोई एकतरफा चीज़ नहीं है।
00:09:25या तो एरर मैसेज जैसी चीजें बिल्कुल वैसे ही उद्धृत (quote) की जाती हैं। और फिर से,
00:09:29कोड से जुड़ी कोई भी चीज़, जनरेशन से जुड़ी कोई भी चीज़,
00:09:31अंदरूनी तौर पर कुछ भी समान रहता है। हम इसके सोचने का तरीका नहीं बदल रहे हैं।
00:09:35तो कुल मिलाकर, मुझे लगता है कि यह आज़माने लायक है। यह एक एकल कौशल है।
00:09:37यह टोकन बचाता है और इसका कोई वास्तविक नुकसान नहीं है। और स्टडी के आधार पर,
00:09:42आउटपुट के मामले में यहाँ वास्तव में संभावित फायदा है।
00:09:45और अगर आपको यह पूरा caveman वाला मामला पसंद नहीं है,
00:09:48तो मुझे लगता है कि यह कम से कम आपकी
00:09:52spot.MD में कुछ ऐसी लाइन डालने की ओर इशारा करता है जो कहती है, संक्षिप्त रहें, कोई फालतू बात नहीं,
00:09:56सीधे मुद्दे पर आएं, कम शब्दों का प्रयोग करें,
00:09:59क्योंकि स्पष्ट रूप से इसका एक लाभ है, न केवल टोकन में,
00:10:03बल्कि जैसा कि हमने देखा, संभावित रूप से उन वास्तविक उत्तरों में भी जो यह हमें देता है।
00:10:06तो मैं आज आपको यहीं छोड़ता हूँ।
00:10:07जो सतही तौर पर सिर्फ एक पूर्ण मीम प्रोजेक्ट जैसा लग रहा था,
00:10:11caveman Claude में वास्तव में कुछ वज़न है और इसके पीछे कुछ वास्तविक,
00:10:15वैज्ञानिक कठोरता है,
00:10:17जो मुझे लगता है कि वास्तव में इसे लागू करने लायक चीज़ बनाती है।
00:10:21तो हमेशा की तरह, मुझे कमेंट्स में बताएं कि आपको क्या लगा,
00:10:25Chase AI देखना न भूलें।
00:10:26प्लस यदि आप मेरे Claude code मास्टरक्लास को पाना चाहते हैं,
00:10:29अगले कुछ दिनों में उस क्षेत्र में और अपडेट आने वाले हैं।
00:10:33लेकिन इसके अलावा, मैं आपसे फिर मिलूँगा।