Caveman Claude Code अब है नया मेटा (इसके पीछे का विज्ञान यहाँ देखें)

हिन्दीالعربية Deutsch English Español Français Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareManagementInternet Technology

Transcript

00:00:00क्लाउड कोड को एक आदिमानव की तरह बात करने पर मजबूर करना न केवल आपके टोकन बचा सकता है,

00:00:04बल्कि यह वास्तव में आपके परफॉरमेंस में भी सुधार कर सकता है। अब सतही तौर पर,

00:00:07यह पूरी तरह से एक मीम जैसा लगता है। हमारे पास "caveman" नाम का एक GitHub रेपो है।

00:00:12जिसे 72 घंटों में 5,000 स्टार्स मिले हैं।

00:00:15और यह बस क्लाउड कोड को एक निएंडरथल की तरह बात करने के लिए मजबूर करता है।

00:00:19यह सभी फालतू शब्दों को छाँट देता है। विचार यह है कि इसे अधिक संक्षिप्त बनाकर,

00:00:24हम इस प्रक्रिया में ढेर सारे टोकन बचाते हैं,

00:00:27लेकिन इस रेपो में एक रिसर्च पेपर का लिंक छिपा है जो अभी कुछ

00:00:31हफ़्ते पहले ही आया है,

00:00:31जो हमें बताता है कि अगर हम अपने लार्ज लैंग्वेज मॉडल्स को अधिक संक्षिप्त होने के लिए मजबूर करते हैं,

00:00:36तो हम न केवल टोकन बचाते हैं, बल्कि हम उनके परफॉरमेंस में नाटकीय रूप से सुधार कर सकते हैं।

00:00:40तो आज मैं इस पूरे "caveman" कौशल का विश्लेषण करने जा रहा हूँ।

00:00:42मैं यह समझाने जा रहा हूँ कि यह वास्तव में आपको क्या लाभ देता है क्योंकि रेपो में दिए गए नंबर

00:00:46थोड़े भ्रामक हैं और हम इस रिसर्च पेपर पर चर्चा करेंगे ताकि आप

00:00:50समझ सकें कि आपके लिए इसका वास्तव में क्या मतलब है। तो यह है caveman,

00:00:54हमारा "क्यों कहें अधिक शब्द जब कम शब्द करें काम" रेपो।

00:00:58अब, शुरुआत में ही, यह क्या कर रहा है? बहुत सरल है,

00:01:02फालतू क्लाउड कोड को काट रहा है। अब यह एक आदिमानव की तरह बात करता है।

00:01:07यह हमें कुछ पहले और बाद के उदाहरण देता है, टोकन का अंतर दिखाता है और यहाँ तक कि

00:01:11एक पूरी बेंचमार्क लिस्ट भी है जो उन कार्यों को दिखाती है। इसने क्लाउड कोड को दिया,

00:01:15रिएक्ट री-एंटर बग समझाओ, इस्तेमाल होने वाले सामान्य टोकन,

00:01:19caveman टोकन और बचाई गई मात्रा।

00:01:21अब इस रेपो में पेश किए गए आंकड़े काफी हैरान करने वाले हैं।

00:01:23तो वे दावा कर रहे हैं कि इस कौशल के साथ,

00:01:26हम पूर्ण तकनीकी सटीकता बनाए रखते हुए 75% आउटपुट टोकन

00:01:30कम करने जा रहे हैं।

00:01:31यह caveman इस बात को नहीं बदलता कि क्लाउड कोड अंदरूनी तौर पर कैसे तर्क करता है।

00:01:35यह इस बात को नहीं बदलता कि यह वास्तव में कोड कैसे जेनरेट करता है। उनमें से कुछ भी नहीं बदलता।

00:01:38यह सिर्फ आउटपुट है। जो आप प्रतिक्रिया के रूप में देखते हैं।

00:01:41इसमें एक साथी टूल भी शामिल है जो आपकी मेमोरी फाइलों को कंप्रेस करता है।

00:01:45सोचिए claud.md को caveman भाषा में बदलना।

00:01:47और इससे हर सेशन में हमारे इनपुट टोकन में 45% की कमी आने की उम्मीद है।

00:01:52अब स्पष्ट हो जाएं। आप अपने कुल आउटपुट टोकन में 75% की कटौती नहीं कर रहे हैं,

00:01:57और कुल मिलाकर इनपुट टोकन में 45% की बिल्कुल नहीं। यह पूरी तरह से सच नहीं है।

00:02:01भले ही हम इन चीजों को देख सकते हैं जो कहती हैं, अरे,

00:02:03यह रिएक्ट री-एंटर बग को समझाने के तरीके पर 87% टोकन बचाता है।

00:02:07क्लाउड कोड से आपको जो प्रॉम्प्ट वापस मिलता है, वह प्रतिक्रिया स्वयं,

00:02:11वह टेक्स्ट बड़े पैमाने पर आउटपुट टोकन का एक छोटा सा हिस्सा है,

00:02:15ठीक वैसे ही जैसे मेमोरी फाइलें,

00:02:17claud.md की तरह, बड़े पैमाने पर इनपुट का एक छोटा सा हिस्सा है।

00:02:21तो चलिए बहुत स्पष्ट हो जाते हैं कि यह वास्तव में टोकन स्केल पर हमें क्या दे रहा है।

00:02:25आप अपने कुल टोकन का 80% नहीं बचा रहे हैं। और इसे थोड़ा और स्पष्ट करने के लिए,

00:02:28आइए आपके औसत एक लाख टोकन वाले क्लाउड कोड सेशन का विश्लेषण करें। अब,

00:02:32मैं समझता हूँ कि हर सेशन थोड़ा अलग होता है, लेकिन बस यहाँ मेरा साथ दें।

00:02:36हमारे पास एक लाख टोकन का सेशन है, और इसे दो भागों में बांटा गया है।

00:02:40इनपुट, जो कि सबसे बड़ा हिस्सा है।

00:02:42वह 75,000 टोकन है और आउटपुट, जो 25% है।

00:02:46अब caveman दावा कर रहा है कि हम आउटपुट को 75% कम करने जा रहे हैं।

00:02:51यह सच नहीं है। अगर हम आउटपुट पर नज़र डालें, तो यह वास्तव में तीन भागों में है, है ना?

00:02:56हमारे पास टूल कॉल हैं, जो इसका एक हिस्सा लेती हैं, कोड ब्लॉक हैं,

00:02:59जैसे वास्तविक कोड जनरेशन, जो इसका एक हिस्सा लेते हैं।

00:03:02और फिर वास्तविक गद्य (pros) प्रतिक्रियाएं, यह प्रतिक्रिया,

00:03:06वह टेक्स्ट रिस्पॉन्स इंटरनल, जिसे caveman एडजस्ट कर रहा है।

00:03:10यही वह है जिसे यह कम कर रहा है। यह उसका 75% कम कर सकता है। आप जानते हैं,

00:03:13अगर हम यहाँ नीचे जाएं, तो हम देख सकते हैं, ठीक है,

00:03:16तो सामान्य तौर पर गद्य छह हजार टोकन लेता है, caveman के साथ।

00:03:20हम 4,000 टोकन बचाते हैं। तो हमें 4% की कमी मिलती है। वह फिर भी बहुत अच्छा है।

00:03:25अगर हम पूरे सप्ताह के दौरान अपने कुल टोकन का 4% बचा रहे हैं,

00:03:29तो यह निश्चित रूप से जुड़ता जाता है,

00:03:30खासकर वर्तमान वातावरण में जहाँ हम सभी अपने उपयोग के प्रति इतने सचेत हैं।

00:03:33लेकिन समझें कि यह 87% नहीं है। यह 70% है,

00:03:38कुल सेशन के एक हिस्से के एक हिस्से का 60%।

00:03:43इसके अलावा,

00:03:44अगर आप इनपुट को देखें और यह caveman कंप्रेशन द्वारा 45% बचाने की बात करता है,

00:03:49तो फिर से, वास्तव में ऐसा नहीं है।

00:03:50हम सिस्टम प्रॉम्प्ट क्षेत्र की बात कर रहे हैं और सिस्टम प्रॉम्प्ट के केवल

00:03:54कुछ हिस्सों की। तो यहाँ कुल मिलाकर, क्या? हम शायद एक हजार टोकन बचा रहे हैं,

00:03:58शायद 2000 टोकन। और एक पूरे सेशन के दौरान।

00:04:03अगर मैं 5,000 टोकन कहता हूँ, हर सेशन का 5%, तो वह बढ़िया है, अच्छी बात है,

00:04:07लेकिन यह उन भारी-भरकम नंबरों जैसा नहीं है। तो इसे ध्यान में रखें,

00:04:13यह एक मामूली सुधार वाला खेल है। यह पूरी तरह से बदलाव नहीं है।

00:04:15आप ऐसा नहीं कर पाएंगे कि सीधे 5 गुना मैक्स प्लान से 20 गुना मैक्स

00:04:19प्लान पर चले जाएं क्योंकि हम 75% बचा रहे हैं। नहीं, नहीं, नहीं, नहीं,

00:04:22लेकिन यहाँ अभी भी जोड़ने के लिए बहुत सारी वैल्यू है और इससे और भी अधिक वैल्यू

00:04:25निकाली जा सकती है। एक बार जब हम स्टडी पर नज़र डालेंगे, तो यह यहाँ कहीं दबी हुई है।

00:04:29इसके लिए एक छोटा सा सेक्शन समर्पित है,

00:04:31लेकिन यह एक स्टडी है जिसका नाम है "brevity constraints,

00:04:34reverse performance hierarchies and language models"।

00:04:36और यह इस साल मार्च की शुरुआत में आई थी।

00:04:38तो मैं स्टडी का एक लिंक डिस्क्रिप्शन में डाल दूंगा अगर आप इसे देखना चाहते हैं,

00:04:41लेकिन आइए इसके बारे में जल्दी से बात करते हैं क्योंकि यह वास्तव में दिलचस्प है।

00:04:45क्योंकि विचार और उम्मीद यह है कि बड़ा मॉडल,

00:04:49छोटे मॉडल से हमेशा बेहतर होता है। खैर,

00:04:53ठीक ऐसा नहीं है, कम से कम इस स्टडी के अनुसार।

00:04:56तो इस स्टडी में उन्होंने 1500 समस्याओं पर

00:05:0131 मॉडल्स का मूल्यांकन किया,

00:05:02और उन्होंने इसकी वजह "स्वतः स्फूर्त स्केल-डिपेंडेंट वर्बोसिटी" को बताया जो

00:05:07अत्यधिक विस्तार के माध्यम से त्रुटियां पैदा करती है। इसका मतलब क्या है?

00:05:11इसका मतलब है कि इन 1500 समस्याओं और 31 मॉडल्स में से लगभग 8% समस्याओं पर,

00:05:16लार्ज लैंग्वेज मॉडल्स,

00:05:19जिनमें अधिक पैरामीटर्स थे, उन्होंने छोटे मॉडल्स की तुलना में 28

00:05:24प्रतिशत अंक कम प्रदर्शन किया, जबकि कुछ मामलों में उनके पैरामीटर्स सौ गुना अधिक थे।

00:05:28तो आपके पास ऐसे परिदृश्य थे जहाँ, फिर से, यह सभी ओपन वेट मॉडल्स के साथ है।

00:05:32आपके पास एक 2 बिलियन पैरामीटर वाला मॉडल एक 400 बिलियन पैरामीटर वाले

00:05:37मॉडल से बेहतर प्रदर्शन कर रहा था। ऐसा कई बार हुआ। यह पागलपन है।

00:05:41ऐसा क्यों है? खैर,

00:05:43उनका मानना है कि इसका कारण यह है कि ये लार्ज

00:05:49लैंग्वेज मॉडल्स बहुत ज़्यादा बात करते हैं।

00:05:51वे इस हद तक वर्बोस (शब्दों से भरे) होते हैं कि वे खुद को ही चक्कर में

00:05:55डाल देते हैं और उस वजह से गलत उत्तर देते हैं। और स्टडी में,

00:05:58उन्होंने पाया कि बड़े मॉडल्स को संक्षिप्त प्रतिक्रियाएं देने के लिए मजबूर करने से,

00:06:02आदिमानव (caveman) जैसी प्रतिक्रियाएं सटीकता में 26 प्रतिशत अंकों का सुधार करती हैं और

00:06:07परफॉरमेंस गैप को दो-तिहाई तक कम करती हैं।

00:06:09और कई मामलों में इन लार्ज लैंग्वेज मॉडल्स को अधिक संक्षिप्त होने के लिए मजबूर करके,

00:06:14अधिक caveman जैसा बनाकर इसने उस डायनेमिक को पूरी तरह से बदल दिया जहाँ पहले वे

00:06:18छोटे मॉडल्स से हार रहे थे। और अब वे उन्हें हरा रहे थे।

00:06:21इस GitHub रेपो के संदर्भ में यह काफी अजीब है। अब,

00:06:26जाहिर है कि ये ओपन वेट मॉडल्स हैं। यह Opus 4.6 नहीं है।

00:06:29यह Codex 5.4 नहीं है।

00:06:30क्या ये फ्रंटियर मॉडल्स भी बिल्कुल इसी तरह का व्यवहार दिखाते हैं?

00:06:34हम निश्चित रूप से नहीं जानते,

00:06:36लेकिन अगर आपने इनमें से कोई भी स्टडी देखी है तो आप समझते हैं कि आमतौर पर आप यहाँ जो देखते हैं

00:06:40वह फ्रंटियर मॉडल्स के साथ भी कुछ हद तक दोहराया जाता है।

00:06:44शायद यह इतना चरम न हो, लेकिन इसमें शायद कुछ तो बात है।

00:06:47अब स्टडी का बाकी हिस्सा इस बारे में बहुत विस्तार से बताता है कि वे टेस्ट कैसे चलाते हैं,

00:06:51वे सहसंबंध बनाम कार्य-कारण (correlation vs causation) को कैसे अलग करने की कोशिश कर रहे हैं और क्यों उन्हें लगता है

00:06:55कि यह एक समस्या है। और जैसा कि मैंने पहले कहा,

00:06:57वे परिकल्पना करते हैं कि बड़े मॉडल अत्यधिक वर्बोस प्रतिक्रियाएं उत्पन्न करते हैं जो

00:07:02सही तर्क को अस्पष्ट कर देती हैं, एक घटना जिसे उन्होंने "ओवरथिंकिंग" (अत्यधिक सोचना) कहा है।

00:07:06यह बस बहुत ज़्यादा बाहर निकालने की कोशिश कर रहा है।

00:07:07सिर्फ जवाब देने और अपने रास्ते से हटने के बजाय,

00:07:10यह सचमुच खुद से बात करते-करते गलत जवाब तक पहुँच जाता है।

00:07:13और वे विशेष रूप से कहते हैं कि संपूर्णता (thoroughness) की सीखी हुई प्रवृत्ति

00:07:17प्रतिकूल हो जाती है, जिससे त्रुटियों का संचय होता है,

00:07:21संक्षिप्तता की पाबंदियां बड़े मॉडल्स की नाटकीय रूप से मदद करती हैं जबकि

00:07:25छोटे मॉडल्स पर इसका बमुश्किल असर पड़ता है। और एक स्पष्ट सवाल जो आपके मन में होना चाहिए वह है, क्यों,

00:07:28आखिर ऐसा क्यों है? इन बड़े मॉडल्स को यह समस्या क्यों हो रही है?

00:07:31वे रीइन्फोर्समेंट लर्निंग (reinforcement learning) की ओर इशारा करते हैं।

00:07:34तो जब आप एक नया मॉडल ट्रेन करते हैं,

00:07:36कल्पना कीजिए कि Opus 5.0 ट्रेन होने की प्रक्रिया में है।

00:07:40वे जो करते हैं उसका एक हिस्सा रीइन्फोर्समेंट लर्निंग है।

00:07:42अब मुझे नहीं पता कि Anthropic विशेष रूप से ऐसा करता है या नहीं,

00:07:44लेकिन कई मॉडल्स के लिए ऐसा ही किया जाता है।

00:07:45अनिवार्य रूप से वे नए मॉडल को लेते हैं और इसके जवाबों को ग्रेड करने के लिए एक इंसान को लाते हैं।

00:07:50वे कई जवाब दिखाते हैं और वह कहता है,

00:07:52मुझे इसके मुकाबले यह वाला ज़्यादा पसंद है। और वे स्टडी में कह रहे हैं,

00:07:55संभावना है कि इंसान अधिक वर्बोस जवाबों, अधिक विस्तृत जवाबों को पसंद करते हैं।

00:08:00और उस वजह से,

00:08:01इन बड़े मॉडल्स को अनिवार्य रूप से संक्षिप्त होने के बजाय अधिक वर्बोस होने के लिए

00:08:05ट्रेन किया जाता है और कुछ मामलों में तो सही होने के बजाय भी।

00:08:08लेकिन यहाँ बड़ा निष्कर्ष यह है कि संक्षिप्तता की पाबंदियों ने

00:08:12परफॉरमेंस की पदानुक्रम को पूरी तरह से उलट दिया। तो जहाँ वे पहले हार रहे थे,

00:08:14अब वे सिर्फ यह कहकर जीत रहे थे कि अधिक संक्षिप्त बनो।

00:08:18उन्होंने उनके सोचने का तरीका नहीं बदला, उन्होंने अंदरूनी कुछ भी नहीं बदला।

00:08:20उन्होंने बस कहा, एक आदिमानव बनो। अब वे सचमुच इस GitHub का उपयोग नहीं कर रहे थे,

00:08:25लेकिन बात बिल्कुल वही थी।

00:08:28तो यही कारण है कि मुझे लगता है कि यह वास्तव में काफी दिलचस्प है,

00:08:31न केवल एक पूर्ण मीम, आप जानते हैं,

00:08:32इस तथ्य से परे कि यहाँ कुछ टोकन संबंधी फायदे हैं,

00:08:375% टोकन बचाना कोई मज़ाक नहीं है,

00:08:39खासकर यदि आप मैक्स 20 प्लान पर नहीं थे।

00:08:41लेकिन अगर कोई ऐसा संभावित परिदृश्य है जहाँ हमें वास्तव में इसकी वजह से बेहतर आउटपुट

00:08:44मिल रहे हैं, विशेष रूप से अधिक सीधे सवालों पर,

00:08:47क्योंकि अगर आप उस स्टडी में गहराई से जाते हैं,

00:08:49तो यह इस तरह के विवरण देता है कि किन सवालों में उन्हें यह समस्या और

00:08:53यह डायनेमिक देखने को मिला। यह दिलचस्प है, बहुत दिलचस्प,

00:08:56यही कारण है कि मुझे लगता है कि यह देखने लायक है।

00:08:58और इसका उपयोग करना भी बहुत सरल है। यह बस कौशलों का एक सेट है।

00:09:02इसे इंस्टॉल करना सचमुच एक लाइन का काम है और फिर इसे चलाना।

00:09:06हम इसे या तो forward slash caveman के साथ बुलाते हैं, या बस कुछ ऐसा कहते हैं,

00:09:09talk like a caveman, caveman mode या less tokens please. इसमें लेवल्स भी हैं।

00:09:13तो हम ultra caveman पर जा सकते हैं, है ना? जैसे हम अभी समुद्र से बाहर आए हैं।

00:09:17हम बमुश्किल सीधे खड़े हो सकते हैं। और फिर हमारे पास all in light है।

00:09:21तो आप पिछले कुछ सालों में अलग-अलग लेवल के caveman पा सकते हैं।

00:09:24और यह कोई एकतरफा चीज़ नहीं है।

00:09:25या तो एरर मैसेज जैसी चीजें बिल्कुल वैसे ही उद्धृत (quote) की जाती हैं। और फिर से,

00:09:29कोड से जुड़ी कोई भी चीज़, जनरेशन से जुड़ी कोई भी चीज़,

00:09:31अंदरूनी तौर पर कुछ भी समान रहता है। हम इसके सोचने का तरीका नहीं बदल रहे हैं।

00:09:35तो कुल मिलाकर, मुझे लगता है कि यह आज़माने लायक है। यह एक एकल कौशल है।

00:09:37यह टोकन बचाता है और इसका कोई वास्तविक नुकसान नहीं है। और स्टडी के आधार पर,

00:09:42आउटपुट के मामले में यहाँ वास्तव में संभावित फायदा है।

00:09:45और अगर आपको यह पूरा caveman वाला मामला पसंद नहीं है,

00:09:48तो मुझे लगता है कि यह कम से कम आपकी

00:09:52spot.MD में कुछ ऐसी लाइन डालने की ओर इशारा करता है जो कहती है, संक्षिप्त रहें, कोई फालतू बात नहीं,

00:09:56सीधे मुद्दे पर आएं, कम शब्दों का प्रयोग करें,

00:09:59क्योंकि स्पष्ट रूप से इसका एक लाभ है, न केवल टोकन में,

00:10:03बल्कि जैसा कि हमने देखा, संभावित रूप से उन वास्तविक उत्तरों में भी जो यह हमें देता है।

00:10:06तो मैं आज आपको यहीं छोड़ता हूँ।

00:10:07जो सतही तौर पर सिर्फ एक पूर्ण मीम प्रोजेक्ट जैसा लग रहा था,

00:10:11caveman Claude में वास्तव में कुछ वज़न है और इसके पीछे कुछ वास्तविक,

00:10:15वैज्ञानिक कठोरता है,

00:10:17जो मुझे लगता है कि वास्तव में इसे लागू करने लायक चीज़ बनाती है।

00:10:21तो हमेशा की तरह, मुझे कमेंट्स में बताएं कि आपको क्या लगा,

00:10:25Chase AI देखना न भूलें।

00:10:26प्लस यदि आप मेरे Claude code मास्टरक्लास को पाना चाहते हैं,

00:10:29अगले कुछ दिनों में उस क्षेत्र में और अपडेट आने वाले हैं।

00:10:33लेकिन इसके अलावा, मैं आपसे फिर मिलूँगा।

Key Takeaway

Claude Code को 'Caveman Mode' में उपयोग करने से न केवल टोकन की बचत होती है, बल्कि यह 'ओवरथिंकिंग' को रोककर बड़े भाषा मॉडल्स की तर्क सटीकता को 26% तक बढ़ा देता है।

Highlights

Caveman Claude GitHub रेपो को इसके संक्षिप्त संचार दृष्टिकोण के कारण लॉन्च होने के 72 घंटों के भीतर 5,000 स्टार्स प्राप्त हुए।

आउटपुट को निएंडरथल की तरह संक्षिप्त रखने से 'प्रोज़' (गद्य) प्रतिक्रियाओं में लगने वाले टोकन की खपत 75% तक कम हो सकती है।

मार्च 2026 की एक रिसर्च स्टडी के अनुसार, बड़े मॉडल्स को संक्षिप्त होने के लिए मजबूर करने से उनकी सटीकता में 26 प्रतिशत अंकों का सुधार होता है।

1500 समस्याओं पर किए गए परीक्षण में पाया गया कि अत्यधिक वर्बोसिटी के कारण 400 बिलियन पैरामीटर वाले मॉडल 2 बिलियन पैरामीटर वाले मॉडल्स से 28% पीछे रह जाते हैं।

इंसानी फीडबैक (RLHF) के दौरान विस्तृत जवाबों को पसंद किए जाने के कारण बड़े मॉडल्स में 'ओवरथिंकिंग' की समस्या पैदा होती है जो गलत तर्क की ओर ले जाती है।

Timeline

Caveman Claude और टोकन बचत का विज्ञान

Claude को एक आदिमानव की तरह बात करने के लिए मजबूर करना अनावश्यक शब्दों को हटाकर टोकन बचाता है।
रेपो का दावा है कि तकनीकी सटीकता खोए बिना आउटपुट टोकन में 75% की कमी आती है।
मेमोरी फाइलों को कंप्रेस करने वाला साथी टूल इनपुट टोकन में 45% तक की कमी ला सकता है।

Caveman रेपो का मुख्य विचार 'कम शब्दों में अधिक काम' करना है। यह मॉडल के आंतरिक तर्क या कोड जनरेशन की क्षमता को नहीं बदलता, बल्कि केवल बाहरी प्रतिक्रिया को बदलता है। रिएक्ट री-एंटर बग जैसे उदाहरणों में यह संचार को अत्यधिक संक्षिप्त बनाकर टोकन दक्षता बढ़ाता है।

टोकन स्केल का वास्तविक विश्लेषण

कुल सेशन टोकन में 75% की बचत भ्रामक है क्योंकि आउटपुट पूरे डेटा का केवल एक छोटा हिस्सा होता है।
एक लाख टोकन के सेशन में गद्य (prose) प्रतिक्रियाओं को कम करने से कुल 4% से 5% की वास्तविक बचत होती है।
यह विधि गेम-चेंजर नहीं बल्कि एक मामूली सुधार (marginal gain) प्रदान करती है।

75,000 इनपुट और 25,000 आउटपुट टोकन वाले औसत सेशन में, बचत केवल 'गद्य' वाले हिस्से पर लागू होती है। चूँकि टूल कॉल्स और कोड ब्लॉक्स नहीं बदलते, इसलिए वास्तविक बचत विज्ञापित आंकड़ों से कम है। फिर भी, साप्ताहिक आधार पर 5% की बचत सक्रिय उपयोगकर्ताओं के लिए महत्वपूर्ण मूल्य जोड़ती है।

संक्षिप्तता और प्रदर्शन पदानुक्रम का उलटना

मार्च 2026 की स्टडी के अनुसार बड़े मॉडल्स कभी-कभी छोटे मॉडल्स की तुलना में खराब प्रदर्शन करते हैं।
अत्यधिक विस्तार या 'वर्बोसिटी' के कारण मॉडल्स तर्क में गलतियाँ करते हैं और खुद को ही भ्रमित कर लेते हैं।
संक्षिप्तता की पाबंदियाँ बड़े मॉडल्स और छोटे मॉडल्स के बीच के प्रदर्शन अंतर को दो-तिहाई तक कम कर देती हैं।

31 मॉडल्स पर किए गए शोध से पता चला कि बड़े मॉडल अक्सर ज़रुरत से ज़्यादा बोलकर गलत उत्तर देते हैं। जब इन मॉडल्स को आदिमानव की तरह संक्षिप्त रहने के लिए कहा गया, तो उनकी सटीकता नाटकीय रूप से बढ़ गई। यह साबित करता है कि संक्षिप्तता केवल टोकन बचाने के लिए नहीं, बल्कि बेहतर परिणाम पाने के लिए भी ज़रूरी है।

बड़े मॉडल्स में ओवरथिंकिंग का कारण

बड़े मॉडल्स में 'ओवरथिंकिंग' की प्रवृत्ति सही तर्क को धुंधला कर देती है।
रीइन्फोर्समेंट लर्निंग के दौरान इंसानों द्वारा लंबे और विस्तृत जवाबों को प्राथमिकता देना इस समस्या की जड़ है।
संक्षिप्तता की पाबंदी लगाने से मॉडल्स का आंतरिक प्रदर्शन पदानुक्रम (performance hierarchy) पूरी तरह उलट जाता है।

ट्रेनिंग के दौरान मॉडल को सिखाया जाता है कि विस्तृत उत्तर बेहतर होते हैं, भले ही वे कम सटीक हों। यह 'संपूर्णता' की प्रवृत्ति प्रतिकूल साबित होती है और त्रुटियों का संचय करती है। संक्षिप्त रहने का निर्देश मॉडल्स को सीधे सही निष्कर्ष पर पहुँचने में मदद करता है।

कार्यान्वयन और निष्कर्ष

Caveman Mode में अलग-अलग स्तर हैं, जैसे 'ultra caveman' और 'all in light' संस्करण।
यह विधि कोड जनरेशन या एरर मैसेजेस की मौलिकता के साथ कोई समझौता नहीं करती है।
सिस्टम प्रॉम्प्ट में 'संक्षिप्त रहें' जैसी लाइनें जोड़ना आउटपुट की गुणवत्ता में सुधार के लिए पर्याप्त है।

यह प्रोजेक्ट केवल एक 'मीम' नहीं है बल्कि इसके पीछे ठोस वैज्ञानिक आधार है। इसे इंस्टॉल करना सरल है और यह बिना किसी नुकसान के टोकन और प्रदर्शन दोनों में लाभ देता है। यदि कोई आदिमानव की तरह बात करना पसंद नहीं करता, तो भी सीधे मुद्दे पर आने के निर्देश देना तकनीकी रूप से फायदेमंद है।

Community Posts

Claude के आउटपुट टोकन को 30% तक कम करने का 'केवमैन' प्रॉम्प्ट तरीका

makedreamil y a 15 jours6680

Write about this video