Claude की यह स्किल आपकी टोकन लागत को आधा कर देती है

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00यदि आप पैसे बचाना पसंद करते हैं या LLM के बात करने के तरीके से नफरत करते हैं, तो यह आपके लिए हो सकता है।
00:00:03यह "Caveman" नामक एक नया ट्रेंडिंग स्किल है और यह आउटपुट टोकन को
00:00:0775% तक कम करने का वादा करता है, जबकि पूरी तकनीकी सटीकता बनी रहती है।
00:00:10यह सब केविन के बुद्धिमान शब्दों की बदौलत है।
00:00:12समय क्यों बर्बाद करें?
00:00:13जब कम शब्दों से काम चल जाए, तो बहुत शब्द क्यों बोलें।
00:00:16यह Claude, Codex और हर जगह काम करता है और यह आपके आउटपुट को फालतू शब्दों और
00:00:20बहुत लंबे "न पढ़ने योग्य" जवाबों से हटाकर एक अच्छे TL;DR में बदल देता है, जिसमें वही तकनीकी सटीकता होती है।
00:00:24यह कस्टमाइज़ेबल भी है और इसमें Wenyan मोड, संक्षिप्त कमिट्स, वन-लाइन कोड रिव्यू और
00:00:29एक इनपुट कम्प्रेशन टूल जैसी अतिरिक्त चीज़ें भी हैं।
00:00:30शुरू में यह थोड़ा अजीब लग सकता है लेकिन इसके पीछे कुछ विज्ञान भी है, तो चलिए
00:00:34आगे बढ़ते हैं और इस पर एक नज़र डालते हैं।
00:00:40तो मैं इसे पहले Claude Code में एक डेमो Next.js ऐप के साथ टेस्ट कर रहा था,
00:00:44जिसमें एक फेक ऑथेंटिकेशन सिस्टम है और मैं बस पूछ रहा था कि इस ऐप में ऑथ (auth) कैसे लागू किया गया है।
00:00:48अब यह बिना स्किल इंस्टॉल किए सामान्य Claude Code है, आप देख सकते हैं कि यह तुरंत
00:00:49फालतू शब्दों का इस्तेमाल शुरू कर देता है, जैसे कि "यह एक सिम्युलेटेड ऑथेंटिकेशन सिस्टम है"।
00:00:53हमारे पास एम्-डैश है जो कहता है कि कोई बैकएंड नहीं, कोई पासवर्ड नहीं, कोई वास्तविक सुरक्षा नहीं,
00:00:56यह केवल Better Stack RUM यूजर ट्रैकिंग को प्रदर्शित करने के लिए है।
00:01:00इसके बाद यह मुख्य फ़ाइलों और इसके काम करने के तरीके को समझाता है और
00:01:03सब कुछ बस साधारण पठनीय अंग्रेजी में है।
00:01:06अगर हम वही सवाल दोबारा पूछें लेकिन इस बार Caveman स्किल का उपयोग करें,
00:01:08तो आप देखते हैं कि यह सीधे मुद्दे पर आता है और बहुत अधिक संक्षिप्त है।
00:01:11पहला वाक्य है: केवल डेमो, क्लाइंट-साइड ऑथ, कोई वास्तविक सुरक्षा नहीं, Better Stack RUM ट्रैकिंग डेमो के लिए बना।
00:01:13इसमें वे फालतू शब्द, एम्-डैश या वैसी कोई चीज़ नहीं है।
00:01:17इसे सही वाक्य बनाने की ज़रूरत नहीं है, यह आपको तकनीकी जानकारी
00:01:18सीधे बता सकता है।
00:01:21यही बात "यह कैसे काम करता है" सेक्शन, फ्लो और इंटीग्रेशन पॉइंट्स के लिए भी लागू होती है।
00:01:25आप यहाँ देख सकते हैं कि यह कहने के बजाय कि यह कैसे काम करता है (एक साधारण अंग्रेजी वाक्य में),
00:01:26यह सिर्फ कहता है "ऐप लोड" और फिर सेव किए गए यूजर के लिए लोकल स्टोरेज चेक करने का एक तीर (arrow) दिखाता है।
00:01:29तो यह बहुत अधिक संक्षिप्त है और सच कहूँ तो मुझे इसी की परवाह है।
00:01:33मुझे वास्तव में इसके साधारण अंग्रेजी में होने की परवाह नहीं है, मुझे बस इससे तकनीकी जानकारी चाहिए थी।
00:01:36यह संक्षिप्तता ही इस स्किल को पसंद करने का मेरा मुख्य कारण है, लेकिन इसका दूसरा सेलिंग पॉइंट यह है
00:01:39कि इसका मतलब है कि इसे आउटपुट टोकन कम करने चाहिए और इसलिए सैद्धांतिक रूप से आप
00:01:43अपने Claude Code सब्सक्रिप्शन से अधिक लाभ उठा सकते हैं या अपने API टोकन पर पैसे बचा सकते हैं।
00:01:44लेकिन मुझे लगता है कि यहाँ एक छोटी सी पेच है।
00:01:47यह एक तुलना परीक्षण का परिणाम है जो मैं पहले चला रहा था जहाँ मैं बेसलाइन
00:01:51Claude Code रिस्पॉन्स बनाम एक संक्षिप्त (terse) रिस्पॉन्स की तुलना कर रहा था,
00:01:55जहाँ मैं सचमुच Claude Code से संक्षिप्त होने के लिए कहता हूँ बनाम हमारे Caveman स्किल का उपयोग करना।
00:01:57यह 10 प्रॉम्प्ट्स पर था और इसमें सरल सवाल थे जैसे कि Git rebase, Git merge से कैसे अलग है।
00:02:00अब आप देख सकते हैं कि परिणाम बहुत सकारात्मक हैं।
00:02:04जब हम बेसलाइन के मुकाबले Caveman स्किल का उपयोग करते हैं, तो हमारे आउटपुट टोकन में 45% की कमी आती है
00:02:07और Claude Code से सिर्फ संक्षिप्त होने के लिए कहने के मुकाबले 39% की कमी आती है।
00:02:11यह स्पष्ट रूप से लागत से भी संबंधित होने वाला है, आउटपुट टोकन में वहाँ 45% की बचत होगी,
00:02:14इसलिए बेसलाइन की लागत उनके लिए लगभग 8 सेंट है और Caveman की लागत लगभग 4 सेंट है।
00:02:18तो शुरू में सब कुछ काफी अच्छा लग रहा है।
00:02:22जहाँ चीज़ें थोड़ी अधिक दिलचस्प होने लगती हैं, वह तब होता है जब हम इनपुट टोकन की लागत को जोड़ते हैं।
00:02:26जाहिर है अब जब हम Caveman स्किल का उपयोग कर रहे हैं, तो हम एक मार्कडाउन फ़ाइल लोड कर रहे हैं
00:02:31जिसमें हमारे एकल वाक्य वाले प्रॉम्प्ट्स की तुलना में बहुत अधिक टेक्स्ट है,
00:02:32तो बेसलाइन के लिए जहाँ हम सिर्फ वह वाक्य भेज रहे हैं, यह एक सेंट के बहुत छोटे हिस्से के बराबर है,
00:02:34लेकिन जब हम अपनी स्किल का उपयोग करते हैं तो आप देख सकते हैं कि यह अब लगभग 4 सेंट है।
00:02:37अगर हम अपनी इनपुट और आउटपुट टोकन लागतों को मिला दें, तो आप देख सकते हैं कि औसतन Caveman
00:02:38वास्तव में बेसलाइन से 10% अधिक महंगा है क्योंकि उन आउटपुट टोकन पर हमने जो बचत की थी,
00:02:41वह हमारे इनपुट टोकन में खो गई है।
00:02:45लेकिन इसका मतलब यह नहीं है कि यह Caveman के लिए नुकसान है, और ऐसा इसलिए है क्योंकि यह केवल बहुत
00:02:49विशिष्ट परिदृश्यों में ही सच है।
00:02:50यह केवल तभी सच है जब हम एक छोटा प्रॉम्प्ट भेज रहे हैं और हम कोई फॉलो-अप सवाल नहीं पूछ रहे हैं।
00:02:54यदि आप फॉलो-अप सवाल पूछना शुरू करते हैं, तो आप प्रॉम्प्ट कैश प्राइसिंग तक पहुँच सकते हैं
00:02:58और जब हम ऐसा करते हैं, तो आप देख सकते हैं कि चीज़ें फिर से Caveman के पक्ष में झुक जाती हैं
00:03:01और हम वास्तव में 39% लागत की बचत कर रहे हैं।
00:03:04हमने यहाँ थोड़ी गहराई से चर्चा की है, लेकिन यह साबित करता है कि Caveman का उपयोग करने के पीछे कुछ तर्क है
00:03:05और वह भी एक अन्य संभावित लाभ को शामिल करने से पहले, जो कि यह है कि
00:03:10इस साल के एक अध्ययन ने दिखाया कि बड़े मॉडलों को संक्षिप्त जवाबों तक सीमित करने से
00:03:14कुछ बेंचमार्क पर सटीकता में 26% का सुधार हुआ।
00:03:19तो शायद केविन ही आखिर में सबसे समझदार था और आप सब्सक्राइब करके समझदारी दिखाएंगे।
00:03:20आप Vacel स्किल पैकेज का उपयोग करके और इस तरह की कमांड चलाकर खुद इस स्किल को आज़मा सकते हैं,
00:03:23और यहाँ हम यह भी देख सकते हैं कि यह एजेंट से क्या करने के लिए कह रहा है।
00:03:27हमारे पास कुछ नियम हैं जैसे 'a', 'an' और 'the' जैसे आर्टिकल्स को हटा दें, फालतू शब्दों को हटा दें,
00:03:31औपचारिकताओं और संकोच वाले शब्दों (hedging) को हटा दें।
00:03:34फिर हमारे पास छोटे पर्यायवाची शब्दों का उपयोग करने का नियम भी है, जैसे 'extensive' के बजाय 'big' का उपयोग करें
00:03:38और 'implement a solution for' के बजाय 'fix' कहें, और हमारे पास यह भी है कि हमें क्या रखना है,
00:03:41जो कि तकनीकी शब्द, कोड ब्लॉक्स और एरर्स हैं।
00:03:45इसके बाद हमारे पास पैटर्न है कि इसे कैसे संरचित किया जाना चाहिए, तो हमारे पास
00:03:49एक चीज़ (thing), एक क्रिया (action), एक कारण (reason) और फिर एक अगला कदम (next step) होना चाहिए।
00:03:50तो सुंदर और संक्षिप्त।
00:03:54यहाँ तीव्रता (intensity) मोड भी हैं जिससे यह बदला जा सकता है कि यह कितना अधिक Caveman बनता है।
00:03:58आप देख सकते हैं कि यह 'Light' से लेकर 'Ultra' तक है।
00:04:00मैं 'Full' का उपयोग कर रहा था क्योंकि वह डिफ़ॉल्ट है, लेकिन आप देख सकते हैं कि 'Ultra' में यह सब कुछ छोटा कर देता है,
00:04:03यह कंजंक्शन्स को हटा देता है, कारण बताने के लिए तीरों (arrows) का उपयोग करता है और
00:04:05जहाँ एक शब्द काफी हो, वहाँ एक ही शब्द का उपयोग करता है।
00:04:07इसमें एक 'Wenyan' मोड भी है जो शास्त्रीय चीनी अक्षरों का उपयोग करता है क्योंकि वे वास्तव में
00:04:10सबसे अधिक टोकन कुशल हैं।
00:04:12दुर्भाग्य से मैं उन्हें पढ़ नहीं सकता, इसलिए वे मेरे लिए बहुत उपयोगी नहीं हैं।
00:04:17यही सब कुछ नहीं है जो Caveman पेश करता है और वास्तव में विशिष्ट परिदृश्यों के लिए
00:04:21कुछ और स्किल्स भी हैं।
00:04:22हमारे पास कन्वेंशनल कमिट्स फॉर्मेट में संक्षिप्त और सटीक संदेश लिखने के लिए 'Caveman Commit' है।
00:04:26हमारे पास कोड रिव्यू कमेंट्स लिखने के लिए 'Caveman Review' है जो प्रति निष्कर्ष
00:04:27एक संक्षिप्त लाइन होती है, और हमारे पास आपकी प्राकृतिक भाषा फ़ाइलों को
00:04:30Cavemanify करने के लिए एक 'Compress' स्किल भी है ताकि आप उन्हें थोड़े कम इनपुट टोकन के साथ पुन: उपयोग कर सकें।
00:04:33अगर आपको इनमें से कोई भी चीज़ पसंद आई हो तो मुझे कमेंट्स में बताएं और जब आप वहाँ हों,
00:04:34तो सब्सक्राइब करें और हमेशा की तरह, अगले वीडियो में मिलते हैं।

Key Takeaway

Caveman स्किल Claude के तकनीकी आउटपुट को अत्यधिक संक्षिप्त बनाकर टोकन की खपत को 75% तक कम करती है और प्रॉम्प्ट कैशिंग के साथ 39% लागत बचाती है।

Highlights

Caveman स्किल Claude और अन्य LLM आउटपुट टोकन को 75% तक कम कर देती है।

बेसलाइन प्रतिक्रियाओं की तुलना में Caveman स्किल के उपयोग से आउटपुट टोकन में 45% की शुद्ध कमी आती है।

बड़े AI मॉडल को संक्षिप्त जवाबों तक सीमित करने से कुछ बेंचमार्क पर सटीकता में 26% का सुधार होता है।

फॉलो-अप प्रश्नों के साथ प्रॉम्प्ट कैशिंग का उपयोग करने पर कुल टोकन लागत में 39% की बचत होती है।

Wenyan मोड शास्त्रीय चीनी अक्षरों का उपयोग करके उच्चतम टोकन दक्षता प्रदान करता है।

यह सिस्टम 'a', 'an' और 'the' जैसे आर्टिकल्स को हटाकर तकनीकी शब्दों और कोड ब्लॉक्स को सुरक्षित रखता है।

Timeline

Caveman स्किल और टोकन बचत

  • Caveman एक नई स्किल है जो LLM आउटपुट टोकन को 75% तक कम करती है।
  • यह तकनीकी सटीकता खोए बिना फालतू शब्दों को हटाकर जवाबों को संक्षिप्त TL;DR में बदल देती है।
  • इसमें संक्षिप्त कमिट्स, वन-लाइन कोड रिव्यू और इनपुट कम्प्रेशन जैसे अतिरिक्त मोड शामिल हैं।

LLM के अनावश्यक विस्तार को रोकने के लिए Caveman स्किल एक प्रभावी समाधान है। यह Claude और Codex जैसे प्लेटफार्मों पर काम करती है। यह केवल शब्दों को कम नहीं करती, बल्कि तकनीकी डेटा की शुद्धता को बनाए रखती है। इसके पीछे का विज्ञान आउटपुट को सीधे मुद्दे पर रखने पर केंद्रित है।

सामान्य बनाम Caveman आउटपुट तुलना

  • सामान्य Claude आउटपुट में अनावश्यक व्याकरणिक संरचनाएं और एम्-डैश का अधिक उपयोग होता है।
  • Caveman मोड सीधे तकनीकी जानकारी जैसे 'क्लाइंट-साइड ऑथ' और 'केवल डेमो' पर ध्यान केंद्रित करता है।
  • जटिल वाक्यों के स्थान पर तीरों (arrows) और संक्षिप्त शब्दों का उपयोग डेटा फ्लो दिखाने के लिए किया जाता है।

एक Next.js ऐप के परीक्षण के दौरान पाया गया कि मानक Claude आउटपुट सिम्युलेटेड सिस्टम के बारे में लंबी कहानियाँ सुनाता है। इसके विपरीत, Caveman स्किल उन्हीं तथ्यों को बुलेट पॉइंट्स और सरल संकेतों में प्रस्तुत करती है। उपयोगकर्ता के लिए प्राथमिक मूल्य अंग्रेजी व्याकरण के बजाय शुद्ध तकनीकी जानकारी प्राप्त करना है।

लागत विश्लेषण और प्रदर्शन डेटा

  • 10 प्रॉम्प्ट्स के परीक्षण में Caveman ने बेसलाइन के मुकाबले आउटपुट टोकन में 45% की बचत की।
  • एकल संक्षिप्त प्रॉम्प्ट के लिए इनपुट टोकन लागत बढ़ने के कारण यह 10% अधिक महंगा हो सकता है।
  • संक्षिप्त जवाबों के कारण AI मॉडल की सटीकता में 26% की वृद्धि दर्ज की गई है।

Git rebase और merge जैसे सवालों पर किए गए परीक्षण सकारात्मक परिणाम दिखाते हैं। यद्यपि शुरुआती इनपुट फ़ाइल बड़ी होने के कारण एकल प्रश्न के लिए लागत बढ़ सकती है, लेकिन अनुवर्ती (follow-up) प्रश्नों और प्रॉम्प्ट कैशिंग के साथ बचत 39% तक पहुँच जाती है। संक्षिप्तता न केवल पैसे बचाती है बल्कि मॉडल के भ्रमित होने की संभावना कम करके सटीकता भी बढ़ाती है।

कार्यक्षमता, नियम और तीव्रता मोड

  • Vacel स्किल पैकेज के माध्यम से आर्टिकल्स, औपचारिकताओं और संकोच वाले शब्दों (hedging) को हटाया जाता है।
  • तीव्रता मोड 'Light' से 'Ultra' तक उपलब्ध हैं, जहाँ 'Ultra' कंजंक्शन्स को भी हटा देता है।
  • विशिष्ट कार्यों के लिए Caveman Commit और Caveman Review जैसी विशेष स्किल्स मौजूद हैं।

सिस्टम 'extensive' जैसे लंबे शब्दों को 'big' जैसे छोटे पर्यायवाची शब्दों से बदल देता है। 'Ultra' मोड में केवल एक शब्द ही पूरे विचार को व्यक्त करने के लिए पर्याप्त होता है। कोड रिव्यू और गिट कमिट्स के लिए विशेष मोड डेवलपर्स को मानक फॉर्मेट में संक्षिप्त जानकारी प्रदान करते हैं। Wenyan मोड टोकन दक्षता को उसके चरम स्तर पर ले जाता है।

Community Posts

View all posts