Log in to leave a comment
No posts yet
वेब से स्क्रैप की गई मार्कडाउन फाइलें विज्ञापनों और मेनू बार जैसे शोर (noise) से भरी होती हैं। यदि ऐसा टेक्स्ट मिला हुआ हो, तो RAG (Retrieval-Augmented Generation) का प्रदर्शन काफी कम हो जाता है। वास्तव में, अनफ़िल्टर्ड डेटा मॉडल के ध्यान को भटकाता है, लेकिन साफ-सुथरा मार्कडाउन खोज की सटीकता को बढ़ाता है। अनावश्यक टेक्स्ट को हटा देने से लोकल LLM द्वारा उपयोग किए जाने वाले टोकन में 30% से अधिक की कमी आती है, जिससे पैसे की भी बचत होती है।
पायथन की BeautifulSoup लाइब्रेरी का उपयोग करके इस शोर को हटाना आवश्यक है।
pip install beautifulsoup4 lxml दर्ज करके वातावरण तैयार करें।decompose() मेथड के साथ .ad-container या .nav-menu जैसे अनावश्यक CSS क्लासेज को पूरी तरह से हटा दें।lxml पार्सर के साथ केवल मुख्य सामग्री (body) निकालें, उसे मार्कडाउन के रूप में सहेजें और ऑब्सीडियन वॉल्ट (vault) में डालें।जब फाइलों की संख्या सैकड़ों में हो जाती है, तो सबसे बुद्धिमान मॉडल भी संदर्भ (context) खो देते हैं। फाइलों को बस ढेर न करें, बल्कि सूचना की स्थिति के अनुसार क्षेत्रों को विभाजित करें। मैं PARA फ्रेमवर्क को बदलकर 3-चरण (01_Raw_Inbox, 02_Processed_Wiki, 03_Project_Action) संरचना का उपयोग करता हूँ। यह Claude Code को एक भौतिक दिशानिर्देश देता है कि उसे किस जानकारी पर भरोसा करना है और किसे संदर्भित करना है।
एजेंट को भ्रमित होने से बचाने के लिए फ़ाइल नाम और टर्मिनल विकल्पों का उपयोग करें।
YYYY-MM-DD जोड़ें ताकि पता चल सके कि जानकारी कितनी ताज़ा है।--newer-than विकल्प का उपयोग करें ताकि वह केवल पिछले 24 घंटों में बदली गई फाइलों को ही पढ़े।03_Project_Action फ़ोल्डर में केवल कार्य की स्थिति (work status) वाली फाइलें रखें।साधारण टेक्स्ट सर्च यह अंतर नहीं कर पाता कि कोई दस्तावेज़ 'महत्वपूर्ण' है या 'पूरा हो चुका कार्य'। इसलिए दस्तावेज़ के शीर्ष पर YAML Frontmatter जोड़ना आवश्यक है। मेटाडेटा होने पर आप Claude Code को बहुत अधिक सटीक निर्देश दे सकते हैं।
एक नॉलेज एंटरप्रेन्योर के वर्क इंजन के लिए तीन फ़ील्ड पर्याप्त हैं।
topic, महत्व को आंकने के लिए source_importance, और कार्य की स्थिति के लिए status को नोट के शीर्ष पर लिखें।टर्मिनल आधारित Claude Code वास्तव में तब अपनी शक्ति दिखाता है जब इसे शेल स्क्रिप्ट के साथ जोड़ा जाता है। काम पर आते ही सिर्फ एक कमांड टाइप करने से एक ऐसा इंजन तैयार हो जाता है जो कल सीखी गई बातों का विश्लेषण करता है और आज भेजे जाने वाले ईमेल का ड्राफ्ट तक तैयार कर देता है। हर सुबह क्या पहले करना है, यह सोचने में ऊर्जा बर्बाद करने की ज़रूरत नहीं है।
ऑटोमेशन रूटीन को इस प्रकार सेट करें:
claude --bare कमांड वाली एक शेल स्क्रिप्ट (.sh या .bat) बनाएं ताकि शुरुआती लोडिंग गति बढ़ सके।find -mtime -1 कमांड को मिलाकर पिछले एक दिन के दौरान बनाए गए नोट्स ही Claude को पास करें।जब फाइलों की संख्या एक हजार से अधिक हो जाती है, तो 200,000 टोकन की कॉन्टेक्स्ट विंडो भी जल्दी भर जाती है। इस स्थिति में, सभी फाइलों को पढ़वाने के बजाय, एक 'मास्टर इंडेक्स' (master_index.md) को पहले पढ़वाने का 2-चरण वाला तरीका अपनाना चाहिए जो पूरे मानचित्र की तरह कार्य करता है। यह तरीका API कॉल की संख्या को लगभग 60% तक कम कर देता है।
परफॉर्मेंस बनाए रखने के लिए कॉन्टेक्स्ट मैनेजमेंट समझदारी से करना चाहिए।
/compact कमांड के साथ इतिहास को संक्षिप्त करें।