Log in to leave a comment
No posts yet
यदि आप हर हफ्ते RAG सिस्टम में सैकड़ों PDF, PPT और Excel फ़ाइलों को डालने के लिए 5 घंटे अतिरिक्त काम कर रहे हैं, तो समस्या का कारण बिखरी हुई पार्सिंग लाइब्रेरीज़ हैं। PyPDF2 या openpyxl का मिश्रण उपयोग करने वाली मौजूदा संरचना केवल कोड की जटिलता को बढ़ाती है। Microsoft के MarkItDown को अपनाने से आप जटिल ब्रांचिंग लॉजिक को हटा सकते हैं।
पाइपलाइन को रिफैक्टर करते समय, प्रोसेसर फैक्ट्री पैटर्न का उपयोग करें:
यह संरचना पार्सिंग इंजन को स्वतंत्र रूप से स्केल करने में सक्षम बनाती है। यदि तालिका संरचना सुरक्षित रहती है, तो LLM द्वारा दस्तावेज़ पढ़ते समय तालिका संरक्षण त्रुटियों में 34% की कमी आती है (Microsoft 2024 घोषणा के अनुसार)।
एम्बेडिंग टोकन की लागत मार्कडाउन फ़ाइल की लंबाई के सीधे समानुपाती होती है। MarkItDown द्वारा निकाले गए परिणाम में मेटाडेटा या शोर (noise) शामिल होता है जिसे LLM को भेजने की आवश्यकता नहीं है। केवल इसे फ़िल्टर करके आप API लागत को 30% तक कम कर सकते हैं।
कुशल फ़िल्टरिंग लॉजिक बनाएं:
re मॉड्यूल का उपयोग करके, लगातार न्यूलाइन्स (\n{3,}) को दो तक सीमित करें, और नियमित अभिव्यक्तियों (regex) का उपयोग करके बार-बार आने वाले कॉपीराइट नोटिस या HTML टैग्स को हटा दें।MarkdownHeaderTextSplitter का उपयोग करें। खोज के लिए चाइल्ड चंक्स और संदर्भ के लिए पैरेंट चंक्स को अलग-अलग प्रबंधित करने से सर्च सटीकता में सुधार होता है।टोकन दक्षता को ध्यान में रखने से मासिक एंटरप्राइज़ API लागत को काफी कम किया जा सकता है।
जब लाइब्रेरी का संस्करण बदलता है, तो पार्सिंग परिणाम भी थोड़े बदल जाते हैं। इंजीनियरों द्वारा मैन्युअल रूप से फ़ाइलों को खोलने और जांचने का काम बंद करें। स्नैपशॉट टेस्टिंग शुरू करने से आप गुणवत्ता में गिरावट को तुरंत पकड़ सकते हैं।
रिग्रेशन को रोकने के लिए यूनिट टेस्टिंग वातावरण बनाएं:
pytest-regressions प्लगइन इंस्टॉल करें और अच्छी तरह से परिवर्तित किए गए मार्कडाउन को गोल्डन मास्टर फ़ाइल के रूप में सहेजें।यह ऑटोमेशन सिस्टम हर हफ्ते 5 घंटे बर्बाद करने वाले मैन्युअल मिलान कार्य को समाप्त कर देता है।
हजारों दस्तावेज़ों को क्रमिक रूप से संसाधित करना सिस्टम संसाधनों की बर्बादी है। concurrent.futures.ProcessPoolExecutor का उपयोग करके बैच प्रोसेसिंग को समानांतर करने से वह कार्य जो दिनों में होता था, कुछ घंटों में पूरा हो सकता है।
समानांतर आर्किटेक्चर को इस प्रकार लागू करें:
यह दृष्टिकोण डेटा की ताज़गी बनाए रखते हुए सिस्टम संसाधनों का कुशलतापूर्वक उपयोग करने में मदद करता है।