1931 से पहले के साहित्य का उपयोग करके आर्टिफिशियल इंटेलिजेंस क्लीनरूम पाइपलाइन का निर्माण
8 мая 2026 г.
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
आधुनिक LLM (Large Language Models) अब अपनी ही पूंछ काट रहे हैं। इंटरनेट पर उपलब्ध मूल्यांकन डेटा को पूरी तरह निगल चुके मॉडलों द्वारा दिए गए उत्तर अक्सर बुद्धिमत्ता के बजाय उनकी रटने की क्षमता का परिणाम होते हैं। यदि आप वास्तविक तर्क क्षमता देखना चाहते हैं, तो आपको उस समय का डेटा लाना होगा जब आधुनिक ज्ञान का अस्तित्व ही नहीं था। यहाँ 1931 से पहले के सार्वजनिक डोमेन डेटा का उपयोग करके प्रदूषण-मुक्त शिक्षण वातावरण बनाने की विशिष्ट प्रक्रिया दी गई है।
डेटा संग्रह पर बजट खर्च करने से पहले, आपको उन रिपॉजिटरी का उपयोग करना चाहिए जिनकी कॉपीराइट अवधि समाप्त हो चुकी है। प्रोजेक्ट गुटेनबर्ग (Project Gutenberg) में 75,000 से अधिक दस्तावेज़ हैं, और इंटरनेट आर्काइव का Sonny Bono Memorial Collection 1923 से 1941 के बीच का शैक्षणिक डेटा निःशुल्क प्रदान करता है।
gutendex API को कॉल करते समय, मेटाडेटा के Issued फ़ील्ड के बजाय लेखक की मृत्यु के वर्ष और प्रथम संस्करण की प्रकाशन तिथि के आधार पर केवल 1931 से पहले की सामग्री ही रखें।LCC फ़ील्ड का विश्लेषण करें और दर्शन (B), गणित (QA), और शास्त्रीय तर्कशास्त्र से संबंधित टेक्स्ट को प्राथमिकता के साथ डाउनलोड करें।100 साल पुराना कागज़ जर्जर हो चुका है और समाचार पत्रों का लेआउट जटिल है। सामान्य OCR चलाने पर वर्तनी की ढेरों गलतियाँ सामने आती हैं। केवल टेक्स्ट इकट्ठा करने के बजाय, पहले लेआउट को अलग करने की प्रक्रिया आवश्यक है।
LayoutParser फ्रेमवर्क का उपयोग करें। विशेष रूप से समाचार पत्रों के बहु-स्तंभ (multi-column) लेआउट के लिए, पढ़ने के क्रम को सही करने के लिए Newspaper Navigator मॉडल का उपयोग किया जाना चाहिए।LayoutLM के साथ विजुअल कोऑर्डिनेट जानकारी का उपयोग करके टेक्स्ट ब्लॉक्स के तार्किक क्रम को निर्धारित करें और फिर प्रत्येक क्षेत्र के लिए OCR चलाएं।REVISE फ्रेमवर्क का उपयोग करें। LLM को एक विशेषज्ञ ऐतिहासिक दस्तावेज़ प्रूफरीडर की भूमिका दें और उसे युग-विशिष्ट वर्तनी बनाए रखते हुए गलत पहचाने गए शब्दों को सुधारने के लिए कहें। इस प्रक्रिया से पहचान दर, जो 30% के आसपास थी, सीखने योग्य स्तर तक बढ़ जाती है और रिफाइनमेंट का समय आधा हो जाता है।हमें मॉडल को आधुनिक ज्ञान चुराकर बुद्धिमान दिखने से रोकना होगा। 1931 के बाद पैदा हुए शब्दों की एक सूची बनाएं और प्रशिक्षण डेटासेट की निगरानी के लिए एक प्रणाली तैयार करें।
डेटा पुराना होने का मतलब यह नहीं है कि बुद्धिमत्ता भी पुरानी है। इसके विपरीत, बर्ट्रेंड रसेल की Principia Mathematica (1910) जैसे साहित्य निगमनात्मक सोच (deductive reasoning) सिखाने के लिए आधुनिक वेब डेटा की तुलना में बेहतर शिक्षण सामग्री साबित होते हैं।
मूल्यांकन के लिए उन पुराने प्रश्नपत्रों का उपयोग करें जिनके उत्तर आधुनिक इंटरनेट पर मौजूद नहीं हैं। 1926 में पहली बार आयोजित SAT के कृत्रिम भाषा और तार्किक तर्क प्रश्नों को मूल्यांकन डेटा के रूप में उपयोग करें। 1916 के संशोधित स्टैनफोर्ड-बिनेट इंटेलिजेंस टेस्ट के प्रश्नों के साथ जीरो-शॉट रीजनिंग क्षमता को मापने पर यह स्पष्ट हो जाएगा कि मॉडल ने उत्तर रटा है या वह दिए गए नियमों को तुरंत समझकर लागू कर रहा है। जो मॉडल 100 साल पहले के सवालों का सही जवाब देता है, वही डेटा प्रदूषण के संदेह से मुक्त वास्तविक बुद्धिमत्ता है।