1931 से पहले के साहित्य का उपयोग करके आर्टिफिशियल इंटेलिजेंस क्लीनरूम पाइपलाइन का निर्माण

आधुनिक LLM (Large Language Models) अब अपनी ही पूंछ काट रहे हैं। इंटरनेट पर उपलब्ध मूल्यांकन डेटा को पूरी तरह निगल चुके मॉडलों द्वारा दिए गए उत्तर अक्सर बुद्धिमत्ता के बजाय उनकी रटने की क्षमता का परिणाम होते हैं। यदि आप वास्तविक तर्क क्षमता देखना चाहते हैं, तो आपको उस समय का डेटा लाना होगा जब आधुनिक ज्ञान का अस्तित्व ही नहीं था। यहाँ 1931 से पहले के सार्वजनिक डोमेन डेटा का उपयोग करके प्रदूषण-मुक्त शिक्षण वातावरण बनाने की विशिष्ट प्रक्रिया दी गई है।

रॉयल्टी-मुक्त ऐतिहासिक टेक्स्ट रिपॉजिटरी प्राप्त करना

डेटा संग्रह पर बजट खर्च करने से पहले, आपको उन रिपॉजिटरी का उपयोग करना चाहिए जिनकी कॉपीराइट अवधि समाप्त हो चुकी है। प्रोजेक्ट गुटेनबर्ग (Project Gutenberg) में 75,000 से अधिक दस्तावेज़ हैं, और इंटरनेट आर्काइव का Sonny Bono Memorial Collection 1923 से 1941 के बीच का शैक्षणिक डेटा निःशुल्क प्रदान करता है।

प्रकाशन तिथि आधारित फ़िल्टरिंग: Python के gutendex API को कॉल करते समय, मेटाडेटा के Issued फ़ील्ड के बजाय लेखक की मृत्यु के वर्ष और प्रथम संस्करण की प्रकाशन तिथि के आधार पर केवल 1931 से पहले की सामग्री ही रखें।
अखंडता सत्यापन (Integrity Verification): गुटेनबर्ग आईडी को लाइब्रेरी ऑफ कांग्रेस कंट्रोल नंबर (LCCN) के साथ क्रॉस-चेक करने से प्रकाशन वर्षों के आपस में मिल जाने जैसी दुर्घटनाओं को रोका जा सकता है।
तर्कशास्त्र को प्राथमिकता: मेटाडेटा के LCC फ़ील्ड का विश्लेषण करें और दर्शन (B), गणित (QA), और शास्त्रीय तर्कशास्त्र से संबंधित टेक्स्ट को प्राथमिकता के साथ डाउनलोड करें।

OCR पहचान दर बढ़ाने के लिए हाइब्रिड बहाली (Hybrid Restoration)

100 साल पुराना कागज़ जर्जर हो चुका है और समाचार पत्रों का लेआउट जटिल है। सामान्य OCR चलाने पर वर्तनी की ढेरों गलतियाँ सामने आती हैं। केवल टेक्स्ट इकट्ठा करने के बजाय, पहले लेआउट को अलग करने की प्रक्रिया आवश्यक है।

लेआउट विश्लेषण: दस्तावेज़ के भीतर शीर्षकों और तालिकाओं के क्षेत्रों को अलग करने के लिए LayoutParser फ्रेमवर्क का उपयोग करें। विशेष रूप से समाचार पत्रों के बहु-स्तंभ (multi-column) लेआउट के लिए, पढ़ने के क्रम को सही करने के लिए Newspaper Navigator मॉडल का उपयोग किया जाना चाहिए।
संरचनात्मक निष्कर्षण: LayoutLM के साथ विजुअल कोऑर्डिनेट जानकारी का उपयोग करके टेक्स्ट ब्लॉक्स के तार्किक क्रम को निर्धारित करें और फिर प्रत्येक क्षेत्र के लिए OCR चलाएं।
LLM आधारित पोस्ट-करेक्शन: REVISE फ्रेमवर्क का उपयोग करें। LLM को एक विशेषज्ञ ऐतिहासिक दस्तावेज़ प्रूफरीडर की भूमिका दें और उसे युग-विशिष्ट वर्तनी बनाए रखते हुए गलत पहचाने गए शब्दों को सुधारने के लिए कहें। इस प्रक्रिया से पहचान दर, जो 30% के आसपास थी, सीखने योग्य स्तर तक बढ़ जाती है और रिफाइनमेंट का समय आधा हो जाता है।

5,000 प्रतिबंधित शब्द फ़िल्टर के साथ आधुनिक ज्ञान के रिसाव को रोकना

हमें मॉडल को आधुनिक ज्ञान चुराकर बुद्धिमान दिखने से रोकना होगा। 1931 के बाद पैदा हुए शब्दों की एक सूची बनाएं और प्रशिक्षण डेटासेट की निगरानी के लिए एक प्रणाली तैयार करें।

N-gram स्कैनिंग: ऑक्सफोर्ड इंग्लिश डिक्शनरी (OED) के प्रथम उद्धरण वर्ष के डेटा के आधार पर कंप्यूटर, डीएनए, इंटरनेट जैसी 5,000 आधुनिक अवधारणाओं को प्रतिबंधित शब्दों के रूप में सेट करें और पूरे प्रशिक्षण टेक्स्ट को यूनिग्राम यूनिट में स्कैन करें।
दस्तावेज़ स्तर पर निष्कासन: यदि एक भी प्रतिबंधित शब्द मिलता है, तो केवल उस वाक्य को नहीं बल्कि पूरे दस्तावेज़ को हटा दें। यह आधुनिक टिप्पणियों या जाली लेखों के मिश्रण की संभावना को जड़ से खत्म करने के लिए है।
युग-विशिष्ट त्रुटि सत्यापन: Claude Sonnet जैसे मॉडलों का उपयोग सत्यापनकर्ता के रूप में करें ताकि यह मापा जा सके कि मॉडल द्वारा उत्पन्न उत्तरों में समय के प्रतिकूल (anachronistic) अवधारणाएं तो नहीं मिली हुई हैं।

1926 SAT बेंचमार्क के माध्यम से वास्तविक क्षमता का मापन

डेटा पुराना होने का मतलब यह नहीं है कि बुद्धिमत्ता भी पुरानी है। इसके विपरीत, बर्ट्रेंड रसेल की Principia Mathematica (1910) जैसे साहित्य निगमनात्मक सोच (deductive reasoning) सिखाने के लिए आधुनिक वेब डेटा की तुलना में बेहतर शिक्षण सामग्री साबित होते हैं।

मूल्यांकन के लिए उन पुराने प्रश्नपत्रों का उपयोग करें जिनके उत्तर आधुनिक इंटरनेट पर मौजूद नहीं हैं। 1926 में पहली बार आयोजित SAT के कृत्रिम भाषा और तार्किक तर्क प्रश्नों को मूल्यांकन डेटा के रूप में उपयोग करें। 1916 के संशोधित स्टैनफोर्ड-बिनेट इंटेलिजेंस टेस्ट के प्रश्नों के साथ जीरो-शॉट रीजनिंग क्षमता को मापने पर यह स्पष्ट हो जाएगा कि मॉडल ने उत्तर रटा है या वह दिए गए नियमों को तुरंत समझकर लागू कर रहा है। जो मॉडल 100 साल पहले के सवालों का सही जवाब देता है, वही डेटा प्रदूषण के संदेह से मुक्त वास्तविक बुद्धिमत्ता है।

1931 से पहले के साहित्य का उपयोग करके आर्टिफिशियल इंटेलिजेंस क्लीनरूम पाइपलाइन का निर्माण

रॉयल्टी-मुक्त ऐतिहासिक टेक्स्ट रिपॉजिटरी प्राप्त करना

प्रकाशन तिथि आधारित फ़िल्टरिंग: Python के gutendex API को कॉल करते समय, मेटाडेटा के Issued फ़ील्ड के बजाय लेखक की मृत्यु के वर्ष और प्रथम संस्करण की प्रकाशन तिथि के आधार पर केवल 1931 से पहले की सामग्री ही रखें।

अखंडता सत्यापन (Integrity Verification): गुटेनबर्ग आईडी को लाइब्रेरी ऑफ कांग्रेस कंट्रोल नंबर (LCCN) के साथ क्रॉस-चेक करने से प्रकाशन वर्षों के आपस में मिल जाने जैसी दुर्घटनाओं को रोका जा सकता है।

तर्कशास्त्र को प्राथमिकता: मेटाडेटा के LCC फ़ील्ड का विश्लेषण करें और दर्शन (B), गणित (QA), और शास्त्रीय तर्कशास्त्र से संबंधित टेक्स्ट को प्राथमिकता के साथ डाउनलोड करें।

OCR पहचान दर बढ़ाने के लिए हाइब्रिड बहाली (Hybrid Restoration)

लेआउट विश्लेषण: दस्तावेज़ के भीतर शीर्षकों और तालिकाओं के क्षेत्रों को अलग करने के लिए LayoutParser फ्रेमवर्क का उपयोग करें। विशेष रूप से समाचार पत्रों के बहु-स्तंभ (multi-column) लेआउट के लिए, पढ़ने के क्रम को सही करने के लिए Newspaper Navigator मॉडल का उपयोग किया जाना चाहिए।

संरचनात्मक निष्कर्षण: LayoutLM के साथ विजुअल कोऑर्डिनेट जानकारी का उपयोग करके टेक्स्ट ब्लॉक्स के तार्किक क्रम को निर्धारित करें और फिर प्रत्येक क्षेत्र के लिए OCR चलाएं।

LLM आधारित पोस्ट-करेक्शन: REVISE फ्रेमवर्क का उपयोग करें। LLM को एक विशेषज्ञ ऐतिहासिक दस्तावेज़ प्रूफरीडर की भूमिका दें और उसे युग-विशिष्ट वर्तनी बनाए रखते हुए गलत पहचाने गए शब्दों को सुधारने के लिए कहें। इस प्रक्रिया से पहचान दर, जो 30% के आसपास थी, सीखने योग्य स्तर तक बढ़ जाती है और रिफाइनमेंट का समय आधा हो जाता है।

5,000 प्रतिबंधित शब्द फ़िल्टर के साथ आधुनिक ज्ञान के रिसाव को रोकना

N-gram स्कैनिंग: ऑक्सफोर्ड इंग्लिश डिक्शनरी (OED) के प्रथम उद्धरण वर्ष के डेटा के आधार पर कंप्यूटर, डीएनए, इंटरनेट जैसी 5,000 आधुनिक अवधारणाओं को प्रतिबंधित शब्दों के रूप में सेट करें और पूरे प्रशिक्षण टेक्स्ट को यूनिग्राम यूनिट में स्कैन करें।

दस्तावेज़ स्तर पर निष्कासन: यदि एक भी प्रतिबंधित शब्द मिलता है, तो केवल उस वाक्य को नहीं बल्कि पूरे दस्तावेज़ को हटा दें। यह आधुनिक टिप्पणियों या जाली लेखों के मिश्रण की संभावना को जड़ से खत्म करने के लिए है।

युग-विशिष्ट त्रुटि सत्यापन: Claude Sonnet जैसे मॉडलों का उपयोग सत्यापनकर्ता के रूप में करें ताकि यह मापा जा सके कि मॉडल द्वारा उत्पन्न उत्तरों में समय के प्रतिकूल (anachronistic) अवधारणाएं तो नहीं मिली हुई हैं।

1926 SAT बेंचमार्क के माध्यम से वास्तविक क्षमता का मापन

1931 से पहले के साहित्य का उपयोग करके आर्टिफिशियल इंटेलिजेंस क्लीनरूम पाइपलाइन का निर्माण

Related Video

यह AI 1930 में फंसा हुआ है (और यह बहुत दिलचस्प है)

1931 से पहले के साहित्य का उपयोग करके आर्टिफिशियल इंटेलिजेंस क्लीनरूम पाइपलाइन का निर्माण

रॉयल्टी-मुक्त ऐतिहासिक टेक्स्ट रिपॉजिटरी प्राप्त करना

OCR पहचान दर बढ़ाने के लिए हाइब्रिड बहाली (Hybrid Restoration)

5,000 प्रतिबंधित शब्द फ़िल्टर के साथ आधुनिक ज्ञान के रिसाव को रोकना

1926 SAT बेंचमार्क के माध्यम से वास्तविक क्षमता का मापन

Comments (0)

1931 से पहले के साहित्य का उपयोग करके आर्टिफिशियल इंटेलिजेंस क्लीनरूम पाइपलाइन का निर्माण

रॉयल्टी-मुक्त ऐतिहासिक टेक्स्ट रिपॉजिटरी प्राप्त करना

OCR पहचान दर बढ़ाने के लिए हाइब्रिड बहाली (Hybrid Restoration)

5,000 प्रतिबंधित शब्द फ़िल्टर के साथ आधुनिक ज्ञान के रिसाव को रोकना

1926 SAT बेंचमार्क के माध्यम से वास्तविक क्षमता का मापन