यह AI 1930 में फंसा हुआ है (और यह बहुत दिलचस्प है)

BBetter Stack
컴퓨터/소프트웨어도서/문학AI/미래기술

Transcript

00:00:00क्या होगा अगर आप 1930 के दशक के किसी व्यक्ति से बात कर सकें? तो, क्या यह समय यात्रा है? खैर, मैंने की है और
00:00:05मैंने उनसे यह अनुमान लगाने को कहा कि 2026 में जीवन कैसा होगा।
00:00:08मुझे लगता है कि वर्ष 2026 में जीवन सुखद और आसान होगा। सबसे पहले,
00:00:13दुनिया हर जगह बसी हुई होगी। क्योंकि उस समय तक, लोग
00:00:17उड़ने की कला खोज चुके होंगे। इसके बाद, सभी युद्ध समाप्त हो चुके होंगे, क्योंकि राष्ट्रों ने
00:00:21एक-दूसरे के साथ शांति और मैत्री से रहना सीख लिया होगा। हमने हर तरह के
00:00:25विज्ञानों में ज्ञान प्राप्त कर लिया होगा और उपचार की कला में पूरी तरह कुशल होंगे। हम ईमानदार और अच्छे
00:00:29पड़ोसी होंगे और लुटेरे अज्ञात होंगे। संक्षेप में, मुझे लगता है कि वर्ष
00:00:342026 में दुनिया रहने के लिए एक बहुत ही सुखद जगह होगी।
00:00:36मुझे लगता है कि ये वाकई बहुत अच्छी भविष्यवाणियाँ थीं, इसलिए यह थोड़ा अफ़सोस की बात है कि उनमें से केवल कुछ ही
00:00:40सच हुईं, और सच बोलने की बात करें तो, शायद मैंने थोड़ा झूठ बोला हो। क्षमा करें, लेकिन मैंने
00:00:45समय यात्रा का आविष्कार नहीं किया। इसके बजाय, यह वास्तव में टॉर्के (Torquay) था, जो एक 13 बिलियन
00:00:49पैरामीटर वाला लैंग्वेज मॉडल है जिसे 1931 से पहले के टेक्स्ट पर प्रशिक्षित किया गया है, इसलिए इसे यह भी नहीं पता कि
00:00:54कोई दूसरा विश्व युद्ध भी हुआ है, और यह कुछ वाकई दिलचस्प, जंगली और अपमानजनक जवाब देता है, और
00:00:59इसे कोड करना भी सिखाया जा सकता है।
00:01:02तो यहाँ टॉर्के वह है जिसे “विंटेज मॉडल” के रूप में जाना जाता है, और टॉर्के अपनी तरह का सबसे बड़ा
00:01:10मॉडल प्रतीत होता है। इस पर शोध करने वालों में से एक वास्तव में 2018 में OpenAI के
00:01:14GPT शोध के मुख्य लेखक थे, जिसने ChatGPT की नींव रखी। उन्होंने
00:01:19DALL-E और Whisper पर भी काम किया है, इसलिए यह वास्तव में एक प्रभावशाली सीवी है। उन्होंने जो किया है वह एक 13 बिलियन
00:01:24पैरामीटर वाला नेटवर्क बनाया है जो विशेष रूप से 260 बिलियन ऐतिहासिक अंग्रेजी टेक्स्ट टोकन पर प्रशिक्षित है,
00:01:30जैसे पुराने समाचार पत्र, पेटेंट, वैज्ञानिक जर्नल और किताबें। वैसे 1931 कट-ऑफ है,
00:01:36क्योंकि अमेरिकी कॉपीराइट की सीमा 1930 का अंत है, इसलिए वे ऐसा करने के लिए
00:01:40“बिग माउस” द्वारा मुकदमा नहीं झेलेंगे। और बात करने में मजेदार होने के अलावा, ये विंटेज मॉडल
00:01:44एक शोध उद्देश्य को भी पूरा करते हैं। आज, ChatGPT, Claude और Gemini जैसे हर बड़े मॉडल
00:01:49आधुनिक वेब पर प्रशिक्षित हैं, जिससे यह पता लगाना लगभग असंभव हो जाता है कि
00:01:53कोई AI वास्तव में सोच और तर्क कर रहा है, या उसने किसी रैंडम
00:01:57रेडिट थ्रेड से उत्तर रट लिया है, और वह रेडिट थ्रेड शायद AI जनित था। इसलिए यदि हम ऐसे मॉडल का उपयोग करते हैं जो केवल
00:02:021931 से पहले के टेक्स्ट को जानता है, तो उसमें यह कोई संदूषण नहीं होगा। मेरा मतलब है, चलिए
00:02:07इसे आजमाते हैं और इससे पूछते हैं कि इंटरनेट क्या है? यहाँ हम देख सकते हैं कि इसने शायद
00:02:11इंटरनेट को उपभोग की वस्तुओं पर लगाए गए आंतरिक राजस्व कर (Internal Revenue Tax) के साथ मिला दिया है,
00:02:16इसलिए इसे आधुनिक इंटरनेट का कोई अंदाजा नहीं है। एक और मजेदार काम यह पूछना है कि लोकप्रिय
00:02:20स्लैंग शब्द क्या हैं। जाहिर तौर पर 1930 में वे बश, रॉट, फिर से बश, स्टफ, नॉनसेंस, फज,
00:02:25गैमन, हमबग, ब्रैक, फ्ला और रिबाल्ड्री थे। मुझे उम्मीद है कि मैंने वहाँ कुछ भी बुरा नहीं कहा है। और
00:02:30बिना संदूषण के होने का कारण यह है कि इससे शोधकर्ताओं को यह समझने में मदद मिलती है
00:02:33कि क्या AI वास्तव में नई चीजें सीख सकता है, जैसे कोड करना सीखना। यह मॉडल तो यह भी नहीं जानता कि
00:02:38कंप्यूटर क्या है, इसके लिए कंप्यूटर वह इंसान है जो गणना करता है। इसलिए यह
00:02:43काफी प्रभावशाली है कि जब इसे पायथन प्रोग्राम के कुछ उदाहरण दिए गए, तो यह वास्तव में
00:02:47नए प्रोग्राम लिखना सीख गया, भले ही वे ज्यादातर सरल एक लाइन के प्रोग्राम थे। जब कुछ बुनियादी
00:02:52ह्यूमन इवल पायथन परीक्षणों का उपयोग किया गया और इसके संदर्भ में रैंडम पायथन फ़ंक्शन दिए गए, तो
00:02:56इसने 100 मौकों में से कुछ बार इन परीक्षणों को पास करने में कामयाबी हासिल की। इस मामले में
00:03:01टॉर्के ने सही ढंग से समझा कि डिकोड फ़ंक्शन बनाने के लिए, उसे बस एक
00:03:05जोड़ को घटाव से बदलने की जरूरत है। हालांकि काफी सरल है, लेकिन यह विपरीत फ़ंक्शन (inverse functions)
00:03:09की समझ दिखाता है और यह नया ज्ञान है। इसने इनमें से किसी को पहले नहीं देखा है। यदि आप यही काम
00:03:13इसी आकार के एक आधुनिक LLM पर आजमाते हैं, तो वह टॉर्के से कहीं बेहतर प्रदर्शन करेगा, लेकिन यह तो
00:03:18साफ था। एक और चीज़ जो शोधकर्ता इन विंटेज मॉडल के साथ परीक्षण कर सकते हैं, वह है
00:03:22भविष्य की भविष्यवाणी करने की क्षमता। अब यह थोड़ा अजीब हो सकता है, लेकिन चलिए पूछते हैं, क्या
00:03:26एक और युद्ध होगा? तो यह कहता है कि उसे नहीं लगता कि यूरोप में कोई और युद्ध होगा और मुझमें
00:03:31उसे यह बताने की हिम्मत नहीं है कि वह कितना गलत है। मैं यह जानने के लिए भी उत्सुक हूँ कि वह
00:03:35एक निश्चित ऑस्ट्रियाई व्यक्ति के बारे में क्या सोचता है। हाँ, यह वाला काफी भयानक है। यह कहता है कि वह एक असाधारण
00:03:39व्यक्तित्व होने वाला है और यह भी कि जर्मनी उनके नेतृत्व में
00:03:44कहीं अधिक कुशल प्रशासन बनने जा रहा है। सच कहूँ तो, मेरे पास कोई शब्द नहीं हैं, नहीं। अब, शोधकर्ता निश्चित रूप से इसे
00:03:50मेरे द्वारा किए गए तरीके से कहीं अधिक वैज्ञानिक तरीके से करते हैं। उन्होंने वास्तव में न्यूयॉर्क टाइम्स की
00:03:54“ऑन दिस डे” फीचर से ली गई ऐतिहासिक घटनाओं के संक्षिप्त विवरणों की आश्चर्यजनकता (surprisingness) की गणना की।
00:03:59इसके दौरान, आप 1931 के ज्ञान कट-ऑफ के बाद आश्चर्यजनकता में वृद्धि देख सकते हैं और यह पचास और साठ के दशक में
00:04:04तेजी से बढ़ता है। तो इसने पाया कि वे घटनाएँ काफी अविश्वसनीय हैं।
00:04:09इस तरह के शोध से उन्हें यह देखने को मिलता है कि मॉडल के आकार के साथ पूर्वानुमान प्रदर्शन कैसे बेहतर होता है और
00:04:13समय के साथ कैसे कम होता है। आप इसका उपयोग यह परीक्षण करने के लिए भी कर सकते हैं कि क्या मॉडल
00:04:17नए विचारों के साथ आने में सक्षम हैं क्योंकि आप इसके बारे में उन पेटेंट या पेपरों के बारे में पूछ सकते हैं जो 1931 के बाद
00:04:22बनाए गए थे और देख सकते हैं कि क्या वह उन्हें अपने दम पर खोज सकता है। कुल मिलाकर, ये विंटेज मॉडल शोधकर्ताओं को
00:04:26यह समझने में मदद कर सकते हैं कि मॉडल का व्यवहार वास्तव में उस डेटा सेट से कितना प्रभावित है जिस पर उसे
00:04:30प्रशिक्षित किया गया है, और प्रशिक्षण की बात करें तो, एक शुद्ध 1931 मॉडल बनाना कोई आसान काम नहीं है। सबसे
00:04:36कठिन समस्याओं में से एक टेम्पोरल लीकेज (temporal leakage) है, यानी आप नहीं चाहते कि 1931 के बाद की जानकारी इसमें शामिल हो।
00:04:41टॉर्के में, उदाहरण के लिए, इसके कुछ मामले दिखाई देते हैं जहाँ इसे पता है कि 1936 में
00:04:45राष्ट्रपति कौन था और उनके द्वारा बनाई गई कुछ नीतियों के बारे में भी उसे पता है। इसके
00:04:50कई कारण हो सकते हैं। उदाहरण के लिए, आधुनिक दस्तावेजों को संभालते समय, यानी पुराने
00:04:54दस्तावेजों के स्कैन में गलत मेटाडेटा जुड़ा हो सकता है, जिससे उसमें
00:04:58गलत तारीख थी। संपादकीय परिचय और फुटनोट जैसे बाद के जुड़ाव भी हो सकते हैं।
00:05:03वे डेटा फ़िल्टरिंग वास्तव में ऐसी चीज़ है जिस पर वे अभी भी काम कर रहे हैं और समस्या को खत्म करने के लिए इसे सुधार रहे हैं।
00:05:07दूसरी समस्या जो उन्हें आई वह यह थी कि 1931 के दस्तावेज ऐसे दिखते हैं
00:05:11और हालांकि OCR इन दिनों काफी अच्छा है, उन्होंने उसी टेक्स्ट के मानव-लिखित संस्करणों पर
00:05:16प्रशिक्षित मॉडल के प्रदर्शन का केवल 30% ही हासिल किया। तो इसमें
00:05:21बहुत सारा मैनुअल काम होने वाला है और हालांकि उन्होंने कुछ सामान्य गलतियों को साफ करने के लिए कुछ regex का उपयोग किया,
00:05:25इससे इसका प्रदर्शन केवल 70% तक ही बढ़ पाया। इसलिए वे वास्तव में एक नए विंटेज
00:05:30OCR सिस्टम पर काम कर रहे हैं। अंत में, विंटेज मॉडल को पोस्ट-ट्रेन करना भी एक बड़ी चुनौती है क्योंकि
00:05:35उनके लिए कोई रेडी-मेड पोस्ट-ट्रेनिंग डेटा नहीं है और यदि वे आधुनिक डेटा का उपयोग करते हैं, तो वे अंततः
00:05:39आधुनिक चैट असिस्टेंट के ज्ञान, शैली और भावों को उसमें शामिल कर देंगे
00:05:43कि उसे कैसा होना चाहिए। इसलिए शोधकर्ताओं को पुराने शिष्टाचार मैनुअल,
00:05:48पत्र लेखन मैनुअल, कुकबुक, डिक्शनरी, इनसाइक्लोपीडिया और यहाँ तक कि कविता और कहानियों से अपना खुद का डेटा बनाना पड़ा। एक बार
00:05:53जब आप ऐसा कर लेते हैं, तो आपको मॉडल को निर्देश पालन और
00:05:56वास्तव में बातचीत करने के लिए प्रशिक्षित करने की भी आवश्यकता होती है। इसलिए आपको कुछ सुदृढ़ीकरण सीखने (reinforcement learning) का उपयोग करने की आवश्यकता है। लेकिन
00:06:00इसके साथ समस्या यह है कि मॉडल अपने आउटपुट को जज की पसंद के अनुसार समायोजित करना शुरू कर देता है और हमारे पास
00:06:041930 के दशक का कोई जज नहीं है। इसलिए उन्होंने वास्तव में क्लॉड सॉनेट 4.6 (Claude Sonnet 4.6) का उपयोग किया। हालांकि समस्या यह है
00:06:10कि एक आधुनिक मॉडल को अपने उत्तर 2026 के चैटबॉट के प्रारूप में पसंद आते हैं। इसलिए शैलियाँ जाहिर तौर पर
00:06:151931 मॉडल में लीक होने लगीं जैसे कि लिस्टिकल्स (listicles)। यह लगभग अपरिहार्य है लेकिन वे
00:06:21भविष्य में उम्मीद कर रहे हैं कि वे इसे ठीक करने के लिए विंटेज आधारित मॉडल का उपयोग जजों के रूप में कर सकें। वे
00:06:25वास्तव में पहले से ही GPT-3 स्तर के विंटेज मॉडल को प्रशिक्षित कर रहे हैं और उनका कहना है कि ऐतिहासिक टेक्स्ट के
00:06:29एक ट्रिलियन टोकन वास्तव में प्राप्त करने योग्य हैं जो उन्हें मूल चैट GPT क्षमता पर रख देंगे
00:06:35बस 1930 के दशक के ज्ञान के साथ। तो जाकर टॉर्के को आजमाएँ और मुझे कमेंट्स में बताएं कि क्या
00:06:39आपको कोई अजीब या बेतुका जवाब मिलता है, साथ ही सब्सक्राइब भी करें और हमेशा की तरह
00:06:43अगले वीडियो में मिलते हैं।
00:06:45[संगीत]

Key Takeaway

Torquay जैसे विंटेज AI मॉडल 1931 से पहले के ऐतिहासिक डेटा का उपयोग करके शोधकर्ताओं को यह समझने में मदद करते हैं कि क्या AI वास्तव में बिना रटे स्वतंत्र रूप से तर्क और नई क्षमताएं सीख सकता है।

Highlights

  • Torquay एक 13 बिलियन पैरामीटर वाला विंटेज AI मॉडल है जिसे विशेष रूप से 1931 से पहले के 260 बिलियन अंग्रेजी टेक्स्ट टोकन पर प्रशिक्षित किया गया है।

  • यह मॉडल इंटरनेट को एक 'आंतरिक राजस्व कर' (Internal Revenue Tax) समझता है क्योंकि इसे आधुनिक डिजिटल तकनीक का कोई ज्ञान नहीं है।

  • पायथन प्रोग्रामिंग के उदाहरण मिलने पर यह मॉडल सरल कोड लिखना सीख गया, जो विपरीत फ़ंक्शंस (inverse functions) की बुनियादी समझ को दर्शाता है।

  • डेटा संदूषण (Data contamination) को रोकने के लिए अमेरिकी कॉपीराइट सीमा के कारण प्रशिक्षण डेटा के लिए 1930 के अंत को कट-ऑफ समय चुना गया।

  • शोधकर्ताओं ने पाया कि 1931 के बाद की ऐतिहासिक घटनाओं के विवरण पर मॉडल की 'आश्चर्यजनकता' (surprisingness) का स्तर तेजी से बढ़ जाता है।

Timeline

1930 के दशक के ज्ञान वाला विंटेज AI

  • Torquay मॉडल 1931 से पहले के ऐतिहासिक दस्तावेजों, समाचार पत्रों और वैज्ञानिक जर्नल्स पर आधारित है।
  • इस मॉडल को दूसरे विश्व युद्ध या आधुनिक तकनीक जैसे इंटरनेट के अस्तित्व के बारे में कोई जानकारी नहीं है।
  • यह वर्ष 2026 के लिए भविष्यवाणियां करते समय उड़ने वाली मशीनों और पूर्ण विश्व शांति की कल्पना करता है।

इस मॉडल का विकास OpenAI के GPT शोध के मुख्य लेखक द्वारा किया गया है। इसका मुख्य उद्देश्य एक ऐसा वातावरण बनाना है जहाँ AI को आधुनिक वेब डेटा से पूरी तरह अलग रखा जा सके। यह मॉडल 1930 के दशक की भाषा, स्लैंग और विश्वदृष्टि को पूरी तरह से अपनाता है।

शोध में शुद्ध डेटा का महत्व और संदूषण

  • आधुनिक AI मॉडल अक्सर रेडिट जैसे प्लेटफार्मों से उत्तर रट लेते हैं, जिससे उनकी वास्तविक तर्क क्षमता को मापना कठिन होता है।
  • 1931 का कट-ऑफ अमेरिकी कॉपीराइट कानूनों और कानूनी मुकदमों से बचने के लिए एक रणनीतिक चयन है।
  • विंटेज मॉडल यह जांचने के लिए एक 'क्लीन रूम' के रूप में कार्य करते हैं कि क्या AI शून्य से नया ज्ञान प्राप्त कर सकता है।

ChatGPT और Gemini जैसे आधुनिक मॉडल इंटरनेट संदूषण से प्रभावित हैं। Torquay में ऐसा कोई संदूषण नहीं है, जिससे शोधकर्ताओं को यह स्पष्ट रूप से देखने को मिलता है कि मॉडल पुरानी जानकारी के आधार पर नई परिस्थितियों में कैसे प्रतिक्रिया देता है। उदाहरण के लिए, यह 'कंप्यूटर' शब्द को मशीन के बजाय गणना करने वाले इंसान के रूप में परिभाषित करता है।

नई क्षमताएं और भविष्यवाणियां सीखना

  • पायथन के उदाहरण दिए जाने पर मॉडल ने जोड़ को घटाव में बदलकर सरल डिकोड फ़ंक्शन बनाना सीखा।
  • ऐतिहासिक घटनाओं की भविष्यवाणी करते समय मॉडल एडोल्फ हिटलर को एक कुशल प्रशासक के रूप में देखता है क्योंकि उसे भविष्य के अत्याचारों का ज्ञान नहीं है।
  • न्यूयॉर्क टाइम्स के ऐतिहासिक डेटा का उपयोग करके शोधकर्ताओं ने मॉडल की भविष्यवाणी करने की क्षमता और समय के साथ उसके प्रदर्शन में गिरावट को मापा।

मॉडल ने पायथन के 'ह्यूमन इवल' परीक्षणों में से कुछ को पास किया, जो यह साबित करता है कि पूर्व-प्रशिक्षण डेटा में कोड न होने के बावजूद यह तर्क का उपयोग कर सकता है। शोधकर्ता इसका उपयोग यह देखने के लिए भी करते हैं कि क्या AI 1931 के बाद के पेटेंट या वैज्ञानिक विचारों को अपने आप फिर से खोज सकता है।

तकनीकी चुनौतियां और भविष्य का विकास

  • टेम्पोरल लीकेज (Temporal leakage) एक प्रमुख समस्या है जहाँ आधुनिक जानकारी गलती से पुराने दस्तावेजों के मेटाडेटा के माध्यम से मॉडल में प्रवेश कर जाती है।
  • पुराने दस्तावेजों के OCR (Optical Character Recognition) स्कैन का प्रदर्शन मानव-लिखित पाठ की तुलना में केवल 30% ही रहता है।
  • शोधकर्ता अब एक ट्रिलियन टोकन वाले GPT-3 स्तर के विंटेज मॉडल को प्रशिक्षित करने पर काम कर रहे हैं।

विंटेज मॉडल को पोस्ट-ट्रेन करना कठिन है क्योंकि आधुनिक RLHF (Reinforcement Learning from Human Feedback) इसे 2026 की शैली में बात करना सिखा सकता है। इस समस्या से निपटने के लिए शोधकर्ताओं ने पुराने शिष्टाचार मैनुअल और कुकबुक से डेटा बनाया है। भविष्य में ये मॉडल ऐतिहासिक शोध और AI तर्क क्षमता के परीक्षण के लिए एक शक्तिशाली उपकरण बनेंगे।

Community Posts

View all posts