सिर्फ दिखावा या क्रांतिकारी बदलाव? | गहरा विश्लेषण

हिन्दीالعربية Deutsch English Español Français Bahasa Indonesia 日本語 한국어 Português Русский 中文

MMaximilian Schwarzmüller

컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00कुछ घंटे पहले एक बहुत बड़ी घोषणा हुई थी। या फिर शायद बहुत बड़ा प्रचार।

00:00:06हम अभी नहीं जानते, और मैं प्रचार वाले हिस्से को तो बिल्कुल भी खारिज नहीं करूँगा। बेमतलब का प्रचार।

00:00:13लेकिन अगर यह सच है, तो यह वाकई एक बड़ी घोषणा है। क्योंकि अलेक्जेंडर वेडिन ने —

00:00:20जिन्हें मैं नहीं जानता था और शायद आप भी नहीं जानते होंगे — 'sub-q' की घोषणा की है, जिसका मतलब है सब-क्वाड्रेटिक (sub-quadratic)।

00:00:28यह LLM की बुद्धिमत्ता (intelligence) में एक बड़ा ब्रेकथ्रू है। और उन्होंने यहाँ एक बिल्कुल नए तरह के

00:00:36लार्ज लैंग्वेज मॉडल की घोषणा की है, जो अपनी "बुद्धिमत्ता" को खोए बिना —

00:00:45कम से कम उनका ऐसा दावा है — लंबे-कॉन्टेक्स्ट वाले कामों में बेहतरीन प्रदर्शन करता है।

00:00:52यानी उस बुद्धिमत्ता को खोए बिना, जिसके आप अभ्यस्त हैं, जैसे कि आज के फ्रंटियर मॉडल्स Opus 4.7 या GPT 5.5 वगैरह में।

00:00:59अब, उन्होंने X पर अपनी घोषणा वाली पोस्ट में जो बातें बताई हैं —

00:01:04और इसके साथ ही अधिक तकनीकी विवरणों वाला एक ब्लॉग पोस्ट भी है, जिसे हम देखेंगे —

00:01:08क्योंकि हम इस एपिसोड और वीडियो में गहराई से विश्लेषण करेंगे — तो उन्होंने यहाँ एक ऐसे मॉडल की घोषणा की है

00:01:16जो 10 लाख (one million) टोकन वाले कॉन्टेक्स्ट के कामों को बहुत तेज़ी से करता है और इसकी लागत भी बहुत कम है।

00:01:26यह Opus की लागत का केवल पाँच प्रतिशत है। उन्होंने यह भी वादा किया है कि उनके शुरुआती मॉडल में

00:01:351.2 करोड़ (12 million) टोकन का कॉन्टेक्स्ट विंडो होगा, जो कि — अगर इस संख्या को आसान शब्दों में समझें —

00:01:42तो इसका मतलब है कि आप पूरे के पूरे कोडबेस को, बेहद विशाल कोडबेस को इस कॉन्टेक्स्ट विंडो में डाल सकते हैं।

00:01:49आप इसमें कई बड़े कानूनी दस्तावेज़ डाल सकते हैं, और ज़ाहिर है, इसीलिए इस तरह के मॉडल,

00:01:57अगर वे वास्तव में मौजूद हैं और काम करते हैं, तो बेहद उपयोगी और पूरी तरह से गेम-चेंजिंग साबित हो सकते हैं।

00:02:02इसे कहने का कोई दूसरा तरीका नहीं है। अगर वे काम करते हैं — हमारे पास अभी बहुत सारे विवरण नहीं हैं,

00:02:08मैं उस पर वापस आऊँगा — लेकिन अगर वे काम करते हैं, तो इसका सीधा सा मतलब है कि ये सभी तरीके

00:02:15जो हम अभी इस्तेमाल कर रहे हैं, जैसे सब-एजेंट्स, RAG वगैरह, जो इस समस्या का अस्थायी समाधान हैं

00:02:22कि मॉडल केवल उस चीज़ का एक छोटा सा हिस्सा ही देख पाता है जिसे उसे देखना चाहिए।

00:02:28तो अगर आप किसी कोडबेस पर काम कर रहे हैं, तो मौजूदा फ्रंटियर मॉडल आपके कोडबेस के आकार के आधार पर,

00:02:33पूरे कोडबेस को नहीं देख सकते। वे पूरे कोडबेस को लोड नहीं कर सकते।

00:02:40इसलिए जब आप इसमें कुछ बदलाव करने के लिए कहते हैं, तो आपको यह उम्मीद करनी होती है

00:02:45कि मॉडल आपके कोडबेस में से सही हिस्सों को ढूँढ ले ताकि वह आपके द्वारा माँगा गया बदलाव कर सके।

00:02:52और ज़ाहिर है, कोडबेस जितना बड़ा होगा या दस्तावेज़ों की मात्रा जितनी अधिक होगी,

00:02:59यह समस्या उतनी ही बढ़ती जाएगी। इसलिए अगर आपके पास एक ऐसा मॉडल है जो

00:03:06अच्छी गुणवत्ता के साथ 1.2 करोड़ टोकन वाले कॉन्टेक्स्ट विंडो का उपयोग कर सकता है, तो यह स्वाभाविक रूप से एक गेम चेंजर होगा।

00:03:13गेम-चेंजिंग की बात करें तो, हम इस वीडियो में गहराई से बात करेंगे और मैं अपने सभी कोर्सेस में भी विस्तार से समझाऊँगा।

00:03:19तो अगर आप यह सीखने में रुचि रखते हैं कि Claude Code, Codex, या अन्य AI कामों को व्यावहारिक रूप से कैसे उपयोग करें,

00:03:24या कोडिंग, या इन सब के कॉम्बिनेशन को कैसे सीखें, तो मेरे कोर्सेस आपके काम आ सकते हैं।

00:03:31वे व्यावहारिक हैं, हैंड्स-ऑन हैं, और बेहद विस्तृत हैं। आप अलग-अलग कोर्स ले सकते हैं या फिर मेंबरशिप ले सकते हैं,

00:03:36जिससे आपको एक ही मासिक या वार्षिक शुल्क पर सभी कोर्सेस का एक्सेस मिल जाएगा। लिंक्स नीचे दिए गए हैं।

00:03:43तो चलिए अब थोड़ा और गहराई से समझते हैं। और जैसा कि मैंने बताया,

00:03:49घोषणा वाले ब्लॉग पोस्ट में कुछ तकनीकी विवरण हैं, लेकिन बहुत ज़्यादा नहीं हैं, यह बिल्कुल साफ कर दूँ।

00:03:56इसमें बहुत सारी जानकारियों की कमी है, और हमारे पास बहुत सारे बेंचमार्क भी नहीं हैं।

00:04:01विशेष रूप से, उन्होंने केवल तीन बेंचमार्क ही प्रकाशित किए हैं।

00:04:06पहला है Ruler बेंचमार्क, जो केवल साधारण सुई ढूँढने (needle lookup) से आगे बढ़कर

00:04:15रिट्रीवल (retrieval) और रीजनिंग (reasoning) व्यवहार का परीक्षण करता है, जिसमें मल्टी-हॉप रिट्रीवल, एग्रीगेशन,

00:04:22वेरिएबल ट्रैकिंग और सिलेक्टिव फ़िल्टरिंग शामिल हैं। तो यह एक ऐसा बेंचमार्क है,

00:04:28जो कुल मिलाकर इस बारे में है कि एक मॉडल अपेक्षाकृत बड़े कॉन्टेक्स्ट विंडो से

00:04:36प्रासंगिक जानकारी के कई टुकड़ों को कितनी अच्छी तरह से ढूँढ पाता है। यह 128,000 टोकन का है।

00:04:45तो यह कोई बहुत बड़ा कॉन्टेक्स्ट विंडो नहीं है, जिसके बारे में उन्होंने वादा किया था (1.2 करोड़ टोकन),

00:04:53लेकिन यह केवल 5,000 टोकन जैसा छोटा भी नहीं है। तो यह बेंचमार्क टेस्ट करता है कि

00:05:00एक मॉडल किसी बड़े कॉन्टेक्स्ट विंडो या दस्तावेज़ों के आधार से विभिन्न हिस्सों को कितनी अच्छी तरह ढूँढकर जोड़ सकता है।

00:05:07और यहाँ उनका मॉडल OPUS 4.6 के ही स्तर पर है।

00:05:15उस पोस्ट में उन्होंने एक और बेंचमार्क का भी ज़िक्र किया है, जो है MRCRv2 बेंचमार्क।

00:05:22यह भी लॉन्ग-कॉन्टेक्स्ट रिट्रीवल कामों के बारे में है, जहाँ उनका मॉडल,

00:05:29जैसा कि उन्होंने बताया, OPUS 4.6 की रेंज में है। हालाँकि,

00:05:35हाँ, अगर आप यहाँ अन्य सभी परिणामों को देखें तो यह उस रेंज में तो है, लेकिन निश्चित रूप से थोड़ा कमतर है।

00:05:43जो कि काफी दिलचस्प है क्योंकि उनकी पूरी खासियत ही लॉन्ग-कॉन्टेक्स्ट रिट्रीवल है।

00:05:49लेकिन फिर से, आप यह तर्क भी दे सकते हैं कि बहुत लंबे कॉन्टेक्स्ट विंडो वाले कामों के लिए,

00:05:56अन्य मॉडल्स इस्तेमाल के लायक ही नहीं रह जाते, जबकि उनका मॉडल आपको बहुत अच्छे परिणाम दे सकता है,

00:06:05जो कि कुछ न होने से तो बेहतर ही है। और निश्चित रूप से, उनके मॉडल्स में

00:06:12समय के साथ सुधार भी हो सकता है। इसलिए मैं इसे शुरुआती मॉडल के लिए कोई बहुत बुरा संकेत नहीं मानूँगा।

00:06:20यह बस ध्यान देने योग्य बात है। और बेशक, यह भी ध्यान देने योग्य है

00:06:27कि यह उस तालिका में, उदाहरण के लिए, Gemini 3.1 Pro या OPUS 4.7 से कहीं बेहतर है।

00:06:36और उन्होंने एक और बेंचमार्क जारी किया है जो मुझे दिलचस्प लगा, जो कोडिंग से जुड़े कामों के बारे में है।

00:06:42अब, मैं यह कहूँगा कि मैं इन सभी बेंचमार्क का कोई बहुत बड़ा प्रशंसक नहीं हूँ।

00:06:50हम सभी जानते हैं कि इनके साथ हेरफेर की जा सकती है, कम से कम इनमें से कई के साथ तो ऐसा हो ही सकता है।

00:06:54मॉडल्स को जानबूझकर या अनजाने में बेंचमार्क में अच्छा प्रदर्शन करने के लिए

00:07:00फाइन-ट्यून या ऑप्टिमाइज़ किया जा सकता है। अतीत में हमारे पास ऐसे कई मामले आ चुके हैं,

00:07:09लेकिन फिर भी, ये हमें देखने और समझने के लिए कुछ आधार देते हैं। और मुझे यह

00:07:16सॉफ्टवेयर इंजीनियरिंग बेंचमार्क दिलचस्प लगा, क्योंकि यहाँ हम देख सकते हैं

00:07:22कि उनका मॉडल काफी हद तक OPUS मॉडल्स की रेंज में है।

00:07:29और यह दिखाता है कि यह न केवल लंबे कॉन्टेक्स्ट विंडो,

00:07:37बहुत सारे दस्तावेज़ों और बड़े कोडबेस में जानकारी ढूँढने में सक्षम है, बल्कि यह भी कि

00:07:45यह इसके साथ कुछ उपयोगी काम करने में भी सक्षम है। यानी यह अपनी बुद्धिमत्ता

00:07:52और डेटा रिट्रीव करने की क्षमता के दम पर एक बेहतरीन और अर्थपूर्ण कोड जनरेट कर सकता है।

00:07:58तो यह सिर्फ जानकारी ढूँढने के बारे में नहीं है, बल्कि कुछ उपयोगी काम करने के बारे में भी है।

00:08:08और ऐसा लगता है कि यह इसमें काफी अच्छा है। लेकिन जैसा कि मैंने ज़िक्र किया, बस इतना ही है।

00:08:13हमें कोई और गहन विश्लेषण या तकनीकी विवरण नहीं मिले हैं। अभी तक कोई मॉडल कार्ड भी नहीं है।

00:08:20और इसलिए, हमारे पास केवल एक विवरण है कि कैसे उनका मॉडल

00:08:28इन लंबे कॉन्टेक्स्ट वाले कामों को संभव बनाने के लिए या मॉडल को

00:08:35लंबे कॉन्टेक्स्ट विंडो में कुशलता से काम करने के लिए 'डेंस अटेंशन' (dense attention) के बजाय 'स्पार्स अटेंशन' (sparse attention) का उपयोग करता है।

00:08:42और यह भी कि मॉडल अपनी गति और लागत दक्षता कैसे हासिल करता है, क्योंकि यह तेज़ और सस्ता है, है ना?

00:08:48उन्होंने यही घोषणा की है। तो चलिए डेंस वर्सेस स्पार्स अटेंशन पर एक नज़र डालते हैं

00:08:57ताकि हम समझ सकें कि यहाँ वास्तव में क्या हो रहा है।

00:09:03अब, डेंस अटेंशन वह तकनीक है जो आपको मौजूदा फ्रंटियर मॉडल्स में मिलती है।

00:09:10तो आपके GPT 5.5, Opus 4.7 और अन्य सभी मॉडल्स,

00:09:16ये सभी डेंस मॉडल्स हैं। इसका मूल रूप से मतलब यह है कि हर नए टोकन को,

00:09:23मान लीजिए टोकन D को जनरेट करने के लिए, बाकी सभी टोकन का मूल्यांकन करना पड़ता है

00:09:30और इन टोकन के बीच के संबंधों का मूल्यांकन करना पड़ता है।

00:09:38क्योंकि लार्ज लैंग्वेज मॉडल्स का पूरा विचार यही है कि आप एक नए टोकन का अनुमान लगाते हैं

00:09:46जो कि पूरा शब्द या शब्द का एक हिस्सा हो सकता है, और यह इस बात पर आधारित होता है कि उससे पहले क्या आया था।

00:09:51तो उदाहरण के लिए, यदि आपके पास एक वाक्य है जैसे "एक अनुबंध को किसी भी... पर समाप्त किया जा सकता है"

00:09:58तो आप इसके आगे आने वाले अगले शब्द का अनुमान लगाना चाहते हैं। आपने मॉडल से पूछा होगा, "अरे,

00:10:05मैं अपना अनुबंध कब समाप्त कर सकता हूँ?" और आपने उस अनुबंध को एक PDF दस्तावेज़ या

00:10:11प्लेन टेक्स्ट के रूप में अपने प्रॉम्प्ट में भी डाला होगा।

00:10:17तो इस वाक्य से पहले का प्रॉम्प्ट, जिसे मॉडल आउटपुट के रूप में जनरेट कर रहा है,

00:10:22वह आपका प्रश्न है और शायद कुछ अन्य कॉन्टेक्स्ट भी है। जैसे कि अनुबंध, ठीक है?

00:10:29हम अभी मॉडल्स का इसी तरह इस्तेमाल करते हैं। और इस टोकन को बनाने के लिए,

00:10:36और इससे पहले आने वाले प्रत्येक टोकन को बनाने के लिए, मॉडल मूल रूप से

00:10:44पूरी बातचीत और उसमें मौजूद सभी टोकन पर नज़र डालता है। तो वह आपका प्रश्न

00:10:49और कोई भी अतिरिक्त कॉन्टेक्स्ट है जो आपने वहाँ डाला है। और यह उसे

00:10:56कई टोकन में विभाजित करता है और फिर उन सभी टोकन को मिलाता है

00:11:01या पिछले टोकन के सभी संयोजनों के आधार पर अंत में वेट्स (weights) की गणना करता है।

00:11:08तो उदाहरण के लिए, अगर यह हमारी पूरी बातचीत होती — जो कि समझाने के लिए जानबूझकर छोटी रखी गई है —

00:11:16तो इसे GPT-5 मॉडल्स के लिए कुछ इस तरह से टोकन में विभाजित किया गया होता।

00:11:24तो कुछ टोकन सिर्फ एक शब्द होते हैं या आगे एक खाली जगह के साथ एक शब्द होते हैं। कुछ टोकन सिर्फ विशेष वर्ण (special characters) होते हैं।

00:11:31और उस अगले टोकन को जनरेट करने के लिए, पिछले सभी टोकन को

00:11:38अंत में आपस में जोड़ा जाता है ताकि उनका सही अर्थ समझा जा सके।

00:11:46क्योंकि बेशक, एक प्रश्नवाचक चिह्न का बहुत अलग अर्थ और प्रभाव होता है

00:11:54कि आगे कौन सा टोकन आएगा, और यह इस बात पर निर्भर करता है कि उस प्रश्नवाचक चिह्न से पहले क्या आया था।

00:12:00तो उस प्रश्नवाचक चिह्न को पिछले सभी टोकन के साथ जोड़ा जाता है। और अंत में इन सभी

00:12:06संयोजनों का जो संयोजन बनता है, उसका उपयोग उस अंतिम टोकन को निकालने के लिए किया जाता है।

00:12:14यह बहुत ही बुनियादी स्तर पर है कि आप डेंस अटेंशन के बारे में कैसे सोच सकते हैं और यह कैसे काम करता है।

00:12:20अब, स्वाभाविक रूप से, यह बहुत ही अकुशल (inefficient) है, लेकिन यह एक तरह से सबसे अच्छा तरीका है जो हमारे पास अभी है,

00:12:28कम से कम जब बात आउटपुट की बुद्धिमत्ता और उसकी गुणवत्ता की आती है। लेकिन यह क्वाड्रेटिक (quadratic) है

00:12:33क्योंकि यह n गुना n ($n \times n$) होता है, जिसका मतलब है कि एक नया टोकन निकालने के लिए,

00:12:40हमें पिछले सभी टोकन को मिलाना होगा। यहाँ कुछ ऑप्टिमाइज़ेशन मैकेनिज्म भी हैं

00:12:46जैसे KV कैशिंग, जो अंत में अतीत में गणना किए गए वेट्स के परिणामों को कैश कर लेता है।

00:12:52ताकि एक नए टोकन के लिए, आपको पिछले सभी संयोजनों की फिर से गणना न करनी पड़े।

00:12:59लेकिन आपको फिर भी उस नए टोकन की गणना पिछले सभी कैश किए गए वेट्स से तुलना करके करनी होगी।

00:13:06तो आप अभी भी उसी क्वाड्रेटिक स्थिति में फँस जाते हैं। और ज़ाहिर है,

00:13:13यह अकुशल और धीमा है, यही वजह है कि हमारे पास जो फ्रंटियर मॉडल्स अभी हैं, वे बहुत अधिक कंप्यूट-हंग्री

00:13:22और धीमे हैं, खासकर जब आप बड़े कॉन्टेक्स्ट विंडो वाले क्षेत्रों में जाते हैं।

00:13:27और इसीलिए कॉन्टेक्स्ट विंडो के आकार की बहुत सख्त सीमाएँ होती हैं।

00:13:33क्योंकि चूँकि यह क्वाड्रेटिक है, इसलिए 1.2 करोड़ का कॉन्टेक्स्ट विंडो आकार

00:13:39कंप्यूट करना लगभग असंभव है। इसमें बहुत ज़्यादा समय लगेगा,

00:13:45और कंप्यूट समय तो केवल एक पहलू है, इसके लिए रिज़र्व की जाने वाली मेमोरी दूसरा पहलू है।

00:13:50तो संक्षेप में डेंस मॉडल्स इसी तरह काम करते हैं और ये उनकी सीमाएँ हैं।

00:13:55अब, इसके विपरीत या एक वैकल्पिक दृष्टिकोण जो उस नए मॉडल द्वारा उपयोग किया जाता है —

00:14:01यानी वह sub-q मॉडल जिसकी घोषणा कल की गई थी — वह है स्पार्स अटेंशन का उपयोग करना। अब,

00:14:09स्पार्स अटेंशन कैसे काम करता है? स्पार्स अटेंशन का विचार यह है कि एक नया टोकन

00:14:16कैलकुलेट करने के लिए, आप पिछले सभी टोकन को नहीं देखते, आपके पास पिछले सभी टोकन के

00:14:20संयोजन नहीं होते, बल्कि केवल कुछ चुनिंदा टोकन के ही संयोजन होते हैं।

00:14:27तो उदाहरण के लिए, यदि आप यहाँ टोकन D को निकालना चाहते हैं,

00:14:34तो आप शायद केवल B और C को देख रहे होंगे, A को नहीं। अब, निश्चित रूप से बड़ा सवाल यह है

00:14:40कि आप यह कैसे तय करते हैं कि पिछले किन टोकन को देखना है या पिछले कौन से टोकन

00:14:46उस नए टोकन को बनाने के लिए महत्वपूर्ण हैं। और इसके लिए अतीत में अलग-अलग दृष्टिकोणों का उपयोग किया गया है

00:14:53क्योंकि यह नया मॉडल पहला स्पार्स अटेंशन मॉडल नहीं है। लेकिन वे वास्तव में

00:15:00उतने लोकप्रिय नहीं हो पाए क्योंकि उनकी कुछ गंभीर सीमाएँ थीं।

00:15:04उदाहरण के लिए, एक तरीका लोकल विंडो दृष्टिकोण (local window approach) का उपयोग करना है। अब, इसका क्या मतलब है?

00:15:12इसका मतलब यह है कि एक नया टोकन बनाने के लिए, मान लीजिए टोकन नंबर पाँच,

00:15:16यानी एक अनुक्रम में पाँचवां टोकन, हम मान लीजिए केवल

00:15:22उससे ठीक पहले के दो टोकन को देखते हैं। जैसे कि तीन और चार।

00:15:29तो आपके पास टोकन की एक स्लाइडिंग विंडो होती है और आप हमेशा केवल उसी टोकन के ठीक आगे वाले टोकन को देखते हैं जिसे आप जनरेट करने वाले हैं।

00:15:37अब, जैसा कि आप कल्पना कर सकते हैं, इसकी कुछ गंभीर सीमाएँ हैं क्योंकि

00:15:43अगर मैं केवल पिछले कुछ टोकन को देख रहा हूँ, और अगर मैं यह जानना चाहता हूँ

00:15:51कि एक अनुबंध कब समाप्त किया जा सकता है, तो वह जानकारी शायद उस अतिरिक्त कॉन्टेक्स्ट में हो सकती है जो मैंने प्रॉम्प्ट में दिया था,

00:15:59लेकिन वह उस लोकल विंडो का हिस्सा नहीं होगी अगर लोकल विंडो केवल पिछले कुछ टोकन तक सीमित है।

00:16:04तो अगला टोकन जिसका अनुमान लगाया जाना है, उसे इस बात का कोई अंदाज़ा नहीं होगा कि उस कॉन्टेक्स्ट में पहले क्या था।

00:16:10तो यह उपयोगी नहीं है। इस दृष्टिकोण के साथ आपके पास असीमित कॉन्टेक्स्ट विंडो का आकार हो सकता है,

00:16:17लेकिन उस पूरे कॉन्टेक्स्ट का कोई मतलब नहीं रह जाएगा। तो यह एक स्पष्ट सीमा है।

00:16:23दूसरा दृष्टिकोण तथाकथित ग्लोबल टोकन दृष्टिकोण (global token approach) है। यहाँ विचार यह है कि

00:16:30आपके पास एक ग्लोबल समरी टोकन (global summary token) होता है। तो एक बुनियादी स्तर पर, आप इसे

00:16:37एक विशेष टोकन के रूप में सोच सकते हैं जो मॉडल द्वारा टोकन अनुक्रम की शुरुआत में डाला जाता है,

00:16:46जो अपने बाद आने वाले टोकन का सारांश (summary) प्रस्तुत करता है। आप इसे कुछ इस तरह समझ सकते हैं।

00:16:54और फिर अगले टोकन का अनुमान लगाने के लिए, उस ग्लोबल टोकन को ध्यान में रखा जाता है।

00:17:00अब, यह बहुत अच्छी तरह से काम कर सकता है अगर हम कानूनी दस्तावेज़ वाले उदाहरण पर वापस जाएँ

00:17:07जिसे आपने अपने प्रॉम्प्ट में मॉडल को दिया होगा। यदि आपकी बातचीत के लिए जनरेट की गई उस समरी में

00:17:14अनुबंध समाप्त करने की शर्तें शामिल हैं, तो निश्चित रूप से

00:17:22उस समरी के आधार पर इस अगले टोकन का बहुत अच्छी तरह से अनुमान लगाया जा सकता है।

00:17:28लेकिन अगर आपकी किस्मत खराब रही और समरी में वे विवरण शामिल नहीं हुए,

00:17:35तो फिर आपकी किस्मत खराब है और आप वापस उसी स्थिति में आ जाएँगे जहाँ जानकारी पूरी तरह से गायब है।

00:17:43तो एक ग्लोबल टोकन दृष्टिकोण काम तो कर सकता है, लेकिन बेशक, आपका कॉन्टेक्स्ट विंडो जितना लंबा होता जाएगा,

00:17:49समरी उतनी ही सामान्य (generic) होती जाएगी। इसकी कल्पना करना बहुत आसान है। यदि आपके पास

00:17:55सौ पन्नों का PDF दस्तावेज़ है और आपको उसे एक या दो वाक्यों में समेटना हो,

00:18:01तो यह बहुत ही अस्पष्ट होगा, है ना? तो ज़ाहिर है, उस समरी के आधार पर अगले टोकन का अनुमान लगाना वास्तव में काम नहीं करेगा।

00:18:08अब, एक और दृष्टिकोण राउटर (router) का उपयोग करना होगा, जिसका मतलब है कि आपके पास एक अतिरिक्त न्यूरल नेटवर्क होता है।

00:18:14तो आपके पास मूल रूप से दो मॉडल होते हैं — आपका लार्ज लैंग्वेज मॉडल, और फिर एक अतिरिक्त

00:18:21राउटिंग मॉडल। और वह राउटिंग मॉडल उपयोगकर्ता के प्रॉम्प्ट को देखता है या

00:18:30जनरेट होने वाले अगले टोकन के कॉन्टेक्स्ट को देखता है और फिर उस टोकन को उन अन्य टोकन की तरफ रूट करता है

00:18:36जिन्हें वह प्रासंगिक समझता है। लेकिन अब इसका मतलब यह है कि आपके पास एक राउटिंग मॉडल है,

00:18:42जिसे किसी न किसी तरह से अपने बाद आने वाले अन्य सभी टोकन का ट्रैक रखना होगा।

00:18:49तो यह शायद वापस क्वाड्रेटिक अटेंशन वाले दायरे में चला जाता है या फिर बहुत ही अस्पष्ट हो जाता है और आप उसी पर निर्भर रहते हैं।

00:18:57तो आप या तो वापस क्वाड्रेटिक जटिलता की तरफ बढ़ रहे हैं और आपको डेंस मॉडल की तुलना में बहुत अधिक लाभ नहीं मिल रहा है,

00:19:04या फिर आप ऐसा नहीं करते हैं और आपको कुछ नुकसान उठाना पड़ेगा क्योंकि राउटर बहुत अच्छा नहीं है।

00:19:10तो समरी की तरह ही, आपको यह उम्मीद करनी होगी कि राउटर अच्छा काम करे और अगले टोकन का अनुमान लगाने के लिए

00:19:16सही टोकन को सक्रिय (activate) करे। और यही कारण है कि स्पार्स अटेंशन दिलचस्प तो है,

00:19:26लेकिन यह अभी तक बहुत लोकप्रिय नहीं हो पाया है क्योंकि इन सभी अलग-अलग दृष्टिकोणों में बड़े समझौते (trade-offs) करने पड़ते हैं।

00:19:35और जहाँ तक मुझे पता है, अभी तक कोई ऐसा स्पार्स अटेंशन मॉडल नहीं आया है

00:19:42जो मौजूदा फ्रंटियर डेंस मॉडल्स के समान गुणवत्ता दे सके और बड़े कॉन्टेक्स्ट विंडो पर काम कर सके।

00:19:49और वे अपने नए मॉडल के साथ इसे बदलने का वादा करते हैं। उस घोषणा वाले ब्लॉग पोस्ट में,

00:19:56उन्होंने उल्लेख किया है कि उनका मॉडल 'कंटेंट-डिपेंडेंट सिलेक्शन' (content-dependent selection) करता है। प्रत्येक क्वेरी के लिए, मॉडल चुनता है

00:20:05कि अनुक्रम के किन हिस्सों पर ध्यान देना उचित है और ठीक उन्हीं स्थानों पर ध्यान केंद्रित करता है।

00:20:13तो अंत में, हम वापस इसी राउटिंग दृष्टिकोण पर आ जाते हैं लेकिन वे यहाँ वादा करते हैं, उल्लेख करते हैं

00:20:19कि उनका तंत्र अगले टोकन का अनुमान लगाने के लिए सही टोकन को सक्रिय करने में बहुत कुशल प्रतीत होता है।

00:20:25वे उल्लेख करते हैं कि डेंस अटेंशन यह मान लेता है कि हर जोड़ी महत्वपूर्ण हो सकती है, इसलिए यह उन सभी का मूल्यांकन करता है।

00:20:33व्यवहार में, लगभग कोई भी जोड़ी महत्वपूर्ण नहीं होती। SSA, जिसका अर्थ है सब-क्वाड्रेटिक सिलेक्टिव अटेंशन (sub-quadratic selective attention),

00:20:40जो कि उनका दृष्टिकोण है, इस धारणा को हटा देता है। यह अटेंशन का अनुमान नहीं लगाता।

00:20:45यह अटेंशन को केवल उन्हीं स्थानों तक सीमित रखता है जो वास्तव में संकेत (signal) ले जाते हैं और बाकी को छोड़ देता है। यही उनका दृष्टिकोण है।

00:20:52वे अगले टोकन का अनुमान लगाने के लिए सही टोकन को सक्रिय करने या उपयोग करने के लिए कंटेंट-डिपेंडेंट राउटिंग कर रहे हैं

00:21:00और यही उन्हें दक्षता में बढ़ावा देता है। और हमें अभी यह देखना बाकी है कि यह वास्तव में कितना अच्छा काम करता है,

00:21:07क्योंकि जैसा कि उल्लेख किया गया है, हमारे पास यहाँ बेंचमार्क का बहुत सीमित सेट है। इसके अलावा कोई और बेंचमार्क नहीं है, कोई मॉडल कार्ड नहीं है, और न ही इस बात का कोई विवरण है कि उनका कंटेंट-डिपेंडेंट सिलेक्शन वास्तव में कैसे काम करता है, और इसलिए हमारे सामने कई सवाल खड़े हैं।

Key Takeaway

सब-क्वाड्रेटिक सिलेक्टिव अटेंशन (SSA) तकनीक 1.2 करोड़ टोकन की कॉन्टेक्स्ट विंडो को 5% लागत में प्रोसेस करने का दावा करती है, जो संभावित रूप से वर्तमान डेंस अटेंशन मॉडल्स की सीमा को पार कर सकती है।

Highlights

अलेक्जेंडर वेडिन ने 1.2 करोड़ (12 million) टोकन की कॉन्टेक्स्ट विंडो वाले नए 'sub-q' मॉडल की घोषणा की है।
यह मॉडल मौजूदा फ्रंटियर मॉडल्स की तुलना में केवल 5% लागत पर काम करने का दावा करता है।
यह 128,000 टोकन के 'Ruler' बेंचमार्क पर OPUS 4.6 के बराबर प्रदर्शन करता है।
मॉडल 'डेंस अटेंशन' के बजाय 'स्पार्स अटेंशन' का उपयोग करता है, जो केवल प्रासंगिक जानकारी पर ध्यान केंद्रित करता है।
लॉन्ग-कॉन्टेक्स्ट क्षमताएं विशाल कोडबेस और कानूनी दस्तावेजों को एक बार में प्रोसेस करने में सक्षम बनाती हैं।
तकनीकी विवरणों की कमी और सीमित बेंचमार्क परिणामों के कारण मॉडल की वास्तविक क्षमता अभी भी एक सवाल है।

Timeline

नए मॉडल की घोषणा और क्षमताएं

अलेक्जेंडर वेडिन ने सब-क्वाड्रेटिक (sub-q) लार्ज लैंग्वेज मॉडल का अनावरण किया है।
यह मॉडल 1.2 करोड़ टोकन की कॉन्टेक्स्ट विंडो के साथ काम करता है।
इसकी परिचालन लागत प्रमुख मॉडल्स जैसे Opus का केवल 5% है।

यह मॉडल पूरे कोडबेस और लंबे कानूनी दस्तावेजों को एक साथ प्रोसेस करने के लिए डिज़ाइन किया गया है। मौजूदा मॉडल्स की तुलना में यह काफी किफायती और तेज है। हालांकि, तकनीकी विवरण और बेंचमार्क रिपोर्ट फिलहाल बहुत सीमित हैं, जो इसके दावों की पुष्टि के लिए पर्याप्त नहीं हैं।

बेंचमार्क विश्लेषण

Ruler बेंचमार्क में मॉडल का प्रदर्शन OPUS 4.6 के स्तर पर है।
MRCRv2 बेंचमार्क पर मॉडल के परिणाम प्रतिस्पर्धी मॉडल्स से कुछ कम हैं।
सॉफ्टवेयर इंजीनियरिंग बेंचमार्क में मॉडल की कोडिंग क्षमताएं महत्वपूर्ण दिखाई दी हैं।

प्रस्तुत किए गए तीन बेंचमार्क में 'Ruler' सबसे विस्तृत है जो रिट्रीवल और रीजनिंग क्षमता को मापता है। मॉडल न केवल जानकारी ढूंढने में, बल्कि उस जानकारी के आधार पर उपयोगी कोड जनरेट करने में भी सक्षम है। इन परिणामों का उपयोग आधार के रूप में किया जा सकता है, लेकिन डेटा हेरफेर की संभावना से इंकार नहीं किया जा सकता।

डेंस बनाम स्पार्स अटेंशन तकनीक

मौजूदा फ्रंटियर मॉडल्स डेंस अटेंशन का उपयोग करते हैं, जो क्वाड्रेटिक ($n^2$) जटिलता के कारण धीमा है।
sub-q मॉडल 'सब-क्वाड्रेटिक सिलेक्टिव अटेंशन' (SSA) का उपयोग करके केवल चुनिंदा टोकन पर ध्यान केंद्रित करता है।
SSA तकनीक कंटेंट-डिपेंडेंट राउटिंग के जरिए अनावश्यक डेटा प्रोसेसिंग को कम करती है।

डेंस अटेंशन में हर नए टोकन के लिए पिछले सभी टोकन का मूल्यांकन करना पड़ता है, जो बहुत महंगा और धीमा है। इसके विपरीत, स्पार्स अटेंशन तकनीक यह तय करती है कि किन टोकन का मूल्यांकन करना है। SSA विधि का दावा है कि यह बिना बुद्धिमत्ता खोए केवल महत्वपूर्ण संकेतों को सक्रिय करती है, जिससे 1.2 करोड़ टोकन का प्रबंधन संभव हो पाता है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video