Transcript
00:00:00गूगल ने अभी अपना सबसे नया जेम्मा 4, 12 बिलियन पैरामीटर वाला मॉडल पेश किया है और यह वाकई गेम चेंजर है।
00:00:06नहीं, सच में, यह कोई क्लिकबेट नहीं है। यह मॉडल अपनी बनावट के मामले में वास्तव में एक गेम चेंजर है।
00:00:13जो चीज़ इसे बाकी सभी AI मॉडलों से अलग बनाती है, वह यह है कि यह पूरी तरह से
00:00:18एनकोडर-फ्री है। अब, इसका क्या मतलब है, यह कैसे काम करता है और यह इतनी बड़ी बात क्यों है?
00:00:24खैर, ये सभी अच्छे सवाल हैं जिनका जवाब हम आज के वीडियो में तलाशेंगे। इसमें बहुत
00:00:29मज़ा आने वाला है। तो चलिए शुरू करते हैं। जेम्मा 4, 12 बिलियन मॉडल का एक नया आर्किटेक्चर है जो
00:00:39बाकी सभी मल्टीमॉडल मॉडलों के काम करने के तरीके से पूरी तरह अलग है। मल्टीमॉडल मॉडल। ओह माय
00:00:46गॉड, यह कहना कितना मुश्किल है। तो यह समझने के लिए कि यह इतनी बड़ी बात क्यों है, हमें
00:00:51यह देखना होगा कि बाकी सभी मल्टीमॉडल मॉडल अभी कैसे काम करते हैं। भाषा मॉडल टेक्स्ट के
00:00:57टोकन पढ़ने के लिए बनाए जाते हैं, यानी टेक्स्ट के उन टुकड़ों को जो नंबरों में बदल दिए गए हैं। उन्हें स्वाभाविक रूप से नहीं पता होता कि पिक्सेल क्या है या
00:01:05साउंड वेव कैसी दिखती है। इसलिए हम आमतौर पर अलग-अलग मॉडलों को आपस में जोड़ देते हैं। अगर आप AI को एक इमेज देते हैं, तो एक बड़ा
00:01:11विज़न एनकोडर उसे सबसे पहले प्रोसेस करता है। यह उन रॉ पिक्सेल को ऐसी
00:01:19भाषा में अनुवाद करने में बहुत सारी प्रोसेसिंग पावर खर्च करता है जिसे LLM समझ सके। और ऐसा ही ऑडियो के साथ होता है। एक अलग स्पीच एनकोडर को
00:01:25पहले साउंड वेव का अनुवाद करना पड़ता है। जब तक AI का वास्तविक दिमाग डेटा प्राप्त करता है, तब तक आप तीन
00:01:32अलग नेटवर्क एक साथ चला रहे होते हैं। एक साधारण लैपटॉप पर, यह पूरी तरह से आपकी VRAM को भर देता है और हर चीज़ को
00:01:38धीमा कर देता है। लेकिन गूगल डीपमाइंड ने इस समस्या को देखा और सोचा, क्या होगा अगर हम बीच वाले को हटा दें?
00:01:44इसलिए जेम्मा 4, 12 बिलियन मॉडल में, उन्होंने भारी-भरकम विज़न एनकोडर को पूरी तरह से हटा दिया। इसके बजाय,
00:01:51जब आप इसे इमेज देते हैं, तो मॉडल उसे छोटे 48 गुणा 48 पिक्सेल के पैच में काट देता है। और उन पैच को
00:01:58अलग विज़न नेटवर्क की दर्जनों परतों से गुजारने के बजाय, रॉ पिक्सेल एक एकल
00:02:04पतले गणितीय चरण से गुजरते हैं जिसे लीनियर प्रोजेक्शन कहते हैं। और यह लीनियर प्रोजेक्शन नंबरों का एक विशाल ग्रिड होता है
00:02:11जो 2304 पिक्सेल मान लेता है, क्योंकि यह 48 गुणा 48 पिक्सेल के वर्ग से संबंधित है, उन्हें एक
00:02:19ही चरण में गुणा करता है, और उन्हें एक एकल पंक्ति में फैला देता है जो पूरी तरह से LLM के टेक्स्ट टोकन
00:02:26फॉर्मेट से मेल खाती है। तो यह अभी इमेज में क्या है इसका विश्लेषण नहीं करता, यह केवल रॉ डेटा को रीफॉर्मेट करता है ताकि यह
00:02:32मॉडल के माध्यम से जा सके। और अगर आप मानक मॉडलों को देखें, तो उनके विज़न एनकोडर बहुत बड़े होते हैं। जैसे उदाहरण के लिए,
00:02:38इसमें 550 मिलियन पैरामीटर हैं। ऐसा इसलिए है क्योंकि पारंपरिक एनकोडर को रीशेप करने के लिए बहुत सारे डेटा की आवश्यकता होती है,
00:02:45मैप करने और इमेज को समझने के लिए। इसमें दर्जनों आंतरिक अटेंशन परतें होती हैं जो पिक्सेल के
00:02:50बीच के संबंधों की गणना करती हैं, यह समझने की कोशिश करती हैं कि किनारे कहाँ हैं, आकृतियाँ क्या हैं, और वस्तुएँ क्या हो सकती हैं
00:02:57इससे पहले कि वह इसे टेक्स्ट मॉडल को दे। लेकिन डीपमाइंड ने उस सारी भारी-भरकम दिमाग की क्षमता को हटाकर इसे छोटा कर दिया।
00:03:04उन्हें एहसास हुआ कि मुख्य भाषा बैकबोन पहले से ही अविश्वसनीय रूप से स्मार्ट है और उसके पास
00:03:10वास्तविक दृश्य तर्क करने के लिए बहुत सारी परतें हैं। तो उन सभी सोचने वाली परतों को हटाकर, उनके पास
00:03:17केवल 35 मिलियन पैरामीटर बचे, और वह वास्तव में पिक्सेल ग्रिड को टेक्स्ट फॉर्मेट में मैप करने के लिए आवश्यक
00:03:24कनेक्शन वेट की भौतिक गणना है। तो यह एक स्टेटिक सिंगल-लेयर मैप है जो हर इमेज के लिए काम करता है।
00:03:30क्योंकि यह कोई आंतरिक सोच नहीं करता, यह व्यावहारिक रूप से कोई प्रोसेसिंग पावर नहीं लेता, VRAM को खाली कर देता है
00:03:37और मुख्य LLM को वास्तविक बुद्धिमत्ता को मूल रूप से संभालने देता है। और यह समझने के लिए कि वह एकल चरण कैसे काम करता है,
00:03:44आपको यह देखना होगा कि भाषा मॉडल बैकबोन के अंदर वास्तव में क्या हो रहा है। हर भाषा मॉडल में एक
00:03:50आंतरिक फॉर्मेटिंग नियम होता है जिसे हिडन डाइमेंशन कहते हैं। इसे एक मानकीकृत ट्रे आकार की तरह समझें। चाहे वह
00:03:56शब्द 'एप्पल' हो या कोड का कोई टुकड़ा या विराम चिह्न, जो कुछ भी LLM में डाला जाता है उसे
00:04:04नंबरों की इस विशिष्ट विशाल सूची में बदला जाना चाहिए क्योंकि इसे मैट्रिसेस के आयामों से मेल खाना होता है। और यह रॉ
00:04:1148 गुणा 48 पिक्सेल पैच केवल 2304 व्यक्तिगत कलर नंबरों का एक ग्रिड है। अगर आप उस कच्चे टुकड़े को
00:04:19सीधे LLM में डालने की कोशिश करते हैं, तो मॉडल उसे अस्वीकार कर देगा क्योंकि आयाम वास्तव में मेल नहीं खाते। और यही
00:04:26वजह है कि वह 35 मिलियन पैरामीटर वाली मैपिंग लेयर मौजूद है। यह वास्तव में कनेक्शन वेट का एक एकल विशाल ग्रिड है
00:04:33जो उन 2304 पिक्सेल मानों को गुणा करता है और उन्हें एक एकल पंक्ति में फैला देता है जो
00:04:40पूरी तरह से LLM के टेक्स्ट टोकन फॉर्मेट से मेल खाती है। यह शून्य विश्लेषणात्मक सोच करता है, यह केवल एक फॉर्मेट
00:04:48कन्वर्टर के रूप में कार्य करता है ताकि डेटा सीधे मुख्य ट्रांसफॉर्मर में जा सके जहाँ वास्तविक दृश्य तर्क मूल रूप से होता है।
00:04:54और मॉडल ऑडियो तर्क के साथ भी कुछ ऐसा ही करता है, लेकिन ऑडियो के लिए यह और भी सरल है।
00:05:01तो उन्होंने ऑडियो एनकोडर से छुटकारा पाने का तरीका यह निकाला है कि रॉ 16 किलोहर्ट्ज़ ऑडियो सिग्नल लें और
00:05:07उसे निरंतर 40 मिलीसेकंड के फ्रेम में काटें। प्रत्येक छोटे फ्रेम में ध्वनि तरंग का वर्णन करने वाले ठीक 640 फ्लोटिंग पॉइंट
00:05:15नंबर होते हैं। मॉडल उन 640 फ्लोट्स को लेता है और उन्हें एक समान
00:05:21सरल प्रोजेक्शन लेयर के माध्यम से चलाता है जो उन्हें सीधे भाषा मॉडल के इनपुट स्पेस में मैप करती है। ट्रांसफॉर्मर
00:05:28बैकबोन के लिए, एक 40 मिलीसेकंड का ऑडियो ब्लॉक टेक्स्ट टोकन के निरंतर प्रवाह के समान दिखता है। क्योंकि ध्वनि
00:05:35पहले से ही एक कालानुक्रमिक अनुक्रम है, बिल्कुल वैसे ही जैसे शब्दों के अनुक्रम में एक वाक्य, LLM ऑडियो के साथ
00:05:42बिल्कुल टेक्स्ट जैसा व्यवहार करता है। तो यह गहरा मूल एकीकरण 12 बिलियन पैरामीटर वाले मॉडल को लाइव ट्रांसक्रिप्शन,
00:05:49अनुवाद और टेक्स्ट फॉर्मेटिंग को एक ही फॉरवर्ड पास में संभालने देता है, बिना आपको अलग स्पीच
00:05:56नेटवर्क को अपनी मेमोरी में लोड करने के लिए मजबूर किए। तो यह चतुर रणनीति आपके अपने हार्डवेयर पर मॉडल स्थानीय रूप से चलाने के लिए एक बड़ी जीत है।
00:06:02सभी एनकोडर ब्लोट को हटाकर, डीपमाइंड ने अविश्वसनीय तर्क क्षमता को
00:06:08एक छोटे से दायरे में पैक कर दिया। और बेंचमार्क को देखते हुए, यह उनके विशाल 26
00:06:15बिलियन पैरामीटर वाले मॉडलों के प्रदर्शन के करीब पहुंच जाता है, लेकिन यह आसानी से 16 गीगाबाइट VRAM वाले मानक लैपटॉप पर फिट हो जाता है
00:06:21या उससे अधिक। साथ ही गूगल ने बॉक्स के बाहर ही नेटिव मल्टी-टोकन प्रेडिक्शन ड्राफ्टर शामिल किए हैं, जिसका मतलब है कि यह तेज़ स्थानीय
00:06:28अनुमान गति के लिए एक समय में कई टोकन की भविष्यवाणी करता है बिना आपको मॉडल को कंप्रेस करने के लिए मजबूर किए।
00:06:34तो यह सब सुनने में प्रभावशाली लगता है। तो अब चलिए इसे टेस्ट करते हैं और देखते हैं कि यह मेरे स्थानीय M2 मैकबुक प्रो पर कैसे काम करता है।
00:06:41और मेरे पिछले OMLX वीडियो में कुछ लोग पूछ रहे थे कि मेरी मशीन पर वास्तव में कितनी VRAM है?
00:06:48तो उस सवाल का जवाब देने के लिए, मेरे पास 24 गीगाबाइट VRAM है। तो हम आज इसी के साथ काम कर रहे हैं।
00:06:53मुझे यह भी कहना होगा कि यह एज गैलरी एप्लिकेशन बहुत ही बग-युक्त है। जैसे उदाहरण के लिए, अगर मैं कोई
00:07:01इमेज जोड़ता हूँ और पूछता हूँ, कृपया इस इमेज का विश्लेषण करें, तो यह तुरंत विफल हो जाएगा और मुझे यह यादृच्छिक त्रुटि देगा। और यह
00:07:13नवीनतम संस्करण पर है। तो दुर्भाग्य से हम आधिकारिक AI एज गैलरी एप्लिकेशन का उपयोग करके विज़न एनकोडर का परीक्षण नहीं कर सके,
00:07:20लेकिन इसे टेस्ट करने का एक और तरीका है। ठीक है। तो चूंकि मैं
00:07:26गूगल AI एज गैलरी एप्लिकेशन पर जेम्मा 4 12 बिलियन मॉडल के साथ इमेज प्रोसेसिंग का विश्वसनीय रूप से परीक्षण नहीं कर सका,
00:07:34मैंने इसे OMLX पर टेस्ट करने का फैसला किया। और मैंने OMLX के बारे में भी एक वीडियो बनाया है। यह स्थानीय रूप से
00:07:42AI मॉडल चलाने के लिए एक अविश्वसनीय ढांचा है, विशेष रूप से Apple सिलिकॉन पर। और जैसा कि आप यहाँ देख सकते हैं, मैंने
00:07:47इस मॉडल का आठ-बिट क्वांटाइज़्ड संस्करण डाउनलोड किया है। तो अब मैं चैट सेक्शन में जाऊंगा
00:07:54और देखते हैं कि यह वास्तव में वास्तविक समय में इमेज तर्क कितनी तेज़ी से कर सकता है। तो यहाँ मेरे पास
00:08:01दो इमेज वाला एक टेस्ट फोल्डर है। उनमें से एक सिर्फ हवाई अड्डे के प्रस्थान का स्क्रीनशॉट है। तो हम इस इमेज का उपयोग करेंगे
00:08:09और पूछेंगे कि आप इस इमेज में क्या देखते हैं। और मैं चाहता हूँ कि आप ध्यान दें कि मैं इस वीडियो को तेज़ नहीं कर रहा हूँ।
00:08:18यह सब वास्तविक समय है। मैं चाहता हूँ कि आप ध्यान दें कि यह
00:08:24ऐसी इमेज पर तर्क करने में कितनी तेज़ी से सक्षम है। तो यह यहाँ शुरू हो रहा है, यह मॉडल लोड कर रहा है, जनरेट कर रहा है और बूम, उसे देखो।
00:08:33देखो कि यह इस तस्वीर को कितनी तेज़ी से पार्स करने और उससे मूल्यवान जानकारी निकालने में सक्षम है।
00:08:41पहली बार जब मैंने इसे OMLX पर देखा, तो मैं इसकी गति देखकर वास्तव में हैरान रह गया। यह बिल्कुल पागलपन है।
00:08:50तो मुझे कहना होगा कि यह सबसे अच्छा मॉडल है जिसे मैंने इमेज तर्क के लिए स्थानीय रूप से टेस्ट किया है। और मैं यह भी
00:08:57चाहता हूँ कि आप इस बात पर ध्यान दें कि मैं इस मॉडल को ऑफलाइन चला रहा हूँ। मेरा वाई-फाई बंद है।
00:09:03तो चलिए एक और उदाहरण आज़माते हैं। यह सिर्फ टीवी शो 'वाइकिंग्स' की एक धुंधली इमेज है जिसमें कुछ
00:09:10पात्र दिखाए गए हैं। तो एक बार फिर, चलिए इस इमेज को खोलते हैं और वही पूछते हैं। आप इस
00:09:21इमेज में क्या देखते हैं? यह जनरेट हो रहा है।
00:09:27और बूम, देखो इसे।
00:09:30मेरा मतलब है, यह बस पागलपन है। यह इतना तेज़ है। मैं बहुत हैरान था।
00:09:37तो हाँ, मैं वास्तव में इस नए मॉडल के इमेज प्रोसेसिंग प्रदर्शन से बहुत, बहुत प्रभावित हूँ।
00:09:43तो यह लीजिए, दोस्तों। यह संक्षेप में नया एनकोडर-फ्री जेम्मा 4 12 बिलियन मॉडल है।
00:09:50मैं काफी निराश था कि मैं उनके आधिकारिक AI एज गैलरी
00:09:56एप्लिकेशन में इसका आत्मविश्वास से परीक्षण नहीं कर सका। लेकिन जैसा कि हमने देखा, इसे
00:10:01स्थानीय रूप से चलाने के अन्य वैकल्पिक और शायद बेहतर तरीके भी हैं। तो मुझे लगता है कि यह एक बहुत अच्छा मॉडल है और यह
00:10:07स्थानीय AI मॉडल चलाने के भविष्य को पूरी तरह से बदल देता है। गूगल डीपमाइंड ने बस साबित कर दिया कि एक एकल भाषा बैकबोन विज़न और ध्वनि को
00:10:13मूल रूप से संभालने के लिए पर्याप्त स्मार्ट है। तो यह नई तकनीक शायद और भी
00:10:19अधिक कुशल मल्टीमॉडल तर्क मॉडल विकसित करने के दरवाजे खोलेगी जो आसानी से एज डिवाइस पर चल सकते हैं। तो आप
00:10:26नए जेम्मा मॉडल के बारे में क्या सोचते हैं? क्या आपने इसे आज़माया है? क्या आप इसका उपयोग करेंगे? हमें नीचे कमेंट सेक्शन में बताएं।
00:10:32और दोस्तों, अगर आपको इस तरह के तकनीकी विश्लेषण पसंद हैं, तो कृपया वीडियो के नीचे
00:10:37लाइक बटन को दबाकर मुझे बताएं। और हमारे चैनल को सब्सक्राइब करना न भूलें। यह एंड्रेस
00:10:43था BetterStack से और मैं आपको अगले वीडियो में मिलूंगा।
Community Posts
No posts yet. Be the first to write about this video!
Write about this video