Google ने मल्टीमॉडल AI की सबसे बड़ी समस्या ठीक कर दी (Gemma 4 12B)
BBetter Stack
Computing/SoftwareConsumer Electronics
Transcript
00:00:00गूगल ने अभी अपना सबसे नया जेम्मा 4, 12 बिलियन पैरामीटर वाला मॉडल पेश किया है और यह वाकई गेम चेंजर है।
00:00:06नहीं, सच में, यह कोई क्लिकबेट नहीं है। यह मॉडल अपनी बनावट के मामले में वास्तव में एक गेम चेंजर है।
00:00:13जो चीज़ इसे बाकी सभी AI मॉडलों से अलग बनाती है, वह यह है कि यह पूरी तरह से
00:00:18एनकोडर-फ्री है। अब, इसका क्या मतलब है, यह कैसे काम करता है और यह इतनी बड़ी बात क्यों है?
00:00:24खैर, ये सभी अच्छे सवाल हैं जिनका जवाब हम आज के वीडियो में तलाशेंगे। इसमें बहुत
00:00:29मज़ा आने वाला है। तो चलिए शुरू करते हैं। जेम्मा 4, 12 बिलियन मॉडल का एक नया आर्किटेक्चर है जो
00:00:39बाकी सभी मल्टीमॉडल मॉडलों के काम करने के तरीके से पूरी तरह अलग है। मल्टीमॉडल मॉडल। ओह माय
00:00:46गॉड, यह कहना कितना मुश्किल है। तो यह समझने के लिए कि यह इतनी बड़ी बात क्यों है, हमें
00:00:51यह देखना होगा कि बाकी सभी मल्टीमॉडल मॉडल अभी कैसे काम करते हैं। भाषा मॉडल टेक्स्ट के
00:00:57टोकन पढ़ने के लिए बनाए जाते हैं, यानी टेक्स्ट के उन टुकड़ों को जो नंबरों में बदल दिए गए हैं। उन्हें स्वाभाविक रूप से नहीं पता होता कि पिक्सेल क्या है या
00:01:05साउंड वेव कैसी दिखती है। इसलिए हम आमतौर पर अलग-अलग मॉडलों को आपस में जोड़ देते हैं। अगर आप AI को एक इमेज देते हैं, तो एक बड़ा
00:01:11विज़न एनकोडर उसे सबसे पहले प्रोसेस करता है। यह उन रॉ पिक्सेल को ऐसी
00:01:19भाषा में अनुवाद करने में बहुत सारी प्रोसेसिंग पावर खर्च करता है जिसे LLM समझ सके। और ऐसा ही ऑडियो के साथ होता है। एक अलग स्पीच एनकोडर को
00:01:25पहले साउंड वेव का अनुवाद करना पड़ता है। जब तक AI का वास्तविक दिमाग डेटा प्राप्त करता है, तब तक आप तीन
00:01:32अलग नेटवर्क एक साथ चला रहे होते हैं। एक साधारण लैपटॉप पर, यह पूरी तरह से आपकी VRAM को भर देता है और हर चीज़ को
00:01:38धीमा कर देता है। लेकिन गूगल डीपमाइंड ने इस समस्या को देखा और सोचा, क्या होगा अगर हम बीच वाले को हटा दें?
00:01:44इसलिए जेम्मा 4, 12 बिलियन मॉडल में, उन्होंने भारी-भरकम विज़न एनकोडर को पूरी तरह से हटा दिया। इसके बजाय,
00:01:51जब आप इसे इमेज देते हैं, तो मॉडल उसे छोटे 48 गुणा 48 पिक्सेल के पैच में काट देता है। और उन पैच को
00:01:58अलग विज़न नेटवर्क की दर्जनों परतों से गुजारने के बजाय, रॉ पिक्सेल एक एकल
00:02:04पतले गणितीय चरण से गुजरते हैं जिसे लीनियर प्रोजेक्शन कहते हैं। और यह लीनियर प्रोजेक्शन नंबरों का एक विशाल ग्रिड होता है
00:02:11जो 2304 पिक्सेल मान लेता है, क्योंकि यह 48 गुणा 48 पिक्सेल के वर्ग से संबंधित है, उन्हें एक
00:02:19ही चरण में गुणा करता है, और उन्हें एक एकल पंक्ति में फैला देता है जो पूरी तरह से LLM के टेक्स्ट टोकन
00:02:26फॉर्मेट से मेल खाती है। तो यह अभी इमेज में क्या है इसका विश्लेषण नहीं करता, यह केवल रॉ डेटा को रीफॉर्मेट करता है ताकि यह
00:02:32मॉडल के माध्यम से जा सके। और अगर आप मानक मॉडलों को देखें, तो उनके विज़न एनकोडर बहुत बड़े होते हैं। जैसे उदाहरण के लिए,
00:02:38इसमें 550 मिलियन पैरामीटर हैं। ऐसा इसलिए है क्योंकि पारंपरिक एनकोडर को रीशेप करने के लिए बहुत सारे डेटा की आवश्यकता होती है,
00:02:45मैप करने और इमेज को समझने के लिए। इसमें दर्जनों आंतरिक अटेंशन परतें होती हैं जो पिक्सेल के
00:02:50बीच के संबंधों की गणना करती हैं, यह समझने की कोशिश करती हैं कि किनारे कहाँ हैं, आकृतियाँ क्या हैं, और वस्तुएँ क्या हो सकती हैं
00:02:57इससे पहले कि वह इसे टेक्स्ट मॉडल को दे। लेकिन डीपमाइंड ने उस सारी भारी-भरकम दिमाग की क्षमता को हटाकर इसे छोटा कर दिया।
00:03:04उन्हें एहसास हुआ कि मुख्य भाषा बैकबोन पहले से ही अविश्वसनीय रूप से स्मार्ट है और उसके पास
00:03:10वास्तविक दृश्य तर्क करने के लिए बहुत सारी परतें हैं। तो उन सभी सोचने वाली परतों को हटाकर, उनके पास
00:03:17केवल 35 मिलियन पैरामीटर बचे, और वह वास्तव में पिक्सेल ग्रिड को टेक्स्ट फॉर्मेट में मैप करने के लिए आवश्यक
00:03:24कनेक्शन वेट की भौतिक गणना है। तो यह एक स्टेटिक सिंगल-लेयर मैप है जो हर इमेज के लिए काम करता है।
00:03:30क्योंकि यह कोई आंतरिक सोच नहीं करता, यह व्यावहारिक रूप से कोई प्रोसेसिंग पावर नहीं लेता, VRAM को खाली कर देता है
00:03:37और मुख्य LLM को वास्तविक बुद्धिमत्ता को मूल रूप से संभालने देता है। और यह समझने के लिए कि वह एकल चरण कैसे काम करता है,
00:03:44आपको यह देखना होगा कि भाषा मॉडल बैकबोन के अंदर वास्तव में क्या हो रहा है। हर भाषा मॉडल में एक
00:03:50आंतरिक फॉर्मेटिंग नियम होता है जिसे हिडन डाइमेंशन कहते हैं। इसे एक मानकीकृत ट्रे आकार की तरह समझें। चाहे वह
00:03:56शब्द 'एप्पल' हो या कोड का कोई टुकड़ा या विराम चिह्न, जो कुछ भी LLM में डाला जाता है उसे
00:04:04नंबरों की इस विशिष्ट विशाल सूची में बदला जाना चाहिए क्योंकि इसे मैट्रिसेस के आयामों से मेल खाना होता है। और यह रॉ
00:04:1148 गुणा 48 पिक्सेल पैच केवल 2304 व्यक्तिगत कलर नंबरों का एक ग्रिड है। अगर आप उस कच्चे टुकड़े को
00:04:19सीधे LLM में डालने की कोशिश करते हैं, तो मॉडल उसे अस्वीकार कर देगा क्योंकि आयाम वास्तव में मेल नहीं खाते। और यही
00:04:26वजह है कि वह 35 मिलियन पैरामीटर वाली मैपिंग लेयर मौजूद है। यह वास्तव में कनेक्शन वेट का एक एकल विशाल ग्रिड है
00:04:33जो उन 2304 पिक्सेल मानों को गुणा करता है और उन्हें एक एकल पंक्ति में फैला देता है जो
00:04:40पूरी तरह से LLM के टेक्स्ट टोकन फॉर्मेट से मेल खाती है। यह शून्य विश्लेषणात्मक सोच करता है, यह केवल एक फॉर्मेट
00:04:48कन्वर्टर के रूप में कार्य करता है ताकि डेटा सीधे मुख्य ट्रांसफॉर्मर में जा सके जहाँ वास्तविक दृश्य तर्क मूल रूप से होता है।
00:04:54और मॉडल ऑडियो तर्क के साथ भी कुछ ऐसा ही करता है, लेकिन ऑडियो के लिए यह और भी सरल है।
00:05:01तो उन्होंने ऑडियो एनकोडर से छुटकारा पाने का तरीका यह निकाला है कि रॉ 16 किलोहर्ट्ज़ ऑडियो सिग्नल लें और
00:05:07उसे निरंतर 40 मिलीसेकंड के फ्रेम में काटें। प्रत्येक छोटे फ्रेम में ध्वनि तरंग का वर्णन करने वाले ठीक 640 फ्लोटिंग पॉइंट
00:05:15नंबर होते हैं। मॉडल उन 640 फ्लोट्स को लेता है और उन्हें एक समान
00:05:21सरल प्रोजेक्शन लेयर के माध्यम से चलाता है जो उन्हें सीधे भाषा मॉडल के इनपुट स्पेस में मैप करती है। ट्रांसफॉर्मर
00:05:28बैकबोन के लिए, एक 40 मिलीसेकंड का ऑडियो ब्लॉक टेक्स्ट टोकन के निरंतर प्रवाह के समान दिखता है। क्योंकि ध्वनि
00:05:35पहले से ही एक कालानुक्रमिक अनुक्रम है, बिल्कुल वैसे ही जैसे शब्दों के अनुक्रम में एक वाक्य, LLM ऑडियो के साथ
00:05:42बिल्कुल टेक्स्ट जैसा व्यवहार करता है। तो यह गहरा मूल एकीकरण 12 बिलियन पैरामीटर वाले मॉडल को लाइव ट्रांसक्रिप्शन,
00:05:49अनुवाद और टेक्स्ट फॉर्मेटिंग को एक ही फॉरवर्ड पास में संभालने देता है, बिना आपको अलग स्पीच
00:05:56नेटवर्क को अपनी मेमोरी में लोड करने के लिए मजबूर किए। तो यह चतुर रणनीति आपके अपने हार्डवेयर पर मॉडल स्थानीय रूप से चलाने के लिए एक बड़ी जीत है।
00:06:02सभी एनकोडर ब्लोट को हटाकर, डीपमाइंड ने अविश्वसनीय तर्क क्षमता को
00:06:08एक छोटे से दायरे में पैक कर दिया। और बेंचमार्क को देखते हुए, यह उनके विशाल 26
00:06:15बिलियन पैरामीटर वाले मॉडलों के प्रदर्शन के करीब पहुंच जाता है, लेकिन यह आसानी से 16 गीगाबाइट VRAM वाले मानक लैपटॉप पर फिट हो जाता है
00:06:21या उससे अधिक। साथ ही गूगल ने बॉक्स के बाहर ही नेटिव मल्टी-टोकन प्रेडिक्शन ड्राफ्टर शामिल किए हैं, जिसका मतलब है कि यह तेज़ स्थानीय
00:06:28अनुमान गति के लिए एक समय में कई टोकन की भविष्यवाणी करता है बिना आपको मॉडल को कंप्रेस करने के लिए मजबूर किए।
00:06:34तो यह सब सुनने में प्रभावशाली लगता है। तो अब चलिए इसे टेस्ट करते हैं और देखते हैं कि यह मेरे स्थानीय M2 मैकबुक प्रो पर कैसे काम करता है।
00:06:41और मेरे पिछले OMLX वीडियो में कुछ लोग पूछ रहे थे कि मेरी मशीन पर वास्तव में कितनी VRAM है?
00:06:48तो उस सवाल का जवाब देने के लिए, मेरे पास 24 गीगाबाइट VRAM है। तो हम आज इसी के साथ काम कर रहे हैं।
00:06:53मुझे यह भी कहना होगा कि यह एज गैलरी एप्लिकेशन बहुत ही बग-युक्त है। जैसे उदाहरण के लिए, अगर मैं कोई
00:07:01इमेज जोड़ता हूँ और पूछता हूँ, कृपया इस इमेज का विश्लेषण करें, तो यह तुरंत विफल हो जाएगा और मुझे यह यादृच्छिक त्रुटि देगा। और यह
00:07:13नवीनतम संस्करण पर है। तो दुर्भाग्य से हम आधिकारिक AI एज गैलरी एप्लिकेशन का उपयोग करके विज़न एनकोडर का परीक्षण नहीं कर सके,
00:07:20लेकिन इसे टेस्ट करने का एक और तरीका है। ठीक है। तो चूंकि मैं
00:07:26गूगल AI एज गैलरी एप्लिकेशन पर जेम्मा 4 12 बिलियन मॉडल के साथ इमेज प्रोसेसिंग का विश्वसनीय रूप से परीक्षण नहीं कर सका,
00:07:34मैंने इसे OMLX पर टेस्ट करने का फैसला किया। और मैंने OMLX के बारे में भी एक वीडियो बनाया है। यह स्थानीय रूप से
00:07:42AI मॉडल चलाने के लिए एक अविश्वसनीय ढांचा है, विशेष रूप से Apple सिलिकॉन पर। और जैसा कि आप यहाँ देख सकते हैं, मैंने
00:07:47इस मॉडल का आठ-बिट क्वांटाइज़्ड संस्करण डाउनलोड किया है। तो अब मैं चैट सेक्शन में जाऊंगा
00:07:54और देखते हैं कि यह वास्तव में वास्तविक समय में इमेज तर्क कितनी तेज़ी से कर सकता है। तो यहाँ मेरे पास
00:08:01दो इमेज वाला एक टेस्ट फोल्डर है। उनमें से एक सिर्फ हवाई अड्डे के प्रस्थान का स्क्रीनशॉट है। तो हम इस इमेज का उपयोग करेंगे
00:08:09और पूछेंगे कि आप इस इमेज में क्या देखते हैं। और मैं चाहता हूँ कि आप ध्यान दें कि मैं इस वीडियो को तेज़ नहीं कर रहा हूँ।
00:08:18यह सब वास्तविक समय है। मैं चाहता हूँ कि आप ध्यान दें कि यह
00:08:24ऐसी इमेज पर तर्क करने में कितनी तेज़ी से सक्षम है। तो यह यहाँ शुरू हो रहा है, यह मॉडल लोड कर रहा है, जनरेट कर रहा है और बूम, उसे देखो।
00:08:33देखो कि यह इस तस्वीर को कितनी तेज़ी से पार्स करने और उससे मूल्यवान जानकारी निकालने में सक्षम है।
00:08:41पहली बार जब मैंने इसे OMLX पर देखा, तो मैं इसकी गति देखकर वास्तव में हैरान रह गया। यह बिल्कुल पागलपन है।
00:08:50तो मुझे कहना होगा कि यह सबसे अच्छा मॉडल है जिसे मैंने इमेज तर्क के लिए स्थानीय रूप से टेस्ट किया है। और मैं यह भी
00:08:57चाहता हूँ कि आप इस बात पर ध्यान दें कि मैं इस मॉडल को ऑफलाइन चला रहा हूँ। मेरा वाई-फाई बंद है।
00:09:03तो चलिए एक और उदाहरण आज़माते हैं। यह सिर्फ टीवी शो 'वाइकिंग्स' की एक धुंधली इमेज है जिसमें कुछ
00:09:10पात्र दिखाए गए हैं। तो एक बार फिर, चलिए इस इमेज को खोलते हैं और वही पूछते हैं। आप इस
00:09:21इमेज में क्या देखते हैं? यह जनरेट हो रहा है।
00:09:27और बूम, देखो इसे।
00:09:30मेरा मतलब है, यह बस पागलपन है। यह इतना तेज़ है। मैं बहुत हैरान था।
00:09:37तो हाँ, मैं वास्तव में इस नए मॉडल के इमेज प्रोसेसिंग प्रदर्शन से बहुत, बहुत प्रभावित हूँ।
00:09:43तो यह लीजिए, दोस्तों। यह संक्षेप में नया एनकोडर-फ्री जेम्मा 4 12 बिलियन मॉडल है।
00:09:50मैं काफी निराश था कि मैं उनके आधिकारिक AI एज गैलरी
00:09:56एप्लिकेशन में इसका आत्मविश्वास से परीक्षण नहीं कर सका। लेकिन जैसा कि हमने देखा, इसे
00:10:01स्थानीय रूप से चलाने के अन्य वैकल्पिक और शायद बेहतर तरीके भी हैं। तो मुझे लगता है कि यह एक बहुत अच्छा मॉडल है और यह
00:10:07स्थानीय AI मॉडल चलाने के भविष्य को पूरी तरह से बदल देता है। गूगल डीपमाइंड ने बस साबित कर दिया कि एक एकल भाषा बैकबोन विज़न और ध्वनि को
00:10:13मूल रूप से संभालने के लिए पर्याप्त स्मार्ट है। तो यह नई तकनीक शायद और भी
00:10:19अधिक कुशल मल्टीमॉडल तर्क मॉडल विकसित करने के दरवाजे खोलेगी जो आसानी से एज डिवाइस पर चल सकते हैं। तो आप
00:10:26नए जेम्मा मॉडल के बारे में क्या सोचते हैं? क्या आपने इसे आज़माया है? क्या आप इसका उपयोग करेंगे? हमें नीचे कमेंट सेक्शन में बताएं।
00:10:32और दोस्तों, अगर आपको इस तरह के तकनीकी विश्लेषण पसंद हैं, तो कृपया वीडियो के नीचे
00:10:37लाइक बटन को दबाकर मुझे बताएं। और हमारे चैनल को सब्सक्राइब करना न भूलें। यह एंड्रेस
00:10:43था BetterStack से और मैं आपको अगले वीडियो में मिलूंगा।
Community Posts
No posts yet. Be the first to write about this video!
Write about this video