Google ने मल्टीमॉडल AI की सबसे बड़ी समस्या ठीक कर दी (Gemma 4 12B)

BBetter Stack
Computing/SoftwareConsumer Electronics

Transcript

00:00:00गूगल ने अभी अपना सबसे नया जेम्मा 4, 12 बिलियन पैरामीटर वाला मॉडल पेश किया है और यह वाकई गेम चेंजर है।
00:00:06नहीं, सच में, यह कोई क्लिकबेट नहीं है। यह मॉडल अपनी बनावट के मामले में वास्तव में एक गेम चेंजर है।
00:00:13जो चीज़ इसे बाकी सभी AI मॉडलों से अलग बनाती है, वह यह है कि यह पूरी तरह से
00:00:18एनकोडर-फ्री है। अब, इसका क्या मतलब है, यह कैसे काम करता है और यह इतनी बड़ी बात क्यों है?
00:00:24खैर, ये सभी अच्छे सवाल हैं जिनका जवाब हम आज के वीडियो में तलाशेंगे। इसमें बहुत
00:00:29मज़ा आने वाला है। तो चलिए शुरू करते हैं। जेम्मा 4, 12 बिलियन मॉडल का एक नया आर्किटेक्चर है जो
00:00:39बाकी सभी मल्टीमॉडल मॉडलों के काम करने के तरीके से पूरी तरह अलग है। मल्टीमॉडल मॉडल। ओह माय
00:00:46गॉड, यह कहना कितना मुश्किल है। तो यह समझने के लिए कि यह इतनी बड़ी बात क्यों है, हमें
00:00:51यह देखना होगा कि बाकी सभी मल्टीमॉडल मॉडल अभी कैसे काम करते हैं। भाषा मॉडल टेक्स्ट के
00:00:57टोकन पढ़ने के लिए बनाए जाते हैं, यानी टेक्स्ट के उन टुकड़ों को जो नंबरों में बदल दिए गए हैं। उन्हें स्वाभाविक रूप से नहीं पता होता कि पिक्सेल क्या है या
00:01:05साउंड वेव कैसी दिखती है। इसलिए हम आमतौर पर अलग-अलग मॉडलों को आपस में जोड़ देते हैं। अगर आप AI को एक इमेज देते हैं, तो एक बड़ा
00:01:11विज़न एनकोडर उसे सबसे पहले प्रोसेस करता है। यह उन रॉ पिक्सेल को ऐसी
00:01:19भाषा में अनुवाद करने में बहुत सारी प्रोसेसिंग पावर खर्च करता है जिसे LLM समझ सके। और ऐसा ही ऑडियो के साथ होता है। एक अलग स्पीच एनकोडर को
00:01:25पहले साउंड वेव का अनुवाद करना पड़ता है। जब तक AI का वास्तविक दिमाग डेटा प्राप्त करता है, तब तक आप तीन
00:01:32अलग नेटवर्क एक साथ चला रहे होते हैं। एक साधारण लैपटॉप पर, यह पूरी तरह से आपकी VRAM को भर देता है और हर चीज़ को
00:01:38धीमा कर देता है। लेकिन गूगल डीपमाइंड ने इस समस्या को देखा और सोचा, क्या होगा अगर हम बीच वाले को हटा दें?
00:01:44इसलिए जेम्मा 4, 12 बिलियन मॉडल में, उन्होंने भारी-भरकम विज़न एनकोडर को पूरी तरह से हटा दिया। इसके बजाय,
00:01:51जब आप इसे इमेज देते हैं, तो मॉडल उसे छोटे 48 गुणा 48 पिक्सेल के पैच में काट देता है। और उन पैच को
00:01:58अलग विज़न नेटवर्क की दर्जनों परतों से गुजारने के बजाय, रॉ पिक्सेल एक एकल
00:02:04पतले गणितीय चरण से गुजरते हैं जिसे लीनियर प्रोजेक्शन कहते हैं। और यह लीनियर प्रोजेक्शन नंबरों का एक विशाल ग्रिड होता है
00:02:11जो 2304 पिक्सेल मान लेता है, क्योंकि यह 48 गुणा 48 पिक्सेल के वर्ग से संबंधित है, उन्हें एक
00:02:19ही चरण में गुणा करता है, और उन्हें एक एकल पंक्ति में फैला देता है जो पूरी तरह से LLM के टेक्स्ट टोकन
00:02:26फॉर्मेट से मेल खाती है। तो यह अभी इमेज में क्या है इसका विश्लेषण नहीं करता, यह केवल रॉ डेटा को रीफॉर्मेट करता है ताकि यह
00:02:32मॉडल के माध्यम से जा सके। और अगर आप मानक मॉडलों को देखें, तो उनके विज़न एनकोडर बहुत बड़े होते हैं। जैसे उदाहरण के लिए,
00:02:38इसमें 550 मिलियन पैरामीटर हैं। ऐसा इसलिए है क्योंकि पारंपरिक एनकोडर को रीशेप करने के लिए बहुत सारे डेटा की आवश्यकता होती है,
00:02:45मैप करने और इमेज को समझने के लिए। इसमें दर्जनों आंतरिक अटेंशन परतें होती हैं जो पिक्सेल के
00:02:50बीच के संबंधों की गणना करती हैं, यह समझने की कोशिश करती हैं कि किनारे कहाँ हैं, आकृतियाँ क्या हैं, और वस्तुएँ क्या हो सकती हैं
00:02:57इससे पहले कि वह इसे टेक्स्ट मॉडल को दे। लेकिन डीपमाइंड ने उस सारी भारी-भरकम दिमाग की क्षमता को हटाकर इसे छोटा कर दिया।
00:03:04उन्हें एहसास हुआ कि मुख्य भाषा बैकबोन पहले से ही अविश्वसनीय रूप से स्मार्ट है और उसके पास
00:03:10वास्तविक दृश्य तर्क करने के लिए बहुत सारी परतें हैं। तो उन सभी सोचने वाली परतों को हटाकर, उनके पास
00:03:17केवल 35 मिलियन पैरामीटर बचे, और वह वास्तव में पिक्सेल ग्रिड को टेक्स्ट फॉर्मेट में मैप करने के लिए आवश्यक
00:03:24कनेक्शन वेट की भौतिक गणना है। तो यह एक स्टेटिक सिंगल-लेयर मैप है जो हर इमेज के लिए काम करता है।
00:03:30क्योंकि यह कोई आंतरिक सोच नहीं करता, यह व्यावहारिक रूप से कोई प्रोसेसिंग पावर नहीं लेता, VRAM को खाली कर देता है
00:03:37और मुख्य LLM को वास्तविक बुद्धिमत्ता को मूल रूप से संभालने देता है। और यह समझने के लिए कि वह एकल चरण कैसे काम करता है,
00:03:44आपको यह देखना होगा कि भाषा मॉडल बैकबोन के अंदर वास्तव में क्या हो रहा है। हर भाषा मॉडल में एक
00:03:50आंतरिक फॉर्मेटिंग नियम होता है जिसे हिडन डाइमेंशन कहते हैं। इसे एक मानकीकृत ट्रे आकार की तरह समझें। चाहे वह
00:03:56शब्द 'एप्पल' हो या कोड का कोई टुकड़ा या विराम चिह्न, जो कुछ भी LLM में डाला जाता है उसे
00:04:04नंबरों की इस विशिष्ट विशाल सूची में बदला जाना चाहिए क्योंकि इसे मैट्रिसेस के आयामों से मेल खाना होता है। और यह रॉ
00:04:1148 गुणा 48 पिक्सेल पैच केवल 2304 व्यक्तिगत कलर नंबरों का एक ग्रिड है। अगर आप उस कच्चे टुकड़े को
00:04:19सीधे LLM में डालने की कोशिश करते हैं, तो मॉडल उसे अस्वीकार कर देगा क्योंकि आयाम वास्तव में मेल नहीं खाते। और यही
00:04:26वजह है कि वह 35 मिलियन पैरामीटर वाली मैपिंग लेयर मौजूद है। यह वास्तव में कनेक्शन वेट का एक एकल विशाल ग्रिड है
00:04:33जो उन 2304 पिक्सेल मानों को गुणा करता है और उन्हें एक एकल पंक्ति में फैला देता है जो
00:04:40पूरी तरह से LLM के टेक्स्ट टोकन फॉर्मेट से मेल खाती है। यह शून्य विश्लेषणात्मक सोच करता है, यह केवल एक फॉर्मेट
00:04:48कन्वर्टर के रूप में कार्य करता है ताकि डेटा सीधे मुख्य ट्रांसफॉर्मर में जा सके जहाँ वास्तविक दृश्य तर्क मूल रूप से होता है।
00:04:54और मॉडल ऑडियो तर्क के साथ भी कुछ ऐसा ही करता है, लेकिन ऑडियो के लिए यह और भी सरल है।
00:05:01तो उन्होंने ऑडियो एनकोडर से छुटकारा पाने का तरीका यह निकाला है कि रॉ 16 किलोहर्ट्ज़ ऑडियो सिग्नल लें और
00:05:07उसे निरंतर 40 मिलीसेकंड के फ्रेम में काटें। प्रत्येक छोटे फ्रेम में ध्वनि तरंग का वर्णन करने वाले ठीक 640 फ्लोटिंग पॉइंट
00:05:15नंबर होते हैं। मॉडल उन 640 फ्लोट्स को लेता है और उन्हें एक समान
00:05:21सरल प्रोजेक्शन लेयर के माध्यम से चलाता है जो उन्हें सीधे भाषा मॉडल के इनपुट स्पेस में मैप करती है। ट्रांसफॉर्मर
00:05:28बैकबोन के लिए, एक 40 मिलीसेकंड का ऑडियो ब्लॉक टेक्स्ट टोकन के निरंतर प्रवाह के समान दिखता है। क्योंकि ध्वनि
00:05:35पहले से ही एक कालानुक्रमिक अनुक्रम है, बिल्कुल वैसे ही जैसे शब्दों के अनुक्रम में एक वाक्य, LLM ऑडियो के साथ
00:05:42बिल्कुल टेक्स्ट जैसा व्यवहार करता है। तो यह गहरा मूल एकीकरण 12 बिलियन पैरामीटर वाले मॉडल को लाइव ट्रांसक्रिप्शन,
00:05:49अनुवाद और टेक्स्ट फॉर्मेटिंग को एक ही फॉरवर्ड पास में संभालने देता है, बिना आपको अलग स्पीच
00:05:56नेटवर्क को अपनी मेमोरी में लोड करने के लिए मजबूर किए। तो यह चतुर रणनीति आपके अपने हार्डवेयर पर मॉडल स्थानीय रूप से चलाने के लिए एक बड़ी जीत है।
00:06:02सभी एनकोडर ब्लोट को हटाकर, डीपमाइंड ने अविश्वसनीय तर्क क्षमता को
00:06:08एक छोटे से दायरे में पैक कर दिया। और बेंचमार्क को देखते हुए, यह उनके विशाल 26
00:06:15बिलियन पैरामीटर वाले मॉडलों के प्रदर्शन के करीब पहुंच जाता है, लेकिन यह आसानी से 16 गीगाबाइट VRAM वाले मानक लैपटॉप पर फिट हो जाता है
00:06:21या उससे अधिक। साथ ही गूगल ने बॉक्स के बाहर ही नेटिव मल्टी-टोकन प्रेडिक्शन ड्राफ्टर शामिल किए हैं, जिसका मतलब है कि यह तेज़ स्थानीय
00:06:28अनुमान गति के लिए एक समय में कई टोकन की भविष्यवाणी करता है बिना आपको मॉडल को कंप्रेस करने के लिए मजबूर किए।
00:06:34तो यह सब सुनने में प्रभावशाली लगता है। तो अब चलिए इसे टेस्ट करते हैं और देखते हैं कि यह मेरे स्थानीय M2 मैकबुक प्रो पर कैसे काम करता है।
00:06:41और मेरे पिछले OMLX वीडियो में कुछ लोग पूछ रहे थे कि मेरी मशीन पर वास्तव में कितनी VRAM है?
00:06:48तो उस सवाल का जवाब देने के लिए, मेरे पास 24 गीगाबाइट VRAM है। तो हम आज इसी के साथ काम कर रहे हैं।
00:06:53मुझे यह भी कहना होगा कि यह एज गैलरी एप्लिकेशन बहुत ही बग-युक्त है। जैसे उदाहरण के लिए, अगर मैं कोई
00:07:01इमेज जोड़ता हूँ और पूछता हूँ, कृपया इस इमेज का विश्लेषण करें, तो यह तुरंत विफल हो जाएगा और मुझे यह यादृच्छिक त्रुटि देगा। और यह
00:07:13नवीनतम संस्करण पर है। तो दुर्भाग्य से हम आधिकारिक AI एज गैलरी एप्लिकेशन का उपयोग करके विज़न एनकोडर का परीक्षण नहीं कर सके,
00:07:20लेकिन इसे टेस्ट करने का एक और तरीका है। ठीक है। तो चूंकि मैं
00:07:26गूगल AI एज गैलरी एप्लिकेशन पर जेम्मा 4 12 बिलियन मॉडल के साथ इमेज प्रोसेसिंग का विश्वसनीय रूप से परीक्षण नहीं कर सका,
00:07:34मैंने इसे OMLX पर टेस्ट करने का फैसला किया। और मैंने OMLX के बारे में भी एक वीडियो बनाया है। यह स्थानीय रूप से
00:07:42AI मॉडल चलाने के लिए एक अविश्वसनीय ढांचा है, विशेष रूप से Apple सिलिकॉन पर। और जैसा कि आप यहाँ देख सकते हैं, मैंने
00:07:47इस मॉडल का आठ-बिट क्वांटाइज़्ड संस्करण डाउनलोड किया है। तो अब मैं चैट सेक्शन में जाऊंगा
00:07:54और देखते हैं कि यह वास्तव में वास्तविक समय में इमेज तर्क कितनी तेज़ी से कर सकता है। तो यहाँ मेरे पास
00:08:01दो इमेज वाला एक टेस्ट फोल्डर है। उनमें से एक सिर्फ हवाई अड्डे के प्रस्थान का स्क्रीनशॉट है। तो हम इस इमेज का उपयोग करेंगे
00:08:09और पूछेंगे कि आप इस इमेज में क्या देखते हैं। और मैं चाहता हूँ कि आप ध्यान दें कि मैं इस वीडियो को तेज़ नहीं कर रहा हूँ।
00:08:18यह सब वास्तविक समय है। मैं चाहता हूँ कि आप ध्यान दें कि यह
00:08:24ऐसी इमेज पर तर्क करने में कितनी तेज़ी से सक्षम है। तो यह यहाँ शुरू हो रहा है, यह मॉडल लोड कर रहा है, जनरेट कर रहा है और बूम, उसे देखो।
00:08:33देखो कि यह इस तस्वीर को कितनी तेज़ी से पार्स करने और उससे मूल्यवान जानकारी निकालने में सक्षम है।
00:08:41पहली बार जब मैंने इसे OMLX पर देखा, तो मैं इसकी गति देखकर वास्तव में हैरान रह गया। यह बिल्कुल पागलपन है।
00:08:50तो मुझे कहना होगा कि यह सबसे अच्छा मॉडल है जिसे मैंने इमेज तर्क के लिए स्थानीय रूप से टेस्ट किया है। और मैं यह भी
00:08:57चाहता हूँ कि आप इस बात पर ध्यान दें कि मैं इस मॉडल को ऑफलाइन चला रहा हूँ। मेरा वाई-फाई बंद है।
00:09:03तो चलिए एक और उदाहरण आज़माते हैं। यह सिर्फ टीवी शो 'वाइकिंग्स' की एक धुंधली इमेज है जिसमें कुछ
00:09:10पात्र दिखाए गए हैं। तो एक बार फिर, चलिए इस इमेज को खोलते हैं और वही पूछते हैं। आप इस
00:09:21इमेज में क्या देखते हैं? यह जनरेट हो रहा है।
00:09:27और बूम, देखो इसे।
00:09:30मेरा मतलब है, यह बस पागलपन है। यह इतना तेज़ है। मैं बहुत हैरान था।
00:09:37तो हाँ, मैं वास्तव में इस नए मॉडल के इमेज प्रोसेसिंग प्रदर्शन से बहुत, बहुत प्रभावित हूँ।
00:09:43तो यह लीजिए, दोस्तों। यह संक्षेप में नया एनकोडर-फ्री जेम्मा 4 12 बिलियन मॉडल है।
00:09:50मैं काफी निराश था कि मैं उनके आधिकारिक AI एज गैलरी
00:09:56एप्लिकेशन में इसका आत्मविश्वास से परीक्षण नहीं कर सका। लेकिन जैसा कि हमने देखा, इसे
00:10:01स्थानीय रूप से चलाने के अन्य वैकल्पिक और शायद बेहतर तरीके भी हैं। तो मुझे लगता है कि यह एक बहुत अच्छा मॉडल है और यह
00:10:07स्थानीय AI मॉडल चलाने के भविष्य को पूरी तरह से बदल देता है। गूगल डीपमाइंड ने बस साबित कर दिया कि एक एकल भाषा बैकबोन विज़न और ध्वनि को
00:10:13मूल रूप से संभालने के लिए पर्याप्त स्मार्ट है। तो यह नई तकनीक शायद और भी
00:10:19अधिक कुशल मल्टीमॉडल तर्क मॉडल विकसित करने के दरवाजे खोलेगी जो आसानी से एज डिवाइस पर चल सकते हैं। तो आप
00:10:26नए जेम्मा मॉडल के बारे में क्या सोचते हैं? क्या आपने इसे आज़माया है? क्या आप इसका उपयोग करेंगे? हमें नीचे कमेंट सेक्शन में बताएं।
00:10:32और दोस्तों, अगर आपको इस तरह के तकनीकी विश्लेषण पसंद हैं, तो कृपया वीडियो के नीचे
00:10:37लाइक बटन को दबाकर मुझे बताएं। और हमारे चैनल को सब्सक्राइब करना न भूलें। यह एंड्रेस
00:10:43था BetterStack से और मैं आपको अगले वीडियो में मिलूंगा।

Key Takeaway

जेम्मा 4 12B मॉडल ने विज़न एनकोडर को हटाकर और डेटा को सीधे भाषा बैकबोन में मैप करके मल्टीमॉडल एआई के लिए प्रोसेसिंग पावर की खपत को काफी कम कर दिया है, जिससे यह स्थानीय उपकरणों पर अत्यधिक कुशल हो गया है।

Highlights

  • Google ने 12 बिलियन पैरामीटर वाला जेम्मा 4 मॉडल पेश किया है जो पूरी तरह से एनकोडर-फ्री है।

  • यह मॉडल छवियों को प्रोसेस करने के लिए भारी विज़न एनकोडर के बजाय 48 गुणा 48 पिक्सेल के पैच और लीनियर प्रोजेक्शन का उपयोग करता है।

  • एनकोडर-फ्री आर्किटेक्चर के कारण, यह मॉडल 16 गीगाबाइट VRAM वाले मानक लैपटॉप पर आसानी से चल सकता है।

  • ऑडियो डेटा के लिए, यह 16 किलोहर्ट्ज़ सिग्नल को 40 मिलीसेकंड के फ्रेम में विभाजित कर सीधे भाषा मॉडल के इनपुट स्पेस में मैप करता है।

  • OMLX ढांचे पर परीक्षण के दौरान, यह मॉडल स्थानीय रूप से ऑफलाइन होने के बावजूद वास्तविक समय में छवि तर्क करने में सक्षम है।

Timeline

जेम्मा 4 का नया एनकोडर-फ्री आर्किटेक्चर

  • जेम्मा 4 मॉडल पारंपरिक मल्टीमॉडल मॉडलों की तरह अलग विज़न या स्पीच एनकोडर का उपयोग नहीं करता है।
  • छवि डेटा को सीधे LLM में भेजने के लिए 48 गुणा 48 पिक्सेल के पैच और लीनियर प्रोजेक्शन लेयर का उपयोग किया जाता है।
  • पारंपरिक विज़न एनकोडर में उपयोग होने वाले 550 मिलियन पैरामीटर की तुलना में, यह मैपिंग लेयर केवल 35 मिलियन पैरामीटर का उपयोग करती है।

पारंपरिक मल्टीमॉडल मॉडल डेटा को समझने के लिए अलग-अलग एनकोडर नेटवर्क चलाते हैं, जो VRAM की खपत करते हैं और प्रदर्शन धीमा करते हैं। जेम्मा 4 इस जटिलता को समाप्त करता है। यह रॉ पिक्सेल डेटा को रीफॉर्मेट करता है ताकि वह LLM के टोकन फॉर्मेट के साथ मेल खा सके, जिससे प्रोसेसिंग पावर की बचत होती है और VRAM खाली रहती है।

भाषा बैकबोन का एकीकरण और ऑडियो प्रोसेसिंग

  • LLM की आंतरिक संरचना का उपयोग पिक्सेल ग्रिड को टेक्स्ट टोकन फॉर्मेट में मैप करने के लिए किया जाता है।
  • मॉडल 16 किलोहर्ट्ज़ ऑडियो सिग्नल को 40 मिलीसेकंड के फ्रेम में प्रोसेस करता है।
  • ऑडियो के कालानुक्रमिक अनुक्रम को टेक्स्ट के समान मानकर, यह मॉडल बिना अलग स्पीच नेटवर्क के लाइव ट्रांसक्रिप्शन और अनुवाद कर सकता है।

भाषा बैकबोन के पास पहले से ही दृश्य और श्रव्य तर्क करने की क्षमता होती है, इसलिए अतिरिक्त सोचने वाली परतों को हटा दिया गया है। 35 मिलियन पैरामीटर वाली मैपिंग लेयर केवल एक फॉर्मेट कन्वर्टर के रूप में कार्य करती है। ऑडियो के मामले में, प्रत्येक 40 मिलीसेकंड का ब्लॉक 640 फ्लोटिंग पॉइंट नंबरों में तब्दील हो जाता है, जो ट्रांसफॉर्मर के लिए टेक्स्ट टोकन के निरंतर प्रवाह की तरह कार्य करता है।

हार्डवेयर पर प्रदर्शन और परीक्षण

  • यह मॉडल 16 गीगाबाइट VRAM या उससे अधिक वाले मानक लैपटॉप पर सुचारू रूप से काम करता है।
  • नेटिव मल्टी-टोकन प्रेडिक्शन ड्राफ्टर के उपयोग से स्थानीय अनुमान गति में सुधार होता है।
  • OMLX ढांचे के माध्यम से ऑफलाइन परीक्षणों में यह मॉडल छवियों से जानकारी निकालने में बेहद तेज़ साबित हुआ है।

24 गीगाबाइट VRAM वाले M2 मैकबुक प्रो पर आठ-बिट क्वांटाइज़्ड संस्करण का परीक्षण किया गया। वाई-फाई बंद होने के बावजूद, मॉडल ने इमेज इनपुट के आधार पर प्रस्थान स्क्रीनशॉट और टीवी शो के पात्रों का सटीक विश्लेषण किया। यह साबित करता है कि एक एकल भाषा बैकबोन स्थानीय उपकरणों पर मल्टीमॉडल कार्यों को प्रभावी ढंग से संभालने के लिए पर्याप्त है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video