00:00:00पिछले हफ्ते, Google ने कुछ अप्रत्याशित किया।
00:00:02उन्होंने Apache 2.0 लाइसेंस के तहत वास्तव में एक ओपन-सोर्स मॉडल जारी किया।
00:00:08इसका नाम Gemma 4 है और इसमें 2.3 बिलियन पैरामीटर्स जैसे छोटे विशिष्ट एज वर्जन शामिल हैं
00:00:14जिन्हें पूरी तरह से आपके iPhone, Android फ्लैगशिप जैसे डिवाइस पर ऑफलाइन चलाने के लिए
00:00:21या Raspberry Pi पर भी चलने के लिए डिज़ाइन किया गया है।
00:00:23ऐसा लगता है कि बेहतरीन छोटा मॉडल बनाने की होड़ वास्तव में तेज हो रही है।
00:00:28अभी कुछ हफ़्ते पहले ही मैंने QWAN 3.5 पर कुछ परीक्षण किए थे कि यह कैसे
00:00:33लोकल AI की सीमाओं को बढ़ा रहा है, लेकिन अब Google और भी उच्च इंटेलिजेंस डेंसिटी का वादा कर रहा है।
00:00:39तो इस वीडियो में, हम Gemma 4 पर भी इसी तरह के टेस्ट करेंगे ताकि यह देख सकें कि क्या यह मॉडल वास्तव में
00:00:44बाहर मौजूद सबसे अच्छा छोटा मॉडल है।
00:00:47इसमें बहुत मज़ा आने वाला है, तो चलिए इसमें गहराई से उतरते हैं।
00:00:53तो इन नए Gemma 4 मॉडलों में इतना अनोखा क्या है?
00:00:57खैर, यहाँ असली तकनीकी बदलाव वह है जिसे Google "पर-लेयर एम्बेडिंग" (per-layer embeddings) कहता है।
00:01:03पारंपरिक ट्रांसफॉर्मर में, एक टोकन को शुरुआत में एक ही एम्बेडिंग मिलती है जिसे
00:01:08हर परत के माध्यम से अपना पूरा अर्थ ले जाना होता है।
00:01:11लेकिन Gemma 4 में, प्रत्येक परत की अपनी एम्बेडिंग होती है, जिससे मॉडल को
00:01:16बिल्कुल वहीं नई जानकारी पेश करने की अनुमति मिलती है जहाँ उसकी आवश्यकता होती है।
00:01:19यही कारण है कि आप E2B और E4B मॉडल नामों में E देखते हैं।
00:01:24इसका अर्थ है "इफेक्टिव पैरामीटर्स" (effective parameters)।
00:01:27जबकि मॉडल 5 बिलियन पैरामीटर वाले मॉडल की तर्क गहराई के साथ काम करता है, यह इन्फरेंस के दौरान
00:01:32केवल लगभग 2.3 बिलियन सक्रिय पैरामीटर्स का उपयोग करता है।
00:01:36इसके परिणामस्वरूप बहुत अधिक इंटेलिजेंस डेंसिटी मिलती है, जिससे यह जटिल तर्क को संभाल पाता है
00:01:42जबकि यह 1.5 गीगाबाइट से भी कम रैम का उपयोग करता है।
00:01:46और टेक्स्ट परफॉरमेंस से परे, Gemma 4 नेटिव रूप से मल्टीमॉडल है।
00:01:50इसका मतलब है कि विज़न, टेक्स्ट और यहाँ तक कि ऑडियो को भी एक ही एकीकृत आर्किटेक्चर के भीतर प्रोसेस किया जाता है
00:01:56बजाय इसके कि उन्हें अलग मॉड्यूल के रूप में जोड़ा जाए।
00:01:59यह आर्किटेक्चर एक नए थिंकिंग मोड को सक्षम बनाता है जो आपको उत्तर देने से पहले
00:02:05अपने स्वयं के तर्क को सत्यापित करने के लिए एक आंतरिक तर्क श्रृंखला का उपयोग करता है।
00:02:08इसे विशेष रूप से उन इनफिनिट लूप और लॉजिक एरर्स को रोकने के लिए डिज़ाइन किया गया है जो अक्सर
00:02:13छोटे मॉडलों को परेशान करते हैं।
00:02:15यह 128K कॉन्टेक्स्ट विंडो और 140 से अधिक भाषाओं के समर्थन के साथ भी आता है, जो इसे
00:02:22कॉम्प्लेक्स OCR या लोकलाइज्ड लैंग्वेज पहचान जैसे कार्यों में काफी अधिक सक्षम बनाता है।
00:02:29और इन क्षमताओं को दिखाने के लिए, Google ने कुछ चौंकाने वाले बेंचमार्क जारी किए।
00:02:34उनके आंतरिक परीक्षणों में, E4B मॉडल ने AIME 2026 गणित बेंचमार्क पर 42.5% का स्कोर हासिल किया,
00:02:43जो पिछली पीढ़ी के बहुत बड़े मॉडलों के स्कोर से दोगुने से भी अधिक है।
00:02:49उन्होंने T2 बेंच पर मॉडल की एजेंटिक क्षमता का भी प्रदर्शन किया, जहाँ इसने
00:02:54टूल यूज़ एक्यूरेसी में भारी उछाल दिखाया।
00:02:57उन्होंने "एजेंट स्किल्स" नामक फीचर के माध्यम से मॉडल की एजेंटिक क्षमता का भी प्रदर्शन किया।
00:03:02सिर्फ स्टैटिक टेक्स्ट जेनरेट करने के बजाय, मॉडल को नेटिव फंक्शन कॉलिंग का उपयोग करते हुए
00:03:07मल्टी-स्टेप वर्कफ्लो को संभालते हुए दिखाया गया, जैसे लाइव डेटा के लिए Wikipedia क्वेरी करना या
00:03:13एक एंड-टू-एंड एनिमल कॉल्स विजेट बनाना।
00:03:15अब यह सब सुनने में प्रभावशाली लगता है, लेकिन चलिए इसे खुद आजमाते हैं और देखते हैं कि यह कैसे काम करता है।
00:03:20मेरे पिछले QUEN 3.5 वीडियो में, मैंने LMStudio और CLINE का उपयोग करके इंटरनेट कनेक्शन के बिना
00:03:25छोटे मॉडलों को स्थानीय रूप से चलाकर उनका परीक्षण किया था।
00:03:28मैं GEMMA 4 के परीक्षण के लिए भी इसी सेटअप का उपयोग करूँगा।
00:03:32सबसे पहले हमें LMStudio पर मॉडल डाउनलोड करने होंगे, फिर उपलब्ध कॉन्टेक्स्ट विंडो बढ़ानी होगी
00:03:37और सर्वर शुरू करना होगा।
00:03:39फिर हम CLINE में जा सकते हैं और अपने लोकल LMStudio सर्वर को जोड़ सकते हैं, E2B मॉडल चुन सकते हैं,
00:03:45अपना इंटरनेट कनेक्शन बंद कर सकते हैं और अपना टेस्ट शुरू कर सकते हैं।
00:03:49पिछली बार हमने देखा था कि QUEN 3.5 अपने दो सबसे छोटे पैरामीटर मॉडलों के साथ HTML, CSS और
00:03:55JavaScript का उपयोग करके एक साधारण कैफ़े वेबसाइट बनाने में काफी ठीक था।
00:04:00आइए उसी प्रॉम्प्ट का दोबारा उपयोग करें और देखें कि क्या GEMMA 4 इस कोडिंग कार्य में उतना ही अच्छा है।
00:04:05तो E2B मॉडल को इस कार्य को पूरा करने में लगभग 1.5 मिनट लगे।
00:04:10और 2.3 बिलियन सक्रिय पैरामीटर वाले मॉडल के लिए, परिणाम ईमानदारी से थोड़े निराशाजनक थे
00:04:16यदि इसकी तुलना QUEN के आउटपुट से की जाए जिसने केवल 0.8 बिलियन पैरामीटर का उपयोग किया था।
00:04:22सबसे कष्टप्रद बात यह थी कि GEMMA ने HTML फ़ाइल के अंत में और साथ ही
00:04:28CSS फ़ाइल के अंत में टास्क लिस्ट जोड़ दी थी, इसलिए मुझे पेज खोलने से पहले
00:04:33मैन्युअल रूप से दोनों फ़ाइलों से उसे हटाना पड़ा।
00:04:34और इसने यह भी दावा किया कि इसने एक JavaScript फ़ाइल लिखी है, जबकि वास्तव में फाइनल आउटपुट में
00:04:40कोई JS फ़ाइल नहीं बनी थी, इसलिए E2B टेस्ट के परिणाम थोड़े निराशाजनक थे।
00:04:45लेकिन E4B मॉडल वर्जन पर स्विच करने पर यह स्थिति काफी बेहतर हो गई।
00:04:50इस वर्जन को काम खत्म करने में लगभग 3.5 मिनट लगे, लेकिन अंतिम परिणाम काफी बेहतर था।
00:04:55हो सकता है कि डिज़ाइन के मामले में नहीं, यह अभी भी बहुत साधारण दिखता है, लेकिन इस वर्जन में वास्तव में
00:04:56वर्किंग कार्ड फंक्शनलिटी थी जिसे पिछले किसी भी टेस्ट में, चाहे QUEN हो या GEMMA,
00:05:00सफलतापूर्वक बनाने में सक्षम नहीं थे।
00:05:06तो E4B वर्जन पहले से ही E2B वर्जन से एक बड़ा कदम आगे है, लेकिन स्पष्ट रूप से कोई भी
00:05:08इतने छोटे मॉडलों को जटिल या गंभीर कोडिंग के लिए उपयोग करने पर गंभीरता से विचार नहीं करेगा।
00:05:15मैंने ये परीक्षण केवल यह देखने के लिए किए थे कि क्या इतनी कम पैरामीटर संख्या भी
00:05:20दिए गए कोडिंग कार्य के लिए एक सार्थक परिणाम दे सकती है।
00:05:25ठीक है, अब देखते हैं कि GEMMA 4 iPhone जैसे एज डिवाइसेस पर कैसा प्रदर्शन करता है।
00:05:29तो मेरे QUEN 3.5 वीडियो में, मैंने एक कस्टम iOS ऐप बनाया था जो Swift के MLX फ्रेमवर्क का उपयोग करके
00:05:34नेटिव मेटल GPU पर मॉडल चलाने में सक्षम था।
00:05:40हालाँकि GEMMA 4 ओपन सोर्स है, लेकिन दुर्भाग्य से अभी तक इस मॉडल के लिए कोई MLX बाइंडिंग उपलब्ध नहीं है,
00:05:44जो इस मॉडल को मल्टीमॉडल क्षमताओं के साथ iOS पर चलाने में सक्षम हो।
00:05:49और Google खुद GEMMA 4 को अपने AI Edge Gallery ऐप पर अपने
00:05:56इन्फरेंस फ्रेमवर्क जिसे Lite RTLM कहा जाता है, उस पर चला रहा है, जिसमें दुख की बात है कि
00:06:01फिलहाल iOS बाइंडिंग का समर्थन नहीं है।
00:06:07तो इसे iPhone पर आज़माने के लिए, हमारे पास अभी सबसे अच्छा विकल्प उनके Edge Gallery ऐप का उपयोग करना है।
00:06:08तो हम उनके अपने ऐप पर अपना टेस्ट करने जा रहे हैं और देखेंगे कि यह कैसा प्रदर्शन करता है।
00:06:13तो चलिए AI चैट सेक्शन में चलते हैं।
00:06:18और यहाँ हमें GEMMA 4 का E2B वर्जन डाउनलोड करने के लिए कहा जाएगा।
00:06:20और आपके पास E4B वर्जन डाउनलोड करने का विकल्प भी है, लेकिन किसी कारण से ऐप कहता है कि
00:06:25मेरे पास इसे डाउनलोड करने के लिए पर्याप्त जगह नहीं है, जो मुझे यकीन है कि सच नहीं है, तो शायद यह
00:06:29ऐप में कोई बग है।
00:06:34लेकिन वैसे भी, अब जब मैंने मॉडल डाउनलोड कर लिया है, तो हम आखिरकार इसका उपयोग करना शुरू कर सकते हैं।
00:06:36और चलिए एक साधारण "हेलो" टाइप करके शुरू करते हैं।
00:06:41वाह, क्या आपने देखा कि जवाब कितना तेज़ था?
00:06:43QUEN 3.5 से बहुत तेज़।
00:06:46शायद यह उनके द्वारा उपयोग किए जा रहे Lite RTLM फ्रेमवर्क का जादू है।
00:06:48तो अब प्रसिद्ध कार वॉश टेस्ट को आज़माते हैं और देखते हैं कि क्या GEMMA इसे सही ढंग से समझता है।
00:06:53वाह, यह मुझे वास्तव में लंबा जवाब दे रहा है।
00:06:57और इसके अंत में, हम देखते हैं कि अंतिम सिफारिश गाड़ी चलाने की है, जो सही है,
00:07:00लेकिन मुझे इस बात को ध्यान में रखना होगा कि यह सुविधा और आराम को देख रहा है
00:07:06न कि वास्तविक तार्किक तथ्य को।
00:07:10तो मुझे नहीं पता, यह एक तरह से टेस्ट पास कर लेता है, लेकिन एक तरह से नहीं भी करता।
00:07:13ठीक है, अब इमेज सेक्शन पर चलते हैं और देखते हैं कि क्या GEMMA
00:07:18इस तस्वीर में कुत्ते को पहचान सकता है।
00:07:24तो इसने पहचान लिया कि यह वास्तव में एक कुत्ता है और यह इमेज के बारे में कुछ अन्य विवरण भी देता है।
00:07:26तो यह बहुत अच्छा है।
00:07:31लेकिन अगर मैं इससे पूछूँ कि कुत्ते की नस्ल क्या है?
00:07:32तो यह जवाब देता है कि यह एक बॉर्डर कोली (Border Collie) है, जो सच नहीं है।
00:07:35यह वास्तव में एक कॉर्गी (Corgi) है।
00:07:39लेकिन मुझे कहना होगा, केवल 2 बिलियन से थोड़े अधिक सक्रिय पैरामीटर्स के लिए, यह जवाब
00:07:40फिर भी काफी अच्छा है।
00:07:45अंत में, चलिए OCR टेस्ट आज़माते हैं।
00:07:46अगर आपने Quen 3.5 वाला मेरा पिछला वीडियो देखा है, तो आपको याद होगा कि मैंने इसका परीक्षण
00:07:48एक ऐसी इमेज के साथ किया था जिसमें टेक्स्ट लातवियाई (Latvian) भाषा में था, जो मेरी मातृभाषा भी है।
00:07:54अब GEMMA 140 भाषाओं तक समझने में सक्षम होने का दावा करता है।
00:07:59इसलिए मुझे लगता है कि इसे यह टेस्ट आसानी से पास कर लेना चाहिए।
00:08:05और हाँ, वास्तव में, यह पहचान लेता है कि भाषा लातवियाई है।
00:08:08और मुझे आश्चर्य है कि अधिकांश टेक्स्ट वास्तव में काफी सटीक है।
00:08:13कुछ मामूली अपवादों के साथ, मैं देख रहा हूँ कि कुछ शब्द अस्तित्व में नहीं हैं और कुछ
00:08:16व्याकरणिक संरचनाएं बहुत ही अजीब हैं।
00:08:22लेकिन यह अभी भी बहुत प्रभावशाली है।
00:08:24तो मैं इस टेस्ट को पास मानूँगा।
00:08:26अब, यह वास्तव में सवाल खड़ा करता है, क्या मैं इस मॉडल के साथ लातवियाई में चैट कर सकता हूँ?
00:08:28तो चलिए अगली बार उसे आज़माता हूँ।
00:08:32तो मैं देख रहा हूँ कि जवाब वास्तव में लातवियाई में है।
00:08:33लेकिन एक बार फिर, व्याकरणिक संरचनाएं बहुत अजीब हैं।
00:08:36और कोई भी इस तरह से बात नहीं करता है।
00:08:39लेकिन फिर भी, लातवियाई एक बहुत छोटी भाषा है।
00:08:41तो इतने छोटे मॉडल में इतना सारा ज्ञान होना पहले से ही प्रभावशाली है।
00:08:44और जब मैं यहाँ हूँ ही, तो मैं इससे पूछने जा रहा हूँ कि वर्तमान अमेरिकी राष्ट्रपति कौन हैं, यह देखने के लिए कि
00:08:48GEMMA 4 का नॉलेज कटऑफ क्या है?
00:08:53और यह जवाब देता है कि यह जो बिडेन हैं।
00:08:56और फिर अगर मैं वास्तव में पूछूँ कि आपका नॉलेज कटऑफ क्या है?
00:08:58तो यह मुझे बताएगा कि यह जनवरी 2025 है, जो सही लगता है।
00:09:02तो बस यही है।
00:09:06यह GEMMA 4 है, Google द्वारा नवीनतम ओपन सोर्स मॉडल।
00:09:07और मुझे ईमानदार होना होगा, यह मॉडल काफी अच्छा लग रहा है।
00:09:10यह वह सब करता है जिसका विज्ञापन यह करता है, हालाँकि इसमें वेब डिज़ाइन में रचनात्मकता की थोड़ी कमी है।
00:09:14लेकिन उसके अलावा, छोटे मॉडल, जैसा कि हमने अभी देखा, उन सभी कार्यों को सफलतापूर्वक
00:09:19पूरा करने में सक्षम हैं जो मैं इसे दे रहा था।
00:09:24यह शर्म की बात है कि हमारे पास अभी भी इस मॉडल के लिए MLX बाइंडिंग नहीं है, क्योंकि मुझे वास्तव में
00:09:27एक कस्टम iOS ऐप पर स्थानीय रूप से GEMMA 4 का उपयोग करना अच्छा लगेगा।
00:09:32लेकिन मुझे यकीन है कि Google को इस रिलीज़ को जनता तक पहुँचाने में ज़्यादा समय नहीं लगेगा।
00:09:36और इस बीच, मैं SwiftLM जैसे सामुदायिक प्रोजेक्ट्स पर कड़ी नज़र रख रहा हूँ, जो
00:09:41पहले से ही इन मॉडलों के लिए अनऑफिशियल नेटिव बाइंडिंग पर काम कर रहे हैं।
00:09:46तो मॉडल पर ये मेरे विचार थे।
00:09:50आप GEMMA 4 के बारे में क्या सोचते हैं?
00:09:52क्या आपने इसे आज़माया है?
00:09:54क्या आप इसका उपयोग करेंगे?
00:09:55हमें नीचे कमेंट सेक्शन में बताएं।
00:09:56और दोस्तों, अगर आपको इस प्रकार के तकनीकी विवरण पसंद हैं, तो कृपया वीडियो के नीचे
00:09:59उस लाइक बटन को दबाकर मुझे बताएं।
00:10:03और हमारे चैनल को सब्सक्राइब करना भी न भूलें।
00:10:05यह BetterStack से Andres था और मैं आपसे अगले वीडियो में मिलूँगा।
00:10:07मैं BetterStack से Andres हूँ और मैं आपसे अगले वीडियो में मिलूँगा।