00:00:00ज्यादातर लोग यह मानते हैं कि एक शक्तिशाली विज़न लैंग्वेज मॉडल चलाने के लिए एक भारी-भरकम GPU
00:00:05या किसी क्लाउड सर्विस के सशुल्क सब्सक्रिप्शन की ज़रूरत होती है।
00:00:08लेकिन, Liquid AI ने हाल ही में अपने नए LFM मॉडल का एक डेमो जारी किया है जो पूरी तरह से
00:00:14एक वेब ब्राउज़र के भीतर चलता है।
00:00:16WebGPU और ONNX रनटाइम का उपयोग करके, यह मॉडल इमेजेस और वीडियो को लोकली प्रोसेस कर सकता है।
00:00:23इसका मतलब है कि आपका डेटा कभी भी आपके कंप्यूटर से बाहर नहीं जाता और आपको इंटरनेट कनेक्शन की भी ज़रूरत नहीं है,
00:00:28एक बार जब मॉडल आपके डिवाइस पर कैश हो जाता है।
00:00:30मुझे सच में लगता है कि यह बहुत शानदार है, इसलिए इस वीडियो में हम देखेंगे
00:00:34इस मॉडल को, देखेंगे कि यह कैसा प्रदर्शन करता है, एक छोटा टेस्ट करेंगे, और पता लगाएंगे कि क्या यह वाकई उतना ही शक्तिशाली है
00:00:40जैसा कि दावा किया गया है।
00:00:41इसमें बहुत मज़ा आने वाला है, तो चलिए शुरू करते हैं।
00:00:48तो LFM का अर्थ है Liquid Foundation Model (लिक्विड फाउंडेशन मॉडल)।
00:00:52और केवल ट्रांसफॉर्मर आर्किटेक्चर पर निर्भर रहने के बजाय, Liquid AI एक हाइब्रिड डिज़ाइन का उपयोग करता है।
00:00:58यह कॉन्वोल्यूशनल ब्लॉक्स को "ग्रुप्ड क्वेरी अटेंशन" नामक चीज़ के साथ जोड़ता है।
00:01:03यह 1.6 बिलियन पैरामीटर वाला मॉडल विशेष रूप से विज़न और लैंग्वेज के लिए ट्यून किया गया है।
00:01:09इसे एक विशाल 28 ट्रिलियन टोकन डेटासेट पर ट्रेन किया गया है, जो इसे अपनी क्षमता से
00:01:15कहीं बेहतर प्रदर्शन करने में मदद करता है।
00:01:16बेंचमार्क में, यह अक्सर अपने से दोगुने आकार के मॉडल्स के प्रदर्शन से मेल खाता है, जबकि यह
00:01:21लैपटॉप और फोन जैसे एज डिवाइसेस पर काफी तेज़ भी है।
00:01:26अब आप सोच रहे होंगे कि उन्होंने बुद्धिमत्ता के इस स्तर को इतने छोटे पैकेज में कैसे समेटा
00:01:31जो 1 GB से कम की RAM में फिट हो जाता है?
00:01:34अन्य छोटे मॉडल्स के विपरीत जो विशाल क्लाउड मॉडल्स के छांटे गए या कंप्रेस किए गए वर्ज़न का उपयोग करते हैं,
00:01:40Liquid AI "एफिशिएंसी बाय डिज़ाइन" (डिज़ाइन द्वारा दक्षता) के सिद्धांत का उपयोग करता है।
00:01:44उनके नाम में 'लिक्विड' उनके लीनियर इनपुट वैरिंग आर्किटेक्चर, या LIV को दर्शाता है।
00:01:51जबकि पारंपरिक ट्रांसफॉर्मर्स की मेमोरी आपके द्वारा उनसे की जाने वाली बात के साथ बढ़ती जाती है,
00:01:56लिक्विड मॉडल एडेप्टिव कॉन्वोल्यूशनल ब्लॉक्स के हाइब्रिड सिस्टम का उपयोग करता है।
00:02:01ये ब्लॉक्स मूल रूप से स्मार्ट फिल्टर की तरह काम करते हैं जो केवल सबसे प्रासंगिक स्थानीय
00:02:07जानकारी को प्रोसेस करते हैं, जिससे डेटा मॉडल के माध्यम से प्रवाहित होते समय प्रभावी ढंग से कंप्रेस हो जाता है।
00:02:11यह LFM को पारंपरिक ट्रांसफॉर्मर्स में देखे जाने वाले सामान्य धीमेपन या मेमोरी स्पाइक्स के बिना
00:02:18अपनी विशाल 32,000 टोकन वाली कॉन्टेक्स्ट विंडो बनाए रखने की अनुमति देता है।
00:02:23और कुछ विशिष्ट तकनीकी विवरण हैं जो इस मॉडल को बाकियों से अलग बनाते हैं।
00:02:28सबसे पहले, इसका एक नेटिव रेजोल्यूशन है।
00:02:30यह बिना किसी विकृति या अपस्केलिंग के 512x512 पिक्सल तक की इमेजेस को हैंडल करता है।
00:02:37और बड़ी इमेजेस के लिए, यह एक टाइलिंग रणनीति का उपयोग करता है, जो मूल रूप से इमेज को पैच में विभाजित करती है
00:02:42और साथ ही ग्लोबल कॉन्टेक्स्ट के लिए एक थंबनेल भी रखती है।
00:02:46और दूसरी बात, यह बहुत कुशल है।
00:02:47अपने हाइब्रिड आर्किटेक्चर के कारण, यह बहुत कम मेमोरी फ़ुटप्रिंट प्रदान करता है, जो अक्सर
00:02:521 GB से कम की RAM पर चलता है।
00:02:54लेकिन मुझे लगता है कि सबसे प्रभावशाली वेब GPU इंटीग्रेशन है।
00:02:58Hugging Face स्पेस डेमो दिखाता है कि आप रीयल-टाइम वेबकैम कैप्शनिंग के लिए इसका उपयोग कैसे कर सकते हैं।
00:03:04तो चलिए इसे खुद आज़माते हैं और देखते हैं कि यह कितना अच्छा प्रदर्शन करता है।
00:03:08ठीक है, देखते हैं कि यह चीज़ वास्तव में कैसे काम करती है।
00:03:11मुझे लगता है कि हमें चुनना चाहिए कि हम कौन सा विज़न मॉडल लोड करना चाहते हैं।
00:03:15चलिए FP 16 के साथ सबसे शक्तिशाली वाला आज़माते हैं।
00:03:18और चलिए इसे लोड करते हैं।
00:03:20अब इस मॉडल को डाउनलोड होने में काफी समय लगता है।
00:03:23और यह सब आपके डिवाइस पर डाउनलोड किया जा रहा है।
00:03:25तो अगली बार जब आप एप्लिकेशन खोलेंगे, तो सब कुछ कैश में होगा।
00:03:28ठीक है।
00:03:29तो अब हमने FP 16 क्वांटिज़ेशन मॉडल डाउनलोड कर लिया है।
00:03:34और चलिए स्टार्ट पर क्लिक करते हैं और देखते हैं कि यह कैसे काम करता है।
00:03:36ओह, यह देखिए।
00:03:38दाढ़ी और हुडी वाला एक आदमी कैमरे की ओर देख रहा है।
00:03:40ठीक है, तो यह पता लगाने में सक्षम है कि वीडियो में किस तरह के ऑब्जेक्ट्स मौजूद हैं, जो कि
00:03:45काफी शानदार है।
00:03:46तो हम ऑब्जेक्ट डिटेक्शन जैसा कुछ कर सकते हैं।
00:03:50देखते हैं कि क्या यह फोन को डिटेक्ट कर सकता है।
00:03:51हाँ, यह पहचान लेता है कि मैंने काले केस वाला एक आईफोन पकड़ा हुआ है।
00:03:57यह काफी कूल है।
00:03:58यह देखिए।
00:04:00यह वास्तव में इसे रीयल-टाइम में कर रहा है।
00:04:02मैं प्रभावित हूँ।
00:04:04तो क्या होगा अगर मैं ऐसा करूं?
00:04:05क्या यह हाथ में शांति का संकेत (peace sign) पकड़े हुए व्यक्ति को पहचानता है?
00:04:10यह काफी शानदार है।
00:04:12क्या होगा अगर मैं थम्स अप (thumbs up) दिखाऊं?
00:04:13हाँ, थम्स अप मिल रहा है।
00:04:15मॉडल रीयल-टाइम में वह सब कुछ डिटेक्ट कर रहा है जो मैं कर रहा हूँ।
00:04:18देखते हैं कि क्या यह मेरे माइक्रोफ़ोन को डिटेक्ट कर सकता है।
00:04:21ओह, यह तो यह भी पहचान लेता है कि उस पर 'rode' लिखा है।
00:04:24वाह, यह केस से टेक्स्ट भी पढ़ सकता है, जो कि बहुत ही शानदार है।
00:04:29यह तथ्य कि हमें ये कैप्शन रीयल-टाइम में मिल रहे हैं, वास्तव में दिखाता है कि यह मॉडल
00:04:33बहुत शक्तिशाली है।
00:04:35मुझे इंटरनेट कनेक्शन बंद करके देखने दें कि क्या यह अभी भी काम करता है।
00:04:40तो अब मैंने वाई-फाई बंद कर दिया है और हाँ, हमें अभी भी वही इनपुट मिल रहे हैं, जो कि
00:04:50अद्भुत है।
00:04:51तो दोस्तों, आपके सामने पेश है।
00:04:52संक्षेप में, यही है नवीनतम लिक्विड फाउंडेशन मॉडल।
00:04:56मुझे लगता है कि यह बहुत प्रभावशाली है कि ये AI मॉडल क्वांटिज़ेशन के मामले में कितनी दूर तक विकसित हुए हैं
00:05:01और उन्हें मेरे लैपटॉप जैसे एज डिवाइसेस पर चलाने की क्षमता भी।
00:05:05मुझे लगता है कि केवल दो साल पहले, हमें विश्वास नहीं होता था कि यह वास्तव में हकीकत हो सकता है, लेकिन अब
00:05:10वेब GPU पर इन मॉडल्स को चलाना और भी आम होता जा रहा है।
00:05:14तो आप लिक्विड फाउंडेशन मॉडल के बारे में क्या सोचते हैं?
00:05:16क्या आपने इसे आज़माया है?
00:05:17क्या आप इसका उपयोग करेंगे?
00:05:18ऐसे मॉडल का उपयोग करने के सबसे अच्छे मामले क्या हैं?
00:05:21हमें नीचे कमेंट सेक्शन में अपने विचार बताएं।
00:05:23और दोस्तों, अगर आपको इस प्रकार के तकनीकी विवरण पसंद हैं, तो कृपया वीडियो के नीचे
00:05:27उस लाइक बटन को दबाकर मुझे बताएं, और हमारे चैनल को सब्सक्राइब करना न भूलें।
00:05:32मैं Better Stack से Andris हूँ, और मैं आपसे अगले वीडियो में मिलूँगा।