आपके लैपटॉप के लिए सबसे तेज़ विज़न मॉडल (Liquid AI LFM 2.5)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00ज्यादातर लोग यह मानते हैं कि एक शक्तिशाली विज़न लैंग्वेज मॉडल चलाने के लिए एक भारी-भरकम GPU
00:00:05या किसी क्लाउड सर्विस के सशुल्क सब्सक्रिप्शन की ज़रूरत होती है।
00:00:08लेकिन, Liquid AI ने हाल ही में अपने नए LFM मॉडल का एक डेमो जारी किया है जो पूरी तरह से
00:00:14एक वेब ब्राउज़र के भीतर चलता है।
00:00:16WebGPU और ONNX रनटाइम का उपयोग करके, यह मॉडल इमेजेस और वीडियो को लोकली प्रोसेस कर सकता है।
00:00:23इसका मतलब है कि आपका डेटा कभी भी आपके कंप्यूटर से बाहर नहीं जाता और आपको इंटरनेट कनेक्शन की भी ज़रूरत नहीं है,
00:00:28एक बार जब मॉडल आपके डिवाइस पर कैश हो जाता है।
00:00:30मुझे सच में लगता है कि यह बहुत शानदार है, इसलिए इस वीडियो में हम देखेंगे
00:00:34इस मॉडल को, देखेंगे कि यह कैसा प्रदर्शन करता है, एक छोटा टेस्ट करेंगे, और पता लगाएंगे कि क्या यह वाकई उतना ही शक्तिशाली है
00:00:40जैसा कि दावा किया गया है।
00:00:41इसमें बहुत मज़ा आने वाला है, तो चलिए शुरू करते हैं।
00:00:48तो LFM का अर्थ है Liquid Foundation Model (लिक्विड फाउंडेशन मॉडल)।
00:00:52और केवल ट्रांसफॉर्मर आर्किटेक्चर पर निर्भर रहने के बजाय, Liquid AI एक हाइब्रिड डिज़ाइन का उपयोग करता है।
00:00:58यह कॉन्वोल्यूशनल ब्लॉक्स को "ग्रुप्ड क्वेरी अटेंशन" नामक चीज़ के साथ जोड़ता है।
00:01:03यह 1.6 बिलियन पैरामीटर वाला मॉडल विशेष रूप से विज़न और लैंग्वेज के लिए ट्यून किया गया है।
00:01:09इसे एक विशाल 28 ट्रिलियन टोकन डेटासेट पर ट्रेन किया गया है, जो इसे अपनी क्षमता से
00:01:15कहीं बेहतर प्रदर्शन करने में मदद करता है।
00:01:16बेंचमार्क में, यह अक्सर अपने से दोगुने आकार के मॉडल्स के प्रदर्शन से मेल खाता है, जबकि यह
00:01:21लैपटॉप और फोन जैसे एज डिवाइसेस पर काफी तेज़ भी है।
00:01:26अब आप सोच रहे होंगे कि उन्होंने बुद्धिमत्ता के इस स्तर को इतने छोटे पैकेज में कैसे समेटा
00:01:31जो 1 GB से कम की RAM में फिट हो जाता है?
00:01:34अन्य छोटे मॉडल्स के विपरीत जो विशाल क्लाउड मॉडल्स के छांटे गए या कंप्रेस किए गए वर्ज़न का उपयोग करते हैं,
00:01:40Liquid AI "एफिशिएंसी बाय डिज़ाइन" (डिज़ाइन द्वारा दक्षता) के सिद्धांत का उपयोग करता है।
00:01:44उनके नाम में 'लिक्विड' उनके लीनियर इनपुट वैरिंग आर्किटेक्चर, या LIV को दर्शाता है।
00:01:51जबकि पारंपरिक ट्रांसफॉर्मर्स की मेमोरी आपके द्वारा उनसे की जाने वाली बात के साथ बढ़ती जाती है,
00:01:56लिक्विड मॉडल एडेप्टिव कॉन्वोल्यूशनल ब्लॉक्स के हाइब्रिड सिस्टम का उपयोग करता है।
00:02:01ये ब्लॉक्स मूल रूप से स्मार्ट फिल्टर की तरह काम करते हैं जो केवल सबसे प्रासंगिक स्थानीय
00:02:07जानकारी को प्रोसेस करते हैं, जिससे डेटा मॉडल के माध्यम से प्रवाहित होते समय प्रभावी ढंग से कंप्रेस हो जाता है।
00:02:11यह LFM को पारंपरिक ट्रांसफॉर्मर्स में देखे जाने वाले सामान्य धीमेपन या मेमोरी स्पाइक्स के बिना
00:02:18अपनी विशाल 32,000 टोकन वाली कॉन्टेक्स्ट विंडो बनाए रखने की अनुमति देता है।
00:02:23और कुछ विशिष्ट तकनीकी विवरण हैं जो इस मॉडल को बाकियों से अलग बनाते हैं।
00:02:28सबसे पहले, इसका एक नेटिव रेजोल्यूशन है।
00:02:30यह बिना किसी विकृति या अपस्केलिंग के 512x512 पिक्सल तक की इमेजेस को हैंडल करता है।
00:02:37और बड़ी इमेजेस के लिए, यह एक टाइलिंग रणनीति का उपयोग करता है, जो मूल रूप से इमेज को पैच में विभाजित करती है
00:02:42और साथ ही ग्लोबल कॉन्टेक्स्ट के लिए एक थंबनेल भी रखती है।
00:02:46और दूसरी बात, यह बहुत कुशल है।
00:02:47अपने हाइब्रिड आर्किटेक्चर के कारण, यह बहुत कम मेमोरी फ़ुटप्रिंट प्रदान करता है, जो अक्सर
00:02:521 GB से कम की RAM पर चलता है।
00:02:54लेकिन मुझे लगता है कि सबसे प्रभावशाली वेब GPU इंटीग्रेशन है।
00:02:58Hugging Face स्पेस डेमो दिखाता है कि आप रीयल-टाइम वेबकैम कैप्शनिंग के लिए इसका उपयोग कैसे कर सकते हैं।
00:03:04तो चलिए इसे खुद आज़माते हैं और देखते हैं कि यह कितना अच्छा प्रदर्शन करता है।
00:03:08ठीक है, देखते हैं कि यह चीज़ वास्तव में कैसे काम करती है।
00:03:11मुझे लगता है कि हमें चुनना चाहिए कि हम कौन सा विज़न मॉडल लोड करना चाहते हैं।
00:03:15चलिए FP 16 के साथ सबसे शक्तिशाली वाला आज़माते हैं।
00:03:18और चलिए इसे लोड करते हैं।
00:03:20अब इस मॉडल को डाउनलोड होने में काफी समय लगता है।
00:03:23और यह सब आपके डिवाइस पर डाउनलोड किया जा रहा है।
00:03:25तो अगली बार जब आप एप्लिकेशन खोलेंगे, तो सब कुछ कैश में होगा।
00:03:28ठीक है।
00:03:29तो अब हमने FP 16 क्वांटिज़ेशन मॉडल डाउनलोड कर लिया है।
00:03:34और चलिए स्टार्ट पर क्लिक करते हैं और देखते हैं कि यह कैसे काम करता है।
00:03:36ओह, यह देखिए।
00:03:38दाढ़ी और हुडी वाला एक आदमी कैमरे की ओर देख रहा है।
00:03:40ठीक है, तो यह पता लगाने में सक्षम है कि वीडियो में किस तरह के ऑब्जेक्ट्स मौजूद हैं, जो कि
00:03:45काफी शानदार है।
00:03:46तो हम ऑब्जेक्ट डिटेक्शन जैसा कुछ कर सकते हैं।
00:03:50देखते हैं कि क्या यह फोन को डिटेक्ट कर सकता है।
00:03:51हाँ, यह पहचान लेता है कि मैंने काले केस वाला एक आईफोन पकड़ा हुआ है।
00:03:57यह काफी कूल है।
00:03:58यह देखिए।
00:04:00यह वास्तव में इसे रीयल-टाइम में कर रहा है।
00:04:02मैं प्रभावित हूँ।
00:04:04तो क्या होगा अगर मैं ऐसा करूं?
00:04:05क्या यह हाथ में शांति का संकेत (peace sign) पकड़े हुए व्यक्ति को पहचानता है?
00:04:10यह काफी शानदार है।
00:04:12क्या होगा अगर मैं थम्स अप (thumbs up) दिखाऊं?
00:04:13हाँ, थम्स अप मिल रहा है।
00:04:15मॉडल रीयल-टाइम में वह सब कुछ डिटेक्ट कर रहा है जो मैं कर रहा हूँ।
00:04:18देखते हैं कि क्या यह मेरे माइक्रोफ़ोन को डिटेक्ट कर सकता है।
00:04:21ओह, यह तो यह भी पहचान लेता है कि उस पर 'rode' लिखा है।
00:04:24वाह, यह केस से टेक्स्ट भी पढ़ सकता है, जो कि बहुत ही शानदार है।
00:04:29यह तथ्य कि हमें ये कैप्शन रीयल-टाइम में मिल रहे हैं, वास्तव में दिखाता है कि यह मॉडल
00:04:33बहुत शक्तिशाली है।
00:04:35मुझे इंटरनेट कनेक्शन बंद करके देखने दें कि क्या यह अभी भी काम करता है।
00:04:40तो अब मैंने वाई-फाई बंद कर दिया है और हाँ, हमें अभी भी वही इनपुट मिल रहे हैं, जो कि
00:04:50अद्भुत है।
00:04:51तो दोस्तों, आपके सामने पेश है।
00:04:52संक्षेप में, यही है नवीनतम लिक्विड फाउंडेशन मॉडल।
00:04:56मुझे लगता है कि यह बहुत प्रभावशाली है कि ये AI मॉडल क्वांटिज़ेशन के मामले में कितनी दूर तक विकसित हुए हैं
00:05:01और उन्हें मेरे लैपटॉप जैसे एज डिवाइसेस पर चलाने की क्षमता भी।
00:05:05मुझे लगता है कि केवल दो साल पहले, हमें विश्वास नहीं होता था कि यह वास्तव में हकीकत हो सकता है, लेकिन अब
00:05:10वेब GPU पर इन मॉडल्स को चलाना और भी आम होता जा रहा है।
00:05:14तो आप लिक्विड फाउंडेशन मॉडल के बारे में क्या सोचते हैं?
00:05:16क्या आपने इसे आज़माया है?
00:05:17क्या आप इसका उपयोग करेंगे?
00:05:18ऐसे मॉडल का उपयोग करने के सबसे अच्छे मामले क्या हैं?
00:05:21हमें नीचे कमेंट सेक्शन में अपने विचार बताएं।
00:05:23और दोस्तों, अगर आपको इस प्रकार के तकनीकी विवरण पसंद हैं, तो कृपया वीडियो के नीचे
00:05:27उस लाइक बटन को दबाकर मुझे बताएं, और हमारे चैनल को सब्सक्राइब करना न भूलें।
00:05:32मैं Better Stack से Andris हूँ, और मैं आपसे अगले वीडियो में मिलूँगा।

Key Takeaway

Liquid AI का LFM 2.5 एक क्रांतिकारी विज़न मॉडल है जो बिना GPU या इंटरनेट के आपके लैपटॉप पर स्थानीय रूप से उच्च-स्तरीय AI क्षमताएं प्रदान करता है।

Highlights

Liquid AI का नया LFM 2.5 मॉडल पूरी तरह से वेब ब्राउज़र के भीतर लोकली चलता है।

यह मॉडल WebGPU और ONNX रनटाइम का उपयोग करता है, जिससे डेटा डिवाइस से बाहर नहीं जाता।

इसमें 1.6 बिलियन पैरामीटर्स हैं और इसे 28 ट्रिलियन टोकन के विशाल डेटासेट पर ट्रेन किया गया है।

हाइब्रिड आर्किटेक्चर के कारण यह 1 GB से कम RAM में भी कुशलता से काम कर सकता है।

यह रीयल-टाइम ऑब्जेक्ट डिटेक्शन और टेक्स्ट रीडिंग (जैसे 'rode' माइक्रोफ़ोन) में सक्षम है।

मॉडल बिना इंटरनेट कनेक्शन के भी काम करता है, एक बार डिवाइस पर कैश होने के बाद।

Timeline

ब्राउज़र-आधारित AI का परिचय

वीडियो की शुरुआत इस आम धारणा को चुनौती देने से होती है कि शक्तिशाली विज़न मॉडल के लिए महंगे GPU की आवश्यकता होती है। Liquid AI ने एक ऐसा मॉडल पेश किया है जो WebGPU की मदद से सीधे वेब ब्राउज़र में चलता है। यह दृष्टिकोण उपयोगकर्ता की गोपनीयता को सुरक्षित रखता है क्योंकि सारा डेटा स्थानीय स्तर पर प्रोसेस होता है। एक बार मॉडल कैश हो जाने के बाद, इंटरनेट की भी आवश्यकता नहीं रहती है। होस्ट इस वीडियो में मॉडल की शक्ति और दावों का परीक्षण करने का वादा करता है।

LFM आर्किटेक्चर और दक्षता

LFM का अर्थ लिक्विड फाउंडेशन मॉडल है, जो पारंपरिक ट्रांसफॉर्मर के बजाय एक हाइब्रिड डिज़ाइन का उपयोग करता है। यह मॉडल कॉन्वोल्यूशनल ब्लॉक्स को 'ग्रुप्ड क्वेरी अटेंशन' के साथ जोड़ता है, जिससे इसकी दक्षता बढ़ जाती है। 1.6 बिलियन पैरामीटर होने के बावजूद, यह अपने से दोगुने बड़े मॉडल्स को टक्कर देता है। इसे 28 ट्रिलियन टोकन पर ट्रेन किया गया है, जो इसे छोटे डिवाइस पर भी तेज़ बनाता है। यह आर्किटेक्चर इसे लैपटॉप और फोन जैसे एज डिवाइसेस के लिए आदर्श बनाता है।

लिक्विड मॉडल के पीछे का विज्ञान

वक्ता समझाते हैं कि कैसे यह मॉडल 1 GB से कम RAM में फिट हो जाता है, जिसे 'डिज़ाइन द्वारा दक्षता' कहा गया है। इसमें लीनियर इनपुट वैरिंग आर्किटेक्चर (LIV) का उपयोग किया गया है, जो मेमोरी स्पाइक्स को रोकता है। एडेप्टिव कॉन्वोल्यूशनल ब्लॉक्स स्मार्ट फिल्टर की तरह काम करते हैं जो केवल महत्वपूर्ण डेटा को ही प्रोसेस करते हैं। यह सिस्टम 32,000 टोकन वाली एक विशाल कॉन्टेक्स्ट विंडो को बिना धीमे हुए बनाए रखता है। यह तकनीक डेटा प्रवाह के दौरान उसे प्रभावी ढंग से कंप्रेस करने में मदद करती है।

तकनीकी क्षमताएं और इमेज प्रोसेसिंग

यह मॉडल 512x512 पिक्सल के नेटिव रेजोल्यूशन पर इमेजेस को बिना किसी विकृति के हैंडल करता है। बड़ी इमेजेस के लिए, यह एक विशेष टाइलिंग रणनीति का उपयोग करता है जो इमेज को पैच में विभाजित करती है। इसका मुख्य आकर्षण इसका वेब GPU इंटीग्रेशन है, जो ब्राउज़र के भीतर सीधे हार्डवेयर एक्सेलेरेशन की अनुमति देता है। Hugging Face स्पेस के माध्यम से रीयल-टाइम वेबकैम कैप्शनिंग इसका एक बेहतरीन उदाहरण है। यह कम मेमोरी फ़ुटप्रिंट के साथ उच्च प्रदर्शन सुनिश्चित करने के लिए डिज़ाइन किया गया है।

लाइव डेमो और परीक्षण

डेमो के दौरान, होस्ट FP 16 क्वांटिज़ेशन वाला सबसे शक्तिशाली मॉडल लोड करता है और रीयल-टाइम में इसका परीक्षण करता है। मॉडल तुरंत होस्ट के हुडी, दाढ़ी और उसके हाथ में मौजूद iPhone की पहचान कर लेता है। यह हाथ के संकेतों जैसे 'पीस साइन' और 'थम्स अप' को भी सटीक रूप से डिटेक्ट करता है। सबसे प्रभावशाली बात यह है कि मॉडल माइक्रोफ़ोन पर लिखे 'rode' जैसे छोटे टेक्स्ट को भी पढ़ लेता है। यह परीक्षण साबित करता है कि मॉडल रीयल-टाइम विजुअल इनपुट को प्रोसेस करने में बेहद सक्षम है।

ऑफलाइन मोड और निष्कर्ष

होस्ट इंटरनेट कनेक्शन (वाई-फाई) बंद कर देता है और दिखाता है कि मॉडल अभी भी पूरी तरह से काम कर रहा है। यह साबित करता है कि LFM पूरी तरह से स्थानीय स्तर पर चलता है और बाहरी सर्वर पर निर्भर नहीं है। वक्ता इस बात पर आश्चर्य व्यक्त करते हैं कि AI तकनीक पिछले दो वर्षों में कितनी विकसित हुई है। अंत में, दर्शकों से इस मॉडल के उपयोग के मामलों के बारे में राय मांगी जाती है। वीडियो लाइक करने और चैनल को सब्सक्राइब करने के अनुरोध के साथ समाप्त होता है।

Community Posts

View all posts