यह नया इंजन 10 गुना कम RAM का उपयोग करके लोकल AI चलाता है! (Cactus)
BBetter Stack
컴퓨터/소프트웨어가전제품/카메라스마트폰/모바일
Transcript
00:00:00यह Cactus है। यह एक लो-लेटेंसी इन्फरेंस इंजन है जिसे मोबाइल और एज डिवाइसेज को
00:00:06फर्स्ट-क्लास सिटिजन की तरह मानने के लिए डिजाइन किया गया है। आमतौर पर जब हम एज डिवाइसेज पर AI मॉडल चलाने की कोशिश करते हैं, तो वे
00:00:12काफी भारी लगते हैं, बैटरी खत्म करते हैं और मोबाइल ऑपरेटिंग सिस्टम के
00:00:18मेमोरी मैनेजर द्वारा बंद किए जाने के जोखिम में रहते हैं। लेकिन Cactus इसी समस्या को हल करने की कोशिश कर रहा है क्योंकि इसे खास तौर पर
00:00:23न्यूरल प्रोसेसिंग यूनिट्स की सीमाओं और सीमित रैम को ध्यान में रखकर बनाया गया है। तो आज हम
00:00:28Cactus को देखेंगे, यह समझेंगे कि यह कैसे काम करता है और इसकी परफॉर्मेंस को जांचने के लिए इसे एक एज डिवाइस पर टेस्ट करेंगे।
00:00:34तो चलिए शुरू करते हैं। लोकल AI के लिए सबसे बड़ी रुकावट वास्तव में कंप्यूट नहीं है, बल्कि
00:00:44मेमोरी ओवरहेड है। एक स्टैंडर्ड मोबाइल डिवाइस पर, ऑपरेटिंग सिस्टम रैम के इस्तेमाल में
00:00:50जिनका रैम यूसेज अचानक बढ़ जाता है। लेकिन Cactus जीरो-कॉपी मेमोरी मैपिंग का इस्तेमाल करके इसे हल करता है।
00:00:57आमतौर पर अपनाए जाने वाले तरीके के बजाय जहाँ आप सब कुछ रैम में लोड करते हैं, Cactus
00:01:02मॉडल के वेट्स को सीधे स्टोरेज से मैप करता है। यह एक जीरो-कॉपी सिस्टम है जो जरूरत पड़ने पर ही
00:01:08खास टेंसर को एक्टिव कंप्यूट साइकिल में लाता है। इससे आपको एक बड़े मॉडल की
00:01:13रीजनिंग पावर मिल जाती है, और ऑपरेटिंग सिस्टम द्वारा आपके ऐप को बंद करने का जोखिम भी नहीं रहता। और इसे हासिल करने के लिए,
00:01:19उन्होंने ट्रेडिशनल GGUF फॉर्मेट को भी छोड़ दिया है और उनका अपना
00:01:24प्रोपराइटी .CACT फॉर्मेट है जो इस मैपिंग को एज डिवाइसेज पर असरदार बनाता है। लेकिन
00:01:31असली भारी काम NPU यानी न्यूरल प्रोसेसिंग यूनिट में होता है। जहाँ ज्यादातर लोकल
00:01:37इंजन डिफ़ॉल्ट रूप से GPU का इस्तेमाल करते हैं, Cactus को NPU-फर्स्ट होने के लिए बनाया गया है। अगर आपने Apple,
00:01:43Qualcomm या MediaTek के मॉडर्न चिप्स देखे हों, तो उन सभी में खास तौर पर न्यूरल नेटवर्क्स के लिए
00:01:50डेडिकेटेड सिलिकॉन होता है। Cactus इन यूनिट्स से सीधे कम्युनिकेट करता है, जिससे वे ट्रांसलेशन लेयर्स बाईपास हो जाती हैं
00:01:55जो आपके इन्फरेंस को धीमा करती हैं। और उन्होंने इन मैट्रिक्स मल्टीप्लिकेशन यूनिट्स का
00:02:00पूरा फायदा उठाने के लिए कुछ खास मॉडल्स को ऑप्टिमाइज भी किया है। अगर आप Cactus डैशबोर्ड पर जाएँ,
00:02:07तो आपको डाउनलोड के लिए तैयार NPU-ऑप्टिमाइज्ड मॉडल्स की एक लिस्ट दिखेगी। और Cactus का एक और शानदार फीचर
00:02:12इसका हाइब्रिड राउटर है। अब, हकीकत यह है कि एज डिवाइसेज पर लोकल मॉडल, चाहे वे कितने भी ऑप्टिमाइज्ड क्यों न हों,
00:02:18आखिरकार अपनी रीजनिंग की सीमा तक पहुँच ही जाते हैं। और यहीं पर यह हाइब्रिड राउटर
00:02:23काम आता है। आपको एक तेज़ लेकिन सीमित लोकल मॉडल और एक समझदार लेकिन
00:02:29महंगे क्लाउड मॉडल में से किसी एक को चुनने के लिए मजबूर करने के बजाय, Cactus दोनों को संभाल सकता है और उनके बीच स्विच कर सकता है। यह
00:02:35कॉन्फिडेंस-बेस्ड राउटिंग सिस्टम का इस्तेमाल करता है। और अगर आप इससे कोई आसान सवाल पूछते हैं, तो यह
00:02:40NPU पर ही रहता है क्योंकि यह तेज़ और प्राइवेट है और इसमें आपका कोई खर्च नहीं होता। लेकिन अगर लोकल मॉडल को लगता है कि
00:02:45काम बहुत जटिल है या इसके लिए एक बहुत बड़े कॉन्टेक्स्ट विंडो की जरूरत है, तो यह आटोमेटिकली उस
00:02:51खास रिक्वेस्ट को क्लाउड के एक फ्रंटियर मॉडल को सौंप देता है। आपका कोड बिल्कुल वैसा ही रहता है। इंजन
00:02:57बस बैकग्राउंड में इस फेलओवर को मैनेज कर लेता है। तो यह चीज़ों के जटिल होने पर भी यूजर एक्सपीरियंस से
00:03:03बिना कोई समझौता किए लागत को कम रखने का एक प्रोडक्शन-रेडी तरीका है। अब, यह सब
00:03:08सुनने में बहुत बढ़िया लगता है, लेकिन मैं इसे खुद आज़माना चाहता हूँ। तो उनके लैंडिंग पेज पर,
00:03:13यह डेमो मौजूद है जहाँ वे दिखाते हैं कि कैसे आप एक एज डिवाइस पर लगभग 100 मिलीसेकंड की लेटेंसी के साथ
00:03:19रीअल-टाइम ट्रांसक्रिप्शन कर सकते हैं। तो मैंने आगे बढ़कर उनके Swift Cactus पैकेज का इस्तेमाल करके
00:03:25एक छोटा सा Swift ऐप वाइब-कोड किया, जो लोकल स्तर पर उनके parakeet
00:03:30स्पीच मॉडल और क्लाउड पर Gemini मॉडल का इस्तेमाल करके रीअल-टाइम ट्रांसक्रिप्शन चलाने को सपोर्ट करता है। तो चलिए इसे आज़माते हैं। जैसा कि आप
00:03:36देख सकते हैं, लोकल स्तर पर, हम लाइव स्ट्रीमिंग के साथ औसतन लगभग 260 मिलीसेकंड की लेटेंसी हासिल कर रहे हैं। और ध्यान रहे,
00:03:44मैं इसे एक पुराने iPhone मॉडल, 12 Pro पर चला रहा हूँ। तो इस तरह के एक पुराने मॉडल के लिए
00:03:50मुझे लगता है कि एज पर यह परफॉर्मेंस काफी अच्छी है। और अगर हम क्लाउड पर स्विच करते हैं, तो Cactus क्लाउड विकल्प के रूप में
00:03:55Gemini 2.5 Flash पर स्विच हो जाता है। और किसी वजह से, उनके पास क्लाउड साइड में
00:04:01वही parakeet मॉडल नहीं है। इसलिए मुझे Gemini का इस्तेमाल करने के लिए मजबूर होना पड़ा। और हम यहाँ देख सकते हैं कि
00:04:06यह तीन सेकंड के बैच ट्रांसक्रिप्शन के लिए औसतन लगभग 2000 मिलीसेकंड ले रहा है। और
00:04:12मुझे लगता है कि यह उम्मीद के मुताबिक ही है क्योंकि यह डेटा सर्वर तक आने-जाने का एक राउंड ट्रिप लगा रहा है। लेकिन
00:04:17वास्तविक रूप से, ज्यादातर समय आप वैसे भी ऑन-एज ट्रांसक्रिप्शन का ही इस्तेमाल करेंगे,
00:04:23लेकिन क्लाउड का विकल्प अन्य कामों के लिए उपयोगी है जैसे भारी इमेज एनालिसिस या कुछ और
00:04:27जो कि एक ज्यादा भारी काम हो। तो दोस्तों, संक्षेप में यही है Cactus इंजन।
00:04:33मुझे लगता है कि वे यहाँ कुछ बहुत ही दिलचस्प कर रहे हैं। मुझे यह पसंद आया कि वे कैसे
00:04:37एक कस्टम NPU-फ्रेंडली आर्किटेक्चर का इस्तेमाल करके ऑन-एज ऑप्टिमाइज़ेशन के बारे में सोच रहे हैं। और मुझे यह भी
00:04:43पसंद आया कि वे तमाम तरह के मल्टीमॉडल कामों के लिए इतने सारे SDK और इतने सारे मॉडल्स की पेशकश करते हैं।
00:04:50और मैं यह देखने के लिए वाकई उत्सुक हूँ कि उनका प्रोडक्ट कैसे आगे बढ़ता है। तो मैं निश्चित रूप से उनकी
00:04:54प्रगति पर नजर रखूँगा। लेकिन आप लोग Cactus के बारे में क्या सोचते हैं? क्या आपने इसे आज़माया है? हमें
00:04:59नीचे कमेंट सेक्शन में बताएं। और दोस्तों, अगर आपको इस तरह के ब्रेकडाउन पसंद आते हैं, तो कृपया
00:05:03वीडियो के नीचे उस लाइक बटन को दबाकर मुझे बताएं। और हमारे चैनल को सब्सक्राइब करना
00:05:08भी न भूलें। Better Stack से मैं हूँ एंड्रीस, और मैं आपसे मिलूँगा अगले
00:05:13वीडियो में।
Community Posts
No posts yet. Be the first to write about this video!
Write about this video