यह नया इंजन 10 गुना कम RAM का उपयोग करके लोकल AI चलाता है! (Cactus)

BBetter Stack
Computing/SoftwareConsumer ElectronicsCell Phones

Transcript

00:00:00यह Cactus है। यह एक लो-लेटेंसी इन्फरेंस इंजन है जिसे मोबाइल और एज डिवाइसेज को
00:00:06फर्स्ट-क्लास सिटिजन की तरह मानने के लिए डिजाइन किया गया है। आमतौर पर जब हम एज डिवाइसेज पर AI मॉडल चलाने की कोशिश करते हैं, तो वे
00:00:12काफी भारी लगते हैं, बैटरी खत्म करते हैं और मोबाइल ऑपरेटिंग सिस्टम के
00:00:18मेमोरी मैनेजर द्वारा बंद किए जाने के जोखिम में रहते हैं। लेकिन Cactus इसी समस्या को हल करने की कोशिश कर रहा है क्योंकि इसे खास तौर पर
00:00:23न्यूरल प्रोसेसिंग यूनिट्स की सीमाओं और सीमित रैम को ध्यान में रखकर बनाया गया है। तो आज हम
00:00:28Cactus को देखेंगे, यह समझेंगे कि यह कैसे काम करता है और इसकी परफॉर्मेंस को जांचने के लिए इसे एक एज डिवाइस पर टेस्ट करेंगे।
00:00:34तो चलिए शुरू करते हैं। लोकल AI के लिए सबसे बड़ी रुकावट वास्तव में कंप्यूट नहीं है, बल्कि
00:00:44मेमोरी ओवरहेड है। एक स्टैंडर्ड मोबाइल डिवाइस पर, ऑपरेटिंग सिस्टम रैम के इस्तेमाल में
00:00:50जिनका रैम यूसेज अचानक बढ़ जाता है। लेकिन Cactus जीरो-कॉपी मेमोरी मैपिंग का इस्तेमाल करके इसे हल करता है।
00:00:57आमतौर पर अपनाए जाने वाले तरीके के बजाय जहाँ आप सब कुछ रैम में लोड करते हैं, Cactus
00:01:02मॉडल के वेट्स को सीधे स्टोरेज से मैप करता है। यह एक जीरो-कॉपी सिस्टम है जो जरूरत पड़ने पर ही
00:01:08खास टेंसर को एक्टिव कंप्यूट साइकिल में लाता है। इससे आपको एक बड़े मॉडल की
00:01:13रीजनिंग पावर मिल जाती है, और ऑपरेटिंग सिस्टम द्वारा आपके ऐप को बंद करने का जोखिम भी नहीं रहता। और इसे हासिल करने के लिए,
00:01:19उन्होंने ट्रेडिशनल GGUF फॉर्मेट को भी छोड़ दिया है और उनका अपना
00:01:24प्रोपराइटी .CACT फॉर्मेट है जो इस मैपिंग को एज डिवाइसेज पर असरदार बनाता है। लेकिन
00:01:31असली भारी काम NPU यानी न्यूरल प्रोसेसिंग यूनिट में होता है। जहाँ ज्यादातर लोकल
00:01:37इंजन डिफ़ॉल्ट रूप से GPU का इस्तेमाल करते हैं, Cactus को NPU-फर्स्ट होने के लिए बनाया गया है। अगर आपने Apple,
00:01:43Qualcomm या MediaTek के मॉडर्न चिप्स देखे हों, तो उन सभी में खास तौर पर न्यूरल नेटवर्क्स के लिए
00:01:50डेडिकेटेड सिलिकॉन होता है। Cactus इन यूनिट्स से सीधे कम्युनिकेट करता है, जिससे वे ट्रांसलेशन लेयर्स बाईपास हो जाती हैं
00:01:55जो आपके इन्फरेंस को धीमा करती हैं। और उन्होंने इन मैट्रिक्स मल्टीप्लिकेशन यूनिट्स का
00:02:00पूरा फायदा उठाने के लिए कुछ खास मॉडल्स को ऑप्टिमाइज भी किया है। अगर आप Cactus डैशबोर्ड पर जाएँ,
00:02:07तो आपको डाउनलोड के लिए तैयार NPU-ऑप्टिमाइज्ड मॉडल्स की एक लिस्ट दिखेगी। और Cactus का एक और शानदार फीचर
00:02:12इसका हाइब्रिड राउटर है। अब, हकीकत यह है कि एज डिवाइसेज पर लोकल मॉडल, चाहे वे कितने भी ऑप्टिमाइज्ड क्यों न हों,
00:02:18आखिरकार अपनी रीजनिंग की सीमा तक पहुँच ही जाते हैं। और यहीं पर यह हाइब्रिड राउटर
00:02:23काम आता है। आपको एक तेज़ लेकिन सीमित लोकल मॉडल और एक समझदार लेकिन
00:02:29महंगे क्लाउड मॉडल में से किसी एक को चुनने के लिए मजबूर करने के बजाय, Cactus दोनों को संभाल सकता है और उनके बीच स्विच कर सकता है। यह
00:02:35कॉन्फिडेंस-बेस्ड राउटिंग सिस्टम का इस्तेमाल करता है। और अगर आप इससे कोई आसान सवाल पूछते हैं, तो यह
00:02:40NPU पर ही रहता है क्योंकि यह तेज़ और प्राइवेट है और इसमें आपका कोई खर्च नहीं होता। लेकिन अगर लोकल मॉडल को लगता है कि
00:02:45काम बहुत जटिल है या इसके लिए एक बहुत बड़े कॉन्टेक्स्ट विंडो की जरूरत है, तो यह आटोमेटिकली उस
00:02:51खास रिक्वेस्ट को क्लाउड के एक फ्रंटियर मॉडल को सौंप देता है। आपका कोड बिल्कुल वैसा ही रहता है। इंजन
00:02:57बस बैकग्राउंड में इस फेलओवर को मैनेज कर लेता है। तो यह चीज़ों के जटिल होने पर भी यूजर एक्सपीरियंस से
00:03:03बिना कोई समझौता किए लागत को कम रखने का एक प्रोडक्शन-रेडी तरीका है। अब, यह सब
00:03:08सुनने में बहुत बढ़िया लगता है, लेकिन मैं इसे खुद आज़माना चाहता हूँ। तो उनके लैंडिंग पेज पर,
00:03:13यह डेमो मौजूद है जहाँ वे दिखाते हैं कि कैसे आप एक एज डिवाइस पर लगभग 100 मिलीसेकंड की लेटेंसी के साथ
00:03:19रीअल-टाइम ट्रांसक्रिप्शन कर सकते हैं। तो मैंने आगे बढ़कर उनके Swift Cactus पैकेज का इस्तेमाल करके
00:03:25एक छोटा सा Swift ऐप वाइब-कोड किया, जो लोकल स्तर पर उनके parakeet
00:03:30स्पीच मॉडल और क्लाउड पर Gemini मॉडल का इस्तेमाल करके रीअल-टाइम ट्रांसक्रिप्शन चलाने को सपोर्ट करता है। तो चलिए इसे आज़माते हैं। जैसा कि आप
00:03:36देख सकते हैं, लोकल स्तर पर, हम लाइव स्ट्रीमिंग के साथ औसतन लगभग 260 मिलीसेकंड की लेटेंसी हासिल कर रहे हैं। और ध्यान रहे,
00:03:44मैं इसे एक पुराने iPhone मॉडल, 12 Pro पर चला रहा हूँ। तो इस तरह के एक पुराने मॉडल के लिए
00:03:50मुझे लगता है कि एज पर यह परफॉर्मेंस काफी अच्छी है। और अगर हम क्लाउड पर स्विच करते हैं, तो Cactus क्लाउड विकल्प के रूप में
00:03:55Gemini 2.5 Flash पर स्विच हो जाता है। और किसी वजह से, उनके पास क्लाउड साइड में
00:04:01वही parakeet मॉडल नहीं है। इसलिए मुझे Gemini का इस्तेमाल करने के लिए मजबूर होना पड़ा। और हम यहाँ देख सकते हैं कि
00:04:06यह तीन सेकंड के बैच ट्रांसक्रिप्शन के लिए औसतन लगभग 2000 मिलीसेकंड ले रहा है। और
00:04:12मुझे लगता है कि यह उम्मीद के मुताबिक ही है क्योंकि यह डेटा सर्वर तक आने-जाने का एक राउंड ट्रिप लगा रहा है। लेकिन
00:04:17वास्तविक रूप से, ज्यादातर समय आप वैसे भी ऑन-एज ट्रांसक्रिप्शन का ही इस्तेमाल करेंगे,
00:04:23लेकिन क्लाउड का विकल्प अन्य कामों के लिए उपयोगी है जैसे भारी इमेज एनालिसिस या कुछ और
00:04:27जो कि एक ज्यादा भारी काम हो। तो दोस्तों, संक्षेप में यही है Cactus इंजन।
00:04:33मुझे लगता है कि वे यहाँ कुछ बहुत ही दिलचस्प कर रहे हैं। मुझे यह पसंद आया कि वे कैसे
00:04:37एक कस्टम NPU-फ्रेंडली आर्किटेक्चर का इस्तेमाल करके ऑन-एज ऑप्टिमाइज़ेशन के बारे में सोच रहे हैं। और मुझे यह भी
00:04:43पसंद आया कि वे तमाम तरह के मल्टीमॉडल कामों के लिए इतने सारे SDK और इतने सारे मॉडल्स की पेशकश करते हैं।
00:04:50और मैं यह देखने के लिए वाकई उत्सुक हूँ कि उनका प्रोडक्ट कैसे आगे बढ़ता है। तो मैं निश्चित रूप से उनकी
00:04:54प्रगति पर नजर रखूँगा। लेकिन आप लोग Cactus के बारे में क्या सोचते हैं? क्या आपने इसे आज़माया है? हमें
00:04:59नीचे कमेंट सेक्शन में बताएं। और दोस्तों, अगर आपको इस तरह के ब्रेकडाउन पसंद आते हैं, तो कृपया
00:05:03वीडियो के नीचे उस लाइक बटन को दबाकर मुझे बताएं। और हमारे चैनल को सब्सक्राइब करना
00:05:08भी न भूलें। Better Stack से मैं हूँ एंड्रीस, और मैं आपसे मिलूँगा अगले
00:05:13वीडियो में।

Key Takeaway

Cactus इंजन .CACT फॉर्मेट, जीरो-कॉपी मेमोरी मैपिंग और NPU-फर्स्ट आर्किटेक्चर के जरिए मोबाइल डिवाइसेज पर बिना रैम ओवरहेड के तीव्र लोकल AI इन्फरेंस सक्षम करता है और जरूरत पड़ने पर हाइब्रिड राउटर से जटिल काम क्लाउड को सौंप देता है।

Highlights

  • Cactus एक लो-लेटेंसी इन्फरेंस इंजन है जो मोबाइल और एज डिवाइसेज पर सीमित रैम और न्यूरल प्रोसेसिंग यूनिट्स (NPU) की सीमाओं के भीतर लोकल AI चलाता है।

  • यह इंजन रैम यूसेज को बढ़ने से रोकने के लिए जीरो-कॉपी मेमोरी मैपिंग का उपयोग करके मॉडल के वेट्स को सीधे स्टोरेज से मैप करता है।

  • ट्रेडिशनल GGUF फॉर्मेट के बजाय Cactus अपने प्रोपराइटी .CACT फॉर्मेट का उपयोग करके एज डिवाइसेज पर मेमोरी मैपिंग को प्रभावी बनाता है।

  • iPhone 12 Pro पर लोकल स्तर पर Parakeet स्पीच मॉडल का उपयोग करने पर लाइव स्ट्रीमिंग के साथ औसतन 260 मिलीसेकंड की लेटेंसी प्राप्त होती है।

  • क्लाउड पर Gemini 2.5 Flash मॉडल के माध्यम से तीन सेकंड के बैच ट्रांसक्रिप्शन के लिए औसतन लगभग 2000 मिलीसेकंड का समय लगता है।

Timeline

एज डिवाइसेज पर लोकल AI की चुनौतियाँ और Cactus का समाधान

  • लोकल AI के लिए सबसे बड़ी रुकावट सीमित कंप्यूट क्षमता नहीं बल्कि भारी मेमोरी ओवरहेड है।
  • Cactus जीरो-कॉपी मेमोरी मैपिंग तकनीक से मॉडल के वेट्स को सीधे स्टोरेज से जोड़ता है।
  • इस मैपिंग प्रक्रिया को सुचारू बनाने के लिए ट्रेडिशनल GGUF फॉर्मेट की जगह .CACT फॉर्मेट काम करता है।

मोबाइल ऑपरेटिंग सिस्टम का मेमोरी मैनेजर रैम यूसेज अचानक बढ़ने पर ऐप्स को बंद कर देता है। Cactus सब कुछ रैम में लोड करने के बजाय जरूरत पड़ने पर ही खास टेंसर को एक्टिव कंप्यूट साइकिल में लाता है। इससे बड़े मॉडल्स की रीजनिंग पावर मिलती है और ऐप के क्रैश होने का जोखिम खत्म हो जाता है।

NPU-फर्स्ट आर्किटेक्चर और हाइब्रिड राउटिंग सिस्टम

  • Cactus डिफ़ॉल्ट रूप से GPU के बजाय NPU यानी न्यूरल प्रोसेसिंग यूनिट का प्राथमिक रूप से उपयोग करता है।
  • एक कॉन्फिडेंस-बेस्ड हाइब्रिड राउटर लोकल मॉडल और क्लाउड मॉडल के बीच ऑटोमैटिक स्विचिंग को संभालता है।
  • जटिल काम या बड़े कॉन्टेक्स्ट विंडो की जरूरत होने पर रिक्वेस्ट बैकग्राउंड में क्लाउड के फ्रंटियर मॉडल को ट्रांसफर हो जाती है।

Apple, Qualcomm और MediaTek के मॉडर्न चिप्स में डेडिकेटेड सिलिकॉन मौजूद होता है। Cactus इन यूनिट्स से सीधे कम्युनिकेट करके ट्रांसलेशन लेयर्स को बाईपास करता है जिससे इन्फरेंस की गति बढ़ती है। आसान सवाल NPU पर ही प्रोसेस होते हैं जिससे गोपनीयता बनी रहती है और लागत शून्य होती है, जबकि मुश्किल काम यूजर एक्सपीरियंस से समझौता किए बिना क्लाउड पर चले जाते हैं।

iPhone 12 Pro पर रीअल-टाइम ट्रांसक्रिप्शन का परफॉर्मेंस टेस्ट

  • Swift Cactus पैकेज की मदद से बने ऐप पर लोकल और क्लाउड दोनों स्तरों पर ट्रांसक्रिप्शन टेस्ट संभव है।
  • पुराने iPhone 12 Pro डिवाइस पर ऑन-एज ट्रांसक्रिप्शन औसतन 260 मिलीसेकंड की लेटेंसी देता है।
  • क्लाउड विकल्प के रूप में Gemini 2.5 Flash पर स्विच करने पर लेटेंसी बढ़कर 2000 मिलीसेकंड हो जाती है।

यह टेस्ट लोकल स्तर पर Parakeet स्पीच मॉडल और क्लाउड पर Gemini का उपयोग करके किया गया। क्लाउड ट्रांसक्रिप्शन में 3 सेकंड के बैच के लिए अधिक समय लगता है क्योंकि डेटा को सर्वर तक आने-जाने का एक राउंड ट्रिप लगाना पड़ता है। हालांकि, भारी इमेज एनालिसिस या जटिल कामों के लिए क्लाउड का यह विकल्प उपयोगी साबित होता है जबकि सामान्य कामों के लिए ऑन-एज ट्रांसक्रिप्शन ही मुख्य साधन रहता है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video