हर Mac यूजर को इस नए AI मॉडल रनर (oMLX) की ज़रूरत क्यों है

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00यह OMLX है। यह एक बहुत ही रोमांचक प्रोजेक्ट है, जो मूल रूप से एक विशेष अनुमान
00:00:06इंजन है जिसे आपके Apple सिलिकॉन से प्रदर्शन की हर आखिरी बूंद निचोड़ने के लिए डिज़ाइन किया गया है।
00:00:11यदि आप Mac उपयोगकर्ता हैं, तो आप इसे लेकर बहुत उत्साहित होंगे। OMLX मूल रूप से
00:00:16लोकल हार्डवेयर पर हमारे सामने आने वाली सबसे बड़ी बाधा, यानी मेमोरी टैक्स को हल करने का प्रयास कर रहा है।
00:00:21इस वीडियो में, हम OMLX पर नज़र डालेंगे, देखेंगे कि यह कैसे काम करता है और हम एक छोटा परीक्षण करेंगे और
00:00:27इसकी तुलना दिग्गज LM Studio से करेंगे ताकि यह देख सकें कि क्या यह नया टूल वास्तव में भविष्य हो सकता है
00:00:33आपके Mac पर स्थानीय AI मॉडल चलाने का। इसमें बहुत मज़ा आने वाला है, तो चलिए इसमें उतरते हैं।
00:00:39तो वास्तव में OMLX क्या है? इसके मूल में, यह Apple के MLX फ्रेमवर्क के ऊपर
00:00:49विशेष रूप से बनाया गया एक रनटाइम है और उन सामान्य टूल के विपरीत जो हर GPU को सपोर्ट करने की कोशिश करते हैं,
00:00:55MLX को विशेष रूप से Apple सिलिकॉन टीम द्वारा एकीकृत मेमोरी आर्किटेक्चर का लाभ उठाने के लिए बनाया गया है जो
00:01:02विशेष रूप से Mac को शक्ति प्रदान करता है। एक पारंपरिक PC में, आपके CPU और GPU के पास अलग-अलग मेमोरी पूल होते हैं,
00:01:09जिसका अर्थ है कि आपके मॉडल के वेट जैसे डेटा को PCI बस के माध्यम से लगातार आगे-पीछे कॉपी करना पड़ता है।
00:01:16लेकिन MLX उस कॉपी करने की प्रक्रिया को पूरी तरह से समाप्त कर देता है। क्योंकि CPU और GPU बिल्कुल एक ही भौतिक
00:01:22मेमोरी साझा करते हैं, MLX ज़ीरो कॉपी एरेज़ का उपयोग करता है। जब GPU एक गणना समाप्त करता है, तो CPU
00:01:29बिना एक भी बाइट हिलाए परिणाम तुरंत पढ़ सकता है। यह आलसी गणना (lazy computation) का भी उपयोग करता है, जिसका अर्थ है कि यह
00:01:36वास्तव में तब तक गणितीय ऑपरेशन निष्पादित नहीं करता जब तक कि अंतिम सेकंड में आउटपुट की आवश्यकता न हो,
00:01:41जो इसे तुरंत पूरी गणना ग्राफ को अनुकूलित करने की अनुमति देता है। लेकिन जहाँ OMLX आपके
00:01:47मानक LM Studio सेटअप से अलग है, वह यह है कि यह KV कैश को कैसे प्रबंधित करता है। एक विशिष्ट LLM सत्र में, आपकी
00:01:54बातचीत के इतिहास के हर शब्द को आपकी महंगी RAM में याद रखना पड़ता है। लेकिन OMLX एक द्वि-स्तरीय
00:02:01प्रणाली पेश करता है। यह गति के लिए तत्काल संदर्भ को आपकी एकीकृत मेमोरी में रखता है, लेकिन यह
00:02:07आपकी बातचीत के पुराने हिस्सों, उन विशाल सिस्टम प्रॉम्प्ट्स और टूल डेफिनिशन को फ्रीज कर देता है, और उन्हें
00:02:12आपके SSD पर स्वैप कर देता है। और जब आप इसकी तुलना LM Studio से करते हैं, तो अंतर तत्काल दिखाई देता है। और हाँ,
00:02:19यह अविश्वसनीय रूप से स्थिर और संगत है, लेकिन समस्या यह है कि यह पूरे
00:02:23मेमोरी इतिहास को सक्रिय अवस्था में रखना चाहता है। OMLX एक आधुनिक ऑपरेटिंग सिस्टम की तरह है। यह इतना स्मार्ट है कि जानता है
00:02:30कि अभी आपके दिमाग में किस डेटा की आवश्यकता है और किसे डिस्क पर भेजा जा सकता है। तो चलिए OMLX को शुरू करते हैं
00:02:36और इसे खुद आजमाते हैं। इंटरफ़ेस काफी सहज है। शुरुआत में ही, हमें यह
00:02:41विंडो मिलती है जहाँ हम अपने सर्वर के लिए वांछित स्थान निर्दिष्ट कर सकते हैं और इसे तुरंत लॉन्च कर सकते हैं। उसके
00:02:47बाद, हमें API की प्रदान करने के लिए कहा जाता है। तो चलिए वह करते हैं। और अंत में, हम इस
00:02:53डैशबोर्ड पर पहुँचते हैं, जो आपके OMLX सर्वर का मुख्य प्रवेश बिंदु है। और यहाँ से, मैंने
00:03:00Qwen 2.5 32 बिलियन पैरामीटर 4-बिट मॉडल डाउनलोड किया, जिसका उपयोग हम अपने परीक्षणों के लिए करेंगे।
00:03:07मैंने एक एजेंट MD फ़ाइल के साथ यह खाली रिपॉजिटरी भी सेट की है जहाँ मैं मॉडल से
00:03:13एक सरल वेब ऐप बनाने के लिए कहूँगा जहाँ आप विभिन्न फिल्मों को खोज सकते हैं, उन्हें विशलिस्ट कर सकते हैं और उन्हें रेट कर सकते हैं
00:03:19अपने Movie DB API की का उपयोग करके। इस प्रदर्शन के लिए कुछ भी बहुत जटिल नहीं है, बस एक सरल कोडिंग टेस्ट
00:03:24यह देखने के लिए कि यह वास्तविक दुनिया के कोडिंग कार्य को संभावित रूप से कैसे कर सकता है। और डैशबोर्ड पेज पर,
00:03:31हमें वह सेक्शन मिलता है जो हमें विभिन्न AI एजेंट हार्नेस के लिए उपयोग के लिए तैयार कोड स्निपेट प्रदान करता है
00:03:37जिन्हें हम चला सकते हैं। और इस डेमो के लिए, मैं इन परीक्षणों को करने के लिए Codex CLI का उपयोग करूँगा।
00:03:42अब, आप सोच रहे होंगे कि मैं इसके लिए आधिकारिक Claude Code CLI का उपयोग क्यों नहीं कर रहा हूँ। खैर,
00:03:47हकीकत यह है कि MacBook M2 पर हर टोकन मायने रखता है। और यदि आप बिल्कुल खाली स्लेट पर Claude के संदर्भ आँकड़ों को
00:03:54शुरुआत में ही देखें, तो Claude Code अपने स्वयं के सिस्टम प्रॉम्प्ट्स और टूल डेफिनिशन के लिए लगभग 16.2K टोकन खा जाता है।
00:04:02और 32K की विंडो में, यह हमें वास्तविक प्रोजेक्ट के लिए केवल 16K टोकन देता है,
00:04:09जो कि बहुत कम है जब आप एक फुल स्टैक एप्लिकेशन बना रहे हों। लेकिन दूसरी ओर,
00:04:14मैंने पाया कि Codex बहुत अधिक हल्का है। यह बातचीत के आधार भार को नहीं बढ़ाता है,
00:04:20जो हमें संदर्भ सीमा तक पहुँचने से पहले वास्तव में कोड लिखने के लिए एक उदार रनवे देता है।
00:04:26ठीक है, तो अब मैं यहाँ दिए गए इस सरल कमांड के साथ Codex लॉन्च करने जा रहा हूँ।
00:04:31और फिर मैं इसे अपने कार्य को समझाते हुए एक सरल स्टार्टअप प्रॉम्प्ट दूँगा और इसे शुरू करूँगा।
00:04:36और जैसा कि यह यहाँ दाईं ओर तैयार हो रहा है, आप वास्तविक समय में देख सकते हैं कि यह सत्र कैसा प्रदर्शन कर रहा है,
00:04:42कितने टोकन तैयार किए जा रहे हैं, उनमें से कितने कैश किए जा रहे हैं,
00:04:46और कुल कैश दक्षता प्रतिशत। और यह देखना भी बहुत सुविधाजनक है कि एक सेकंड में औसत रूप से
00:04:51कितने टोकन संसाधित होते हैं। अब, कुल मिलाकर, मेरे M2 MacBook Pro पर चलने वाले इस 32 बिलियन
00:04:57पैरामीटर Qwen 2.5 मॉडल को इस कार्य को पूरा करने में लगभग 20 मिनट लगे। और यह
00:05:04अपेक्षित है क्योंकि इस मॉडल के लिए यह एक बहुत ही भारी उपक्रम है। अब, दो या तीन
00:05:10ऐसे मौके आए जहाँ मुझे 400 एरर मिली क्योंकि प्रॉम्प्ट ने मेरे M2 MacBook पर 30K की संदर्भ सीमा को पार कर लिया था।
00:05:17किसी भी अन्य टूल में, यह पूरी तरह से प्रोजेक्ट को खत्म करने वाला होता। और आम तौर पर, यदि मैं स्लेश
00:05:24क्लियर चलाता, तो यह AI की शॉर्ट-टर्म मेमोरी को मिटा देता, जिससे अक्सर भ्रम (hallucinations) पैदा होते क्योंकि मॉडल
00:05:29उस कोड को भूल जाता है जो उसने अभी लिखा था। लेकिन यहीं पर OMLX के स्थायी SSD कैशिंग ने मुझे हैरान कर दिया।
00:05:37भले ही मैंने Codex में सत्र को साफ़ कर दिया, मेरे प्रोजेक्ट की वास्तविक गणना अवस्था
00:05:42अभी भी मेरे SSD पर थी। इसलिए जैसे ही मैंने Codex को वहीं से जारी रखने के लिए एक नया प्रॉम्प्ट दिया जहाँ इसे छोड़ा था,
00:05:48OMLX ने प्रीफिक्स को पहचान लिया और तुरंत डिस्क से मॉडल के दिमाग को हाइड्रेट कर दिया। और
00:05:56भ्रमित होने या शून्य से शुरू करने के बजाय, इसने वहीं से काम शुरू किया जहाँ से छोड़ा था। तो कैश दक्षता
00:06:02वास्तव में इस मामले में मदद करती है। और इस कार्य के अंत तक, हम यहाँ देख सकते हैं कि Qwen 2.5 ने
00:06:08OMLX की मदद से 1.78 मिलियन टोकन निकालकर कार्य को पूरा किया, और उनमें से लगभग 1.59 मिलियन
00:06:16कैश किए गए थे। इसलिए हमें 89% कैश दक्षता मिली, जो काफी बड़ी बात है। और
00:06:22ऐप की बात करें तो यह काफी अच्छा दिखता है। हम फिल्मों को खोज सकते हैं, उन्हें अपनी वॉच लिस्ट में जोड़ सकते हैं,
00:06:28और उन्हें रेट कर सकते हैं। लेकिन एक बार जब आप पेज को रिफ्रेश करते हैं, तो वॉच लिस्ट रीसेट हो जाती है। इसलिए मुझे लगता है कि इसने
00:06:33डेटाबेस स्टोरेज समाधान को ठीक से लागू नहीं किया, लेकिन कुल मिलाकर एक ठोस प्रयास रहा। अब यह
00:06:40सब प्रभावशाली दिखता है, लेकिन मैं यह जानना चाहता था कि यह प्रदर्शन LM Studio जैसे
00:06:46दिग्गज मॉडल रनर के सामने कैसा है। इसलिए मैंने उसी Qwen 2.5 मॉडल के साथ वही कार्य
00:06:52उसी संदर्भ विंडो और बाधाओं का उपयोग करके चलाने का फैसला किया और देखा कि यह कैसा प्रदर्शन करता है। और सच कहूँ तो, मुझे
00:06:58इसकी उम्मीद नहीं थी, लेकिन मुझे वास्तव में LM Studio पर खराब प्रदर्शन मिला। तो वह कार्य
00:07:04पूरा करने में लगभग 35 मिनट लगे। यह OMLX की तुलना में पहले से ही 15 मिनट अधिक है। और मैंने यह भी देखा
00:07:11कि इस कार्य को चलाते समय, LM Studio मेरे MacBook का पूरा जोर लगा रहा था। इतना कि मैं
00:07:17दूसरे मॉनिटर पर वीडियो भी नहीं देख पा रहा था क्योंकि वह गंभीर RAM की कमी के कारण लैग कर रहा था।
00:07:23अब मुझे OMLX के साथ वही समस्या नहीं हुई क्योंकि OMLX पर इसे चलाते समय, मैं आसानी से
00:07:30वेब ब्राउज़ करने, वीडियो देखने या कोई अन्य कार्य करने में सक्षम था जबकि Codex बैकग्राउंड में चल रहा था।
00:07:35लेकिन LM Studio पर ऐसा करना लगभग असंभव था। और इन आँकड़ों को देखें। जिस बात ने मुझे
00:07:41और भी अधिक चौंका दिया वह यह थी कि LM Studio पर औसत टोकन प्रति सेकंड की गति 16 टोकन प्रति सेकंड थी। और
00:07:47OMLX पर, यह लगभग 47 थी। तो वास्तव में यही बताता है कि कार्य को पूरा करने में 15 मिनट अधिक क्यों लगे।
00:07:55हालांकि, मुझे श्रेय देना होगा जहाँ देना चाहिए। LM Studio ने OMLX जैसी संदर्भ सीमा बाधाओं के
00:08:01कारण एक भी 400 एरर नहीं दी। इसलिए LM Studio पर संदर्भ प्रबंधन बहुत स्थिर है और
00:08:08पूरी तरह से चल रहा है। और यदि हम अंतिम परिणाम देखें, तो वह बहुत समान था। इस बार मेरे पास कोई
00:08:13फैंसी एनिमेशन नहीं थे, लेकिन ईमानदारी से, यह एक ही मॉडल पर एक ही कार्य के लिए अलग-अलग
00:08:18सीड वैल्यू के साथ एक ही आउटपुट की तुलना करने जैसा महसूस होता है। इसलिए मैं यहाँ किसी निष्कर्ष पर नहीं पहुँचने वाला हूँ।
00:08:25यह वही Qwen 2.5 मॉडल है। आप यहाँ खुद Qwen के मॉडल आउटपुट का न्याय कर सकते हैं। तो
00:08:33अंतिम फैसला क्या है? खैर, मुझे कहना होगा कि मैं OMLX के प्रदर्शन से बहुत, बहुत प्रभावित हूँ। यदि आप
00:08:39सीमित RAM वाले MacBook पर हैं और आप बैकग्राउंड में लोकल AI एजेंट चलाते समय वास्तव में अपने कंप्यूटर का उपयोग करना चाहते हैं,
00:08:45तो OMLX उसके लिए एक बेहतरीन टूल है। यह प्रभावी रूप से आपको उस शानदार MLX फ्रेमवर्क के साथ संयुक्त आपकी उच्च गति SSD का उपयोग करके
00:08:52एक RAM विस्तार देता है जो हमें Apple सिलिकॉन पर अधिक सुचारू रूप से मॉडल चलाने देता है।
00:08:58लेकिन हाँ, कभी-कभार आने वाली 400 एरर का मतलब है कि आपको इसके साथ अधिक सक्रिय रहना होगा और शायद
00:09:05बीच-बीच में एक क्लियर कमांड देनी होगी। लेकिन तीन गुना तेज़ जनरेशन स्पीड के लिए आपको यह समझौता करना पड़ता है।
00:09:10लेकिन मुझे लगता है कि इस मामले में यह पूरी तरह सार्थक है। तो OMLX जैसे इस तरह के प्रोजेक्ट
00:09:16यह साबित कर रहे हैं कि हमें शक्तिशाली एजेंट चलाने के लिए जरूरी नहीं कि 128 गीगाबाइट RAM की आवश्यकता हो।
00:09:23हमें बस अपने MacBook पर पहले से मौजूद मेमोरी को प्रबंधित करने का एक बेहतर तरीका चाहिए।
00:09:29और हमने वास्तव में कुछ महीने पहले एक सर्वेक्षण किया था और पाया कि हमारे अधिकांश दर्शक Mac उपयोगकर्ता हैं।
00:09:34इसलिए मैं वास्तव में यह जानने के लिए उत्सुक हूँ। क्या आपने अपनी मशीनों पर OMLX आजमाया है? अब तक का
00:09:40अनुभव कैसा रहा? हमें नीचे कमेंट सेक्शन में बताएं। तो दोस्तों, यही था सब।
00:09:45संक्षेप में यह OMLX है। और दोस्तों, अगर आपको इस प्रकार के तकनीकी विवरण पसंद हैं, तो कृपया
00:09:50वीडियो के नीचे उस लाइक बटन को दबाकर मुझे बताएं। और हमारे चैनल को सब्सक्राइब करना न भूलें।
00:09:55मैं Better Stack से Andris हूँ और मैं आपसे अगले वीडियो में मिलूँगा।

Key Takeaway

OMLX एक द्वि-स्तरीय KV कैशिंग सिस्टम का उपयोग करके Apple Silicon Macs पर स्थानीय AI मॉडल की गति को 3 गुना तक बढ़ा देता है और भारी मल्टीटास्किंग की अनुमति देता है।

Highlights

  • OMLX Apple Silicon के एकीकृत मेमोरी आर्किटेक्चर का उपयोग करके स्थानीय AI मॉडल चलाने के दौरान होने वाले मेमोरी टैक्स को समाप्त करता है।

  • यह रनटाइम KV कैश को SSD पर स्वैप करके RAM विस्तार की तरह काम करता है, जिससे 32B पैरामीटर वाले बड़े मॉडल सीमित RAM पर भी चल पाते हैं।

  • M2 MacBook Pro पर तुलनात्मक परीक्षण में OMLX ने 47 टोकन प्रति सेकंड की गति दी, जबकि LM Studio केवल 16 टोकन प्रति सेकंड तक पहुँच पाया।

  • 1.78 मिलियन टोकन संसाधित करने वाले कोडिंग कार्य में OMLX ने 89% कैश दक्षता हासिल की, जिससे सत्र साफ़ करने के बाद भी मॉडल ने डिस्क से संदर्भ पुनः प्राप्त कर लिया।

  • LM Studio की तुलना में OMLX ने वही जटिल कोडिंग कार्य 20 मिनट में पूरा किया, जो कि 15 मिनट की समय बचत है।

Timeline

Apple Silicon के लिए अनुकूलित अनुमान इंजन

  • MLX फ्रेमवर्क CPU और GPU के बीच डेटा कॉपी करने की आवश्यकता को पूरी तरह से समाप्त करने के लिए ज़ीरो-कॉपी एरेज़ का उपयोग करता है।
  • आलसी गणना (lazy computation) तकनीक अंतिम सेकंड तक गणितीय कार्यों को रोककर पूरे गणना ग्राफ को अनुकूलित करती है।

पारंपरिक PC आर्किटेक्चर में डेटा को PCI बस के माध्यम से लगातार स्थानांतरित करना पड़ता है, लेकिन Apple का एकीकृत मेमोरी आर्किटेक्चर इसे रोकता है। OMLX इस आर्किटेक्चर का लाभ उठाकर हार्डवेयर के प्रदर्शन की हर आखिरी बूंद निचोड़ने के लिए डिज़ाइन किया गया है। यह विधि स्थानीय हार्डवेयर पर AI चलाने की सबसे बड़ी बाधा, मेमोरी टैक्स को हल करती है।

द्वि-स्तरीय KV कैश प्रबंधन और SSD स्वैपिंग

  • OMLX तत्काल संदर्भ को एकीकृत मेमोरी में रखता है और पुराने डेटा या सिस्टम प्रॉम्प्ट्स को SSD पर फ्रीज कर देता है।
  • LM Studio जैसे उपकरण पूरे मेमोरी इतिहास को सक्रिय अवस्था में रखने की कोशिश करते हैं, जिससे RAM की कमी हो जाती है।

बड़े LLM सत्रों में बातचीत के हर शब्द को महंगी RAM में याद रखना पड़ता है। OMLX एक आधुनिक ऑपरेटिंग सिस्टम की तरह काम करता है जो जानता है कि किस डेटा की तुरंत आवश्यकता है और किसे डिस्क पर भेजा जा सकता है। यह दृष्टिकोण सीमित RAM वाली मशीनों को भी बड़े और जटिल मॉडल संभालने की शक्ति देता है।

वास्तविक दुनिया का कोडिंग परीक्षण और दक्षता

  • Codex CLI का उपयोग करके Qwen 2.5 32B मॉडल ने 20 मिनट के भीतर एक कार्यात्मक मूवी डेटाबेस ऐप बनाया।
  • संदर्भ सीमा पार होने पर 400 एरर मिलने के बावजूद SSD कैशिंग ने सत्र को शून्य से शुरू किए बिना वहीं से जारी रखा।

परीक्षण के दौरान 1.78 मिलियन टोकन में से 1.59 मिलियन टोकन कैश किए गए थे, जिससे 89% की उच्च कैश दक्षता प्राप्त हुई। भले ही टोकन सीमा के कारण मैन्युअल रूप से सत्र साफ़ किया गया, OMLX ने डिस्क से 'मॉडल के दिमाग' को तुरंत हाइड्रेट कर दिया। इससे भ्रम (hallucinations) पैदा नहीं हुए और मॉडल ने पहले लिखे गए कोड को याद रखा।

LM Studio के साथ तुलनात्मक प्रदर्शन विश्लेषण

  • LM Studio पर समान कार्य को पूरा करने में 35 मिनट लगे और सिस्टम पर गंभीर दबाव के कारण मल्टीटास्किंग असंभव हो गई।
  • OMLX बैकग्राउंड में चलते समय सहज वेब ब्राउजिंग और वीडियो देखने की अनुमति देता है क्योंकि यह RAM संसाधनों को मुक्त रखता है।

प्रदर्शन के आंकड़े स्पष्ट अंतर दिखाते हैं जहाँ OMLX की 47 टोकन प्रति सेकंड की गति LM Studio की 16 टोकन प्रति सेकंड की गति से काफी अधिक है। हालांकि LM Studio में संदर्भ प्रबंधन अधिक स्थिर था और कोई एरर नहीं आई, लेकिन संसाधन खपत के मामले में वह पिछड़ गया। अंततः OMLX उन उपयोगकर्ताओं के लिए बेहतर है जिन्हें सीमित RAM पर उच्च गति और दक्षता की आवश्यकता है।

Community Posts

View all posts