हर Mac यूजर को इस नए AI मॉडल रनर (oMLX) की ज़रूरत क्यों है
BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology
Transcript
00:00:00यह OMLX है। यह एक बहुत ही रोमांचक प्रोजेक्ट है, जो मूल रूप से एक विशेष अनुमान
00:00:06इंजन है जिसे आपके Apple सिलिकॉन से प्रदर्शन की हर आखिरी बूंद निचोड़ने के लिए डिज़ाइन किया गया है।
00:00:11यदि आप Mac उपयोगकर्ता हैं, तो आप इसे लेकर बहुत उत्साहित होंगे। OMLX मूल रूप से
00:00:16लोकल हार्डवेयर पर हमारे सामने आने वाली सबसे बड़ी बाधा, यानी मेमोरी टैक्स को हल करने का प्रयास कर रहा है।
00:00:21इस वीडियो में, हम OMLX पर नज़र डालेंगे, देखेंगे कि यह कैसे काम करता है और हम एक छोटा परीक्षण करेंगे और
00:00:27इसकी तुलना दिग्गज LM Studio से करेंगे ताकि यह देख सकें कि क्या यह नया टूल वास्तव में भविष्य हो सकता है
00:00:33आपके Mac पर स्थानीय AI मॉडल चलाने का। इसमें बहुत मज़ा आने वाला है, तो चलिए इसमें उतरते हैं।
00:00:39तो वास्तव में OMLX क्या है? इसके मूल में, यह Apple के MLX फ्रेमवर्क के ऊपर
00:00:49विशेष रूप से बनाया गया एक रनटाइम है और उन सामान्य टूल के विपरीत जो हर GPU को सपोर्ट करने की कोशिश करते हैं,
00:00:55MLX को विशेष रूप से Apple सिलिकॉन टीम द्वारा एकीकृत मेमोरी आर्किटेक्चर का लाभ उठाने के लिए बनाया गया है जो
00:01:02विशेष रूप से Mac को शक्ति प्रदान करता है। एक पारंपरिक PC में, आपके CPU और GPU के पास अलग-अलग मेमोरी पूल होते हैं,
00:01:09जिसका अर्थ है कि आपके मॉडल के वेट जैसे डेटा को PCI बस के माध्यम से लगातार आगे-पीछे कॉपी करना पड़ता है।
00:01:16लेकिन MLX उस कॉपी करने की प्रक्रिया को पूरी तरह से समाप्त कर देता है। क्योंकि CPU और GPU बिल्कुल एक ही भौतिक
00:01:22मेमोरी साझा करते हैं, MLX ज़ीरो कॉपी एरेज़ का उपयोग करता है। जब GPU एक गणना समाप्त करता है, तो CPU
00:01:29बिना एक भी बाइट हिलाए परिणाम तुरंत पढ़ सकता है। यह आलसी गणना (lazy computation) का भी उपयोग करता है, जिसका अर्थ है कि यह
00:01:36वास्तव में तब तक गणितीय ऑपरेशन निष्पादित नहीं करता जब तक कि अंतिम सेकंड में आउटपुट की आवश्यकता न हो,
00:01:41जो इसे तुरंत पूरी गणना ग्राफ को अनुकूलित करने की अनुमति देता है। लेकिन जहाँ OMLX आपके
00:01:47मानक LM Studio सेटअप से अलग है, वह यह है कि यह KV कैश को कैसे प्रबंधित करता है। एक विशिष्ट LLM सत्र में, आपकी
00:01:54बातचीत के इतिहास के हर शब्द को आपकी महंगी RAM में याद रखना पड़ता है। लेकिन OMLX एक द्वि-स्तरीय
00:02:01प्रणाली पेश करता है। यह गति के लिए तत्काल संदर्भ को आपकी एकीकृत मेमोरी में रखता है, लेकिन यह
00:02:07आपकी बातचीत के पुराने हिस्सों, उन विशाल सिस्टम प्रॉम्प्ट्स और टूल डेफिनिशन को फ्रीज कर देता है, और उन्हें
00:02:12आपके SSD पर स्वैप कर देता है। और जब आप इसकी तुलना LM Studio से करते हैं, तो अंतर तत्काल दिखाई देता है। और हाँ,
00:02:19यह अविश्वसनीय रूप से स्थिर और संगत है, लेकिन समस्या यह है कि यह पूरे
00:02:23मेमोरी इतिहास को सक्रिय अवस्था में रखना चाहता है। OMLX एक आधुनिक ऑपरेटिंग सिस्टम की तरह है। यह इतना स्मार्ट है कि जानता है
00:02:30कि अभी आपके दिमाग में किस डेटा की आवश्यकता है और किसे डिस्क पर भेजा जा सकता है। तो चलिए OMLX को शुरू करते हैं
00:02:36और इसे खुद आजमाते हैं। इंटरफ़ेस काफी सहज है। शुरुआत में ही, हमें यह
00:02:41विंडो मिलती है जहाँ हम अपने सर्वर के लिए वांछित स्थान निर्दिष्ट कर सकते हैं और इसे तुरंत लॉन्च कर सकते हैं। उसके
00:02:47बाद, हमें API की प्रदान करने के लिए कहा जाता है। तो चलिए वह करते हैं। और अंत में, हम इस
00:02:53डैशबोर्ड पर पहुँचते हैं, जो आपके OMLX सर्वर का मुख्य प्रवेश बिंदु है। और यहाँ से, मैंने
00:03:00Qwen 2.5 32 बिलियन पैरामीटर 4-बिट मॉडल डाउनलोड किया, जिसका उपयोग हम अपने परीक्षणों के लिए करेंगे।
00:03:07मैंने एक एजेंट MD फ़ाइल के साथ यह खाली रिपॉजिटरी भी सेट की है जहाँ मैं मॉडल से
00:03:13एक सरल वेब ऐप बनाने के लिए कहूँगा जहाँ आप विभिन्न फिल्मों को खोज सकते हैं, उन्हें विशलिस्ट कर सकते हैं और उन्हें रेट कर सकते हैं
00:03:19अपने Movie DB API की का उपयोग करके। इस प्रदर्शन के लिए कुछ भी बहुत जटिल नहीं है, बस एक सरल कोडिंग टेस्ट
00:03:24यह देखने के लिए कि यह वास्तविक दुनिया के कोडिंग कार्य को संभावित रूप से कैसे कर सकता है। और डैशबोर्ड पेज पर,
00:03:31हमें वह सेक्शन मिलता है जो हमें विभिन्न AI एजेंट हार्नेस के लिए उपयोग के लिए तैयार कोड स्निपेट प्रदान करता है
00:03:37जिन्हें हम चला सकते हैं। और इस डेमो के लिए, मैं इन परीक्षणों को करने के लिए Codex CLI का उपयोग करूँगा।
00:03:42अब, आप सोच रहे होंगे कि मैं इसके लिए आधिकारिक Claude Code CLI का उपयोग क्यों नहीं कर रहा हूँ। खैर,
00:03:47हकीकत यह है कि MacBook M2 पर हर टोकन मायने रखता है। और यदि आप बिल्कुल खाली स्लेट पर Claude के संदर्भ आँकड़ों को
00:03:54शुरुआत में ही देखें, तो Claude Code अपने स्वयं के सिस्टम प्रॉम्प्ट्स और टूल डेफिनिशन के लिए लगभग 16.2K टोकन खा जाता है।
00:04:02और 32K की विंडो में, यह हमें वास्तविक प्रोजेक्ट के लिए केवल 16K टोकन देता है,
00:04:09जो कि बहुत कम है जब आप एक फुल स्टैक एप्लिकेशन बना रहे हों। लेकिन दूसरी ओर,
00:04:14मैंने पाया कि Codex बहुत अधिक हल्का है। यह बातचीत के आधार भार को नहीं बढ़ाता है,
00:04:20जो हमें संदर्भ सीमा तक पहुँचने से पहले वास्तव में कोड लिखने के लिए एक उदार रनवे देता है।
00:04:26ठीक है, तो अब मैं यहाँ दिए गए इस सरल कमांड के साथ Codex लॉन्च करने जा रहा हूँ।
00:04:31और फिर मैं इसे अपने कार्य को समझाते हुए एक सरल स्टार्टअप प्रॉम्प्ट दूँगा और इसे शुरू करूँगा।
00:04:36और जैसा कि यह यहाँ दाईं ओर तैयार हो रहा है, आप वास्तविक समय में देख सकते हैं कि यह सत्र कैसा प्रदर्शन कर रहा है,
00:04:42कितने टोकन तैयार किए जा रहे हैं, उनमें से कितने कैश किए जा रहे हैं,
00:04:46और कुल कैश दक्षता प्रतिशत। और यह देखना भी बहुत सुविधाजनक है कि एक सेकंड में औसत रूप से
00:04:51कितने टोकन संसाधित होते हैं। अब, कुल मिलाकर, मेरे M2 MacBook Pro पर चलने वाले इस 32 बिलियन
00:04:57पैरामीटर Qwen 2.5 मॉडल को इस कार्य को पूरा करने में लगभग 20 मिनट लगे। और यह
00:05:04अपेक्षित है क्योंकि इस मॉडल के लिए यह एक बहुत ही भारी उपक्रम है। अब, दो या तीन
00:05:10ऐसे मौके आए जहाँ मुझे 400 एरर मिली क्योंकि प्रॉम्प्ट ने मेरे M2 MacBook पर 30K की संदर्भ सीमा को पार कर लिया था।
00:05:17किसी भी अन्य टूल में, यह पूरी तरह से प्रोजेक्ट को खत्म करने वाला होता। और आम तौर पर, यदि मैं स्लेश
00:05:24क्लियर चलाता, तो यह AI की शॉर्ट-टर्म मेमोरी को मिटा देता, जिससे अक्सर भ्रम (hallucinations) पैदा होते क्योंकि मॉडल
00:05:29उस कोड को भूल जाता है जो उसने अभी लिखा था। लेकिन यहीं पर OMLX के स्थायी SSD कैशिंग ने मुझे हैरान कर दिया।
00:05:37भले ही मैंने Codex में सत्र को साफ़ कर दिया, मेरे प्रोजेक्ट की वास्तविक गणना अवस्था
00:05:42अभी भी मेरे SSD पर थी। इसलिए जैसे ही मैंने Codex को वहीं से जारी रखने के लिए एक नया प्रॉम्प्ट दिया जहाँ इसे छोड़ा था,
00:05:48OMLX ने प्रीफिक्स को पहचान लिया और तुरंत डिस्क से मॉडल के दिमाग को हाइड्रेट कर दिया। और
00:05:56भ्रमित होने या शून्य से शुरू करने के बजाय, इसने वहीं से काम शुरू किया जहाँ से छोड़ा था। तो कैश दक्षता
00:06:02वास्तव में इस मामले में मदद करती है। और इस कार्य के अंत तक, हम यहाँ देख सकते हैं कि Qwen 2.5 ने
00:06:08OMLX की मदद से 1.78 मिलियन टोकन निकालकर कार्य को पूरा किया, और उनमें से लगभग 1.59 मिलियन
00:06:16कैश किए गए थे। इसलिए हमें 89% कैश दक्षता मिली, जो काफी बड़ी बात है। और
00:06:22ऐप की बात करें तो यह काफी अच्छा दिखता है। हम फिल्मों को खोज सकते हैं, उन्हें अपनी वॉच लिस्ट में जोड़ सकते हैं,
00:06:28और उन्हें रेट कर सकते हैं। लेकिन एक बार जब आप पेज को रिफ्रेश करते हैं, तो वॉच लिस्ट रीसेट हो जाती है। इसलिए मुझे लगता है कि इसने
00:06:33डेटाबेस स्टोरेज समाधान को ठीक से लागू नहीं किया, लेकिन कुल मिलाकर एक ठोस प्रयास रहा। अब यह
00:06:40सब प्रभावशाली दिखता है, लेकिन मैं यह जानना चाहता था कि यह प्रदर्शन LM Studio जैसे
00:06:46दिग्गज मॉडल रनर के सामने कैसा है। इसलिए मैंने उसी Qwen 2.5 मॉडल के साथ वही कार्य
00:06:52उसी संदर्भ विंडो और बाधाओं का उपयोग करके चलाने का फैसला किया और देखा कि यह कैसा प्रदर्शन करता है। और सच कहूँ तो, मुझे
00:06:58इसकी उम्मीद नहीं थी, लेकिन मुझे वास्तव में LM Studio पर खराब प्रदर्शन मिला। तो वह कार्य
00:07:04पूरा करने में लगभग 35 मिनट लगे। यह OMLX की तुलना में पहले से ही 15 मिनट अधिक है। और मैंने यह भी देखा
00:07:11कि इस कार्य को चलाते समय, LM Studio मेरे MacBook का पूरा जोर लगा रहा था। इतना कि मैं
00:07:17दूसरे मॉनिटर पर वीडियो भी नहीं देख पा रहा था क्योंकि वह गंभीर RAM की कमी के कारण लैग कर रहा था।
00:07:23अब मुझे OMLX के साथ वही समस्या नहीं हुई क्योंकि OMLX पर इसे चलाते समय, मैं आसानी से
00:07:30वेब ब्राउज़ करने, वीडियो देखने या कोई अन्य कार्य करने में सक्षम था जबकि Codex बैकग्राउंड में चल रहा था।
00:07:35लेकिन LM Studio पर ऐसा करना लगभग असंभव था। और इन आँकड़ों को देखें। जिस बात ने मुझे
00:07:41और भी अधिक चौंका दिया वह यह थी कि LM Studio पर औसत टोकन प्रति सेकंड की गति 16 टोकन प्रति सेकंड थी। और
00:07:47OMLX पर, यह लगभग 47 थी। तो वास्तव में यही बताता है कि कार्य को पूरा करने में 15 मिनट अधिक क्यों लगे।
00:07:55हालांकि, मुझे श्रेय देना होगा जहाँ देना चाहिए। LM Studio ने OMLX जैसी संदर्भ सीमा बाधाओं के
00:08:01कारण एक भी 400 एरर नहीं दी। इसलिए LM Studio पर संदर्भ प्रबंधन बहुत स्थिर है और
00:08:08पूरी तरह से चल रहा है। और यदि हम अंतिम परिणाम देखें, तो वह बहुत समान था। इस बार मेरे पास कोई
00:08:13फैंसी एनिमेशन नहीं थे, लेकिन ईमानदारी से, यह एक ही मॉडल पर एक ही कार्य के लिए अलग-अलग
00:08:18सीड वैल्यू के साथ एक ही आउटपुट की तुलना करने जैसा महसूस होता है। इसलिए मैं यहाँ किसी निष्कर्ष पर नहीं पहुँचने वाला हूँ।
00:08:25यह वही Qwen 2.5 मॉडल है। आप यहाँ खुद Qwen के मॉडल आउटपुट का न्याय कर सकते हैं। तो
00:08:33अंतिम फैसला क्या है? खैर, मुझे कहना होगा कि मैं OMLX के प्रदर्शन से बहुत, बहुत प्रभावित हूँ। यदि आप
00:08:39सीमित RAM वाले MacBook पर हैं और आप बैकग्राउंड में लोकल AI एजेंट चलाते समय वास्तव में अपने कंप्यूटर का उपयोग करना चाहते हैं,
00:08:45तो OMLX उसके लिए एक बेहतरीन टूल है। यह प्रभावी रूप से आपको उस शानदार MLX फ्रेमवर्क के साथ संयुक्त आपकी उच्च गति SSD का उपयोग करके
00:08:52एक RAM विस्तार देता है जो हमें Apple सिलिकॉन पर अधिक सुचारू रूप से मॉडल चलाने देता है।
00:08:58लेकिन हाँ, कभी-कभार आने वाली 400 एरर का मतलब है कि आपको इसके साथ अधिक सक्रिय रहना होगा और शायद
00:09:05बीच-बीच में एक क्लियर कमांड देनी होगी। लेकिन तीन गुना तेज़ जनरेशन स्पीड के लिए आपको यह समझौता करना पड़ता है।
00:09:10लेकिन मुझे लगता है कि इस मामले में यह पूरी तरह सार्थक है। तो OMLX जैसे इस तरह के प्रोजेक्ट
00:09:16यह साबित कर रहे हैं कि हमें शक्तिशाली एजेंट चलाने के लिए जरूरी नहीं कि 128 गीगाबाइट RAM की आवश्यकता हो।
00:09:23हमें बस अपने MacBook पर पहले से मौजूद मेमोरी को प्रबंधित करने का एक बेहतर तरीका चाहिए।
00:09:29और हमने वास्तव में कुछ महीने पहले एक सर्वेक्षण किया था और पाया कि हमारे अधिकांश दर्शक Mac उपयोगकर्ता हैं।
00:09:34इसलिए मैं वास्तव में यह जानने के लिए उत्सुक हूँ। क्या आपने अपनी मशीनों पर OMLX आजमाया है? अब तक का
00:09:40अनुभव कैसा रहा? हमें नीचे कमेंट सेक्शन में बताएं। तो दोस्तों, यही था सब।
00:09:45संक्षेप में यह OMLX है। और दोस्तों, अगर आपको इस प्रकार के तकनीकी विवरण पसंद हैं, तो कृपया
00:09:50वीडियो के नीचे उस लाइक बटन को दबाकर मुझे बताएं। और हमारे चैनल को सब्सक्राइब करना न भूलें।
00:09:55मैं Better Stack से Andris हूँ और मैं आपसे अगले वीडियो में मिलूँगा।