16GB MacBooks पर बिना फ्रीजिंग के oMLX चलाने के लिए मेमोरी एलोकेशन सेटिंग्स

एप्पल सिलिकॉन मैक में CPU और GPU मेमोरी साझा (share) करते हैं। यही कारण है कि स्थानीय (local) LLM को बिना सोचे-समझे चलाने से पूरा सिस्टम फ्रीज हो जाता है। विशेष रूप से 16GB मॉडल पर, जब LLM सभी उपलब्ध संसाधनों पर कब्जा कर लेता है, तो VS Code या वेब ब्राउज़र धीमे होने लगते हैं। oMLX को केवल एक रनर के रूप में नहीं बल्कि एक वास्तविक विकास उपकरण (development tool) के रूप में उपयोग करने के लिए, आपको सबसे पहले OS के लिए कुछ जगह बनानी होगी।

सिस्टम फ्रीजिंग को रोकने के लिए मेमोरी सीमा सेटिंग्स

आपको स्थानीय LLM प्रोसेस को अनिश्चित काल तक RAM का उपयोग करने की अनुमति नहीं देनी चाहिए। macOS कर्नेल और IDE भाषा सर्वर को उपयोग करने के लिए न्यूनतम खाली स्थान की आवश्यकता होती है। oMLX चलाते समय, आपको max-process-memory फ्लैग का उपयोग करके एक ऊपरी सीमा (upper limit) निर्धारित करनी चाहिए।

विधि: टर्मिनल में oMLX चलाते समय --max-process-memory 0.65 विकल्प जोड़ें। 16GB मॉडल के लिए, यह सेटिंग सिस्टम के लिए लगभग 5.6GB सुरक्षित रखती है। यदि आपके पास 8GB मॉडल है, तो इस मान को कम करके 0.5 कर दें और 3B या उससे छोटे मॉडल का उपयोग करें।
परिणाम: मॉडल इनफेरेंस के दौरान भी, VS Code की इनपुट लेटेंसी 200ms के भीतर बनी रहती है। यह एक्टिविटी मॉनिटर में मेमोरी प्रेशर ग्राफ को लाल होने और सिस्टम के लॉक होने से रोकता है।

Continue एक्सटेंशन का उपयोग करके API कनेक्शन

केवल टर्मिनल में oMLX का उपयोग करना इसकी क्षमता का आधा उपयोग करना है। इसे VS Code एक्सटेंशन, Continue से जोड़कर अपने वास्तविक कोडिंग वर्कफ्लो में शामिल करना चाहिए। यहाँ मुख्य बात यह है कि एक ही भारी मॉडल पर सब कुछ न छोड़ें, बल्कि उपयोग के आधार पर मॉडल को अलग करें।

विधि: Continue के config.json में, provider को openai के रूप में और apiBase को http://localhost:8000/v1 के रूप में सेट करें। संवादात्मक कार्यों (chat) के लिए 7B~9B मॉडल का उपयोग करें, लेकिन tabAutocompleteModel आइटम के लिए qwen2.5-coder-1.5b-mlx जैसे हल्के मॉडल को अलग से असाइन करें।
परिणाम: आप प्रति माह 20 डॉलर की सदस्यता शुल्क बचा सकते हैं और 10ms स्तर के तेज़ कोड ऑटो-कम्प्लीशन का अनुभव कर सकते हैं।

SSD जीवनकाल के लिए समर्पित वॉल्यूम आवंटन

oMLX मेमोरी कम होने पर KV कैश को SSD पर भेजता है। हालांकि, यदि यह कार्य सिस्टम रूट वॉल्यूम पर बार-बार किया जाता है, तो I/O लोड बढ़ जाता है और यह लंबे समय में SSD के जीवनकाल के लिए अच्छा नहीं है। AI कार्यों के लिए स्थान को भौतिक रूप से अलग करने के लिए APFS कंटेनर सुविधा का उपयोग करना समझदारी है।

विधि: डिस्क यूटिलिटी में AI_Storage नाम से एक नया APFS वॉल्यूम जोड़ें। क्षमता सुरक्षित करने के लिए रिजर्व साइज 20GB निर्धारित करें, और फिर oMLX चलाते समय --paged-ssd-cache-dir /Volumes/AI_Storage/cache विकल्प के साथ पाथ फिक्स करें।
परिणाम: बड़े पैमाने पर प्रोजेक्ट विश्लेषण के दौरान होने वाली I/O बाधाएं (bottlenecks) कम हो जाती हैं। यह सिस्टम ड्राइव के विखंडन (fragmentation) को रोककर मैकबुक की समग्र प्रतिक्रिया गति की रक्षा करता है।

uv का उपयोग करके स्वतंत्र निष्पादन वातावरण बनाना

MLX-आधारित टूल्स में अक्सर पायथन डिपेंडेंसी विरोध (conflicts) होते हैं। यदि आप pip के साथ विभिन्न चीजें इंस्टॉल करते हैं, तो मौजूदा प्रोजेक्ट वातावरण खराब हो सकता है। रस्ट (Rust) के साथ बने पैकेज मैनेजर uv का उपयोग करने से यह समस्या आसानी से हल हो जाती है।

विधि: curl -LsSf [https://astral.sh/uv/install.sh](https://astral.sh/uv/install.sh) | sh के साथ uv इंस्टॉल करें, और फिर uv venv --python 3.12 के साथ एक स्वतंत्र वातावरण बनाएं। उसके बाद, आवश्यक लाइब्रेरीज़ को एक बार में इंस्टॉल करने के लिए uv pip install omlx[mcp] दर्ज करें।
परिणाम: वातावरण सेटअप करने में लगने वाला समय घटकर लगभग 1 मिनट रह जाता है। बाद में यदि आप मॉडल को अपडेट करते हैं या पैकेज उलझ जाते हैं, तो प्रबंधन आसान होता है क्योंकि आप बस वर्चुअल एनवायरनमेंट फ़ोल्डर को हटा सकते हैं।

oMLX llama.cpp की तुलना में अधिक ऊर्जा-कुशल और तेज़ है, लेकिन यदि इसे नियंत्रित नहीं किया गया, तो यह सिस्टम संसाधनों पर एकाधिकार कर लेगा। OS के लिए 40% RAM छोड़ना और SSD I/O को अलग करना ही एक सुखद स्थानीय AI विकास वातावरण बनाने के लिए पर्याप्त है। संख्यात्मक बेंचमार्क की तुलना में, आपके मैकबुक के लिए काम करने वाली वास्तविक सेटिंग्स कहीं अधिक महत्वपूर्ण हैं।

16GB MacBooks पर बिना फ्रीजिंग के oMLX चलाने के लिए मेमोरी एलोकेशन सेटिंग्स

सिस्टम फ्रीजिंग को रोकने के लिए मेमोरी सीमा सेटिंग्स

विधि: टर्मिनल में oMLX चलाते समय --max-process-memory 0.65 विकल्प जोड़ें। 16GB मॉडल के लिए, यह सेटिंग सिस्टम के लिए लगभग 5.6GB सुरक्षित रखती है। यदि आपके पास 8GB मॉडल है, तो इस मान को कम करके 0.5 कर दें और 3B या उससे छोटे मॉडल का उपयोग करें।

परिणाम: मॉडल इनफेरेंस के दौरान भी, VS Code की इनपुट लेटेंसी 200ms के भीतर बनी रहती है। यह एक्टिविटी मॉनिटर में मेमोरी प्रेशर ग्राफ को लाल होने और सिस्टम के लॉक होने से रोकता है।

Continue एक्सटेंशन का उपयोग करके API कनेक्शन

विधि: Continue के config.json में, provider को openai के रूप में और apiBase को http://localhost:8000/v1 के रूप में सेट करें। संवादात्मक कार्यों (chat) के लिए 7B~9B मॉडल का उपयोग करें, लेकिन tabAutocompleteModel आइटम के लिए qwen2.5-coder-1.5b-mlx जैसे हल्के मॉडल को अलग से असाइन करें।

परिणाम: आप प्रति माह 20 डॉलर की सदस्यता शुल्क बचा सकते हैं और 10ms स्तर के तेज़ कोड ऑटो-कम्प्लीशन का अनुभव कर सकते हैं।

SSD जीवनकाल के लिए समर्पित वॉल्यूम आवंटन

विधि: डिस्क यूटिलिटी में AI_Storage नाम से एक नया APFS वॉल्यूम जोड़ें। क्षमता सुरक्षित करने के लिए रिजर्व साइज 20GB निर्धारित करें, और फिर oMLX चलाते समय --paged-ssd-cache-dir /Volumes/AI_Storage/cache विकल्प के साथ पाथ फिक्स करें।

परिणाम: बड़े पैमाने पर प्रोजेक्ट विश्लेषण के दौरान होने वाली I/O बाधाएं (bottlenecks) कम हो जाती हैं। यह सिस्टम ड्राइव के विखंडन (fragmentation) को रोककर मैकबुक की समग्र प्रतिक्रिया गति की रक्षा करता है।

uv का उपयोग करके स्वतंत्र निष्पादन वातावरण बनाना

विधि: curl -LsSf [https://astral.sh/uv/install.sh](https://astral.sh/uv/install.sh) | sh के साथ uv इंस्टॉल करें, और फिर uv venv --python 3.12 के साथ एक स्वतंत्र वातावरण बनाएं। उसके बाद, आवश्यक लाइब्रेरीज़ को एक बार में इंस्टॉल करने के लिए uv pip install omlx[mcp] दर्ज करें।

परिणाम: वातावरण सेटअप करने में लगने वाला समय घटकर लगभग 1 मिनट रह जाता है। बाद में यदि आप मॉडल को अपडेट करते हैं या पैकेज उलझ जाते हैं, तो प्रबंधन आसान होता है क्योंकि आप बस वर्चुअल एनवायरनमेंट फ़ोल्डर को हटा सकते हैं।

16GB MacBooks पर बिना फ्रीजिंग के oMLX चलाने के लिए मेमोरी एलोकेशन सेटिंग्स

Related Video

हर Mac यूजर को इस नए AI मॉडल रनर (oMLX) की ज़रूरत क्यों है

16GB MacBooks पर बिना फ्रीजिंग के oMLX चलाने के लिए मेमोरी एलोकेशन सेटिंग्स

सिस्टम फ्रीजिंग को रोकने के लिए मेमोरी सीमा सेटिंग्स

Continue एक्सटेंशन का उपयोग करके API कनेक्शन

SSD जीवनकाल के लिए समर्पित वॉल्यूम आवंटन

uv का उपयोग करके स्वतंत्र निष्पादन वातावरण बनाना

Comments (0)

16GB MacBooks पर बिना फ्रीजिंग के oMLX चलाने के लिए मेमोरी एलोकेशन सेटिंग्स

सिस्टम फ्रीजिंग को रोकने के लिए मेमोरी सीमा सेटिंग्स

Continue एक्सटेंशन का उपयोग करके API कनेक्शन

SSD जीवनकाल के लिए समर्पित वॉल्यूम आवंटन

uv का उपयोग करके स्वतंत्र निष्पादन वातावरण बनाना