16GB MacBooks पर बिना फ्रीजिंग के oMLX चलाने के लिए मेमोरी एलोकेशन सेटिंग्स
9 мая 2026 г.
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
एप्पल सिलिकॉन मैक में CPU और GPU मेमोरी साझा (share) करते हैं। यही कारण है कि स्थानीय (local) LLM को बिना सोचे-समझे चलाने से पूरा सिस्टम फ्रीज हो जाता है। विशेष रूप से 16GB मॉडल पर, जब LLM सभी उपलब्ध संसाधनों पर कब्जा कर लेता है, तो VS Code या वेब ब्राउज़र धीमे होने लगते हैं। oMLX को केवल एक रनर के रूप में नहीं बल्कि एक वास्तविक विकास उपकरण (development tool) के रूप में उपयोग करने के लिए, आपको सबसे पहले OS के लिए कुछ जगह बनानी होगी।
आपको स्थानीय LLM प्रोसेस को अनिश्चित काल तक RAM का उपयोग करने की अनुमति नहीं देनी चाहिए। macOS कर्नेल और IDE भाषा सर्वर को उपयोग करने के लिए न्यूनतम खाली स्थान की आवश्यकता होती है। oMLX चलाते समय, आपको max-process-memory फ्लैग का उपयोग करके एक ऊपरी सीमा (upper limit) निर्धारित करनी चाहिए।
--max-process-memory 0.65 विकल्प जोड़ें। 16GB मॉडल के लिए, यह सेटिंग सिस्टम के लिए लगभग 5.6GB सुरक्षित रखती है। यदि आपके पास 8GB मॉडल है, तो इस मान को कम करके 0.5 कर दें और 3B या उससे छोटे मॉडल का उपयोग करें।केवल टर्मिनल में oMLX का उपयोग करना इसकी क्षमता का आधा उपयोग करना है। इसे VS Code एक्सटेंशन, Continue से जोड़कर अपने वास्तविक कोडिंग वर्कफ्लो में शामिल करना चाहिए। यहाँ मुख्य बात यह है कि एक ही भारी मॉडल पर सब कुछ न छोड़ें, बल्कि उपयोग के आधार पर मॉडल को अलग करें।
config.json में, provider को openai के रूप में और apiBase को http://localhost:8000/v1 के रूप में सेट करें। संवादात्मक कार्यों (chat) के लिए 7B~9B मॉडल का उपयोग करें, लेकिन tabAutocompleteModel आइटम के लिए qwen2.5-coder-1.5b-mlx जैसे हल्के मॉडल को अलग से असाइन करें।oMLX मेमोरी कम होने पर KV कैश को SSD पर भेजता है। हालांकि, यदि यह कार्य सिस्टम रूट वॉल्यूम पर बार-बार किया जाता है, तो I/O लोड बढ़ जाता है और यह लंबे समय में SSD के जीवनकाल के लिए अच्छा नहीं है। AI कार्यों के लिए स्थान को भौतिक रूप से अलग करने के लिए APFS कंटेनर सुविधा का उपयोग करना समझदारी है।
AI_Storage नाम से एक नया APFS वॉल्यूम जोड़ें। क्षमता सुरक्षित करने के लिए रिजर्व साइज 20GB निर्धारित करें, और फिर oMLX चलाते समय --paged-ssd-cache-dir /Volumes/AI_Storage/cache विकल्प के साथ पाथ फिक्स करें।MLX-आधारित टूल्स में अक्सर पायथन डिपेंडेंसी विरोध (conflicts) होते हैं। यदि आप pip के साथ विभिन्न चीजें इंस्टॉल करते हैं, तो मौजूदा प्रोजेक्ट वातावरण खराब हो सकता है। रस्ट (Rust) के साथ बने पैकेज मैनेजर uv का उपयोग करने से यह समस्या आसानी से हल हो जाती है।
curl -LsSf [https://astral.sh/uv/install.sh](https://astral.sh/uv/install.sh) | sh के साथ uv इंस्टॉल करें, और फिर uv venv --python 3.12 के साथ एक स्वतंत्र वातावरण बनाएं। उसके बाद, आवश्यक लाइब्रेरीज़ को एक बार में इंस्टॉल करने के लिए uv pip install omlx[mcp] दर्ज करें।oMLX llama.cpp की तुलना में अधिक ऊर्जा-कुशल और तेज़ है, लेकिन यदि इसे नियंत्रित नहीं किया गया, तो यह सिस्टम संसाधनों पर एकाधिकार कर लेगा। OS के लिए 40% RAM छोड़ना और SSD I/O को अलग करना ही एक सुखद स्थानीय AI विकास वातावरण बनाने के लिए पर्याप्त है। संख्यात्मक बेंचमार्क की तुलना में, आपके मैकबुक के लिए काम करने वाली वास्तविक सेटिंग्स कहीं अधिक महत्वपूर्ण हैं।