Pengaturan Alokasi Memori untuk Menjalankan oMLX di MacBook 16GB Tanpa Freezing
٩ مايو ٢٠٢٦
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Apple Silicon Mac berbagi memori antara CPU dan GPU. Inilah alasan mengapa menjalankan LLM lokal secara sembarangan dapat menyebabkan seluruh sistem terhenti. Terutama pada model 16GB, jika LLM mengambil semua sumber daya yang tersedia, VS Code atau peramban web akan mulai terasa lambat. Untuk menggunakan oMLX sebagai alat pengembangan nyata, bukan sekadar peluncur biasa, Anda harus memberi ruang bagi OS untuk bernapas.
Anda tidak boleh membiarkan proses LLM lokal menggunakan RAM tanpa batas. Diperlukan ruang kosong minimal untuk kernel macOS dan server bahasa IDE. Saat menjalankan oMLX, Anda harus membatasi ambang batas secara paksa menggunakan flag max-process-memory.
--max-process-memory 0.65 saat menjalankan oMLX dari terminal. Untuk model 16GB, pengaturan ini menyisakan sekitar 5.6GB untuk sistem. Jika Anda menggunakan model 8GB, turunkan nilai ini menjadi 0.5 dan gunakan model di bawah 3B.Menggunakan oMLX hanya di terminal adalah pemanfaatan yang setengah-setengah. Anda harus menghubungkannya ke Continue, sebuah ekstensi VS Code, untuk memasukkannya ke dalam alur kerja pengodean yang sebenarnya. Kuncinya adalah tidak membebankan semuanya pada satu model berat, melainkan memisahkan model sesuai kegunaannya.
config.json Continue, tentukan provider sebagai openai dan apiBase sebagai http://localhost:8000/v1. Meskipun Anda menggunakan model 7B~9B untuk percakapan interaktif, alokasikan model ringan terpisah seperti qwen2.5-coder-1.5b-mlx untuk item tabAutocompleteModel.oMLX akan mengirimkan cache KV ke SSD jika memori tidak mencukupi. Namun, jika proses ini berulang pada volume root sistem, beban I/O akan meningkat dan tidak baik untuk masa pakai SSD dalam jangka panjang. Adalah langkah yang bijak untuk memisahkan ruang kerja AI secara fisik menggunakan fitur wadah (container) APFS.
AI_Storage di Disk Utility. Tetapkan ukuran cadangan (reserve size) sebesar 20GB untuk mengamankan kapasitas, lalu tetapkan jalur tersebut dengan opsi --paged-ssd-cache-dir /Volumes/AI_Storage/cache saat menjalankan oMLX.Alat berbasis MLX sering kali mengalami konflik dependensi Python. Menginstal berbagai hal dengan pip sering kali merusak lingkungan proyek yang sudah ada. Menggunakan manajer paket uv yang dibuat dengan Rust dapat menyelesaikan masalah ini dengan rapi.
curl -LsSf [https://astral.sh/uv/install.sh](https://astral.sh/uv/install.sh) | sh, lalu buat lingkungan independen dengan uv venv --python 3.12. Setelah itu, instal pustaka yang diperlukan sekaligus dengan mengetik uv pip install omlx[mcp].oMLX memiliki efisiensi daya yang lebih tinggi dan kecepatan pembuatan yang lebih cepat daripada llama.cpp, tetapi akan mendominasi sumber daya sistem jika tidak dikendalikan. Hanya dengan memberikan 40% RAM kepada OS dan memisahkan I/O SSD, Anda sudah bisa membuat lingkungan pengembangan AI lokal yang cukup nyaman. Nilai pengaturan praktis yang bisa ditahan oleh MacBook Anda jauh lebih penting daripada angka benchmark di atas kertas.