Configuración de asignación de memoria para ejecutar oMLX en un MacBook de 16GB sin congelamientos
9 мая 2026 г.
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
En los Mac con Apple Silicon, la CPU y la GPU comparten la memoria. Esta es la razón por la que el sistema completo se detiene si ejecutas un LLM local sin precaución. Especialmente en los modelos de 16GB, si el LLM ocupa todos los recursos disponibles, VS Code o el navegador web comenzarán a ir lentos. Para usar oMLX como una herramienta de desarrollo real y no solo como un simple ejecutor, primero hay que crear un espacio para que el sistema operativo pueda respirar.
No se debe permitir que el proceso del LLM local use la RAM de forma ilimitada. Se necesita un espacio libre mínimo para el kernel de macOS y los servidores de lenguaje del IDE. Al ejecutar oMLX, es necesario establecer un límite forzado mediante el flag max-process-memory.
--max-process-memory 0.65. Para un modelo de 16GB, esta configuración reserva aproximadamente 5.6GB para el sistema. Si tienes un modelo de 8GB, deberías bajar este valor a 0.5 y utilizar modelos de 3B o inferiores.Usar oMLX solo en la terminal es desaprovechar su potencial. Debes conectarlo a la extensión de VS Code llamada Continue para integrarlo en tu flujo de trabajo de programación real. La clave aquí es no dejarlo todo en manos de un único modelo pesado, sino separar los modelos según su uso.
config.json de Continue, define el provider como openai y el apiBase como http://localhost:8000/v1. Aunque uses modelos de 7B~9B para el chat interactivo, asigna un modelo ligero como qwen2.5-coder-1.5b-mlx en la sección tabAutocompleteModel.Cuando la memoria es insuficiente, oMLX envía el caché KV al SSD. Sin embargo, si esta operación se repite en el volumen raíz del sistema, la carga de I/O aumenta y, a largo plazo, no es bueno para la vida útil del SSD. Es más inteligente usar la función de contenedores APFS para aislar físicamente el espacio de trabajo de la IA.
AI_Storage. Reserva un tamaño de 20GB para asegurar el espacio y, al ejecutar oMLX, fija la ruta con la opción --paged-ssd-cache-dir /Volumes/AI_Storage/cache.Las herramientas basadas en MLX suelen tener conflictos de dependencias de Python. Instalar varias cosas con pip suele terminar estropeando el entorno de proyectos existentes. El gestor de paquetes uv, escrito en Rust, soluciona este problema de forma limpia.
curl -LsSf [https://astral.sh/uv/install.sh](https://astral.sh/uv/install.sh) | sh, y luego crea un entorno independiente con uv venv --python 3.12. Después, introduce uv pip install omlx[mcp] para instalar todas las librerías necesarias de una vez.oMLX es más eficiente energéticamente y más rápido en la generación que llama.cpp, pero si no se controla, acaparará los recursos del sistema. Con solo ceder el 40% de la RAM al sistema operativo e isolar el I/O del SSD, puedes crear un entorno de desarrollo de IA local bastante fluido. Los valores de configuración reales que tu MacBook puede soportar son mucho más importantes que los benchmarks teóricos.