Configurações de alocação de memória para rodar o oMLX sem travamentos no MacBook de 16GB
9 de mayo de 2026
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Os Macs com Apple Silicon compartilham a memória entre a CPU e a GPU. É por isso que executar um LLM local sem critério pode travar todo o sistema. Especialmente em modelos de 16GB, se o LLM ocupar todos os recursos disponíveis, o VS Code ou o navegador web começarão a apresentar lentidão. Para usar o oMLX não apenas como um executor, mas como uma ferramenta de desenvolvimento real, é necessário primeiro criar um "espaço de manobra" para o sistema operacional.
Você não deve permitir que o processo do LLM local use a RAM indefinidamente. É necessário um espaço livre mínimo para o kernel do macOS e para os servidores de linguagem da IDE. Ao executar o oMLX, você deve estabelecer um limite forçado usando a flag max-process-memory.
--max-process-memory 0.65. Para um modelo de 16GB, essa configuração reserva cerca de 5,6GB para o sistema. Se for um modelo de 8GB, reduza esse valor para 0.5 e utilize modelos de 3B ou inferiores.Usar o oMLX apenas no terminal é aproveitar apenas metade do seu potencial. Você deve conectá-lo ao Continue, uma extensão do VS Code, para integrá-lo ao seu fluxo real de codificação. A chave aqui é não sobrecarregar um único modelo pesado com tudo, mas sim separar os modelos de acordo com a finalidade.
config.json do Continue, defina o provider como openai e o apiBase como http://localhost:8000/v1. Mesmo que use um modelo de 7B a 9B para conversação, atribua um modelo leve como o qwen2.5-coder-1.5b-mlx especificamente para o item tabAutocompleteModel.O oMLX envia o cache KV para o SSD quando a memória está insuficiente. No entanto, se essa operação for repetida no volume raiz do sistema, a carga de I/O aumenta e, a longo prazo, não é bom para a vida útil do SSD. É prudente isolar fisicamente o espaço para tarefas de IA usando a função de contêiner APFS.
AI_Storage. Defina um tamanho de reserva de 20GB para garantir o espaço e, ao executar o oMLX, fixe o caminho com a opção --paged-ssd-cache-dir /Volumes/AI_Storage/cache.Ferramentas baseadas em MLX frequentemente apresentam conflitos de dependência do Python. Ao instalar diversas coisas com o pip, é comum corromper o ambiente de projetos existentes. Usar o uv, um gerenciador de pacotes escrito em Rust, resolve esse problema de forma limpa.
curl -LsSf [https://astral.sh/uv/install.sh](https://astral.sh/uv/install.sh) | sh, crie um ambiente independente com uv venv --python 3.12. Em seguida, digite uv pip install omlx[mcp] para instalar todas as bibliotecas necessárias de uma só vez.O oMLX possui maior eficiência energética e velocidade de geração do que o llama.cpp, mas se não for controlado, ele monopoliza os recursos do sistema. Apenas cedendo 40% da RAM ao SO e isolando o I/O do SSD, já é possível criar um ambiente de desenvolvimento de IA local suficientemente confortável. Mais importante do que os benchmarks numéricos, são os valores de configuração práticos que o seu MacBook consegue aguentar.