Configuration de l'allocation mémoire pour faire tourner oMLX sans freeze sur un MacBook 16 Go
9 Mei 2026
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Les Mac Apple Silicon partagent la mémoire entre le CPU et le GPU. C'est la raison pour laquelle l'exécution irréfléchie de LLM locaux peut paralyser l'ensemble du système. Particulièrement sur les modèles 16 Go, si un LLM occupe toutes les ressources disponibles, VS Code ou votre navigateur web commencent à ramer. Pour utiliser oMLX non pas comme un simple exécuteur mais comme un véritable outil de développement, il faut d'abord donner de l'air au système d'exploitation.
Il ne faut pas laisser les processus LLM locaux utiliser la RAM indéfiniment. Un espace libre minimal est nécessaire pour le noyau macOS et les serveurs de langage de l'IDE. Lors de l'exécution de oMLX, vous devez imposer une limite supérieure en utilisant le flag max-process-memory.
--max-process-memory 0.65. Pour un modèle 16 Go, ce réglage réserve environ 5,6 Go pour le système. Si vous avez un modèle 8 Go, baissez cette valeur à 0.5 et utilisez des modèles de 3B ou moins.Utiliser oMLX uniquement dans le terminal, c'est se priver de la moitié de son potentiel. Il faut l'intégrer au flux de travail de codage réel en le connectant à Continue, une extension pour VS Code. L'astuce consiste ici à ne pas tout confier à un seul modèle lourd, mais à séparer les modèles selon l'usage.
config.json de Continue, définissez le provider sur openai et l' apiBase sur http://localhost:8000/v1. Même si vous utilisez un modèle 7B~9B pour la conversation, assignez un modèle léger comme qwen2.5-coder-1.5b-mlx à l'entrée tabAutocompleteModel.oMLX envoie le cache KV vers le SSD lorsque la mémoire est insuffisante. Cependant, si cette opération se répète sur le volume racine du système, la charge d'E/S augmente, ce qui n'est pas bon pour la longévité du SSD à long terme. Il est judicieux d'isoler physiquement l'espace de travail de l'IA en utilisant la fonction de conteneur APFS.
AI_Storage. Fixez une taille de réserve de 20 Go pour garantir l'espace, puis fixez le chemin lors de l'exécution de oMLX avec l'option --paged-ssd-cache-dir /Volumes/AI_Storage/cache.Les outils basés sur MLX souffrent souvent de conflits de dépendances Python. Installer tout et n'importe quoi avec pip risque de casser l'environnement de vos projets existants. L'utilisation de uv, un gestionnaire de paquets écrit en Rust, résout proprement ce problème.
curl -LsSf [https://astral.sh/uv/install.sh](https://astral.sh/uv/install.sh) | sh, puis créez un environnement indépendant avec uv venv --python 3.12. Ensuite, saisissez uv pip install omlx[mcp] pour installer toutes les bibliothèques nécessaires d'un coup.oMLX est plus économe en énergie et plus rapide en génération que llama.cpp, mais sans contrôle, il monopolise les ressources système. En cédant 40 % de la RAM à l'OS et en isolant les E/S du SSD, vous pouvez créer un environnement de développement IA local parfaitement fluide. Les valeurs de réglage réelles que votre MacBook peut supporter sont bien plus importantes que les benchmarks théoriques.