Pourquoi chaque utilisateur Mac a besoin de ce nouvel exécuteur de modèles IA (oMLX)
BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology
Transcript
00:00:00Voici OMLX. C'est un projet passionnant, qui est essentiellement un moteur
00:00:06d'inférence spécialisé conçu pour tirer le maximum de performance de votre puce Apple Silicon.
00:00:11Si vous êtes un utilisateur Mac, vous allez adorer. OMLX tente essentiellement
00:00:16de résoudre le plus gros goulot d'étranglement du matériel local : la taxe mémoire.
00:00:21Dans cette vidéo, nous allons examiner OMLX, voir comment il fonctionne et faire un test comparatif
00:00:27avec l'un des poids lourds, LM Studio, pour voir si cet outil est vraiment l'avenir
00:00:33de l'IA locale sur Mac. Ça va être très intéressant, alors plongeons dedans.
00:00:39Alors, qu'est-ce qu'OMLX exactement ? À la base, c'est un runtime construit spécifiquement sur
00:00:49le framework MLX d'Apple. Contrairement aux outils généralistes qui supportent tous les GPU,
00:00:55MLX est conçu par l'équipe Apple Silicon pour exploiter l'architecture de mémoire unifiée
00:01:02qui alimente spécifiquement les Mac. Dans un PC traditionnel, le CPU et le GPU ont des pools de mémoire séparés,
00:01:09ce qui signifie que les données comme les poids du modèle doivent être copiées via le bus PCI.
00:01:16Mais MLX élimine totalement cette copie. Comme le CPU et le GPU partagent la même
00:01:22mémoire physique, MLX utilise des tableaux sans copie. Quand le GPU finit un calcul, le CPU peut
00:01:29lire les résultats instantanément sans déplacer un seul octet. Il utilise aussi le calcul paresseux,
00:01:36ce qui signifie qu'il n'exécute une opération mathématique qu'au tout dernier moment,
00:01:41permettant d'optimiser le graphe de calcul à la volée. Mais là où OMLX diffère de
00:01:47votre configuration LM Studio standard, c'est dans la gestion du cache KV. Dans une session LLM typique,
00:01:54chaque mot de l'historique doit être stocké dans votre RAM coûteuse. OMLX introduit
00:02:01un système à deux niveaux. Il garde le contexte immédiat en mémoire unifiée pour la vitesse,
00:02:07mais fige les parties plus anciennes de la conversation — comme les prompts système —
00:02:12et les déplace sur votre SSD. Et en comparant cela à LM Studio, la différence est immédiate.
00:02:19Certes, LM Studio est stable et compatible, mais il veut conserver tout l'historique
00:02:23en mémoire active. OMLX est plus proche d'un système d'exploitation moderne. Il sait
00:02:30quelles données doivent être en mémoire vive et lesquelles peuvent être paginées sur le disque.
00:02:36Lançons OMLX pour l'essayer. L'interface est assez intuitive. Dès le départ,
00:02:41on a cette fenêtre pour spécifier l'emplacement de notre serveur et le lancer immédiatement.
00:02:47Ensuite, on nous demande de fournir une clé API. Faisons-le. Et enfin, nous arrivons
00:02:53sur ce tableau de bord, qui est le point d'entrée principal de votre serveur OMLX.
00:03:00À partir de là, j'ai téléchargé le modèle Qwen 3.6 de 35 milliards de paramètres en 4 bits.
00:03:07J'ai aussi préparé ce dépôt vide avec un fichier agents.md où je vais demander au modèle
00:03:13de créer une application web simple pour rechercher des films, les ajouter à une liste et les noter
00:03:19via l'API Movie DB. Rien de trop complexe, juste un test de codage simple pour voir
00:03:24ses performances sur une tâche réelle. Sur la page du tableau de bord,
00:03:31on trouve des extraits de code prêts à l'emploi pour différents agents IA que l'on peut lancer.
00:03:37Pour cette démo, j'utiliserai le CLI Codex pour mener ces tests.
00:03:42Vous vous demandez peut-être pourquoi je n'utilise pas le CLI officiel de Claude Code.
00:03:47La réalité est que sur un MacBook M2, chaque jeton compte. Si vous regardez les stats
00:03:54de contexte de Claude au démarrage d'un projet vide, Claude Code consomme environ 16,2k jetons
00:04:02juste pour ses propres prompts système et outils. Dans une fenêtre de 32k,
00:04:09cela ne nous laisse que 16k jetons pour le projet, ce qui est infime pour une application complète.
00:04:14En revanche, j'ai trouvé que Codex est beaucoup plus léger. Il ne surcharge pas le poids de base,
00:04:20ce qui nous donne une marge plus généreuse avant d'atteindre le plafond du contexte.
00:04:26Très bien, je lance maintenant Codex avec cette commande simple fournie ici.
00:04:31Ensuite, je lui donne un prompt de départ expliquant notre tâche et je le laisse travailler.
00:04:36Pendant qu'il génère sur la droite, vous pouvez voir en temps réel les performances de la session,
00:04:42combien de jetons sont produits, combien sont mis en cache,
00:04:46et le pourcentage d'efficacité du cache. Il est aussi utile de voir la vitesse de traitement
00:04:51moyenne des jetons par seconde. Au total, il a fallu environ 20 minutes pour que ce modèle
00:04:57Qwen 3.6 de 35 milliards de paramètres sur mon MacBook Pro M2 vienne à bout de cette tâche.
00:05:04C'est normal car c'est un travail très lourd pour ce modèle. À deux ou trois reprises,
00:05:10j'ai eu une erreur 400 parce que le prompt dépassait la limite de contexte de 30k sur mon
00:05:17MacBook M2. Avec n'importe quel autre outil, cela aurait tué le projet. Normalement, si je lançais
00:05:24la commande /clear, cela effacerait la mémoire à court terme, provoquant des hallucinations
00:05:29car le modèle oublierait le code écrit. C'est là que le cache SSD d'OMLX m'a bluffé.
00:05:37Même après avoir vidé la session dans Codex, l'état de calcul de mon projet
00:05:42était toujours sur mon SSD. Dès que j'ai donné un nouveau prompt pour continuer,
00:05:48OMLX a reconnu le préfixe et a instantanément réhydraté le modèle depuis le disque.
00:05:56Au lieu d'halluciner ou de repartir de zéro, il a repris exactement là où il s'était arrêté.
00:06:02L'efficacité du cache aide vraiment ici. À la fin, on peut voir que Qwen 3.6 aidé par
00:06:08OMLX a produit 1,78 million de jetons pour cette tâche, dont environ 1,59 million
00:06:16étaient mis en cache. On arrive à une efficacité de cache de 89 %, ce qui est massif.
00:06:22Quant à l'application, elle semble correcte. On peut chercher des films, les ajouter à une liste
00:06:28et les noter. Mais si on rafraîchit la page, la liste se réinitialise. J'imagine qu'il n'a pas
00:06:33implémenté correctement la base de données, mais c'est quand même un bel effort. Tout cela
00:06:40est impressionnant, mais je voulais voir comment cela se compare à un runner de poids lourd
00:06:46comme LM Studio. J'ai donc décidé de lancer la même tâche avec le même modèle Qwen 3.6,
00:06:52les mêmes contraintes de contexte, et de comparer. Honnêtement, je ne m'y attendais pas,
00:06:58mais j'ai eu de moins bonnes performances sur LM Studio. La tâche a pris
00:07:04environ 35 minutes pour se terminer. C'est déjà 15 minutes de plus qu'avec OMLX.
00:07:11J'ai aussi remarqué que pendant l'exécution, LM Studio utilisait toute la puissance du Mac.
00:07:17À tel point que je ne pouvais même pas regarder une vidéo sur un second écran à cause du manque de RAM.
00:07:23Je n'ai pas eu ce problème avec OMLX. En le faisant tourner, je pouvais facilement
00:07:30naviguer sur le web, regarder des vidéos ou faire autre chose pendant que Codex travaillait.
00:07:35C'était presque impossible sur LM Studio. Regardez ces statistiques. Ce qui m'a
00:07:41encore plus choqué, c'est que la vitesse moyenne était de 16 jetons par seconde sur LM Studio,
00:07:47contre environ 47 sur OMLX. Cela explique pourquoi la tâche a duré 15 minutes de plus.
00:07:55Cependant, il faut rendre à César ce qui est à César : LM Studio n'a généré aucune erreur 400
00:08:01due au contexte. La gestion du contexte y est très stable et fonctionne parfaitement.
00:08:08Si l'on regarde le résultat final, il était très similaire. Pas d'animations sophistiquées,
00:08:13mais honnêtement, c'est comme comparer la même sortie avec des valeurs de graine différentes
00:08:18pour une même tâche sur un même modèle. Je ne vais donc pas tirer de conclusions hâtives.
00:08:25C'est le même modèle Qwen 3.6. Vous pouvez juger le résultat par vous-mêmes. Alors, quel est
00:08:33le verdict final ? Je dois dire que je suis très impressionné par les performances d'OMLX.
00:08:39Si vous avez un MacBook avec peu de RAM et que vous voulez utiliser votre ordi pendant qu'un agent
00:08:45tourne en arrière-plan, OMLX est l'outil idéal. Il offre une extension de RAM efficace
00:08:52en utilisant votre SSD haute vitesse combiné au framework MLX pour plus de fluidité.
00:08:58Certes, l'erreur 400 occasionnelle demande d'être plus impliqué et de vider le cache
00:09:05de temps en temps. Mais c'est le prix à payer pour une vitesse de génération trois fois plus rapide.
00:09:10Je pense que le jeu en vaut la chandelle. Des projets comme OMLX prouvent
00:09:16qu'on n'a pas forcément besoin de 128 Go de RAM pour faire tourner des agents puissants.
00:09:23Il faut juste une façon plus intelligente de gérer la mémoire que nous avons déjà.
00:09:29Nous avons fait un sondage il y a quelques mois et la plupart d'entre vous sont sur Mac.
00:09:34Je suis donc curieux de savoir : avez-vous essayé OMLX sur vos machines ? Quelle a été
00:09:40votre expérience jusqu'ici ? Dites-le-nous dans les commentaires. Voilà donc
00:09:45OMLX en résumé. Et si vous aimez ce genre d'analyses techniques, faites-le-moi
00:09:50savoir en cliquant sur le bouton j'aime sous la vidéo. N'oubliez pas non plus de vous abonner.
00:09:55C'était Andris de Better Stack, on se retrouve dans les prochaines vidéos.