Por qué todos los usuarios de Mac necesitan este nuevo ejecutor de modelos de IA (oMLX)
BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology
Transcript
00:00:00Esto es OMLX. Es un proyecto muy emocionante, que es básicamente un motor de
00:00:06inferencia especializado diseñado para exprimir hasta la última gota de rendimiento de tu Apple Silicon.
00:00:11Si eres usuario de Mac, te va a encantar esto. OMLX básicamente intenta
00:00:16resolver el mayor cuello de botella que tenemos en el hardware local: el impuesto de la memoria.
00:00:21En este video veremos OMLX, cómo funciona, haremos una prueba y lo compararemos
00:00:27con uno de los pesos pesados, LM Studio, para ver si esta herramienta puede ser realmente el futuro
00:00:33de la ejecución de modelos de IA locales en Mac. Será muy divertido, así que vamos a ello.
00:00:39¿Qué es exactamente OMLX? En esencia, es un tiempo de ejecución construido sobre
00:00:49el framework MLX de Apple y, a diferencia de las herramientas generalistas que soportan cualquier GPU,
00:00:55MLX fue creado por el equipo de Apple Silicon para aprovechar la arquitectura de memoria unificada
00:01:02que potencia específicamente a los Mac. En un PC tradicional, la CPU y la GPU tienen memorias separadas,
00:01:09por lo que datos como los pesos del modelo deben copiarse constantemente a través del bus PCI.
00:01:16Pero MLX elimina esa copia por completo. Como la CPU y la GPU comparten la misma memoria
00:01:22física, MLX usa arreglos de “copia cero”. Cuando la GPU termina un cálculo, la CPU puede leer los
00:01:29resultados al instante sin mover un solo byte. También utiliza computación diferida, es decir, no
00:01:36ejecuta una operación matemática hasta el último segundo cuando el resultado es necesario,
00:01:41lo que le permite optimizar todo el grafo de cálculo sobre la marcha. Pero donde OMLX se diferencia
00:01:47de tu configuración estándar de LM Studio es en cómo gestiona la caché KV. En una sesión típica de LLM,
00:01:54cada palabra del historial de conversación debe recordarse en tu costosa memoria RAM. Pero OMLX
00:02:01introduce un sistema de dos niveles. Mantiene el contexto inmediato en la memoria unificada para
00:02:07mayor velocidad, pero congela las partes antiguas, esos enormes prompts de sistema y herramientas,
00:02:12y los traslada al SSD. Y cuando comparas esto con LM Studio, la diferencia es inmediata. Y sí,
00:02:19es increíblemente estable y compatible, pero el problema es que quiere mantener todo el
00:02:23historial de memoria en estado activo. OMLX es más como un sistema operativo moderno. Es listo
00:02:30para saber qué datos necesitas ahora y cuáles pueden pasar al disco. Iniciemos OMLX
00:02:36y probémoslo. La interfaz es bastante intuitiva. De entrada, nos aparece esta
00:02:41ventana donde podemos especificar la ubicación deseada para nuestro servidor e iniciarlo. Después
00:02:47de eso, se nos pide una clave de API. Hagámoslo. Y finalmente, llegamos a este
00:02:53panel, que es el punto de entrada principal para tu servidor OMLX. Desde aquí, ya
00:03:00descargué el modelo Qwen 3.6 de 35 mil millones de parámetros y 4 bits para nuestras pruebas.
00:03:07También configuré este repositorio vacío con un archivo agents.md donde pediré al modelo
00:03:13que cree una web simple para buscar películas, añadirlas a favoritos y puntuarlas usando la
00:03:19API de Movie DB. Nada demasiado complejo, solo una prueba de código sencilla para ver cómo
00:03:24podría rendir en una tarea de programación real. En la página del panel de control,
00:03:31tenemos esta sección con fragmentos de código listos para usar en diferentes agentes de IA.
00:03:37Para esta demostración, usaré el CLI de Codex para realizar estas pruebas.
00:03:42Tal vez te preguntes por qué no uso el CLI oficial de Claude Code. La realidad es
00:03:47que en un MacBook M2 cada token cuenta. Y si miras las estadísticas de contexto de Claude
00:03:54desde el inicio en un proyecto vacío, Claude Code consume unos 16.2K tokens solo por sus
00:04:02propios prompts de sistema y herramientas. En una ventana de 32K, esto nos deja solo 16K para
00:04:09el proyecto real, lo cual es poquísimo al construir una aplicación completa. Por otro lado,
00:04:14descubrí que Codex es mucho más ligero. No infla el peso base de la conversación, lo que
00:04:20nos da más margen para escribir código antes de alcanzar el límite de contexto.
00:04:26Muy bien, voy a lanzar Codex con este comando sencillo que aparece aquí.
00:04:31Luego le daré un prompt inicial explicando nuestra tarea y lo pondré en marcha.
00:04:36Mientras trabaja aquí a la derecha, puedes ver en tiempo real el rendimiento de la sesión,
00:04:42cuántos tokens se producen, cuántos se están guardando en caché
00:04:46y el porcentaje de eficiencia de la caché. También es útil ver cuántos tokens se procesan
00:04:51por segundo en promedio. En total, tardó unos 20 minutos para que este modelo
00:04:57Qwen 3.6 de 35B parámetros en mi MacBook Pro M2 terminara la tarea. Esto era
00:05:04de esperar, ya que es un trabajo muy pesado para este modelo. Hubo dos o tres
00:05:10ocasiones en las que recibí un error 400 porque el prompt superó el límite de 30K de contexto
00:05:17en mi M2. En cualquier otra herramienta, eso arruinaría el proyecto. Normalmente, si usara
00:05:24el comando “clear”, se borraría la memoria a corto plazo, lo que causaría alucinaciones porque
00:05:29la IA olvida el código que acaba de escribir. Pero aquí es donde el caché persistente en SSD de OMLX me sorprendió.
00:05:37Aunque limpié la sesión en Codex, el estado computacional real de mi proyecto seguía
00:05:42estando en mi SSD. En el momento en que le di a Codex un nuevo prompt para continuar,
00:05:48OMLX reconoció el prefijo e hidrató instantáneamente el cerebro del modelo desde el disco. En lugar
00:05:56de alucinar o empezar de cero, siguió justo donde se quedó. La eficiencia de la caché
00:06:02ayuda mucho en estos casos. Al final de la tarea, vemos que Qwen 3.6 con la ayuda de
00:06:08OMLX logró terminar procesando 1.78 millones de tokens, y aproximadamente 1.59 millones
00:06:16estaban en caché. Tuvimos una eficiencia del 89%, lo cual es enorme. En cuanto a
00:06:22la aplicación, se ve bastante bien. Podemos buscar películas, añadirlas a favoritos
00:06:28y puntuarlas. Pero al refrescar la página, la lista se reinicia. Supongo que no
00:06:33implementó bien la base de datos, pero ha sido un buen esfuerzo. Todo esto parece
00:06:40impresionante, pero quería ver cómo se compara este rendimiento con un ejecutor
00:06:46de peso pesado como LM Studio. Así que decidí hacer lo mismo con el mismo modelo Qwen 3.6,
00:06:52la misma ventana de contexto y restricciones para ver qué tal. Honestamente, no me lo
00:06:58esperaba, pero obtuve un rendimiento peor en LM Studio. La tarea en sí
00:07:04tardó unos 35 minutos en terminar. Eso son 15 minutos más que en OMLX. También noté
00:07:11que mientras trabajaba, LM Studio consumía hasta el último recurso de mi MacBook. Tanto
00:07:17que ni siquiera podía ver un video en el segundo monitor por la falta de RAM.
00:07:23No tuve ese problema con OMLX porque mientras lo ejecutaba, podía navegar
00:07:30por la web, ver videos o hacer cualquier otra cosa mientras Codex seguía de fondo.
00:07:35Eso era casi imposible en LM Studio. Y mira estas estadísticas. Lo que más me impactó
00:07:41fue que la velocidad media en LM Studio fue de 16 tokens por segundo. En
00:07:47OMLX fue de unos 47. Eso explica por qué tardó 15 minutos más en terminar.
00:07:55Sin embargo, hay que reconocer lo que está bien. LM Studio no dio ni un solo error 400
00:08:01por límites de contexto como OMLX. La gestión de contexto en LM Studio es muy estable
00:08:08y funciona a la perfección. Si miramos el resultado final, fue muy similar. No hubo
00:08:13animaciones sofisticadas, pero parece que comparamos el mismo resultado con valores
00:08:18de semilla distintos para la misma tarea y modelo. No voy a sacar conclusiones precipitadas.
00:08:25Es el mismo modelo Qwen 3.6. Pueden juzgar el resultado de Qwen por ustedes mismos. ¿Cuál
00:08:33es el veredicto final? Debo decir que estoy muy, muy impresionado con el rendimiento de OMLX.
00:08:39Si tienes un MacBook con RAM limitada y quieres usar tu computadora mientras ejecutas una IA
00:08:45de fondo, OMLX es la herramienta perfecta. Te da una extensión de RAM virtual
00:08:52usando tu SSD de alta velocidad con el framework MLX que hace que todo vaya más fluido
00:08:58en Apple Silicon. Pero sí, el error 400 ocasional significa que tendrás que estar más
00:09:05pendiente y quizás usar el comando “clear” de vez en cuando. Pero es el precio a pagar
00:09:10por una generación tres veces más rápida. Creo que vale mucho la pena. Proyectos
00:09:16como OMLX demuestran que no necesitamos necesariamente 128 GB de RAM para usar
00:09:23agentes potentes. Solo necesitamos una forma más inteligente de gestionar la memoria que ya tenemos.
00:09:29Hicimos una encuesta hace meses y vimos que la mayoría de nuestros espectadores usan Mac.
00:09:34Tengo curiosidad por saber: ¿han probado OMLX en sus máquinas? ¿Cómo ha sido su
00:09:40experiencia? Cuéntennos en la sección de comentarios. Pues ahí lo tienen.
00:09:45Eso es OMLX en pocas palabras. Si les gustan estos análisis técnicos, por favor
00:09:50háganmelo saber dándole al botón de “like” bajo el video. Y no olviden suscribirse a nuestro
00:09:55canal. Soy Andris de Better Stack y nos vemos en los próximos videos.