Por qué todos los usuarios de Mac necesitan este nuevo ejecutor de modelos de IA (oMLX)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00Esto es OMLX. Es un proyecto muy emocionante, que es básicamente un motor de
00:00:06inferencia especializado diseñado para exprimir hasta la última gota de rendimiento de tu Apple Silicon.
00:00:11Si eres usuario de Mac, te va a encantar esto. OMLX básicamente intenta
00:00:16resolver el mayor cuello de botella que tenemos en el hardware local: el impuesto de la memoria.
00:00:21En este video veremos OMLX, cómo funciona, haremos una prueba y lo compararemos
00:00:27con uno de los pesos pesados, LM Studio, para ver si esta herramienta puede ser realmente el futuro
00:00:33de la ejecución de modelos de IA locales en Mac. Será muy divertido, así que vamos a ello.
00:00:39¿Qué es exactamente OMLX? En esencia, es un tiempo de ejecución construido sobre
00:00:49el framework MLX de Apple y, a diferencia de las herramientas generalistas que soportan cualquier GPU,
00:00:55MLX fue creado por el equipo de Apple Silicon para aprovechar la arquitectura de memoria unificada
00:01:02que potencia específicamente a los Mac. En un PC tradicional, la CPU y la GPU tienen memorias separadas,
00:01:09por lo que datos como los pesos del modelo deben copiarse constantemente a través del bus PCI.
00:01:16Pero MLX elimina esa copia por completo. Como la CPU y la GPU comparten la misma memoria
00:01:22física, MLX usa arreglos de “copia cero”. Cuando la GPU termina un cálculo, la CPU puede leer los
00:01:29resultados al instante sin mover un solo byte. También utiliza computación diferida, es decir, no
00:01:36ejecuta una operación matemática hasta el último segundo cuando el resultado es necesario,
00:01:41lo que le permite optimizar todo el grafo de cálculo sobre la marcha. Pero donde OMLX se diferencia
00:01:47de tu configuración estándar de LM Studio es en cómo gestiona la caché KV. En una sesión típica de LLM,
00:01:54cada palabra del historial de conversación debe recordarse en tu costosa memoria RAM. Pero OMLX
00:02:01introduce un sistema de dos niveles. Mantiene el contexto inmediato en la memoria unificada para
00:02:07mayor velocidad, pero congela las partes antiguas, esos enormes prompts de sistema y herramientas,
00:02:12y los traslada al SSD. Y cuando comparas esto con LM Studio, la diferencia es inmediata. Y sí,
00:02:19es increíblemente estable y compatible, pero el problema es que quiere mantener todo el
00:02:23historial de memoria en estado activo. OMLX es más como un sistema operativo moderno. Es listo
00:02:30para saber qué datos necesitas ahora y cuáles pueden pasar al disco. Iniciemos OMLX
00:02:36y probémoslo. La interfaz es bastante intuitiva. De entrada, nos aparece esta
00:02:41ventana donde podemos especificar la ubicación deseada para nuestro servidor e iniciarlo. Después
00:02:47de eso, se nos pide una clave de API. Hagámoslo. Y finalmente, llegamos a este
00:02:53panel, que es el punto de entrada principal para tu servidor OMLX. Desde aquí, ya
00:03:00descargué el modelo Qwen 3.6 de 35 mil millones de parámetros y 4 bits para nuestras pruebas.
00:03:07También configuré este repositorio vacío con un archivo agents.md donde pediré al modelo
00:03:13que cree una web simple para buscar películas, añadirlas a favoritos y puntuarlas usando la
00:03:19API de Movie DB. Nada demasiado complejo, solo una prueba de código sencilla para ver cómo
00:03:24podría rendir en una tarea de programación real. En la página del panel de control,
00:03:31tenemos esta sección con fragmentos de código listos para usar en diferentes agentes de IA.
00:03:37Para esta demostración, usaré el CLI de Codex para realizar estas pruebas.
00:03:42Tal vez te preguntes por qué no uso el CLI oficial de Claude Code. La realidad es
00:03:47que en un MacBook M2 cada token cuenta. Y si miras las estadísticas de contexto de Claude
00:03:54desde el inicio en un proyecto vacío, Claude Code consume unos 16.2K tokens solo por sus
00:04:02propios prompts de sistema y herramientas. En una ventana de 32K, esto nos deja solo 16K para
00:04:09el proyecto real, lo cual es poquísimo al construir una aplicación completa. Por otro lado,
00:04:14descubrí que Codex es mucho más ligero. No infla el peso base de la conversación, lo que
00:04:20nos da más margen para escribir código antes de alcanzar el límite de contexto.
00:04:26Muy bien, voy a lanzar Codex con este comando sencillo que aparece aquí.
00:04:31Luego le daré un prompt inicial explicando nuestra tarea y lo pondré en marcha.
00:04:36Mientras trabaja aquí a la derecha, puedes ver en tiempo real el rendimiento de la sesión,
00:04:42cuántos tokens se producen, cuántos se están guardando en caché
00:04:46y el porcentaje de eficiencia de la caché. También es útil ver cuántos tokens se procesan
00:04:51por segundo en promedio. En total, tardó unos 20 minutos para que este modelo
00:04:57Qwen 3.6 de 35B parámetros en mi MacBook Pro M2 terminara la tarea. Esto era
00:05:04de esperar, ya que es un trabajo muy pesado para este modelo. Hubo dos o tres
00:05:10ocasiones en las que recibí un error 400 porque el prompt superó el límite de 30K de contexto
00:05:17en mi M2. En cualquier otra herramienta, eso arruinaría el proyecto. Normalmente, si usara
00:05:24el comando “clear”, se borraría la memoria a corto plazo, lo que causaría alucinaciones porque
00:05:29la IA olvida el código que acaba de escribir. Pero aquí es donde el caché persistente en SSD de OMLX me sorprendió.
00:05:37Aunque limpié la sesión en Codex, el estado computacional real de mi proyecto seguía
00:05:42estando en mi SSD. En el momento en que le di a Codex un nuevo prompt para continuar,
00:05:48OMLX reconoció el prefijo e hidrató instantáneamente el cerebro del modelo desde el disco. En lugar
00:05:56de alucinar o empezar de cero, siguió justo donde se quedó. La eficiencia de la caché
00:06:02ayuda mucho en estos casos. Al final de la tarea, vemos que Qwen 3.6 con la ayuda de
00:06:08OMLX logró terminar procesando 1.78 millones de tokens, y aproximadamente 1.59 millones
00:06:16estaban en caché. Tuvimos una eficiencia del 89%, lo cual es enorme. En cuanto a
00:06:22la aplicación, se ve bastante bien. Podemos buscar películas, añadirlas a favoritos
00:06:28y puntuarlas. Pero al refrescar la página, la lista se reinicia. Supongo que no
00:06:33implementó bien la base de datos, pero ha sido un buen esfuerzo. Todo esto parece
00:06:40impresionante, pero quería ver cómo se compara este rendimiento con un ejecutor
00:06:46de peso pesado como LM Studio. Así que decidí hacer lo mismo con el mismo modelo Qwen 3.6,
00:06:52la misma ventana de contexto y restricciones para ver qué tal. Honestamente, no me lo
00:06:58esperaba, pero obtuve un rendimiento peor en LM Studio. La tarea en sí
00:07:04tardó unos 35 minutos en terminar. Eso son 15 minutos más que en OMLX. También noté
00:07:11que mientras trabajaba, LM Studio consumía hasta el último recurso de mi MacBook. Tanto
00:07:17que ni siquiera podía ver un video en el segundo monitor por la falta de RAM.
00:07:23No tuve ese problema con OMLX porque mientras lo ejecutaba, podía navegar
00:07:30por la web, ver videos o hacer cualquier otra cosa mientras Codex seguía de fondo.
00:07:35Eso era casi imposible en LM Studio. Y mira estas estadísticas. Lo que más me impactó
00:07:41fue que la velocidad media en LM Studio fue de 16 tokens por segundo. En
00:07:47OMLX fue de unos 47. Eso explica por qué tardó 15 minutos más en terminar.
00:07:55Sin embargo, hay que reconocer lo que está bien. LM Studio no dio ni un solo error 400
00:08:01por límites de contexto como OMLX. La gestión de contexto en LM Studio es muy estable
00:08:08y funciona a la perfección. Si miramos el resultado final, fue muy similar. No hubo
00:08:13animaciones sofisticadas, pero parece que comparamos el mismo resultado con valores
00:08:18de semilla distintos para la misma tarea y modelo. No voy a sacar conclusiones precipitadas.
00:08:25Es el mismo modelo Qwen 3.6. Pueden juzgar el resultado de Qwen por ustedes mismos. ¿Cuál
00:08:33es el veredicto final? Debo decir que estoy muy, muy impresionado con el rendimiento de OMLX.
00:08:39Si tienes un MacBook con RAM limitada y quieres usar tu computadora mientras ejecutas una IA
00:08:45de fondo, OMLX es la herramienta perfecta. Te da una extensión de RAM virtual
00:08:52usando tu SSD de alta velocidad con el framework MLX que hace que todo vaya más fluido
00:08:58en Apple Silicon. Pero sí, el error 400 ocasional significa que tendrás que estar más
00:09:05pendiente y quizás usar el comando “clear” de vez en cuando. Pero es el precio a pagar
00:09:10por una generación tres veces más rápida. Creo que vale mucho la pena. Proyectos
00:09:16como OMLX demuestran que no necesitamos necesariamente 128 GB de RAM para usar
00:09:23agentes potentes. Solo necesitamos una forma más inteligente de gestionar la memoria que ya tenemos.
00:09:29Hicimos una encuesta hace meses y vimos que la mayoría de nuestros espectadores usan Mac.
00:09:34Tengo curiosidad por saber: ¿han probado OMLX en sus máquinas? ¿Cómo ha sido su
00:09:40experiencia? Cuéntennos en la sección de comentarios. Pues ahí lo tienen.
00:09:45Eso es OMLX en pocas palabras. Si les gustan estos análisis técnicos, por favor
00:09:50háganmelo saber dándole al botón de “like” bajo el video. Y no olviden suscribirse a nuestro
00:09:55canal. Soy Andris de Better Stack y nos vemos en los próximos videos.

Key Takeaway

OMLX triplica la velocidad de generación de tokens en Mac mediante el uso del framework MLX de Apple y un sistema de RAM virtual que congela el contexto de la conversación en el SSD.

Highlights

  • OMLX genera 47 tokens por segundo en un MacBook M2 frente a los 16 tokens por segundo obtenidos con LM Studio.

  • El sistema utiliza un mecanismo de caché KV de dos niveles que traslada el contexto antiguo del modelo al SSD para liberar memoria RAM.

  • El uso de arreglos de “copia cero” en MLX permite que la CPU y la GPU compartan datos al instante sin usar el bus PCI.

  • La ejecución de una tarea de programación compleja con el modelo Qwen 3.6 de 35B parámetros tomó 20 minutos en OMLX y 35 minutos en LM Studio.

  • OMLX mantuvo una eficiencia de caché del 89% procesando 1.59 millones de tokens desde el almacenamiento persistente durante una sola sesión.

  • La gestión inteligente de memoria permite navegar por la web o ver videos mientras el modelo de IA se ejecuta en segundo plano sin agotar los recursos del sistema.

Timeline

Arquitectura y optimización de memoria unificada

  • MLX elimina la necesidad de copiar pesos del modelo a través del bus PCI mediante el uso de memoria física compartida.
  • La computación diferida optimiza el grafo de cálculo al ejecutar operaciones matemáticas solo en el momento necesario.

El diseño de OMLX se basa específicamente en la arquitectura de Apple Silicon para resolver el cuello de botella del impuesto de memoria. A diferencia de las herramientas generalistas, aprovecha los arreglos de copia cero para que los resultados de la GPU sean legibles por la CPU de forma inmediata. Esta integración profunda con el hardware permite extraer el máximo rendimiento de los chips de la serie M.

Gestión de caché KV y persistencia en SSD

  • OMLX traslada prompts de sistema y herramientas antiguas al disco SSD para ahorrar espacio en la memoria RAM unificada.
  • El sistema funciona de forma similar a un sistema operativo moderno al decidir qué datos mantener activos y cuáles pasar a estado de congelación.

En los modelos de lenguaje grandes, el historial de conversación ocupa una cantidad significativa de RAM costosa. OMLX soluciona este problema mediante un sistema de dos niveles que mantiene solo el contexto inmediato en la memoria rápida. Esta estrategia de gestión de datos permite ejecutar modelos más grandes en máquinas con configuraciones de memoria limitadas.

Prueba de rendimiento con agentes de código

  • El modelo Qwen 3.6 de 35 mil millones de parámetros se utiliza para crear una aplicación web funcional mediante la API de Movie DB.
  • La herramienta Codex resulta más eficiente que Claude Code al evitar el consumo excesivo de tokens en prompts de sistema iniciales.

La configuración de la prueba utiliza una cuantización de 4 bits para equilibrar el tamaño y la precisión del modelo en un MacBook M2. Al emplear Codex, se preserva un mayor margen de la ventana de contexto de 32K tokens para el código real del proyecto. La interfaz permite monitorizar en tiempo real la producción de tokens y la eficiencia de la hidratación del cerebro del modelo desde el disco.

Recuperación ante errores de contexto y eficiencia

  • El caché persistente permite que el modelo continúe su tarea sin alucinaciones incluso después de limpiar la sesión tras un error de límite de contexto.
  • La sesión finalizó con el procesamiento de 1.78 millones de tokens totales y una eficiencia del 89% gracias al reconocimiento de prefijos.

A pesar de recibir errores tipo 400 por exceder los 30K de contexto, el estado computacional se mantiene íntegro en el SSD. Cuando se introduce un nuevo prompt, OMLX reconoce la información previa y carga el estado del proyecto instantáneamente. El resultado fue una aplicación capaz de buscar, calificar y añadir películas a favoritos, demostrando la viabilidad de usar agentes potentes en hardware local.

Comparativa directa: OMLX frente a LM Studio

  • OMLX completa la misma tarea 15 minutos más rápido que LM Studio manteniendo una velocidad media de 47 tokens por segundo.
  • LM Studio consume la totalidad de la RAM disponible, impidiendo el uso de otras aplicaciones como navegadores o reproductores de video.

La comparativa técnica revela que LM Studio es más estable en la gestión de límites de contexto, pero significativamente más lento y demandante de recursos. OMLX ofrece una experiencia de multitarea real al permitir que el usuario siga trabajando mientras la IA procesa datos en segundo plano. Esta herramienta demuestra que una gestión inteligente de la memoria es más efectiva que simplemente aumentar la capacidad física de la RAM.

Community Posts

View all posts