Почему каждому пользователю Mac нужен этот новый ИИ-раннер (oMLX)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00Это OMLX. Очень воодушевляющий проект, представляющий собой специализированный
00:00:06движок инференса, созданный, чтобы выжать максимум производительности из вашего Apple Silicon.
00:00:11Если вы пользователь Mac, вам это очень понравится. OMLX, по сути, пытается
00:00:16решить главную проблему локального оборудования — «налог на память».
00:00:21В этом видео мы разберем OMLX, узнаем, как он работает, проведем тест и сравним
00:00:27его с тяжеловесом LM Studio, чтобы понять, станет ли этот инструмент будущим
00:00:33для запуска локальных ИИ-моделей на Mac. Будет интересно, так что поехали.
00:00:39Так что же такое OMLX? По сути, это среда выполнения, построенная на базе
00:00:49фреймворка Apple MLX. В отличие от универсальных инструментов, поддерживающих все GPU,
00:00:55MLX создан командой Apple Silicon специально для использования архитектуры объединенной памяти,
00:01:02которая стоит в Mac. В обычном ПК у CPU и GPU раздельные пулы памяти,
00:01:09а значит, веса модели должны постоянно копироваться туда-сюда по шине PCI.
00:01:16Но MLX полностью исключает это копирование. Поскольку CPU и GPU используют одну физическую
00:01:22память, MLX применяет массивы с нулевым копированием. Когда GPU завершает расчет, CPU
00:01:29мгновенно считывает результат, не перемещая ни байта. Также используются ленивые вычисления:
00:01:36операция не выполняется до самого последнего момента, когда результат действительно нужен,
00:01:41что позволяет оптимизировать весь граф вычислений на лету. Но главное отличие OMLX от
00:01:47стандартной LM Studio — это управление KV-кэшем. В обычной сессии LLM каждое слово
00:01:54истории диалога должно храниться в вашей дорогой оперативной памяти. OMLX вводит
00:02:01двухуровневую систему. Ближайший контекст остается в объединенной памяти для скорости,
00:02:07но старые части беседы, массивные системные промпты и определения инструментов «замораживаются»
00:02:12и переносятся на SSD. При сравнении с LM Studio разница видна сразу. Да,
00:02:19она невероятно стабильна и совместима, но проблема в том, что она держит всю историю
00:02:23памяти в активном состоянии. OMLX больше похож на современную ОС. Он понимает,
00:02:30какие данные нужны в памяти прямо сейчас, а какие можно отправить на диск. Давайте запустим
00:02:36OMLX и попробуем его сами. Интерфейс довольно интуитивный. Сразу открывается
00:02:41окно, где можно указать местоположение сервера и запустить его. После этого
00:02:47нас просят ввести API-ключ. Сделаем это. И, наконец, мы попадаем на
00:02:53панель управления — это основной вход для вашего сервера OMLX. Отсюда я
00:03:00скачал 4-битную модель Qwen 3.6 на 35 миллиардов параметров для наших тестов.
00:03:07Я также подготовил пустой репозиторий с файлом agents.md, где попрошу модель
00:03:13создать простое веб-приложение для поиска фильмов, добавления их в список и оценки
00:03:19с помощью API Movie DB. Ничего сверхсложного, просто тест на кодинг,
00:03:24чтобы увидеть производительность в реальной задаче. На панели управления
00:03:31есть раздел с готовыми фрагментами кода для различных фреймворков ИИ-агентов.
00:03:37В этом демо я буду использовать Codex CLI для проведения тестов.
00:03:42Вы спросите: почему бы не использовать официальный Claude Code CLI? Реальность такова,
00:03:47что на MacBook M2 важен каждый токен. Если посмотреть на статистику контекста Claude
00:03:54на абсолютно пустом проекте, Claude Code съедает около 16,2 тыс. токенов только на свои
00:04:02системные промпты и инструменты. В окне 32к это оставляет нам всего 16к токенов
00:04:09на сам проект, что ничтожно мало для создания фулстек-приложения. С другой стороны,
00:04:14я обнаружил, что Codex гораздо легче. Он не раздувает базовый вес диалога,
00:04:20что дает нам больше пространства для написания кода до достижения лимита контекста.
00:04:26Итак, я запускаю Codex с помощью этой простой команды.
00:04:31Затем я дам вводный промпт с описанием задачи и запущу процесс.
00:04:36Пока он работает справа, вы можете в реальном времени видеть ход сессии:
00:04:42сколько токенов генерируется, сколько из них кэшируется
00:04:46и общий процент эффективности кэша. Также удобно видеть, сколько токенов
00:04:51в среднем обрабатывается за секунду. В целом выполнение задачи моделью Qwen 3.6
00:04:57на 35 млрд параметров на моем M2 MacBook Pro заняло около 20 минут. Это ожидаемо,
00:05:04так как для данной модели это серьезная нагрузка. Было два или три
00:05:10случая, когда я получал ошибку 400, потому что промпт превысил лимит в 30к контекста
00:05:17на моем M2 MacBook. В любом другом инструменте это бы погубило проект. Обычно,
00:05:24команда /clear стирает краткосрочную память ИИ, что ведет к галлюцинациям, так как
00:05:29модель забывает только что написанный код. Но здесь кэширование OMLX на SSD меня поразило.
00:05:37Хотя я очистил сессию в Codex, фактическое вычислительное состояние проекта
00:05:42все еще находилось на моем SSD. Как только я дал Codex новый промпт для продолжения,
00:05:48OMLX распознал префикс и мгновенно восстановил состояние модели с диска.
00:05:56Вместо галлюцинаций она продолжила с того же места. Эффективность кэша тут очень спасает.
00:06:02В итоге Qwen 3.6 с помощью OMLX справилась с задачей,
00:06:08выдав 1,78 млн токенов, из которых примерно 1,59 млн
00:06:16были закэшированы. Эффективность кэша составила 89% — это мощно. Что касается
00:06:22приложения, оно выглядит неплохо. Мы можем искать фильмы, добавлять их в список
00:06:28и оценивать. Но при обновлении страницы список сбрасывается. Видимо, модель
00:06:33не реализовала хранение в базе данных должным образом, но в целом попытка солидная. Это
00:06:40все впечатляет, но я хотел узнать, как это соотносится с таким тяжеловесом,
00:06:46как LM Studio. Я решил запустить ту же задачу с той же моделью Qwen 3.6,
00:06:52используя то же окно контекста и ограничения. Честно говоря,
00:06:58я не ожидал такого, но в LM Studio производительность оказалась хуже. Выполнение задачи
00:07:04заняло около 35 минут. Это на 15 минут дольше, чем в OMLX. Я также заметил,
00:07:11что LM Studio выжимала все соки из моего MacBook. До такой степени,
00:07:17что я не мог даже смотреть видео на втором мониторе из-за нехватки оперативной памяти.
00:07:23С OMLX такой проблемы не было. Пока Codex работал в фоне,
00:07:30я спокойно мог сидеть в интернете, смотреть видео или делать другие дела.
00:07:35В LM Studio это было почти невозможно. И посмотрите на статистику. Шокирует то,
00:07:41что средняя скорость в LM Studio была 16 токенов в секунду, а в OMLX —
00:07:47около 47. Это и объясняет разницу в 15 минут.
00:07:55Но нужно отдать должное: LM Studio ни разу не выдала ошибку 400
00:08:01из-за лимита контекста, в отличие от OMLX. Управление контекстом в LM Studio очень стабильно
00:08:08и работает идеально. Если взглянуть на финальный результат, он был очень похожим.
00:08:13В этот раз без красивой анимации, но, честно говоря, это как сравнение двух результатов
00:08:18одной и той же задачи на одной модели с разными сидами. Так что выводов делать не буду.
00:08:25Это та же модель Qwen 3.6. Вы сами можете оценить её результат здесь. Каков же
00:08:33финальный вердикт? Я должен сказать, что очень впечатлен производительностью OMLX. Если вы
00:08:39на MacBook с малым объемом RAM и хотите пользоваться компьютером, пока в фоне работает ИИ,
00:08:45то OMLX — идеальный инструмент. Он фактически расширяет вашу память за счет
00:08:52высокоскоростного SSD в сочетании с фреймворком MLX, который ускоряет работу на Apple Silicon.
00:08:58Да, периодические ошибки 400 означают, что за процессом нужно следить
00:09:05и иногда использовать команду clear. Но это плата за втрое большую
00:09:10скорость генерации. И я думаю, в данном случае это того стоит. Такие проекты,
00:09:16как OMLX, доказывают, что нам не обязательно иметь 128 ГБ оперативной памяти для запуска
00:09:23мощных агентов. Нам просто нужен более умный способ управления памятью на наших MacBook.
00:09:29Несколько месяцев назад мы проводили опрос и выяснили, что большинство зрителей — пользователи Mac.
00:09:34Поэтому мне любопытно: пробовали ли вы OMLX на своих машинах? Каковы
00:09:40ваши впечатления? Расскажите об этом в комментариях под видео. Вот и всё,
00:09:45это был краткий обзор OMLX. Ребята, если вам нравятся такие технические разборы,
00:09:50дайте мне знать, нажав на лайк под этим видео. И не забудьте подписаться на наш
00:09:55канал. С вами был Андрис из Better Stack, увидимся в следующих видео.

Key Takeaway

OMLX превосходит LM Studio по скорости генерации на Apple Silicon почти в три раза за счет двухуровневого кэширования на SSD, что позволяет запускать модели объемом 35 млрд параметров даже на устройствах с ограниченной оперативной памятью.

Highlights

  • OMLX использует специализированный движок инференса на базе фреймворка Apple MLX для максимальной производительности процессоров Apple Silicon.

  • Технология Zero-copy исключает копирование весов модели между CPU и GPU благодаря использованию объединенной памяти Mac.

  • Двухуровневая система управления KV-кэшем переносит старые части диалога и системные промпты из оперативной памяти на SSD.

  • В тестах на MacBook M2 Pro модель Qwen 3.6 (35 млрд параметров) показала скорость 47 токенов в секунду через OMLX против 16 токенов в LM Studio.

  • Эффективность кэширования OMLX при создании веб-приложения составила 89%, восстанавливая состояние проекта с диска после очистки сессии.

  • Использование OMLX позволило выполнять фоновые задачи, такие как просмотр видео, в то время как LM Studio полностью блокировала работу системы из-за нехватки RAM.

Timeline

Архитектура Apple MLX и решение проблемы «налога на память»

  • Традиционные ПК тратят ресурсы на копирование данных между CPU и GPU через шину PCI.
  • Фреймворк Apple MLX использует массивы с нулевым копированием (zero-copy) для мгновенного доступа к результатам вычислений.
  • Ленивые вычисления оптимизируют граф операций, выполняя их только в момент необходимости результата.

Основная проблема локального запуска ИИ на Mac заключается в неэффективном использовании памяти универсальными инструментами. OMLX построен на базе проприетарного фреймворка Apple, который оптимизирован под архитектуру объединенной памяти. Это устраняет необходимость дублирования данных и позволяет GPU и CPU работать с одним пулом информации без задержек на передачу байтов.

Управление KV-кэшем и интеграция с SSD

  • OMLX разделяет историю диалога на активный контекст в RAM и «замороженный» на SSD.
  • Системные промпты и старые части беседы не занимают дорогую оперативную память устройства.
  • Механизм работы кэша напоминает управление памятью в современных операционных системах.

В отличие от LM Studio, которая держит всю историю диалога в активном состоянии, OMLX вводит интеллектуальное распределение ресурсов. Это критично для Mac с малым объемом оперативной памяти, так как позволяет сохранять работоспособность системы при запуске тяжелых моделей. Перенос массивных определений инструментов и системных инструкций на диск освобождает место для генерации новых токенов.

Практический тест: разработка веб-приложения через Codex CLI

  • Для теста использовалась 4-битная квантованная модель Qwen 3.6 с 35 миллиардами параметров.
  • Инструмент Codex CLI выбран из-за меньшего веса системных промптов по сравнению с Claude Code.
  • Эффективность кэширования достигла 89%, при этом 1,59 млн токенов из 1,78 млн были извлечены из кэша.

В рамках эксперимента модель создавала приложение для поиска фильмов с использованием API Movie DB. Хотя на MacBook M2 возникали ошибки из-за превышения лимита контекста в 30 тыс. токенов, функция восстановления состояния с SSD позволила продолжить работу без галлюцинаций. Система мгновенно распознавала префикс проекта и подгружала данные с диска, что спасло процесс разработки от полной потери контекста.

Сравнение производительности OMLX и LM Studio

  • Генерация одной и той же задачи в OMLX заняла 20 минут, в то время как в LM Studio — 35 минут.
  • LM Studio потребляла весь объем RAM, делая невозможным просмотр видео на втором мониторе.
  • Средняя скорость вычислений составила 47 токенов в секунду для OMLX против 16 для конкурента.

Прямое сравнение показало значительное преимущество специализированного движка над универсальным решением. LM Studio продемонстрировала высокую стабильность в управлении лимитами контекста, ни разу не выдав ошибку, но проиграла в эффективности распределения ресурсов. Разница в 15 минут времени выполнения и возможность многозадачности делают OMLX более предпочтительным для повседневного использования на ноутбуках.

Итоги и рекомендации для пользователей Apple Silicon

  • OMLX позволяет эффективно использовать MacBook даже с небольшим объемом оперативной памяти для запуска крупных моделей.
  • Высокая скорость SSD компенсирует нехватку RAM при правильном управлении графом вычислений.
  • Периодические ошибки контекста являются приемлемой ценой за троекратный прирост скорости.

Проект доказывает, что для запуска мощных ИИ-агентов не требуется 128 ГБ оперативной памяти при наличии умных алгоритмов управления кэшем. Интеграция с высокоскоростными SSD в последних поколениях Mac становится ключевым фактором производительности. OMLX рекомендуется как основной инструмент для пользователей, которым важна скорость и отзывчивость системы во время работы фоновых ИИ-процессов.

Community Posts

View all posts