Почему каждому пользователю Mac нужен этот новый ИИ-раннер (oMLX)

Русскийالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português 中文

컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00Это OMLX. Очень воодушевляющий проект, представляющий собой специализированный

00:00:06движок инференса, созданный, чтобы выжать максимум производительности из вашего Apple Silicon.

00:00:11Если вы пользователь Mac, вам это очень понравится. OMLX, по сути, пытается

00:00:16решить главную проблему локального оборудования — «налог на память».

00:00:21В этом видео мы разберем OMLX, узнаем, как он работает, проведем тест и сравним

00:00:27его с тяжеловесом LM Studio, чтобы понять, станет ли этот инструмент будущим

00:00:33для запуска локальных ИИ-моделей на Mac. Будет интересно, так что поехали.

00:00:39Так что же такое OMLX? По сути, это среда выполнения, построенная на базе

00:00:49фреймворка Apple MLX. В отличие от универсальных инструментов, поддерживающих все GPU,

00:00:55MLX создан командой Apple Silicon специально для использования архитектуры объединенной памяти,

00:01:02которая стоит в Mac. В обычном ПК у CPU и GPU раздельные пулы памяти,

00:01:09а значит, веса модели должны постоянно копироваться туда-сюда по шине PCI.

00:01:16Но MLX полностью исключает это копирование. Поскольку CPU и GPU используют одну физическую

00:01:22память, MLX применяет массивы с нулевым копированием. Когда GPU завершает расчет, CPU

00:01:29мгновенно считывает результат, не перемещая ни байта. Также используются ленивые вычисления:

00:01:36операция не выполняется до самого последнего момента, когда результат действительно нужен,

00:01:41что позволяет оптимизировать весь граф вычислений на лету. Но главное отличие OMLX от

00:01:47стандартной LM Studio — это управление KV-кэшем. В обычной сессии LLM каждое слово

00:01:54истории диалога должно храниться в вашей дорогой оперативной памяти. OMLX вводит

00:02:01двухуровневую систему. Ближайший контекст остается в объединенной памяти для скорости,

00:02:07но старые части беседы, массивные системные промпты и определения инструментов «замораживаются»

00:02:12и переносятся на SSD. При сравнении с LM Studio разница видна сразу. Да,

00:02:19она невероятно стабильна и совместима, но проблема в том, что она держит всю историю

00:02:23памяти в активном состоянии. OMLX больше похож на современную ОС. Он понимает,

00:02:30какие данные нужны в памяти прямо сейчас, а какие можно отправить на диск. Давайте запустим

00:02:36OMLX и попробуем его сами. Интерфейс довольно интуитивный. Сразу открывается

00:02:41окно, где можно указать местоположение сервера и запустить его. После этого

00:02:47нас просят ввести API-ключ. Сделаем это. И, наконец, мы попадаем на

00:02:53панель управления — это основной вход для вашего сервера OMLX. Отсюда я

00:03:00скачал 4-битную модель Qwen 3.6 на 35 миллиардов параметров для наших тестов.

00:03:07Я также подготовил пустой репозиторий с файлом agents.md, где попрошу модель

00:03:13создать простое веб-приложение для поиска фильмов, добавления их в список и оценки

00:03:19с помощью API Movie DB. Ничего сверхсложного, просто тест на кодинг,

00:03:24чтобы увидеть производительность в реальной задаче. На панели управления

00:03:31есть раздел с готовыми фрагментами кода для различных фреймворков ИИ-агентов.

00:03:37В этом демо я буду использовать Codex CLI для проведения тестов.

00:03:42Вы спросите: почему бы не использовать официальный Claude Code CLI? Реальность такова,

00:03:47что на MacBook M2 важен каждый токен. Если посмотреть на статистику контекста Claude

00:03:54на абсолютно пустом проекте, Claude Code съедает около 16,2 тыс. токенов только на свои

00:04:02системные промпты и инструменты. В окне 32к это оставляет нам всего 16к токенов

00:04:09на сам проект, что ничтожно мало для создания фулстек-приложения. С другой стороны,

00:04:14я обнаружил, что Codex гораздо легче. Он не раздувает базовый вес диалога,

00:04:20что дает нам больше пространства для написания кода до достижения лимита контекста.

00:04:26Итак, я запускаю Codex с помощью этой простой команды.

00:04:31Затем я дам вводный промпт с описанием задачи и запущу процесс.

00:04:36Пока он работает справа, вы можете в реальном времени видеть ход сессии:

00:04:42сколько токенов генерируется, сколько из них кэшируется

00:04:46и общий процент эффективности кэша. Также удобно видеть, сколько токенов

00:04:51в среднем обрабатывается за секунду. В целом выполнение задачи моделью Qwen 3.6

00:04:57на 35 млрд параметров на моем M2 MacBook Pro заняло около 20 минут. Это ожидаемо,

00:05:04так как для данной модели это серьезная нагрузка. Было два или три

00:05:10случая, когда я получал ошибку 400, потому что промпт превысил лимит в 30к контекста

00:05:17на моем M2 MacBook. В любом другом инструменте это бы погубило проект. Обычно,

00:05:24команда /clear стирает краткосрочную память ИИ, что ведет к галлюцинациям, так как

00:05:29модель забывает только что написанный код. Но здесь кэширование OMLX на SSD меня поразило.

00:05:37Хотя я очистил сессию в Codex, фактическое вычислительное состояние проекта

00:05:42все еще находилось на моем SSD. Как только я дал Codex новый промпт для продолжения,

00:05:48OMLX распознал префикс и мгновенно восстановил состояние модели с диска.

00:05:56Вместо галлюцинаций она продолжила с того же места. Эффективность кэша тут очень спасает.

00:06:02В итоге Qwen 3.6 с помощью OMLX справилась с задачей,

00:06:08выдав 1,78 млн токенов, из которых примерно 1,59 млн

00:06:16были закэшированы. Эффективность кэша составила 89% — это мощно. Что касается

00:06:22приложения, оно выглядит неплохо. Мы можем искать фильмы, добавлять их в список

00:06:28и оценивать. Но при обновлении страницы список сбрасывается. Видимо, модель

00:06:33не реализовала хранение в базе данных должным образом, но в целом попытка солидная. Это

00:06:40все впечатляет, но я хотел узнать, как это соотносится с таким тяжеловесом,

00:06:46как LM Studio. Я решил запустить ту же задачу с той же моделью Qwen 3.6,

00:06:52используя то же окно контекста и ограничения. Честно говоря,

00:06:58я не ожидал такого, но в LM Studio производительность оказалась хуже. Выполнение задачи

00:07:04заняло около 35 минут. Это на 15 минут дольше, чем в OMLX. Я также заметил,

00:07:11что LM Studio выжимала все соки из моего MacBook. До такой степени,

00:07:17что я не мог даже смотреть видео на втором мониторе из-за нехватки оперативной памяти.

00:07:23С OMLX такой проблемы не было. Пока Codex работал в фоне,

00:07:30я спокойно мог сидеть в интернете, смотреть видео или делать другие дела.

00:07:35В LM Studio это было почти невозможно. И посмотрите на статистику. Шокирует то,

00:07:41что средняя скорость в LM Studio была 16 токенов в секунду, а в OMLX —

00:07:47около 47. Это и объясняет разницу в 15 минут.

00:07:55Но нужно отдать должное: LM Studio ни разу не выдала ошибку 400

00:08:01из-за лимита контекста, в отличие от OMLX. Управление контекстом в LM Studio очень стабильно

00:08:08и работает идеально. Если взглянуть на финальный результат, он был очень похожим.

00:08:13В этот раз без красивой анимации, но, честно говоря, это как сравнение двух результатов

00:08:18одной и той же задачи на одной модели с разными сидами. Так что выводов делать не буду.

00:08:25Это та же модель Qwen 3.6. Вы сами можете оценить её результат здесь. Каков же

00:08:33финальный вердикт? Я должен сказать, что очень впечатлен производительностью OMLX. Если вы

00:08:39на MacBook с малым объемом RAM и хотите пользоваться компьютером, пока в фоне работает ИИ,

00:08:45то OMLX — идеальный инструмент. Он фактически расширяет вашу память за счет

00:08:52высокоскоростного SSD в сочетании с фреймворком MLX, который ускоряет работу на Apple Silicon.

00:08:58Да, периодические ошибки 400 означают, что за процессом нужно следить

00:09:05и иногда использовать команду clear. Но это плата за втрое большую

00:09:10скорость генерации. И я думаю, в данном случае это того стоит. Такие проекты,

00:09:16как OMLX, доказывают, что нам не обязательно иметь 128 ГБ оперативной памяти для запуска

00:09:23мощных агентов. Нам просто нужен более умный способ управления памятью на наших MacBook.

00:09:29Несколько месяцев назад мы проводили опрос и выяснили, что большинство зрителей — пользователи Mac.

00:09:34Поэтому мне любопытно: пробовали ли вы OMLX на своих машинах? Каковы

00:09:40ваши впечатления? Расскажите об этом в комментариях под видео. Вот и всё,

00:09:45это был краткий обзор OMLX. Ребята, если вам нравятся такие технические разборы,

00:09:50дайте мне знать, нажав на лайк под этим видео. И не забудьте подписаться на наш

00:09:55канал. С вами был Андрис из Better Stack, увидимся в следующих видео.

Key Takeaway

OMLX превосходит LM Studio по скорости генерации на Apple Silicon почти в три раза за счет двухуровневого кэширования на SSD, что позволяет запускать модели объемом 35 млрд параметров даже на устройствах с ограниченной оперативной памятью.

Highlights

OMLX использует специализированный движок инференса на базе фреймворка Apple MLX для максимальной производительности процессоров Apple Silicon.
Технология Zero-copy исключает копирование весов модели между CPU и GPU благодаря использованию объединенной памяти Mac.
Двухуровневая система управления KV-кэшем переносит старые части диалога и системные промпты из оперативной памяти на SSD.
В тестах на MacBook M2 Pro модель Qwen 3.6 (35 млрд параметров) показала скорость 47 токенов в секунду через OMLX против 16 токенов в LM Studio.
Эффективность кэширования OMLX при создании веб-приложения составила 89%, восстанавливая состояние проекта с диска после очистки сессии.
Использование OMLX позволило выполнять фоновые задачи, такие как просмотр видео, в то время как LM Studio полностью блокировала работу системы из-за нехватки RAM.

Timeline

Архитектура Apple MLX и решение проблемы «налога на память»

Традиционные ПК тратят ресурсы на копирование данных между CPU и GPU через шину PCI.
Фреймворк Apple MLX использует массивы с нулевым копированием (zero-copy) для мгновенного доступа к результатам вычислений.
Ленивые вычисления оптимизируют граф операций, выполняя их только в момент необходимости результата.

Основная проблема локального запуска ИИ на Mac заключается в неэффективном использовании памяти универсальными инструментами. OMLX построен на базе проприетарного фреймворка Apple, который оптимизирован под архитектуру объединенной памяти. Это устраняет необходимость дублирования данных и позволяет GPU и CPU работать с одним пулом информации без задержек на передачу байтов.

Управление KV-кэшем и интеграция с SSD

OMLX разделяет историю диалога на активный контекст в RAM и «замороженный» на SSD.
Системные промпты и старые части беседы не занимают дорогую оперативную память устройства.
Механизм работы кэша напоминает управление памятью в современных операционных системах.

В отличие от LM Studio, которая держит всю историю диалога в активном состоянии, OMLX вводит интеллектуальное распределение ресурсов. Это критично для Mac с малым объемом оперативной памяти, так как позволяет сохранять работоспособность системы при запуске тяжелых моделей. Перенос массивных определений инструментов и системных инструкций на диск освобождает место для генерации новых токенов.

Практический тест: разработка веб-приложения через Codex CLI

Для теста использовалась 4-битная квантованная модель Qwen 3.6 с 35 миллиардами параметров.
Инструмент Codex CLI выбран из-за меньшего веса системных промптов по сравнению с Claude Code.
Эффективность кэширования достигла 89%, при этом 1,59 млн токенов из 1,78 млн были извлечены из кэша.

В рамках эксперимента модель создавала приложение для поиска фильмов с использованием API Movie DB. Хотя на MacBook M2 возникали ошибки из-за превышения лимита контекста в 30 тыс. токенов, функция восстановления состояния с SSD позволила продолжить работу без галлюцинаций. Система мгновенно распознавала префикс проекта и подгружала данные с диска, что спасло процесс разработки от полной потери контекста.

Сравнение производительности OMLX и LM Studio

Генерация одной и той же задачи в OMLX заняла 20 минут, в то время как в LM Studio — 35 минут.
LM Studio потребляла весь объем RAM, делая невозможным просмотр видео на втором мониторе.
Средняя скорость вычислений составила 47 токенов в секунду для OMLX против 16 для конкурента.

Прямое сравнение показало значительное преимущество специализированного движка над универсальным решением. LM Studio продемонстрировала высокую стабильность в управлении лимитами контекста, ни разу не выдав ошибку, но проиграла в эффективности распределения ресурсов. Разница в 15 минут времени выполнения и возможность многозадачности делают OMLX более предпочтительным для повседневного использования на ноутбуках.

Итоги и рекомендации для пользователей Apple Silicon

OMLX позволяет эффективно использовать MacBook даже с небольшим объемом оперативной памяти для запуска крупных моделей.
Высокая скорость SSD компенсирует нехватку RAM при правильном управлении графом вычислений.
Периодические ошибки контекста являются приемлемой ценой за троекратный прирост скорости.

Проект доказывает, что для запуска мощных ИИ-агентов не требуется 128 ГБ оперативной памяти при наличии умных алгоритмов управления кэшем. Интеграция с высокоскоростными SSD в последних поколениях Mac становится ключевым фактором производительности. OMLX рекомендуется как основной инструмент для пользователей, которым важна скорость и отзывчивость системы во время работы фоновых ИИ-процессов.

Community Posts

Write about this video