Por que todo usuário de Mac precisa deste novo executor de modelos de IA (oMLX)

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00Este é o OMLX. É um projeto muito empolgante, que é essencialmente um mecanismo

00:00:06de inferência especializado projetado para extrair cada gota de desempenho do seu Apple Silicon.

00:00:11Se você é usuário de Mac, vai ficar muito animado com este. O OMLX está essencialmente

00:00:16tentando resolver o maior gargalo que temos em hardware local, que é a taxa de memória.

00:00:21Neste vídeo, daremos uma olhada no OMLX, veremos como ele funciona e faremos um teste comparando-o

00:00:27com um dos pesos pesados, o LM Studio, para ver se esta nova ferramenta pode realmente ser o futuro

00:00:33da execução de modelos de IA locais no seu Mac. Vai ser muito divertido, então vamos nessa.

00:00:39Então, o que exatamente é o OMLX? Em essência, é um runtime construído especificamente sobre

00:00:49o framework MLX da Apple e, ao contrário de ferramentas generalistas que tentam suportar todas as GPUs,

00:00:55o MLX foi criado sob medida pela equipe do Apple Silicon para explorar a arquitetura de memória unificada

00:01:02que alimenta especificamente os Macs. Em um PC tradicional, sua CPU e sua GPU têm pools de memória separados,

00:01:09o que significa que dados como os pesos do seu modelo precisam ser constantemente copiados pelo barramento PCI.

00:01:16Mas o MLX elimina essa cópia inteiramente. Como a CPU e a GPU compartilham a mesma memória física,

00:01:22o MLX usa arrays de cópia zero. Quando a GPU termina um cálculo, a CPU pode ler os

00:01:29resultados instantaneamente sem mover um único byte. Ele também usa computação preguiçosa, o que significa que

00:01:36não executa uma operação matemática até o último segundo, quando a saída é necessária,

00:01:41o que permite otimizar todo o gráfico de cálculo em tempo real. Mas onde o OMLX difere do seu

00:01:47setup padrão do LM Studio é em como ele gerencia o cache KV. Em uma sessão típica de LLM, cada palavra

00:01:54do seu histórico de conversa precisa ser lembrada na sua cara memória RAM. Mas o OMLX introduz um

00:02:01sistema de dois níveis. Ele mantém o contexto imediato na sua memória unificada para velocidade, mas congela as

00:02:07partes mais antigas da conversa, aqueles prompts de sistema massivos e definições de ferramentas, e os move

00:02:12para o seu SSD. E quando você compara isso com o LM Studio, a diferença é imediata. E sim,

00:02:19ele é incrivelmente estável e compatível, mas o problema é que ele quer manter todo o

00:02:23histórico da memória em um estado ativo. O OMLX é mais como um sistema operacional moderno. Ele é inteligente

00:02:30o suficiente para saber quais dados precisam estar no seu cérebro agora e o que pode ser paginado para o disco. Então vamos rodar o OMLX

00:02:36e testá-lo nós mesmos. A interface é bastante intuitiva. Logo de cara, temos esta

00:02:41janela onde podemos especificar o local desejado para o nosso servidor e iniciá-lo imediatamente. Depois

00:02:47disso, somos solicitados a fornecer uma chave de API. Então vamos fazer isso. E, finalmente, chegamos a este

00:02:53dashboard, que é o ponto de entrada principal para o seu servidor OMLX. E a partir daqui, eu fui em frente e

00:03:00baixei o modelo Qwen 3.6 de 35 bilhões de parâmetros e 4 bits, que usaremos para nossos testes.

00:03:07Também configurei este repositório vazio com um arquivo agents.md onde pedirei ao modelo

00:03:13para criar um web app simples onde você pode pesquisar por filmes, adicioná-los à lista de desejos e avaliá-los

00:03:19usando sua chave de API do Movie DB. Nada muito sofisticado para esta demonstração, apenas um teste simples de código

00:03:24para ver como ele poderia realizar uma tarefa de codificação do mundo real. E na página do dashboard,

00:03:31temos a seção que nos fornece trechos de código prontos para uso para diferentes estruturas de agentes de IA

00:03:37que podemos rodar. E para esta demonstração, usarei o Codex CLI para conduzir estes testes.

00:03:42Agora, você deve estar se perguntando por que não estou apenas usando o Claude Code CLI oficial para isso. Bem,

00:03:47a realidade é que em um MacBook M2, cada token conta. E se você olhar para as estatísticas de contexto do Claude

00:03:54logo de início em uma folha totalmente em branco, o Claude Code consome cerca de 16,2 mil tokens apenas para seus próprios

00:04:02prompts de sistema e definições de ferramentas. E em uma janela de 32 mil, isso nos deixa com apenas 16 mil tokens para

00:04:09o projeto em si, o que é minúsculo quando você está construindo uma aplicação full stack. Mas, por outro

00:04:14lado, descobri que o Codex é muito mais leve. Ele não infla o peso base da conversa,

00:04:20o que nos dá uma margem mais generosa para realmente escrever código antes de atingir o teto de contexto.

00:04:26Tudo bem, agora vou iniciar o Codex com este comando simples fornecido aqui.

00:04:31E então vou dar a ele um prompt inicial simples explicando nossa tarefa e fazê-lo começar.

00:04:36E enquanto ele está processando aqui à direita, você pode ver em tempo real como esta sessão está se saindo,

00:04:42quantos tokens estão sendo produzidos, quantos deles estão sendo armazenados em cache,

00:04:46e a porcentagem geral de eficiência do cache. E também é muito útil ver quantos tokens, em

00:04:51média, são processados por segundo. No geral, levou cerca de 20 minutos para este modelo Qwen 3.6 de

00:04:5735 bilhões de parâmetros rodando no meu MacBook Pro M2 concluir esta tarefa. E isso era de se

00:05:04esperar, porque esta é uma tarefa muito pesada para este modelo. Agora, houve duas ou três

00:05:10instâncias em que recebi um erro 400 porque o prompt excedeu o limite de contexto de 30 mil no meu

00:05:17MacBook M2. Em qualquer outra ferramenta, isso seria o fim do projeto. E normalmente, se eu executasse

00:05:24o comando clear, ele limparia a memória de curto prazo da IA, muitas vezes levando a alucinações porque o modelo

00:05:29esquece o código que acabou de escrever. Mas foi aqui que o cache persistente em SSD do OMLX me impressionou.

00:05:37Mesmo tendo limpado a sessão no Codex, o estado computacional real do meu projeto

00:05:42ainda estava no meu SSD. Então, no momento em que dei ao Codex um novo prompt para continuar de onde parou,

00:05:48o OMLX reconheceu o prefixo e instantaneamente hidratou o cérebro do modelo a partir do disco. E em vez de

00:05:56alucinar ou começar do zero, ele continuou exatamente de onde parou. Portanto, a eficiência do cache

00:06:02realmente ajuda neste caso. E ao final desta tarefa, podemos ver aqui que o Qwen 3.6, com a ajuda do

00:06:08OMLX, conseguiu concluir a tarefa gerando 1,78 milhão de tokens, e cerca de 1,59 milhão

00:06:16deles foram armazenados em cache. Terminamos com 89% de eficiência de cache, o que é massivo. E quanto

00:06:22ao app em si, ele parece bem razoável. Conseguimos buscar filmes, adicioná-los à lista e

00:06:28avaliá-los. Mas, ao atualizar a página, a lista é resetada. Então, imagino que ele não

00:06:33implementou a solução de armazenamento em banco de dados corretamente, mas foi um esforço sólido no geral. Agora,

00:06:40tudo isso parece impressionante, mas eu queria saber como esse desempenho se compara a um executor de

00:06:46modelos de peso como o LM Studio. Então decidi rodar a mesma tarefa com o mesmo modelo Qwen 3.6

00:06:52usando a mesma janela de contexto e restrições para ver o desempenho. E, honestamente, eu não

00:06:58esperava por isso, mas na verdade tive um desempenho pior no LM Studio. A tarefa em si

00:07:04levou cerca de 35 minutos para terminar. Isso já são 15 minutos a mais do que no OMLX. E também notei

00:07:11que, ao rodar esta tarefa, o LM Studio estava usando cada gota de recurso do meu MacBook. Tanto que eu

00:07:17não conseguia nem assistir a um vídeo em um segundo monitor porque ele travava devido à grave falta de RAM.

00:07:23Eu não tive o mesmo problema com o OMLX porque, ao rodar nele, eu conseguia facilmente

00:07:30navegar na web, ver vídeos ou fazer qualquer outra tarefa enquanto o Codex ainda rodava em

00:07:35segundo plano. Mas isso era quase impossível de fazer no LM Studio. E olhem estas estatísticas. O que me

00:07:41chocou ainda mais foi que a velocidade média de tokens por segundo no LM Studio foi de 16. E no

00:07:47OMLX, foi de cerca de 47. Isso explica por que a tarefa levou 15 minutos a mais para terminar.

00:07:55No entanto, devo dar crédito a quem merece. O LM Studio não apresentou um único erro 400

00:08:01devido a gargalos de limite de contexto como o OMLX. Então a gestão de contexto no LM Studio é muito estável e

00:08:08está funcionando perfeitamente. E se olharmos para o resultado final, foi muito parecido. Não tive

00:08:13nenhuma animação sofisticada desta vez, mas, honestamente, parece que estamos comparando a mesma saída com diferentes

00:08:18valores de semente para a mesma tarefa no mesmo modelo. Então não vou tirar nenhuma conclusão precipitada aqui.

00:08:25É o mesmo modelo Qwen 3.6. Vocês mesmos podem julgar a saída do modelo Qwen aqui. Então qual é o

00:08:33veredito final? Bem, devo dizer que estou muito, muito impressionado com o desempenho do OMLX. Se você está em um

00:08:39MacBook com RAM limitada e quer realmente usar seu computador enquanto roda um agente de IA local em

00:08:45segundo plano, o OMLX é a ferramenta perfeita para isso. Ele efetivamente te dá uma extensão de RAM ao

00:08:52utilizar seu SSD de alta velocidade combinado com aquele excelente framework MLX que nos permite rodar modelos de forma

00:08:58mais suave no Apple Silicon. Mas sim, o erro 400 ocasional significa que você terá que ser mais

00:09:05ativo com ele e talvez usar um comando clear de vez em quando. Mas esse é o preço que se paga por uma

00:09:10velocidade de geração três vezes maior. E acho que vale muito a pena neste caso. Então esses tipos

00:09:16de projetos como o OMLX estão provando que não precisamos necessariamente de 128 gigabytes de RAM para rodar

00:09:23agentes poderosos. Só precisamos de uma maneira mais inteligente de gerenciar a memória que já temos em nossos MacBooks.

00:09:29E na verdade realizamos uma pesquisa há alguns meses e descobrimos que a maioria dos nossos espectadores são usuários de Mac.

00:09:34Então estou curioso para saber. Você já experimentou o OMLX em suas próprias máquinas? Como tem sido a

00:09:40experiência até agora? Conte para a gente na seção de comentários aqui embaixo. Então é isso pessoal.

00:09:45Esse é o OMLX em poucas palavras. E pessoal, se vocês gostam desses tipos de análises técnicas, por favor

00:09:50me avisem deixando o seu joinha embaixo do vídeo. E também não se esqueçam de se inscrever no nosso

00:09:55canal. Aqui foi o Andris da Better Stack e vejo vocês nos próximos vídeos.

Key Takeaway

O OMLX triplica a velocidade de geração de tokens em Macs com Apple Silicon ao utilizar o framework MLX e um sistema de paginação em SSD que supera gargalos de memória RAM limitada.

Highlights

O OMLX utiliza arrays de cópia zero para permitir que a CPU e a GPU do Mac acessem os mesmos dados na memória física sem mover um único byte.
A ferramenta implementa um cache KV de dois níveis que mantém o contexto imediato na RAM unificada e transfere prompts antigos e definições de ferramentas para o SSD.
Em testes de codificação com o modelo Qwen 3.6 de 35 bilhões de parâmetros, o OMLX atingiu 47 tokens por segundo contra 16 tokens por segundo do LM Studio.
O uso do OMLX permitiu a conclusão de uma tarefa de desenvolvimento de software em 20 minutos, enquanto o mesmo processo levou 35 minutos no LM Studio.
A eficiência do cache persistente alcançou 89% em uma sessão que gerou 1,78 milhão de tokens, hidratando o estado do modelo instantaneamente após a limpeza da janela de contexto.
O consumo de memória do OMLX é otimizado a ponto de permitir a navegação na web e reprodução de vídeos simultaneamente à execução de modelos locais pesados.

Timeline

Arquitetura de memória unificada e o runtime MLX

O OMLX é um mecanismo de inferência construído especificamente para o framework MLX da Apple.
A arquitetura elimina a necessidade de copiar pesos de modelos pelo barramento PCI entre CPU e GPU.
A computação preguiçosa adia operações matemáticas até o momento exato da necessidade da saída para otimizar o gráfico de cálculo.

Diferente de ferramentas generalistas, o OMLX explora a memória física compartilhada do Apple Silicon. Isso permite que a CPU leia os resultados da GPU instantaneamente através de arrays de cópia zero. O sistema foca em resolver o gargalo da taxa de transferência de memória, que é o principal limitador do hardware local atual.

Gerenciamento de cache KV e persistência em SSD

O sistema de dois níveis diferencia o contexto imediato de informações estáticas como prompts de sistema.
Dados de conversas antigas e definições de ferramentas extensas são movidos da RAM para o SSD para economizar espaço.
O OMLX opera como um sistema operacional moderno ao realizar a paginação inteligente de dados para o disco.

Enquanto softwares como o LM Studio tentam manter todo o histórico de conversas na memória ativa, o OMLX 'congela' partes do contexto no armazenamento persistente. Essa abordagem libera memória RAM valiosa para o processamento de novos tokens. O resultado é uma estabilidade maior em máquinas com pouca memória sem sacrificar a velocidade do contexto imediato.

Testes práticos de codificação e eficiência de tokens

O modelo Qwen 3.6 de 35 bilhões de parâmetros gerou um aplicativo web funcional de filmes em 20 minutos.
O uso do framework Codex CLI reduziu o consumo inicial de tokens de 16,2 mil para valores significativamente menores em comparação ao Claude Code.
A eficiência de cache de 89% permitiu que o modelo continuasse tarefas de onde parou após erros de limite de contexto.

O teste consistiu na criação de um web app com integração de API de filmes. Mesmo enfrentando erros 400 por exceder 30 mil tokens de contexto, o estado do projeto foi recuperado instantaneamente do SSD. Isso evitou alucinações comuns onde o modelo esquece o código escrito anteriormente, processando quase 1,6 milhão de tokens via cache.

Comparativo de desempenho: OMLX vs LM Studio

O OMLX superou o LM Studio em 15 minutos na execução da mesma tarefa de codificação complexa.
A velocidade média de processamento saltou de 16 tokens por segundo no LM Studio para 47 tokens por segundo no OMLX.
O uso de recursos do sistema no OMLX é leve o suficiente para permitir multitarefa durante a inferência.

Durante os testes no LM Studio, o MacBook Pro M2 ficou praticamente inutilizável para outras funções devido à saturação da RAM. No OMLX, foi possível navegar e assistir vídeos sem travamentos. Embora o LM Studio tenha demonstrado maior estabilidade na gestão de janelas de contexto sem gerar erros 400, a velocidade bruta de geração foi três vezes menor.

Veredito sobre hardware e gerenciamento de memória

O OMLX atua como uma extensão virtual da RAM ao utilizar SSDs de alta velocidade.
A ferramenta elimina a necessidade obrigatória de 128 GB de RAM para executar agentes de IA locais potentes.
O ganho de 3x na velocidade de geração justifica a necessidade ocasional de intervenção manual no contexto.

A análise conclui que a otimização de software é mais crucial do que o aumento bruto de hardware para usuários de Mac. O projeto demonstra que o gerenciamento inteligente da memória existente permite rodar modelos de larga escala de forma fluida. O uso do framework MLX é o diferencial técnico que viabiliza essa performance superior em processadores Apple.

Community Posts

Write about this video