Por que todo usuário de Mac precisa deste novo executor de modelos de IA (oMLX)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00Este é o OMLX. É um projeto muito empolgante, que é essencialmente um mecanismo
00:00:06de inferência especializado projetado para extrair cada gota de desempenho do seu Apple Silicon.
00:00:11Se você é usuário de Mac, vai ficar muito animado com este. O OMLX está essencialmente
00:00:16tentando resolver o maior gargalo que temos em hardware local, que é a taxa de memória.
00:00:21Neste vídeo, daremos uma olhada no OMLX, veremos como ele funciona e faremos um teste comparando-o
00:00:27com um dos pesos pesados, o LM Studio, para ver se esta nova ferramenta pode realmente ser o futuro
00:00:33da execução de modelos de IA locais no seu Mac. Vai ser muito divertido, então vamos nessa.
00:00:39Então, o que exatamente é o OMLX? Em essência, é um runtime construído especificamente sobre
00:00:49o framework MLX da Apple e, ao contrário de ferramentas generalistas que tentam suportar todas as GPUs,
00:00:55o MLX foi criado sob medida pela equipe do Apple Silicon para explorar a arquitetura de memória unificada
00:01:02que alimenta especificamente os Macs. Em um PC tradicional, sua CPU e sua GPU têm pools de memória separados,
00:01:09o que significa que dados como os pesos do seu modelo precisam ser constantemente copiados pelo barramento PCI.
00:01:16Mas o MLX elimina essa cópia inteiramente. Como a CPU e a GPU compartilham a mesma memória física,
00:01:22o MLX usa arrays de cópia zero. Quando a GPU termina um cálculo, a CPU pode ler os
00:01:29resultados instantaneamente sem mover um único byte. Ele também usa computação preguiçosa, o que significa que
00:01:36não executa uma operação matemática até o último segundo, quando a saída é necessária,
00:01:41o que permite otimizar todo o gráfico de cálculo em tempo real. Mas onde o OMLX difere do seu
00:01:47setup padrão do LM Studio é em como ele gerencia o cache KV. Em uma sessão típica de LLM, cada palavra
00:01:54do seu histórico de conversa precisa ser lembrada na sua cara memória RAM. Mas o OMLX introduz um
00:02:01sistema de dois níveis. Ele mantém o contexto imediato na sua memória unificada para velocidade, mas congela as
00:02:07partes mais antigas da conversa, aqueles prompts de sistema massivos e definições de ferramentas, e os move
00:02:12para o seu SSD. E quando você compara isso com o LM Studio, a diferença é imediata. E sim,
00:02:19ele é incrivelmente estável e compatível, mas o problema é que ele quer manter todo o
00:02:23histórico da memória em um estado ativo. O OMLX é mais como um sistema operacional moderno. Ele é inteligente
00:02:30o suficiente para saber quais dados precisam estar no seu cérebro agora e o que pode ser paginado para o disco. Então vamos rodar o OMLX
00:02:36e testá-lo nós mesmos. A interface é bastante intuitiva. Logo de cara, temos esta
00:02:41janela onde podemos especificar o local desejado para o nosso servidor e iniciá-lo imediatamente. Depois
00:02:47disso, somos solicitados a fornecer uma chave de API. Então vamos fazer isso. E, finalmente, chegamos a este
00:02:53dashboard, que é o ponto de entrada principal para o seu servidor OMLX. E a partir daqui, eu fui em frente e
00:03:00baixei o modelo Qwen 3.6 de 35 bilhões de parâmetros e 4 bits, que usaremos para nossos testes.
00:03:07Também configurei este repositório vazio com um arquivo agents.md onde pedirei ao modelo
00:03:13para criar um web app simples onde você pode pesquisar por filmes, adicioná-los à lista de desejos e avaliá-los
00:03:19usando sua chave de API do Movie DB. Nada muito sofisticado para esta demonstração, apenas um teste simples de código
00:03:24para ver como ele poderia realizar uma tarefa de codificação do mundo real. E na página do dashboard,
00:03:31temos a seção que nos fornece trechos de código prontos para uso para diferentes estruturas de agentes de IA
00:03:37que podemos rodar. E para esta demonstração, usarei o Codex CLI para conduzir estes testes.
00:03:42Agora, você deve estar se perguntando por que não estou apenas usando o Claude Code CLI oficial para isso. Bem,
00:03:47a realidade é que em um MacBook M2, cada token conta. E se você olhar para as estatísticas de contexto do Claude
00:03:54logo de início em uma folha totalmente em branco, o Claude Code consome cerca de 16,2 mil tokens apenas para seus próprios
00:04:02prompts de sistema e definições de ferramentas. E em uma janela de 32 mil, isso nos deixa com apenas 16 mil tokens para
00:04:09o projeto em si, o que é minúsculo quando você está construindo uma aplicação full stack. Mas, por outro
00:04:14lado, descobri que o Codex é muito mais leve. Ele não infla o peso base da conversa,
00:04:20o que nos dá uma margem mais generosa para realmente escrever código antes de atingir o teto de contexto.
00:04:26Tudo bem, agora vou iniciar o Codex com este comando simples fornecido aqui.
00:04:31E então vou dar a ele um prompt inicial simples explicando nossa tarefa e fazê-lo começar.
00:04:36E enquanto ele está processando aqui à direita, você pode ver em tempo real como esta sessão está se saindo,
00:04:42quantos tokens estão sendo produzidos, quantos deles estão sendo armazenados em cache,
00:04:46e a porcentagem geral de eficiência do cache. E também é muito útil ver quantos tokens, em
00:04:51média, são processados por segundo. No geral, levou cerca de 20 minutos para este modelo Qwen 3.6 de
00:04:5735 bilhões de parâmetros rodando no meu MacBook Pro M2 concluir esta tarefa. E isso era de se
00:05:04esperar, porque esta é uma tarefa muito pesada para este modelo. Agora, houve duas ou três
00:05:10instâncias em que recebi um erro 400 porque o prompt excedeu o limite de contexto de 30 mil no meu
00:05:17MacBook M2. Em qualquer outra ferramenta, isso seria o fim do projeto. E normalmente, se eu executasse
00:05:24o comando clear, ele limparia a memória de curto prazo da IA, muitas vezes levando a alucinações porque o modelo
00:05:29esquece o código que acabou de escrever. Mas foi aqui que o cache persistente em SSD do OMLX me impressionou.
00:05:37Mesmo tendo limpado a sessão no Codex, o estado computacional real do meu projeto
00:05:42ainda estava no meu SSD. Então, no momento em que dei ao Codex um novo prompt para continuar de onde parou,
00:05:48o OMLX reconheceu o prefixo e instantaneamente hidratou o cérebro do modelo a partir do disco. E em vez de
00:05:56alucinar ou começar do zero, ele continuou exatamente de onde parou. Portanto, a eficiência do cache
00:06:02realmente ajuda neste caso. E ao final desta tarefa, podemos ver aqui que o Qwen 3.6, com a ajuda do
00:06:08OMLX, conseguiu concluir a tarefa gerando 1,78 milhão de tokens, e cerca de 1,59 milhão
00:06:16deles foram armazenados em cache. Terminamos com 89% de eficiência de cache, o que é massivo. E quanto
00:06:22ao app em si, ele parece bem razoável. Conseguimos buscar filmes, adicioná-los à lista e
00:06:28avaliá-los. Mas, ao atualizar a página, a lista é resetada. Então, imagino que ele não
00:06:33implementou a solução de armazenamento em banco de dados corretamente, mas foi um esforço sólido no geral. Agora,
00:06:40tudo isso parece impressionante, mas eu queria saber como esse desempenho se compara a um executor de
00:06:46modelos de peso como o LM Studio. Então decidi rodar a mesma tarefa com o mesmo modelo Qwen 3.6
00:06:52usando a mesma janela de contexto e restrições para ver o desempenho. E, honestamente, eu não
00:06:58esperava por isso, mas na verdade tive um desempenho pior no LM Studio. A tarefa em si
00:07:04levou cerca de 35 minutos para terminar. Isso já são 15 minutos a mais do que no OMLX. E também notei
00:07:11que, ao rodar esta tarefa, o LM Studio estava usando cada gota de recurso do meu MacBook. Tanto que eu
00:07:17não conseguia nem assistir a um vídeo em um segundo monitor porque ele travava devido à grave falta de RAM.
00:07:23Eu não tive o mesmo problema com o OMLX porque, ao rodar nele, eu conseguia facilmente
00:07:30navegar na web, ver vídeos ou fazer qualquer outra tarefa enquanto o Codex ainda rodava em
00:07:35segundo plano. Mas isso era quase impossível de fazer no LM Studio. E olhem estas estatísticas. O que me
00:07:41chocou ainda mais foi que a velocidade média de tokens por segundo no LM Studio foi de 16. E no
00:07:47OMLX, foi de cerca de 47. Isso explica por que a tarefa levou 15 minutos a mais para terminar.
00:07:55No entanto, devo dar crédito a quem merece. O LM Studio não apresentou um único erro 400
00:08:01devido a gargalos de limite de contexto como o OMLX. Então a gestão de contexto no LM Studio é muito estável e
00:08:08está funcionando perfeitamente. E se olharmos para o resultado final, foi muito parecido. Não tive
00:08:13nenhuma animação sofisticada desta vez, mas, honestamente, parece que estamos comparando a mesma saída com diferentes
00:08:18valores de semente para a mesma tarefa no mesmo modelo. Então não vou tirar nenhuma conclusão precipitada aqui.
00:08:25É o mesmo modelo Qwen 3.6. Vocês mesmos podem julgar a saída do modelo Qwen aqui. Então qual é o
00:08:33veredito final? Bem, devo dizer que estou muito, muito impressionado com o desempenho do OMLX. Se você está em um
00:08:39MacBook com RAM limitada e quer realmente usar seu computador enquanto roda um agente de IA local em
00:08:45segundo plano, o OMLX é a ferramenta perfeita para isso. Ele efetivamente te dá uma extensão de RAM ao
00:08:52utilizar seu SSD de alta velocidade combinado com aquele excelente framework MLX que nos permite rodar modelos de forma
00:08:58mais suave no Apple Silicon. Mas sim, o erro 400 ocasional significa que você terá que ser mais
00:09:05ativo com ele e talvez usar um comando clear de vez em quando. Mas esse é o preço que se paga por uma
00:09:10velocidade de geração três vezes maior. E acho que vale muito a pena neste caso. Então esses tipos
00:09:16de projetos como o OMLX estão provando que não precisamos necessariamente de 128 gigabytes de RAM para rodar
00:09:23agentes poderosos. Só precisamos de uma maneira mais inteligente de gerenciar a memória que já temos em nossos MacBooks.
00:09:29E na verdade realizamos uma pesquisa há alguns meses e descobrimos que a maioria dos nossos espectadores são usuários de Mac.
00:09:34Então estou curioso para saber. Você já experimentou o OMLX em suas próprias máquinas? Como tem sido a
00:09:40experiência até agora? Conte para a gente na seção de comentários aqui embaixo. Então é isso pessoal.
00:09:45Esse é o OMLX em poucas palavras. E pessoal, se vocês gostam desses tipos de análises técnicas, por favor
00:09:50me avisem deixando o seu joinha embaixo do vídeo. E também não se esqueçam de se inscrever no nosso
00:09:55canal. Aqui foi o Andris da Better Stack e vejo vocês nos próximos vídeos.

Key Takeaway

O OMLX triplica a velocidade de geração de tokens em Macs com Apple Silicon ao utilizar o framework MLX e um sistema de paginação em SSD que supera gargalos de memória RAM limitada.

Highlights

  • O OMLX utiliza arrays de cópia zero para permitir que a CPU e a GPU do Mac acessem os mesmos dados na memória física sem mover um único byte.

  • A ferramenta implementa um cache KV de dois níveis que mantém o contexto imediato na RAM unificada e transfere prompts antigos e definições de ferramentas para o SSD.

  • Em testes de codificação com o modelo Qwen 3.6 de 35 bilhões de parâmetros, o OMLX atingiu 47 tokens por segundo contra 16 tokens por segundo do LM Studio.

  • O uso do OMLX permitiu a conclusão de uma tarefa de desenvolvimento de software em 20 minutos, enquanto o mesmo processo levou 35 minutos no LM Studio.

  • A eficiência do cache persistente alcançou 89% em uma sessão que gerou 1,78 milhão de tokens, hidratando o estado do modelo instantaneamente após a limpeza da janela de contexto.

  • O consumo de memória do OMLX é otimizado a ponto de permitir a navegação na web e reprodução de vídeos simultaneamente à execução de modelos locais pesados.

Timeline

Arquitetura de memória unificada e o runtime MLX

  • O OMLX é um mecanismo de inferência construído especificamente para o framework MLX da Apple.
  • A arquitetura elimina a necessidade de copiar pesos de modelos pelo barramento PCI entre CPU e GPU.
  • A computação preguiçosa adia operações matemáticas até o momento exato da necessidade da saída para otimizar o gráfico de cálculo.

Diferente de ferramentas generalistas, o OMLX explora a memória física compartilhada do Apple Silicon. Isso permite que a CPU leia os resultados da GPU instantaneamente através de arrays de cópia zero. O sistema foca em resolver o gargalo da taxa de transferência de memória, que é o principal limitador do hardware local atual.

Gerenciamento de cache KV e persistência em SSD

  • O sistema de dois níveis diferencia o contexto imediato de informações estáticas como prompts de sistema.
  • Dados de conversas antigas e definições de ferramentas extensas são movidos da RAM para o SSD para economizar espaço.
  • O OMLX opera como um sistema operacional moderno ao realizar a paginação inteligente de dados para o disco.

Enquanto softwares como o LM Studio tentam manter todo o histórico de conversas na memória ativa, o OMLX 'congela' partes do contexto no armazenamento persistente. Essa abordagem libera memória RAM valiosa para o processamento de novos tokens. O resultado é uma estabilidade maior em máquinas com pouca memória sem sacrificar a velocidade do contexto imediato.

Testes práticos de codificação e eficiência de tokens

  • O modelo Qwen 3.6 de 35 bilhões de parâmetros gerou um aplicativo web funcional de filmes em 20 minutos.
  • O uso do framework Codex CLI reduziu o consumo inicial de tokens de 16,2 mil para valores significativamente menores em comparação ao Claude Code.
  • A eficiência de cache de 89% permitiu que o modelo continuasse tarefas de onde parou após erros de limite de contexto.

O teste consistiu na criação de um web app com integração de API de filmes. Mesmo enfrentando erros 400 por exceder 30 mil tokens de contexto, o estado do projeto foi recuperado instantaneamente do SSD. Isso evitou alucinações comuns onde o modelo esquece o código escrito anteriormente, processando quase 1,6 milhão de tokens via cache.

Comparativo de desempenho: OMLX vs LM Studio

  • O OMLX superou o LM Studio em 15 minutos na execução da mesma tarefa de codificação complexa.
  • A velocidade média de processamento saltou de 16 tokens por segundo no LM Studio para 47 tokens por segundo no OMLX.
  • O uso de recursos do sistema no OMLX é leve o suficiente para permitir multitarefa durante a inferência.

Durante os testes no LM Studio, o MacBook Pro M2 ficou praticamente inutilizável para outras funções devido à saturação da RAM. No OMLX, foi possível navegar e assistir vídeos sem travamentos. Embora o LM Studio tenha demonstrado maior estabilidade na gestão de janelas de contexto sem gerar erros 400, a velocidade bruta de geração foi três vezes menor.

Veredito sobre hardware e gerenciamento de memória

  • O OMLX atua como uma extensão virtual da RAM ao utilizar SSDs de alta velocidade.
  • A ferramenta elimina a necessidade obrigatória de 128 GB de RAM para executar agentes de IA locais potentes.
  • O ganho de 3x na velocidade de geração justifica a necessidade ocasional de intervenção manual no contexto.

A análise conclui que a otimização de software é mais crucial do que o aumento bruto de hardware para usuários de Mac. O projeto demonstra que o gerenciamento inteligente da memória existente permite rodar modelos de larga escala de forma fluida. O uso do framework MLX é o diferencial técnico que viabiliza essa performance superior em processadores Apple.

Community Posts

View all posts