Por que todo usuário de Mac precisa deste novo executor de modelos de IA (oMLX)
BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술
Transcript
00:00:00Este é o OMLX. É um projeto muito empolgante, que é essencialmente um mecanismo
00:00:06de inferência especializado projetado para extrair cada gota de desempenho do seu Apple Silicon.
00:00:11Se você é usuário de Mac, vai ficar muito animado com este. O OMLX está essencialmente
00:00:16tentando resolver o maior gargalo que temos em hardware local, que é a taxa de memória.
00:00:21Neste vídeo, daremos uma olhada no OMLX, veremos como ele funciona e faremos um teste comparando-o
00:00:27com um dos pesos pesados, o LM Studio, para ver se esta nova ferramenta pode realmente ser o futuro
00:00:33da execução de modelos de IA locais no seu Mac. Vai ser muito divertido, então vamos nessa.
00:00:39Então, o que exatamente é o OMLX? Em essência, é um runtime construído especificamente sobre
00:00:49o framework MLX da Apple e, ao contrário de ferramentas generalistas que tentam suportar todas as GPUs,
00:00:55o MLX foi criado sob medida pela equipe do Apple Silicon para explorar a arquitetura de memória unificada
00:01:02que alimenta especificamente os Macs. Em um PC tradicional, sua CPU e sua GPU têm pools de memória separados,
00:01:09o que significa que dados como os pesos do seu modelo precisam ser constantemente copiados pelo barramento PCI.
00:01:16Mas o MLX elimina essa cópia inteiramente. Como a CPU e a GPU compartilham a mesma memória física,
00:01:22o MLX usa arrays de cópia zero. Quando a GPU termina um cálculo, a CPU pode ler os
00:01:29resultados instantaneamente sem mover um único byte. Ele também usa computação preguiçosa, o que significa que
00:01:36não executa uma operação matemática até o último segundo, quando a saída é necessária,
00:01:41o que permite otimizar todo o gráfico de cálculo em tempo real. Mas onde o OMLX difere do seu
00:01:47setup padrão do LM Studio é em como ele gerencia o cache KV. Em uma sessão típica de LLM, cada palavra
00:01:54do seu histórico de conversa precisa ser lembrada na sua cara memória RAM. Mas o OMLX introduz um
00:02:01sistema de dois níveis. Ele mantém o contexto imediato na sua memória unificada para velocidade, mas congela as
00:02:07partes mais antigas da conversa, aqueles prompts de sistema massivos e definições de ferramentas, e os move
00:02:12para o seu SSD. E quando você compara isso com o LM Studio, a diferença é imediata. E sim,
00:02:19ele é incrivelmente estável e compatível, mas o problema é que ele quer manter todo o
00:02:23histórico da memória em um estado ativo. O OMLX é mais como um sistema operacional moderno. Ele é inteligente
00:02:30o suficiente para saber quais dados precisam estar no seu cérebro agora e o que pode ser paginado para o disco. Então vamos rodar o OMLX
00:02:36e testá-lo nós mesmos. A interface é bastante intuitiva. Logo de cara, temos esta
00:02:41janela onde podemos especificar o local desejado para o nosso servidor e iniciá-lo imediatamente. Depois
00:02:47disso, somos solicitados a fornecer uma chave de API. Então vamos fazer isso. E, finalmente, chegamos a este
00:02:53dashboard, que é o ponto de entrada principal para o seu servidor OMLX. E a partir daqui, eu fui em frente e
00:03:00baixei o modelo Qwen 3.6 de 35 bilhões de parâmetros e 4 bits, que usaremos para nossos testes.
00:03:07Também configurei este repositório vazio com um arquivo agents.md onde pedirei ao modelo
00:03:13para criar um web app simples onde você pode pesquisar por filmes, adicioná-los à lista de desejos e avaliá-los
00:03:19usando sua chave de API do Movie DB. Nada muito sofisticado para esta demonstração, apenas um teste simples de código
00:03:24para ver como ele poderia realizar uma tarefa de codificação do mundo real. E na página do dashboard,
00:03:31temos a seção que nos fornece trechos de código prontos para uso para diferentes estruturas de agentes de IA
00:03:37que podemos rodar. E para esta demonstração, usarei o Codex CLI para conduzir estes testes.
00:03:42Agora, você deve estar se perguntando por que não estou apenas usando o Claude Code CLI oficial para isso. Bem,
00:03:47a realidade é que em um MacBook M2, cada token conta. E se você olhar para as estatísticas de contexto do Claude
00:03:54logo de início em uma folha totalmente em branco, o Claude Code consome cerca de 16,2 mil tokens apenas para seus próprios
00:04:02prompts de sistema e definições de ferramentas. E em uma janela de 32 mil, isso nos deixa com apenas 16 mil tokens para
00:04:09o projeto em si, o que é minúsculo quando você está construindo uma aplicação full stack. Mas, por outro
00:04:14lado, descobri que o Codex é muito mais leve. Ele não infla o peso base da conversa,
00:04:20o que nos dá uma margem mais generosa para realmente escrever código antes de atingir o teto de contexto.
00:04:26Tudo bem, agora vou iniciar o Codex com este comando simples fornecido aqui.
00:04:31E então vou dar a ele um prompt inicial simples explicando nossa tarefa e fazê-lo começar.
00:04:36E enquanto ele está processando aqui à direita, você pode ver em tempo real como esta sessão está se saindo,
00:04:42quantos tokens estão sendo produzidos, quantos deles estão sendo armazenados em cache,
00:04:46e a porcentagem geral de eficiência do cache. E também é muito útil ver quantos tokens, em
00:04:51média, são processados por segundo. No geral, levou cerca de 20 minutos para este modelo Qwen 3.6 de
00:04:5735 bilhões de parâmetros rodando no meu MacBook Pro M2 concluir esta tarefa. E isso era de se
00:05:04esperar, porque esta é uma tarefa muito pesada para este modelo. Agora, houve duas ou três
00:05:10instâncias em que recebi um erro 400 porque o prompt excedeu o limite de contexto de 30 mil no meu
00:05:17MacBook M2. Em qualquer outra ferramenta, isso seria o fim do projeto. E normalmente, se eu executasse
00:05:24o comando clear, ele limparia a memória de curto prazo da IA, muitas vezes levando a alucinações porque o modelo
00:05:29esquece o código que acabou de escrever. Mas foi aqui que o cache persistente em SSD do OMLX me impressionou.
00:05:37Mesmo tendo limpado a sessão no Codex, o estado computacional real do meu projeto
00:05:42ainda estava no meu SSD. Então, no momento em que dei ao Codex um novo prompt para continuar de onde parou,
00:05:48o OMLX reconheceu o prefixo e instantaneamente hidratou o cérebro do modelo a partir do disco. E em vez de
00:05:56alucinar ou começar do zero, ele continuou exatamente de onde parou. Portanto, a eficiência do cache
00:06:02realmente ajuda neste caso. E ao final desta tarefa, podemos ver aqui que o Qwen 3.6, com a ajuda do
00:06:08OMLX, conseguiu concluir a tarefa gerando 1,78 milhão de tokens, e cerca de 1,59 milhão
00:06:16deles foram armazenados em cache. Terminamos com 89% de eficiência de cache, o que é massivo. E quanto
00:06:22ao app em si, ele parece bem razoável. Conseguimos buscar filmes, adicioná-los à lista e
00:06:28avaliá-los. Mas, ao atualizar a página, a lista é resetada. Então, imagino que ele não
00:06:33implementou a solução de armazenamento em banco de dados corretamente, mas foi um esforço sólido no geral. Agora,
00:06:40tudo isso parece impressionante, mas eu queria saber como esse desempenho se compara a um executor de
00:06:46modelos de peso como o LM Studio. Então decidi rodar a mesma tarefa com o mesmo modelo Qwen 3.6
00:06:52usando a mesma janela de contexto e restrições para ver o desempenho. E, honestamente, eu não
00:06:58esperava por isso, mas na verdade tive um desempenho pior no LM Studio. A tarefa em si
00:07:04levou cerca de 35 minutos para terminar. Isso já são 15 minutos a mais do que no OMLX. E também notei
00:07:11que, ao rodar esta tarefa, o LM Studio estava usando cada gota de recurso do meu MacBook. Tanto que eu
00:07:17não conseguia nem assistir a um vídeo em um segundo monitor porque ele travava devido à grave falta de RAM.
00:07:23Eu não tive o mesmo problema com o OMLX porque, ao rodar nele, eu conseguia facilmente
00:07:30navegar na web, ver vídeos ou fazer qualquer outra tarefa enquanto o Codex ainda rodava em
00:07:35segundo plano. Mas isso era quase impossível de fazer no LM Studio. E olhem estas estatísticas. O que me
00:07:41chocou ainda mais foi que a velocidade média de tokens por segundo no LM Studio foi de 16. E no
00:07:47OMLX, foi de cerca de 47. Isso explica por que a tarefa levou 15 minutos a mais para terminar.
00:07:55No entanto, devo dar crédito a quem merece. O LM Studio não apresentou um único erro 400
00:08:01devido a gargalos de limite de contexto como o OMLX. Então a gestão de contexto no LM Studio é muito estável e
00:08:08está funcionando perfeitamente. E se olharmos para o resultado final, foi muito parecido. Não tive
00:08:13nenhuma animação sofisticada desta vez, mas, honestamente, parece que estamos comparando a mesma saída com diferentes
00:08:18valores de semente para a mesma tarefa no mesmo modelo. Então não vou tirar nenhuma conclusão precipitada aqui.
00:08:25É o mesmo modelo Qwen 3.6. Vocês mesmos podem julgar a saída do modelo Qwen aqui. Então qual é o
00:08:33veredito final? Bem, devo dizer que estou muito, muito impressionado com o desempenho do OMLX. Se você está em um
00:08:39MacBook com RAM limitada e quer realmente usar seu computador enquanto roda um agente de IA local em
00:08:45segundo plano, o OMLX é a ferramenta perfeita para isso. Ele efetivamente te dá uma extensão de RAM ao
00:08:52utilizar seu SSD de alta velocidade combinado com aquele excelente framework MLX que nos permite rodar modelos de forma
00:08:58mais suave no Apple Silicon. Mas sim, o erro 400 ocasional significa que você terá que ser mais
00:09:05ativo com ele e talvez usar um comando clear de vez em quando. Mas esse é o preço que se paga por uma
00:09:10velocidade de geração três vezes maior. E acho que vale muito a pena neste caso. Então esses tipos
00:09:16de projetos como o OMLX estão provando que não precisamos necessariamente de 128 gigabytes de RAM para rodar
00:09:23agentes poderosos. Só precisamos de uma maneira mais inteligente de gerenciar a memória que já temos em nossos MacBooks.
00:09:29E na verdade realizamos uma pesquisa há alguns meses e descobrimos que a maioria dos nossos espectadores são usuários de Mac.
00:09:34Então estou curioso para saber. Você já experimentou o OMLX em suas próprias máquinas? Como tem sido a
00:09:40experiência até agora? Conte para a gente na seção de comentários aqui embaixo. Então é isso pessoal.
00:09:45Esse é o OMLX em poucas palavras. E pessoal, se vocês gostam desses tipos de análises técnicas, por favor
00:09:50me avisem deixando o seu joinha embaixo do vídeo. E também não se esqueçam de se inscrever no nosso
00:09:55canal. Aqui foi o Andris da Better Stack e vejo vocês nos próximos vídeos.