Este Novo Motor Roda IA Local Usando 10x Menos RAM! (Cactus)

BBetter Stack
Computing/SoftwareConsumer ElectronicsCell Phones

Transcript

00:00:00Este é o Cactus. É um mecanismo de inferência de baixa latência projetado para tratar dispositivos móveis e de borda
00:00:06como cidadãos de primeira classe. Normalmente, quando tentamos executar modelos de IA em dispositivos de borda, eles
00:00:12parecem pesados, consomem muita bateria e tendem a ser encerrados pelo gerenciador de memória
00:00:18do sistema operacional móvel. Mas o Cactus tenta resolver esse problema porque foi construído especificamente
00:00:23para as restrições das unidades de processamento neural e de RAM limitada. Então, hoje vamos
00:00:28analisar o Cactus, ver como ele funciona e testá-lo em um dispositivo de borda para ver seu desempenho.
00:00:34Então vamos direto ao assunto. O maior gargalo para a IA local não é o processamento, é
00:00:44o consumo excessivo de memória. Em um dispositivo móvel padrão, o sistema operacional é extremamente agressivo
00:00:50ao encerrar aplicativos que apresentam picos no uso de RAM. Mas o Cactus resolve isso usando um mapeamento
00:00:57de memória de cópia zero. Em vez da abordagem usual, onde você carrega tudo na RAM, o Cactus mapeia
00:01:02os pesos do modelo direto do armazenamento. É um sistema de cópia zero que só puxa tensores específicos
00:01:08para o ciclo de computação ativo à medida que são necessários. Você obtém o poder de raciocínio de
00:01:13um modelo grande sem o risco de o sistema operacional fechar o seu aplicativo. E para conseguir
00:01:19isso, eles até se afastaram do formato tradicional GGUF e criaram seu próprio
00:01:24formato proprietário .CACT, que permite que esse mapeamento seja eficaz em dispositivos de borda. Mas
00:01:31o verdadeiro trabalho pesado acontece na NPU, ou unidade de processamento neural. Embora a maioria
00:01:37dos motores locais usem a GPU por padrão, o Cactus foi feito para priorizar a NPU. Se você já olhou os
00:01:43chips modernos da Apple, Qualcomm ou MediaTek, todos eles têm silício dedicado apenas para redes
00:01:50neurais. O Cactus se comunica diretamente com essas unidades, ignorando as camadas usuais de tradução
00:01:55que tornam a inferência mais lenta. E eles realmente otimizaram modelos específicos para tirar
00:02:00total vantagem dessas unidades de multiplicação de matrizes. Se você acessar o painel do Cactus,
00:02:07verá uma lista de modelos otimizados para NPU prontos para download. E outro recurso legal do Cactus
00:02:12é o roteador híbrido. Agora, a realidade é que em dispositivos de borda, os modelos locais, por mais
00:02:18otimizados que estejam, acabam atingindo um teto de raciocínio. E é aí que entra o roteador híbrido.
00:02:23Em vez de forçar você a escolher entre un modelo local rápido, mas limitado, e um modelo em nuvem
00:02:29inteligente, mas caro, o Cactus pode lidar com ambos e alternar entre eles. Ele usa
00:02:35um sistema de roteamento baseado em confiança. Se você fizer uma pergunta simples, ele permanece na
00:02:40NPU porque é rápido, privado e não custa nada. Mas se o modelo local perceber que
00:02:45a tarefa é muito complexa ou exige uma janela de contexto enorme, ele transfere automaticamente
00:02:51a solicitação específica para um modelo de fronteira na nuvem. O seu código continua o mesmo. O motor
00:02:57apenas gerencia essa transição em segundo plano. Portanto, é uma forma pronta para produção de manter os custos
00:03:03baixos sem sacrificar a experiência do usuário quando as coisas ficam complicadas. Bem, tudo isso
00:03:08parece legal, mas eu quero testar por mim mesmo. Então, na página inicial deles, há
00:03:13esta demonstração onde mostram como fazer uma transcrição em tempo real com cerca de 100 milissegundos
00:03:19de latência em um dispositivo de borda. Então eu fui lá e criei no improviso um aplicativo em Swift usando o
00:03:25pacote Swift Cactus deles, que suporta a execução de uma transcrição em tempo real usando o modelo
00:03:30de fala parakeet localmente e um modelo Gemini na nuvem. Então, vamos testar. Como vocês podem
00:03:36ver, localmente, estamos com uma média de cerca de 260 milissegundos de latência com transmissão ao vivo. E reparem,
00:03:44estou rodando isso em um modelo de iPhone mais antigo, o 12 Pro. Portanto, para um modelo antigo como esse,
00:03:50eu acho que esse desempenho na borda é muito bom. E se mudarmos para a nuvem, o Cactus muda
00:03:55para o Gemini 2.5 Flash como a alternativa em nuvem. E por algum motivo, eles não têm o mesmo
00:04:01modelo parakeet no lado da nuvem. Por isso, fui forçado a usar o Gemini. E podemos ver aqui que
00:04:06a média está em cerca de 2000 milissegundos para uma transcrição em lote de três segundos. E
00:04:12eu acho que isso já era de se esperar, porque está fazendo uma viagem de ida e volta ao servidor de dados. Mas
00:04:17realisticamente, na maioria das vezes você acabaria usando a transcrição na borda de qualquer maneira,
00:04:23mas a opção em nuvem é útil para outras tarefas, como análise pesada de imagens ou algo assim,
00:04:27que seria uma tarefa mais complexa. Então aí está, pessoal, esse é o motor Cactus em
00:04:33poucas palavras. Eu acho que eles estão fazendo algo realmente interessante aqui. Gosto de como eles estão
00:04:37pensando na otimização na borda usando uma arquitetura personalizada e amigável para NPU. E gosto
00:04:43do fato de oferecerem tantos SDKs e tantos modelos para todos os tipos de tarefas multimodais.
00:04:50Estou realmente curioso para ver como o produto deles vai evoluir. Com certeza vou ficar de olho
00:04:54no progresso deles. Mas o que vocês acham do Cactus? Já testaram? Deixem seu comentário
00:04:59aqui embaixo na seção de comentários. E, pessoal, se vocês gostam desse tipo de análise, por favor
00:05:03deixem o seu joinha clicando no botão de curtir embaixo do vídeo. E também não se esqueçam de se inscrever
00:05:08no nosso canal. Aqui é o Andris da Better Stack e vejo vocês nos próximos
00:05:13vídeos.

Key Takeaway

O motor Cactus viabiliza a execução local de grandes modelos de inteligência artificial em dispositivos móveis sem o risco de encerramento pelo sistema operacional através de mapeamento de memória de cópia zero em formato .CACT e processamento direto na NPU.

Highlights

  • O motor Cactus reduz o consumo de RAM em dispositivos móveis ao utilizar um mapeamento de memória de cópia zero que extrai tensores específicos direto do armazenamento apenas quando necessários.

  • O formato de arquivo proprietário .CACT substitui o formato tradicional GGUF para viabilizar o mapeamento eficiente de pesos de modelos de inteligência artificial em dispositivos de borda.

  • A arquitetura do motor prioriza a unidade de processamento neural (NPU) em vez da GPU, comunicando-se diretamente com os chips da Apple, Qualcomm e MediaTek sem camadas intermediárias de tradução.

  • Um sistema de roteamento híbrido baseado em confiança alterna automaticamente a execução entre a NPU local para tarefas simples e modelos de fronteira na nuvem para tarefas complexas.

  • Testes práticos em um iPhone 12 Pro registraram uma latência média de 260 milissegundos para a transcrição de fala em tempo real utilizando o modelo local Parakeet.

Timeline

Superação do gargalo de memória em dispositivos móveis

  • O consumo excessivo de RAM gera picos de uso que ativam o encerramento agressivo de aplicativos pelos sistemas operacionais móveis.
  • O mapeamento de memória de cópia zero elimina a necessidade de carregar o modelo de inteligência artificial por completo na memória RAM.
  • O formato proprietário .CACT substitui o padrão GGUF para otimizar o carregamento de pesos direto do armazenamento do dispositivo.

Dispositivos de borda enfrentam limitações severas de bateria e memória ao rodar inteligência artificial local. O formato .CACT reorganiza a estrutura dos dados para permitir que apenas os tensores ativos no ciclo de computação atual ocupem espaço na RAM. Essa abordagem impede que o gerenciador de memória do sistema operacional feche o aplicativo durante a inferência.

Otimização de silício e processamento nativo em NPU

  • O Cactus prioriza a unidade de processamento neural em vez do processamento padrão por unidade de processamento gráfico.
  • A comunicação direta com o silício da Apple, Qualcomm e MediaTek elimina o atraso causado por camadas de tradução de código.
  • Modelos específicos passam por otimização prévia para extrair a capacidade máxima das unidades de multiplicação de matrizes dos chips.

A maioria dos motores de inferência locais executa tarefas na GPU, ignorando os componentes dedicados para redes neurais presentes nos chips móveis modernos. O desvio das camadas tradicionais de tradução acelera o tempo de resposta da inteligência artificial. Um painel central disponibiliza o acesso e o download direto desses modelos configurados para a arquitetura da NPU.

Roteamento híbrido entre processamento local e nuvem

  • O teto de raciocínio dos modelos locais exige uma alternativa de processamento para comandos complexos.
  • O sistema de roteamento baseado em confiança gerencia a transição de tarefas entre o dispositivo e o servidor sem alterar o código do aplicativo.
  • Perguntas simples permanecem na NPU para garantir privacidade, velocidade e custo zero de infraestrutura.

A inteligência artificial local em dispositivos de borda possui limites físicos de processamento e tamanho de janela de contexto. O roteador híbrido resolve esse problema ao transferir requisições pesadas de forma automática para modelos de fronteira na nuvem. Essa transição ocorre em segundo plano e equilibra o custo financeiro com a experiência do usuário final.

Resultados práticos de latência em hardware legado

  • A execução local do modelo de fala Parakeet em um iPhone 12 Pro atinge uma latência média de 260 milissegundos em transmissão ao vivo.
  • A transcrição em lote de três segundos na nuvem através do Gemini 2.5 Flash eleva a latência média para 2000 milissegundos.
  • O processamento na nuvem serve como suporte para tarefas complexas como a análise pesada de imagens.

O teste prático utilizou um aplicativo construído em Swift com o SDK oficial do Cactus para medir o tempo de resposta na transcrição de áudio. A latência de 260 milissegundos em um hardware antigo demonstra a eficiência da otimização para a borda. O aumento do tempo de resposta para 2000 milissegundos na nuvem decorre do tempo de viagem dos dados até o servidor externo.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video