Transcript
00:00:00Este é o Cactus. É um mecanismo de inferência de baixa latência projetado para tratar dispositivos móveis e de borda
00:00:06como cidadãos de primeira classe. Normalmente, quando tentamos executar modelos de IA em dispositivos de borda, eles
00:00:12parecem pesados, consomem muita bateria e tendem a ser encerrados pelo gerenciador de memória
00:00:18do sistema operacional móvel. Mas o Cactus tenta resolver esse problema porque foi construído especificamente
00:00:23para as restrições das unidades de processamento neural e de RAM limitada. Então, hoje vamos
00:00:28analisar o Cactus, ver como ele funciona e testá-lo em um dispositivo de borda para ver seu desempenho.
00:00:34Então vamos direto ao assunto. O maior gargalo para a IA local não é o processamento, é
00:00:44o consumo excessivo de memória. Em um dispositivo móvel padrão, o sistema operacional é extremamente agressivo
00:00:50ao encerrar aplicativos que apresentam picos no uso de RAM. Mas o Cactus resolve isso usando um mapeamento
00:00:57de memória de cópia zero. Em vez da abordagem usual, onde você carrega tudo na RAM, o Cactus mapeia
00:01:02os pesos do modelo direto do armazenamento. É um sistema de cópia zero que só puxa tensores específicos
00:01:08para o ciclo de computação ativo à medida que são necessários. Você obtém o poder de raciocínio de
00:01:13um modelo grande sem o risco de o sistema operacional fechar o seu aplicativo. E para conseguir
00:01:19isso, eles até se afastaram do formato tradicional GGUF e criaram seu próprio
00:01:24formato proprietário .CACT, que permite que esse mapeamento seja eficaz em dispositivos de borda. Mas
00:01:31o verdadeiro trabalho pesado acontece na NPU, ou unidade de processamento neural. Embora a maioria
00:01:37dos motores locais usem a GPU por padrão, o Cactus foi feito para priorizar a NPU. Se você já olhou os
00:01:43chips modernos da Apple, Qualcomm ou MediaTek, todos eles têm silício dedicado apenas para redes
00:01:50neurais. O Cactus se comunica diretamente com essas unidades, ignorando as camadas usuais de tradução
00:01:55que tornam a inferência mais lenta. E eles realmente otimizaram modelos específicos para tirar
00:02:00total vantagem dessas unidades de multiplicação de matrizes. Se você acessar o painel do Cactus,
00:02:07verá uma lista de modelos otimizados para NPU prontos para download. E outro recurso legal do Cactus
00:02:12é o roteador híbrido. Agora, a realidade é que em dispositivos de borda, os modelos locais, por mais
00:02:18otimizados que estejam, acabam atingindo um teto de raciocínio. E é aí que entra o roteador híbrido.
00:02:23Em vez de forçar você a escolher entre un modelo local rápido, mas limitado, e um modelo em nuvem
00:02:29inteligente, mas caro, o Cactus pode lidar com ambos e alternar entre eles. Ele usa
00:02:35um sistema de roteamento baseado em confiança. Se você fizer uma pergunta simples, ele permanece na
00:02:40NPU porque é rápido, privado e não custa nada. Mas se o modelo local perceber que
00:02:45a tarefa é muito complexa ou exige uma janela de contexto enorme, ele transfere automaticamente
00:02:51a solicitação específica para um modelo de fronteira na nuvem. O seu código continua o mesmo. O motor
00:02:57apenas gerencia essa transição em segundo plano. Portanto, é uma forma pronta para produção de manter os custos
00:03:03baixos sem sacrificar a experiência do usuário quando as coisas ficam complicadas. Bem, tudo isso
00:03:08parece legal, mas eu quero testar por mim mesmo. Então, na página inicial deles, há
00:03:13esta demonstração onde mostram como fazer uma transcrição em tempo real com cerca de 100 milissegundos
00:03:19de latência em um dispositivo de borda. Então eu fui lá e criei no improviso um aplicativo em Swift usando o
00:03:25pacote Swift Cactus deles, que suporta a execução de uma transcrição em tempo real usando o modelo
00:03:30de fala parakeet localmente e um modelo Gemini na nuvem. Então, vamos testar. Como vocês podem
00:03:36ver, localmente, estamos com uma média de cerca de 260 milissegundos de latência com transmissão ao vivo. E reparem,
00:03:44estou rodando isso em um modelo de iPhone mais antigo, o 12 Pro. Portanto, para um modelo antigo como esse,
00:03:50eu acho que esse desempenho na borda é muito bom. E se mudarmos para a nuvem, o Cactus muda
00:03:55para o Gemini 2.5 Flash como a alternativa em nuvem. E por algum motivo, eles não têm o mesmo
00:04:01modelo parakeet no lado da nuvem. Por isso, fui forçado a usar o Gemini. E podemos ver aqui que
00:04:06a média está em cerca de 2000 milissegundos para uma transcrição em lote de três segundos. E
00:04:12eu acho que isso já era de se esperar, porque está fazendo uma viagem de ida e volta ao servidor de dados. Mas
00:04:17realisticamente, na maioria das vezes você acabaria usando a transcrição na borda de qualquer maneira,
00:04:23mas a opção em nuvem é útil para outras tarefas, como análise pesada de imagens ou algo assim,
00:04:27que seria uma tarefa mais complexa. Então aí está, pessoal, esse é o motor Cactus em
00:04:33poucas palavras. Eu acho que eles estão fazendo algo realmente interessante aqui. Gosto de como eles estão
00:04:37pensando na otimização na borda usando uma arquitetura personalizada e amigável para NPU. E gosto
00:04:43do fato de oferecerem tantos SDKs e tantos modelos para todos os tipos de tarefas multimodais.
00:04:50Estou realmente curioso para ver como o produto deles vai evoluir. Com certeza vou ficar de olho
00:04:54no progresso deles. Mas o que vocês acham do Cactus? Já testaram? Deixem seu comentário
00:04:59aqui embaixo na seção de comentários. E, pessoal, se vocês gostam desse tipo de análise, por favor
00:05:03deixem o seu joinha clicando no botão de curtir embaixo do vídeo. E também não se esqueçam de se inscrever
00:05:08no nosso canal. Aqui é o Andris da Better Stack e vejo vocês nos próximos
00:05:13vídeos.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video