O Modelo de Visão Mais RÁPIDO para seu Laptop (Liquid AI LFM 2.5)

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00A maioria das pessoas assume que rodar um modelo potente de visão e linguagem requer uma GPU massiva
00:00:05ou uma assinatura paga de um serviço de nuvem.
00:00:08No entanto, a Liquid AI lançou recentemente uma demo de seu mais novo modelo LFM rodando inteiramente
00:00:14dentro de um navegador web.
00:00:16Usando WebGPU e o ONNX Runtime, este modelo pode processar imagens e vídeos localmente.
00:00:23Isso significa que seus dados nunca saem do seu computador e você nem precisa de conexão com a internet
00:00:28assim que o modelo estiver em cache no seu dispositivo.
00:00:30Sinceramente, acho isso muito legal, então neste vídeo vamos dar uma olhada
00:00:34neste modelo, ver como ele se comporta, fazer um pequeno teste e descobrir se ele é realmente tão potente
00:00:40quanto anunciado.
00:00:41Vai ser muito divertido, então vamos lá.
00:00:48LFM significa Liquid Foundation Model (Modelo de Fundação Líquido).
00:00:52E em vez de depender apenas da arquitetura de transformadores, a Liquid AI usa um design híbrido.
00:00:58Ele combina blocos convolucionais com algo chamado grouped query attention.
00:01:03O modelo de 1,6 bilhão de parâmetros é ajustado especificamente para visão e linguagem.
00:01:09Ele é treinado em um conjunto de dados massivo de 28 trilhões de tokens, o que o ajuda a superar
00:01:15sua categoria.
00:01:16Nos benchmarks, ele frequentemente iguala o desempenho de modelos com o dobro do seu tamanho, sendo
00:01:21significativamente mais rápido em dispositivos de borda, como laptops e celulares.
00:01:26Agora você deve estar se perguntando: como eles conseguiram encolher esse nível de inteligência em um pacote
00:01:31que cabe em menos de um gigabyte de RAM?
00:01:34Ao contrário de outros modelos minúsculos que usam versões podadas ou comprimidas de modelos gigantes em nuvem,
00:01:40a Liquid AI usa uma filosofia chamada eficiência por design.
00:01:44O "liquid" no nome refere-se à arquitetura linear de entrada variável, ou LIV.
00:01:51Enquanto os transformadores tradicionais têm uma memória que cresce conforme você interage com eles,
00:01:56o modelo Liquid usa um sistema híbrido de blocos convolucionais adaptativos.
00:02:01Esses blocos basicamente agem como filtros inteligentes que processam apenas a informação local mais relevante,
00:02:07comprimindo efetivamente os dados conforme eles fluem pelo modelo.
00:02:11Isso permite que o LFM mantenha sua janela de contexto massiva de 32.000 tokens sem a lentidão exponencial
00:02:18ou picos de memória comuns em transformadores tradicionais.
00:02:23E há detalhes técnicos específicos que fazem este modelo se destacar dos demais.
00:02:28Primeiro, ele possui uma resolução nativa.
00:02:30Ele lida com imagens de até 512 por 512 pixels sem distorção ou upscaling.
00:02:37Para imagens maiores, utiliza uma estratégia de ladrilhamento, que divide a imagem em partes
00:02:42mantendo uma miniatura para o contexto global.
00:02:46Segundo, ele é muito eficiente.
00:02:47Devido à sua arquitetura híbrida, oferece um consumo de memória muito baixo, rodando frequentemente
00:02:52com menos de um gigabyte de RAM.
00:02:54Mas acho que o mais impressionante é a integração com WebGPU.
00:02:58A demo no Hugging Face Spaces mostra como você pode usá-lo para legendagem de webcam em tempo real.
00:03:04Então, vamos testar por conta própria e ver qual é o desempenho.
00:03:08Certo, vamos ver como essa coisa realmente funciona.
00:03:11Acho que devemos escolher qual modelo de visão queremos carregar.
00:03:15Vamos tentar o mais potente com FP16.
00:03:18E vamos carregar isso.
00:03:20Agora, este modelo leva um tempo considerável para baixar.
00:03:23E tudo isso está sendo baixado no seu dispositivo.
00:03:25Assim, na próxima vez que você abrir a aplicação, tudo estará em cache.
00:03:28Tudo certo.
00:03:29Agora baixamos o modelo de quantização FP16.
00:03:34E vamos clicar em iniciar para ver como funciona.
00:03:36Ah, olhe só.
00:03:38Um homem com barba e um casaco com capuz está olhando para a câmera.
00:03:40Ok, ele é capaz de detectar que tipo de objetos estão presentes no vídeo, o que é
00:03:45muito legal.
00:03:46Então podemos fazer detecção de objetos.
00:03:50Vejamos se ele consegue detectar um celular.
00:03:51Sim, ele detecta que estou segurando um iPhone com uma capa preta.
00:03:57Isso é bem legal.
00:03:58Vejam só.
00:04:00Está fazendo isso realmente em tempo real.
00:04:02Estou impressionado.
00:04:04E se eu fizer isso?
00:04:05Ele reconhece alguém fazendo um sinal de paz com a mão?
00:04:10Isso é muito bacana.
00:04:12E se eu fizer um sinal de positivo?
00:04:13Sim, está detectando o positivo.
00:04:15O modelo detecta tudo o que estou fazendo em tempo real.
00:04:18Vejamos se ele detecta meu microfone.
00:04:21Oh, ele até detecta que há algo escrito nele.
00:04:24Uau, ele consegue até ler o texto na caixa, o que é muito, muito legal.
00:04:29O fato de obtermos essas legendas em tempo real mostra que este modelo
00:04:33é muito potente.
00:04:35Deixe-me tentar desligar a conexão com a internet para ver se ainda funciona.
00:04:40Agora desliguei o wi-fi e, sim, ainda estamos recebendo as mesmas respostas, o que é
00:04:50incrível.
00:04:51Então aí está, pessoal.
00:04:52Esse é o mais novo Liquid Foundation Model em poucas palavras.
00:04:56Acho impressionante o quanto esses modelos de IA evoluíram em termos de quantização
00:05:01e a capacidade de rodá-los em dispositivos de borda como o meu laptop aqui.
00:05:05Acho que há apenas dois anos, não acreditaríamos que isso pudesse ser realidade, mas agora
00:05:10está se tornando cada vez mais comum rodar esses modelos via WebGPU.
00:05:14E você, o que acha do Liquid Foundation Model?
00:05:16Já experimentou?
00:05:17Pretende usar?
00:05:18Quais são os melhores casos de uso para um modelo assim?
00:05:21Conte para a gente o que você acha na seção de comentários abaixo.
00:05:23E pessoal, se vocês gostam desse tipo de análise técnica, por favor, deixem seu apoio
00:05:27clicando no botão de curtir abaixo do vídeo e não se esqueçam de se inscrever no canal.
00:05:32Aqui é o Andris, da Better Stack, e vejo vocês nos próximos vídeos.

Key Takeaway

O Liquid Foundation Model 2.5 redefine a IA de borda ao permitir que modelos de visão complexos rodem localmente no navegador com alta velocidade e baixo consumo de hardware.

Highlights

  • O Liquid AI LFM 2.5 funciona inteiramente no navegador via WebGPU e ONNX Runtime.

  • Arquitetura híbrida que combina blocos convolucionais com grouped query attention para maior eficiência.

  • Modelo de 1,6 bilhão de parâmetros treinado em um conjunto massivo de 28 trilhões de tokens.

  • Consumo extremamente baixo de memória, operando com menos de 1 GB de RAM.

  • Capacidade de processamento local que garante privacidade total e funcionamento sem internet.

  • Resolução nativa de 512x512 com estratégia de ladrilhamento para imagens maiores.

  • Desempenho em tempo real para legendagem de vídeo e detecção de objetos em laptops comuns.

Timeline

Introdução ao Liquid AI LFM no Navegador

O vídeo começa desafiando a ideia de que modelos de visão potentes exigem GPUs massivas ou serviços de nuvem caros. O apresentador introduz o modelo LFM da Liquid AI, que roda localmente usando WebGPU e o ONNX Runtime. Esta abordagem garante que os dados do usuário nunca saiam do computador, oferecendo privacidade e funcionalidade offline. O objetivo do vídeo é testar se o modelo cumpre a promessa de ser tão potente quanto anunciado. É destacado que, uma vez em cache, o sistema não depende mais de conexão com a rede.

Arquitetura e Filosofia 'Efficiency by Design'

Nesta seção, explica-se que LFM significa Liquid Foundation Model e utiliza um design híbrido inovador. Em vez de focar apenas em transformadores, a arquitetura combina blocos convolucionais com a tecnologia de 'grouped query attention'. O modelo possui 1,6 bilhão de parâmetros e foi treinado em uma base de 28 trilhões de tokens, permitindo superar concorrentes maiores. Benchmarks indicam que ele iguala o desempenho de modelos com o dobro do seu tamanho. A eficiência é o pilar central, permitindo que ele brilhe em dispositivos de borda como celulares e laptops.

Inovação Técnica e Gestão de Memória

O apresentador detalha como a Liquid AI conseguiu comprimir tanta inteligência em um pacote que utiliza menos de 1 GB de RAM. A arquitetura LIV (Linear Input Variable) é apresentada como uma alternativa aos transformadores tradicionais, cuja memória cresce conforme a interação. O sistema utiliza blocos convolucionais adaptativos que agem como filtros inteligentes para processar apenas informações locais relevantes. Isso permite manter uma janela de contexto de 32.000 tokens sem a lentidão exponencial ou picos de memória. Essa engenharia de design evita o uso de versões meramente 'podadas' de modelos maiores.

Recursos de Visão e Resolução Nativa

São discutidos os detalhes técnicos que fazem o modelo se destacar na categoria de visão computacional. O LFM possui uma resolução nativa de 512 por 512 pixels, processando imagens sem distorções ou necessidade de upscaling artificial. Para arquivos maiores, o modelo emprega uma técnica de ladrilhamento que divide a imagem enquanto mantém uma miniatura para contexto global. A integração com WebGPU é citada como o fator que viabiliza a legendagem de webcam em tempo real. O baixo consumo de recursos é o que permite a execução fluida diretamente no Hugging Face Spaces.

Demonstração Prática e Testes de Campo

O apresentador realiza um teste prático carregando o modelo na versão FP16 diretamente em seu dispositivo. Após o download inicial para o cache, o modelo demonstra ser capaz de descrever o apresentador e os objetos ao redor instantaneamente. Ele identifica com precisão um iPhone com capa preta, sinais de mãos como 'paz' e 'positivo', e até lê textos em caixas. A detecção de objetos ocorre em tempo real, provando a potência do processamento local. O teste demonstra que o modelo é capaz de discernir detalhes específicos do ambiente com alta fidelidade.

Teste Offline e Considerações Finais

Para provar a independência do modelo, o apresentador desliga a conexão wi-fi e mostra que as respostas continuam sendo geradas normalmente. Ele expressa sua admiração pela evolução da IA e da quantização nos últimos dois anos, tornando comum o que antes parecia impossível. O vídeo encerra questionando os espectadores sobre os possíveis casos de uso para essa tecnologia em dispositivos locais. Há um convite para a interação nos comentários sobre a utilidade de modelos via WebGPU. Por fim, o apresentador Andris, da Better Stack, solicita o apoio do público e encerra a análise técnica.

Community Posts

View all posts