O Modelo de Visão Mais RÁPIDO para seu Laptop (Liquid AI LFM 2.5)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00A maioria das pessoas assume que rodar um modelo potente de visão e linguagem requer uma GPU massiva
00:00:05ou uma assinatura paga de um serviço de nuvem.
00:00:08No entanto, a Liquid AI lançou recentemente uma demo de seu mais novo modelo LFM rodando inteiramente
00:00:14dentro de um navegador web.
00:00:16Usando WebGPU e o ONNX Runtime, este modelo pode processar imagens e vídeos localmente.
00:00:23Isso significa que seus dados nunca saem do seu computador e você nem precisa de conexão com a internet
00:00:28assim que o modelo estiver em cache no seu dispositivo.
00:00:30Sinceramente, acho isso muito legal, então neste vídeo vamos dar uma olhada
00:00:34neste modelo, ver como ele se comporta, fazer um pequeno teste e descobrir se ele é realmente tão potente
00:00:40quanto anunciado.
00:00:41Vai ser muito divertido, então vamos lá.
00:00:48LFM significa Liquid Foundation Model (Modelo de Fundação Líquido).
00:00:52E em vez de depender apenas da arquitetura de transformadores, a Liquid AI usa um design híbrido.
00:00:58Ele combina blocos convolucionais com algo chamado grouped query attention.
00:01:03O modelo de 1,6 bilhão de parâmetros é ajustado especificamente para visão e linguagem.
00:01:09Ele é treinado em um conjunto de dados massivo de 28 trilhões de tokens, o que o ajuda a superar
00:01:15sua categoria.
00:01:16Nos benchmarks, ele frequentemente iguala o desempenho de modelos com o dobro do seu tamanho, sendo
00:01:21significativamente mais rápido em dispositivos de borda, como laptops e celulares.
00:01:26Agora você deve estar se perguntando: como eles conseguiram encolher esse nível de inteligência em um pacote
00:01:31que cabe em menos de um gigabyte de RAM?
00:01:34Ao contrário de outros modelos minúsculos que usam versões podadas ou comprimidas de modelos gigantes em nuvem,
00:01:40a Liquid AI usa uma filosofia chamada eficiência por design.
00:01:44O "liquid" no nome refere-se à arquitetura linear de entrada variável, ou LIV.
00:01:51Enquanto os transformadores tradicionais têm uma memória que cresce conforme você interage com eles,
00:01:56o modelo Liquid usa um sistema híbrido de blocos convolucionais adaptativos.
00:02:01Esses blocos basicamente agem como filtros inteligentes que processam apenas a informação local mais relevante,
00:02:07comprimindo efetivamente os dados conforme eles fluem pelo modelo.
00:02:11Isso permite que o LFM mantenha sua janela de contexto massiva de 32.000 tokens sem a lentidão exponencial
00:02:18ou picos de memória comuns em transformadores tradicionais.
00:02:23E há detalhes técnicos específicos que fazem este modelo se destacar dos demais.
00:02:28Primeiro, ele possui uma resolução nativa.
00:02:30Ele lida com imagens de até 512 por 512 pixels sem distorção ou upscaling.
00:02:37Para imagens maiores, utiliza uma estratégia de ladrilhamento, que divide a imagem em partes
00:02:42mantendo uma miniatura para o contexto global.
00:02:46Segundo, ele é muito eficiente.
00:02:47Devido à sua arquitetura híbrida, oferece um consumo de memória muito baixo, rodando frequentemente
00:02:52com menos de um gigabyte de RAM.
00:02:54Mas acho que o mais impressionante é a integração com WebGPU.
00:02:58A demo no Hugging Face Spaces mostra como você pode usá-lo para legendagem de webcam em tempo real.
00:03:04Então, vamos testar por conta própria e ver qual é o desempenho.
00:03:08Certo, vamos ver como essa coisa realmente funciona.
00:03:11Acho que devemos escolher qual modelo de visão queremos carregar.
00:03:15Vamos tentar o mais potente com FP16.
00:03:18E vamos carregar isso.
00:03:20Agora, este modelo leva um tempo considerável para baixar.
00:03:23E tudo isso está sendo baixado no seu dispositivo.
00:03:25Assim, na próxima vez que você abrir a aplicação, tudo estará em cache.
00:03:28Tudo certo.
00:03:29Agora baixamos o modelo de quantização FP16.
00:03:34E vamos clicar em iniciar para ver como funciona.
00:03:36Ah, olhe só.
00:03:38Um homem com barba e um casaco com capuz está olhando para a câmera.
00:03:40Ok, ele é capaz de detectar que tipo de objetos estão presentes no vídeo, o que é
00:03:45muito legal.
00:03:46Então podemos fazer detecção de objetos.
00:03:50Vejamos se ele consegue detectar um celular.
00:03:51Sim, ele detecta que estou segurando um iPhone com uma capa preta.
00:03:57Isso é bem legal.
00:03:58Vejam só.
00:04:00Está fazendo isso realmente em tempo real.
00:04:02Estou impressionado.
00:04:04E se eu fizer isso?
00:04:05Ele reconhece alguém fazendo um sinal de paz com a mão?
00:04:10Isso é muito bacana.
00:04:12E se eu fizer um sinal de positivo?
00:04:13Sim, está detectando o positivo.
00:04:15O modelo detecta tudo o que estou fazendo em tempo real.
00:04:18Vejamos se ele detecta meu microfone.
00:04:21Oh, ele até detecta que há algo escrito nele.
00:04:24Uau, ele consegue até ler o texto na caixa, o que é muito, muito legal.
00:04:29O fato de obtermos essas legendas em tempo real mostra que este modelo
00:04:33é muito potente.
00:04:35Deixe-me tentar desligar a conexão com a internet para ver se ainda funciona.
00:04:40Agora desliguei o wi-fi e, sim, ainda estamos recebendo as mesmas respostas, o que é
00:04:50incrível.
00:04:51Então aí está, pessoal.
00:04:52Esse é o mais novo Liquid Foundation Model em poucas palavras.
00:04:56Acho impressionante o quanto esses modelos de IA evoluíram em termos de quantização
00:05:01e a capacidade de rodá-los em dispositivos de borda como o meu laptop aqui.
00:05:05Acho que há apenas dois anos, não acreditaríamos que isso pudesse ser realidade, mas agora
00:05:10está se tornando cada vez mais comum rodar esses modelos via WebGPU.
00:05:14E você, o que acha do Liquid Foundation Model?
00:05:16Já experimentou?
00:05:17Pretende usar?
00:05:18Quais são os melhores casos de uso para um modelo assim?
00:05:21Conte para a gente o que você acha na seção de comentários abaixo.
00:05:23E pessoal, se vocês gostam desse tipo de análise técnica, por favor, deixem seu apoio
00:05:27clicando no botão de curtir abaixo do vídeo e não se esqueçam de se inscrever no canal.
00:05:32Aqui é o Andris, da Better Stack, e vejo vocês nos próximos vídeos.

Key Takeaway

O Liquid Foundation Model 2.5 redefine a IA de borda ao permitir que modelos de visão complexos rodem localmente no navegador com alta velocidade e baixo consumo de hardware.

Highlights

O Liquid AI LFM 2.5 funciona inteiramente no navegador via WebGPU e ONNX Runtime.

Arquitetura híbrida que combina blocos convolucionais com grouped query attention para maior eficiência.

Modelo de 1,6 bilhão de parâmetros treinado em um conjunto massivo de 28 trilhões de tokens.

Consumo extremamente baixo de memória, operando com menos de 1 GB de RAM.

Capacidade de processamento local que garante privacidade total e funcionamento sem internet.

Resolução nativa de 512x512 com estratégia de ladrilhamento para imagens maiores.

Desempenho em tempo real para legendagem de vídeo e detecção de objetos em laptops comuns.

Timeline

Introdução ao Liquid AI LFM no Navegador

O vídeo começa desafiando a ideia de que modelos de visão potentes exigem GPUs massivas ou serviços de nuvem caros. O apresentador introduz o modelo LFM da Liquid AI, que roda localmente usando WebGPU e o ONNX Runtime. Esta abordagem garante que os dados do usuário nunca saiam do computador, oferecendo privacidade e funcionalidade offline. O objetivo do vídeo é testar se o modelo cumpre a promessa de ser tão potente quanto anunciado. É destacado que, uma vez em cache, o sistema não depende mais de conexão com a rede.

Arquitetura e Filosofia 'Efficiency by Design'

Nesta seção, explica-se que LFM significa Liquid Foundation Model e utiliza um design híbrido inovador. Em vez de focar apenas em transformadores, a arquitetura combina blocos convolucionais com a tecnologia de 'grouped query attention'. O modelo possui 1,6 bilhão de parâmetros e foi treinado em uma base de 28 trilhões de tokens, permitindo superar concorrentes maiores. Benchmarks indicam que ele iguala o desempenho de modelos com o dobro do seu tamanho. A eficiência é o pilar central, permitindo que ele brilhe em dispositivos de borda como celulares e laptops.

Inovação Técnica e Gestão de Memória

O apresentador detalha como a Liquid AI conseguiu comprimir tanta inteligência em um pacote que utiliza menos de 1 GB de RAM. A arquitetura LIV (Linear Input Variable) é apresentada como uma alternativa aos transformadores tradicionais, cuja memória cresce conforme a interação. O sistema utiliza blocos convolucionais adaptativos que agem como filtros inteligentes para processar apenas informações locais relevantes. Isso permite manter uma janela de contexto de 32.000 tokens sem a lentidão exponencial ou picos de memória. Essa engenharia de design evita o uso de versões meramente 'podadas' de modelos maiores.

Recursos de Visão e Resolução Nativa

São discutidos os detalhes técnicos que fazem o modelo se destacar na categoria de visão computacional. O LFM possui uma resolução nativa de 512 por 512 pixels, processando imagens sem distorções ou necessidade de upscaling artificial. Para arquivos maiores, o modelo emprega uma técnica de ladrilhamento que divide a imagem enquanto mantém uma miniatura para contexto global. A integração com WebGPU é citada como o fator que viabiliza a legendagem de webcam em tempo real. O baixo consumo de recursos é o que permite a execução fluida diretamente no Hugging Face Spaces.

Demonstração Prática e Testes de Campo

O apresentador realiza um teste prático carregando o modelo na versão FP16 diretamente em seu dispositivo. Após o download inicial para o cache, o modelo demonstra ser capaz de descrever o apresentador e os objetos ao redor instantaneamente. Ele identifica com precisão um iPhone com capa preta, sinais de mãos como 'paz' e 'positivo', e até lê textos em caixas. A detecção de objetos ocorre em tempo real, provando a potência do processamento local. O teste demonstra que o modelo é capaz de discernir detalhes específicos do ambiente com alta fidelidade.

Teste Offline e Considerações Finais

Para provar a independência do modelo, o apresentador desliga a conexão wi-fi e mostra que as respostas continuam sendo geradas normalmente. Ele expressa sua admiração pela evolução da IA e da quantização nos últimos dois anos, tornando comum o que antes parecia impossível. O vídeo encerra questionando os espectadores sobre os possíveis casos de uso para essa tecnologia em dispositivos locais. Há um convite para a interação nos comentários sobre a utilidade de modelos via WebGPU. Por fim, o apresentador Andris, da Better Stack, solicita o apoio do público e encerra a análise técnica.

Community Posts

View all posts