00:00:00A maioria das pessoas assume que rodar um modelo potente de visão e linguagem requer uma GPU massiva
00:00:05ou uma assinatura paga de um serviço de nuvem.
00:00:08No entanto, a Liquid AI lançou recentemente uma demo de seu mais novo modelo LFM rodando inteiramente
00:00:14dentro de um navegador web.
00:00:16Usando WebGPU e o ONNX Runtime, este modelo pode processar imagens e vídeos localmente.
00:00:23Isso significa que seus dados nunca saem do seu computador e você nem precisa de conexão com a internet
00:00:28assim que o modelo estiver em cache no seu dispositivo.
00:00:30Sinceramente, acho isso muito legal, então neste vídeo vamos dar uma olhada
00:00:34neste modelo, ver como ele se comporta, fazer um pequeno teste e descobrir se ele é realmente tão potente
00:00:40quanto anunciado.
00:00:41Vai ser muito divertido, então vamos lá.
00:00:48LFM significa Liquid Foundation Model (Modelo de Fundação Líquido).
00:00:52E em vez de depender apenas da arquitetura de transformadores, a Liquid AI usa um design híbrido.
00:00:58Ele combina blocos convolucionais com algo chamado grouped query attention.
00:01:03O modelo de 1,6 bilhão de parâmetros é ajustado especificamente para visão e linguagem.
00:01:09Ele é treinado em um conjunto de dados massivo de 28 trilhões de tokens, o que o ajuda a superar
00:01:15sua categoria.
00:01:16Nos benchmarks, ele frequentemente iguala o desempenho de modelos com o dobro do seu tamanho, sendo
00:01:21significativamente mais rápido em dispositivos de borda, como laptops e celulares.
00:01:26Agora você deve estar se perguntando: como eles conseguiram encolher esse nível de inteligência em um pacote
00:01:31que cabe em menos de um gigabyte de RAM?
00:01:34Ao contrário de outros modelos minúsculos que usam versões podadas ou comprimidas de modelos gigantes em nuvem,
00:01:40a Liquid AI usa uma filosofia chamada eficiência por design.
00:01:44O "liquid" no nome refere-se à arquitetura linear de entrada variável, ou LIV.
00:01:51Enquanto os transformadores tradicionais têm uma memória que cresce conforme você interage com eles,
00:01:56o modelo Liquid usa um sistema híbrido de blocos convolucionais adaptativos.
00:02:01Esses blocos basicamente agem como filtros inteligentes que processam apenas a informação local mais relevante,
00:02:07comprimindo efetivamente os dados conforme eles fluem pelo modelo.
00:02:11Isso permite que o LFM mantenha sua janela de contexto massiva de 32.000 tokens sem a lentidão exponencial
00:02:18ou picos de memória comuns em transformadores tradicionais.
00:02:23E há detalhes técnicos específicos que fazem este modelo se destacar dos demais.
00:02:28Primeiro, ele possui uma resolução nativa.
00:02:30Ele lida com imagens de até 512 por 512 pixels sem distorção ou upscaling.
00:02:37Para imagens maiores, utiliza uma estratégia de ladrilhamento, que divide a imagem em partes
00:02:42mantendo uma miniatura para o contexto global.
00:02:46Segundo, ele é muito eficiente.
00:02:47Devido à sua arquitetura híbrida, oferece um consumo de memória muito baixo, rodando frequentemente
00:02:52com menos de um gigabyte de RAM.
00:02:54Mas acho que o mais impressionante é a integração com WebGPU.
00:02:58A demo no Hugging Face Spaces mostra como você pode usá-lo para legendagem de webcam em tempo real.
00:03:04Então, vamos testar por conta própria e ver qual é o desempenho.
00:03:08Certo, vamos ver como essa coisa realmente funciona.
00:03:11Acho que devemos escolher qual modelo de visão queremos carregar.
00:03:15Vamos tentar o mais potente com FP16.
00:03:18E vamos carregar isso.
00:03:20Agora, este modelo leva um tempo considerável para baixar.
00:03:23E tudo isso está sendo baixado no seu dispositivo.
00:03:25Assim, na próxima vez que você abrir a aplicação, tudo estará em cache.
00:03:28Tudo certo.
00:03:29Agora baixamos o modelo de quantização FP16.
00:03:34E vamos clicar em iniciar para ver como funciona.
00:03:36Ah, olhe só.
00:03:38Um homem com barba e um casaco com capuz está olhando para a câmera.
00:03:40Ok, ele é capaz de detectar que tipo de objetos estão presentes no vídeo, o que é
00:03:45muito legal.
00:03:46Então podemos fazer detecção de objetos.
00:03:50Vejamos se ele consegue detectar um celular.
00:03:51Sim, ele detecta que estou segurando um iPhone com uma capa preta.
00:03:57Isso é bem legal.
00:03:58Vejam só.
00:04:00Está fazendo isso realmente em tempo real.
00:04:02Estou impressionado.
00:04:04E se eu fizer isso?
00:04:05Ele reconhece alguém fazendo um sinal de paz com a mão?
00:04:10Isso é muito bacana.
00:04:12E se eu fizer um sinal de positivo?
00:04:13Sim, está detectando o positivo.
00:04:15O modelo detecta tudo o que estou fazendo em tempo real.
00:04:18Vejamos se ele detecta meu microfone.
00:04:21Oh, ele até detecta que há algo escrito nele.
00:04:24Uau, ele consegue até ler o texto na caixa, o que é muito, muito legal.
00:04:29O fato de obtermos essas legendas em tempo real mostra que este modelo
00:04:33é muito potente.
00:04:35Deixe-me tentar desligar a conexão com a internet para ver se ainda funciona.
00:04:40Agora desliguei o wi-fi e, sim, ainda estamos recebendo as mesmas respostas, o que é
00:04:50incrível.
00:04:51Então aí está, pessoal.
00:04:52Esse é o mais novo Liquid Foundation Model em poucas palavras.
00:04:56Acho impressionante o quanto esses modelos de IA evoluíram em termos de quantização
00:05:01e a capacidade de rodá-los em dispositivos de borda como o meu laptop aqui.
00:05:05Acho que há apenas dois anos, não acreditaríamos que isso pudesse ser realidade, mas agora
00:05:10está se tornando cada vez mais comum rodar esses modelos via WebGPU.
00:05:14E você, o que acha do Liquid Foundation Model?
00:05:16Já experimentou?
00:05:17Pretende usar?
00:05:18Quais são os melhores casos de uso para um modelo assim?
00:05:21Conte para a gente o que você acha na seção de comentários abaixo.
00:05:23E pessoal, se vocês gostam desse tipo de análise técnica, por favor, deixem seu apoio
00:05:27clicando no botão de curtir abaixo do vídeo e não se esqueçam de se inscrever no canal.
00:05:32Aqui é o Andris, da Better Stack, e vejo vocês nos próximos vídeos.