O Google acaba de resolver o maior problema da IA multimodal (Gemma 4 12B)
BBetter Stack
Computing/SoftwareConsumer Electronics
Transcript
00:00:00O Google acabou de revelar seu mais novo modelo Gemma 4 de 12 bilhões de parâmetros e isso é um divisor de águas.
00:00:06Não, sério, isso não é caça-cliques. Este modelo é, de fato, um divisor de águas pela forma como é construído.
00:00:13A coisa que separa este de todos os outros modelos de IA é o fato de ele ser inteiramente
00:00:18livre de codificador. Agora, o que isso significa, como funciona e por que é um negócio tão grande?
00:00:24Bem, essas são todas boas perguntas que exploraremos no vídeo de hoje. Vai ser muito
00:00:29divertido. Então vamos mergulhar nisso. O modelo Gemma 4 de 12 bilhões tem uma nova arquitetura que
00:00:39rompe completamente com a forma como todos os outros modelos multimodais funcionam. Modelo multimodal. Oh meu
00:00:46Deus, isso é um trava-língua. Então, para entender por que isso é um grande negócio, precisamos
00:00:51olhar para como todos os outros modelos multimodais lidam com as coisas agora. Modelos de linguagem são feitos para ler
00:00:57tokens, basicamente pedaços de texto transformados em números. Eles não sabem naturalmente o que é um pixel ou como
00:01:05uma onda sonora se parece. Então, geralmente, colamos modelos diferentes. Se você der uma imagem à IA, um enorme
00:01:11codificador de visão a intercepta primeiro. Ele gasta toneladas de poder de processamento traduzindo esses pixels brutos em uma
00:01:19linguagem que o LLM pode realmente entender. E o mesmo vale para o áudio. Um codificador de fala separado tem que
00:01:25traduzir as ondas sonoras primeiro. Quando o cérebro real da IA recebe os dados, você está executando três
00:01:32redes separadas ao mesmo tempo. Em um laptop padrão, isso consome completamente sua VRAM e torna
00:01:38tudo mais lento. Mas o Google DeepMind analisou esse problema e pensou: e se pudéssemos eliminar o
00:01:44intermediário? Então, no modelo Gemma 4 de 12 bilhões, eles deletaram completamente o pesado codificador de visão. Em vez disso,
00:01:51quando você fornece uma imagem, o modelo a corta em pequenos patches de 48 por 48 pixels. E em vez de passar
00:01:58esses patches por dezenas de camadas de uma rede de visão separada, os pixels brutos passam por um único
00:02:04passo matemático fino chamado projeção linear. E essa projeção linear é apenas uma grade massiva de números
00:02:11que leva 2304 valores de pixel, porque isso se correlaciona a um quadrado de 48 por 48 pixels, os multiplica em um
00:02:19único passo e os estica em uma única linha que corresponde perfeitamente ao formato de token de texto
00:02:26do LLM. Então ele ainda não analisa o que está na imagem, ele apenas reformata os dados brutos para que possam caber
00:02:32pelo modelo. E se você olhar para modelos padrão, seus codificadores de visão são massivos. Por exemplo,
00:02:38este tem 550 milhões de parâmetros. Isso porque um codificador tradicional precisa de muitos dados para remodelar,
00:02:45mapear e entender a imagem. Ele tem dezenas de camadas internas de atenção calculando relacionamentos
00:02:50entre pixels, tentando descobrir onde estão as bordas, quais são as formas e quais podem ser os objetos
00:02:57antes mesmo de entregá-la ao modelo de texto. Mas o DeepMind o encolheu ao deletar completamente toda aquela
00:03:04potência cerebral pesada. Eles perceberam que a espinha dorsal principal da linguagem já é incrivelmente inteligente e tem muitas
00:03:10camadas para fazer o raciocínio visual real. Então, ao remover todas aquelas camadas de pensamento, restaram
00:03:17apenas 35 milhões de parâmetros, e isso é literalmente apenas a contagem física bruta de pesos de conexão necessários
00:03:24para mapear essas grades de pixels em um formato de texto. Então é um mapa de camada única estático que funciona para cada imagem.
00:03:30Como ele não faz nenhum pensamento interno, não consome praticamente nenhum poder de processamento, liberando a VRAM
00:03:37e deixando o LLM principal lidar com a inteligência real de forma nativa. E para entender como esse único passo funciona,
00:03:44você precisa olhar para o que realmente está acontecendo dentro de uma espinha dorsal de modelo de linguagem. Todo modelo de linguagem tem uma
00:03:50regra de formatação interna chamada dimensão oculta. Pense nela como um tamanho de bandeja padronizado. Seja
00:03:56a palavra maçã ou um pedaço de código ou uma pontuação, tudo o que é alimentado no LLM deve ser convertido
00:04:04nesta lista massiva específica de números porque precisa corresponder às dimensões das matrizes. E este
00:04:11pedaço de pixel de 48 por 48 bruto é apenas uma grade de 2304 números de cores individuais. Se você tentar alimentar esse pedaço bruto
00:04:19diretamente no LLM, o modelo o rejeitará porque as dimensões não correspondem. E é
00:04:26exatamente por isso que essa camada de mapeamento de 35 milhões de parâmetros existe. É literalmente uma única grade massiva de
00:04:33pesos de conexão que multiplica aqueles 2304 valores de pixel e os estica em uma única linha que
00:04:40corresponde perfeitamente ao formato de token de texto do LLM. Ele não faz nenhum pensamento analítico, ele apenas atua como um conversor
00:04:48de formato para que os dados possam deslizar diretamente para o transformador principal, onde o raciocínio visual real acontece
00:04:54nativamente. E o modelo faz algo semelhante para o raciocínio de áudio também, mas para áudio é ainda mais simples.
00:05:01Então, a maneira como conseguiram se livrar do codificador de áudio foi pegando um sinal de áudio bruto de 16 kilohertz e
00:05:07fatiando-o em quadros contínuos de 40 milissegundos. Cada pequeno quadro contém exatamente 640 números de ponto flutuante
00:05:15descrevendo a onda sonora. O modelo pega esses 640 floats e os executa através de uma camada de
00:05:21projeção simples semelhante que os mapeia diretamente para o espaço de entrada do modelo de linguagem. Para a espinha dorsal do
00:05:28transformador, um bloco de áudio de 40 milissegundos parece idêntico a um fluxo contínuo de tokens de texto. Porque o som
00:05:35já é uma sequência cronológica, assim como uma frase em uma sequência de palavras, o LLM trata o áudio
00:05:42exatamente como texto. Então essa integração nativa profunda permite que o modelo de 12 bilhões de parâmetros lide com transcrição ao vivo,
00:05:49tradução e formatação de texto em uma única passagem sem forçá-lo a carregar redes de fala
00:05:56separadas na sua memória. Então essa tática inteligente é uma vitória massiva para executar modelos localmente no seu próprio
00:06:02hardware. Ao remover toda a gordura do codificador, o DeepMind conseguiu empacotar um poder de raciocínio incrível
00:06:08em uma pequena pegada. E olhando para o benchmark, ele chega perto do desempenho de seus massivos modelos de 26
00:06:15bilhões de parâmetros, mas cabe facilmente em um laptop padrão com 16 gigabytes de VRAM
00:06:21ou mais. Além disso, o Google incluiu redatores nativos de previsão de múltiplos tokens prontos para uso, o que significa que ele prevê
00:06:28múltiplos tokens de uma vez para velocidades de inferência local rápidas sem forçá-lo a comprimir o modelo.
00:06:34Então tudo isso soa impressionante. Então agora vamos testar e ver como funciona no meu MacBook Pro M2 local.
00:06:41E algumas das pessoas no meu vídeo anterior do OMLX estavam perguntando quanta VRAM eu realmente tenho na minha
00:06:48máquina? Então, para responder a essa pergunta, tenho 24 gigabytes de VRAM. Então é com isso que estamos trabalhando
00:06:53hoje. Eu também tenho que dizer que este aplicativo de galeria de ponta é tão cheio de bugs. Por exemplo, se eu tentar adicionar uma
00:07:01imagem e pedir: por favor, analise esta imagem, ele falhará instantaneamente e me dará esse erro aleatório. E isso
00:07:13está na versão mais recente. Então, infelizmente, não conseguimos testar o codificador de visão usando o aplicativo oficial de galeria
00:07:20IA do Google, mas há outra maneira de realmente testá-lo. Ok. Então, como eu não pude
00:07:26testar de forma confiável o processamento de imagem com o modelo Gemma 4 de 12 bilhões no aplicativo oficial de galeria
00:07:34IA do Google, decidi testá-lo no OMLX. E também fiz um vídeo sobre o OMLX. É um framework incrível
00:07:42para executar modelos de IA localmente, especificamente no Apple Silicon. E como você pode ver aqui, eu
00:07:47baixei a versão quantizada de oito bits deste modelo. Então agora vou para a seção de chat
00:07:54e vamos ver quão rápido ele consegue realmente fazer o raciocínio de imagem em tempo real. Então aqui eu tenho uma pasta de teste
00:08:01com duas imagens. Uma delas é apenas uma captura de tela de partidas de aeroporto. Então usaremos esta imagem
00:08:09e perguntaremos: o que você vê nesta imagem? E quero que você preste atenção que não estou acelerando este vídeo.
00:08:18Tudo isso é em tempo real. Quero que você preste atenção quão rápido ele consegue fazer o raciocínio
00:08:24em tal imagem. Então ele está começando aqui, está carregando o modelo, gerando e bum, olhe só para isso.
00:08:33Olhe quão rápido ele consegue analisar esta imagem e extrair informações valiosas dela.
00:08:41A primeira vez que vi isso no OMLX, fiquei genuinamente impressionado com a velocidade. É absolutamente insano.
00:08:50Então, tenho que dizer que este é o melhor modelo que testei localmente para raciocínio de imagem. E também
00:08:57quero que você preste atenção ao fato de que estou executando este modelo offline. Não estou com o Wi-Fi ligado.
00:09:03Então, vamos tentar outro exemplo. Este é apenas uma imagem borrada da série de TV Vikings mostrando alguns
00:09:10personagens. Então, mais uma vez, vamos abrir esta imagem e perguntar a mesma coisa. O que você vê nesta
00:09:21imagem? Está gerando.
00:09:27E bum, olhe só para isso.
00:09:30Quero dizer, isso é simplesmente insano. É tão rápido. Fiquei muito surpreso.
00:09:37Então, sim, estou honestamente muito, muito impressionado com o desempenho de processamento de imagem deste novo modelo.
00:09:43Então aí está, pessoal. Esse é o novo modelo Gemma 4 de 12 bilhões sem codificador em poucas palavras.
00:09:50Fiquei bastante frustrado por não poder testar com confiança no aplicativo oficial de galeria
00:09:56IA do Google. Mas, como vimos, existem outras formas alternativas e talvez até melhores de executá-lo
00:10:01localmente. Então, acho que este é um modelo muito bom e muda completamente o futuro da execução
00:10:07de modelos de IA local. O Google DeepMind provou que uma única espinha dorsal de linguagem é inteligente o suficiente
00:10:13para lidar com visão e som nativamente. Então, essa nova técnica provavelmente abrirá portas para desenvolver ainda
00:10:19mais modelos de raciocínio multimodal eficientes que podem rodar facilmente em dispositivos de borda. Então, o que você acha
00:10:26do novo modelo Gemma? Você já tentou? Você vai usar? Deixe-nos saber na seção de comentários abaixo
00:10:32e, pessoal, se vocês gostam desses tipos de análises técnicas, por favor, me avisem esmagando aquele botão
00:10:37de curtir embaixo do vídeo. E também não se esqueçam de se inscrever no nosso canal. Este foi Andres
00:10:43da BetterStack e vejo vocês nos próximos vídeos.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video