O Google acaba de resolver o maior problema da IA multimodal (Gemma 4 12B)

BBetter Stack
Computing/SoftwareConsumer Electronics

Transcript

00:00:00O Google acabou de revelar seu mais novo modelo Gemma 4 de 12 bilhões de parâmetros e isso é um divisor de águas.
00:00:06Não, sério, isso não é caça-cliques. Este modelo é, de fato, um divisor de águas pela forma como é construído.
00:00:13A coisa que separa este de todos os outros modelos de IA é o fato de ele ser inteiramente
00:00:18livre de codificador. Agora, o que isso significa, como funciona e por que é um negócio tão grande?
00:00:24Bem, essas são todas boas perguntas que exploraremos no vídeo de hoje. Vai ser muito
00:00:29divertido. Então vamos mergulhar nisso. O modelo Gemma 4 de 12 bilhões tem uma nova arquitetura que
00:00:39rompe completamente com a forma como todos os outros modelos multimodais funcionam. Modelo multimodal. Oh meu
00:00:46Deus, isso é um trava-língua. Então, para entender por que isso é um grande negócio, precisamos
00:00:51olhar para como todos os outros modelos multimodais lidam com as coisas agora. Modelos de linguagem são feitos para ler
00:00:57tokens, basicamente pedaços de texto transformados em números. Eles não sabem naturalmente o que é um pixel ou como
00:01:05uma onda sonora se parece. Então, geralmente, colamos modelos diferentes. Se você der uma imagem à IA, um enorme
00:01:11codificador de visão a intercepta primeiro. Ele gasta toneladas de poder de processamento traduzindo esses pixels brutos em uma
00:01:19linguagem que o LLM pode realmente entender. E o mesmo vale para o áudio. Um codificador de fala separado tem que
00:01:25traduzir as ondas sonoras primeiro. Quando o cérebro real da IA recebe os dados, você está executando três
00:01:32redes separadas ao mesmo tempo. Em um laptop padrão, isso consome completamente sua VRAM e torna
00:01:38tudo mais lento. Mas o Google DeepMind analisou esse problema e pensou: e se pudéssemos eliminar o
00:01:44intermediário? Então, no modelo Gemma 4 de 12 bilhões, eles deletaram completamente o pesado codificador de visão. Em vez disso,
00:01:51quando você fornece uma imagem, o modelo a corta em pequenos patches de 48 por 48 pixels. E em vez de passar
00:01:58esses patches por dezenas de camadas de uma rede de visão separada, os pixels brutos passam por um único
00:02:04passo matemático fino chamado projeção linear. E essa projeção linear é apenas uma grade massiva de números
00:02:11que leva 2304 valores de pixel, porque isso se correlaciona a um quadrado de 48 por 48 pixels, os multiplica em um
00:02:19único passo e os estica em uma única linha que corresponde perfeitamente ao formato de token de texto
00:02:26do LLM. Então ele ainda não analisa o que está na imagem, ele apenas reformata os dados brutos para que possam caber
00:02:32pelo modelo. E se você olhar para modelos padrão, seus codificadores de visão são massivos. Por exemplo,
00:02:38este tem 550 milhões de parâmetros. Isso porque um codificador tradicional precisa de muitos dados para remodelar,
00:02:45mapear e entender a imagem. Ele tem dezenas de camadas internas de atenção calculando relacionamentos
00:02:50entre pixels, tentando descobrir onde estão as bordas, quais são as formas e quais podem ser os objetos
00:02:57antes mesmo de entregá-la ao modelo de texto. Mas o DeepMind o encolheu ao deletar completamente toda aquela
00:03:04potência cerebral pesada. Eles perceberam que a espinha dorsal principal da linguagem já é incrivelmente inteligente e tem muitas
00:03:10camadas para fazer o raciocínio visual real. Então, ao remover todas aquelas camadas de pensamento, restaram
00:03:17apenas 35 milhões de parâmetros, e isso é literalmente apenas a contagem física bruta de pesos de conexão necessários
00:03:24para mapear essas grades de pixels em um formato de texto. Então é um mapa de camada única estático que funciona para cada imagem.
00:03:30Como ele não faz nenhum pensamento interno, não consome praticamente nenhum poder de processamento, liberando a VRAM
00:03:37e deixando o LLM principal lidar com a inteligência real de forma nativa. E para entender como esse único passo funciona,
00:03:44você precisa olhar para o que realmente está acontecendo dentro de uma espinha dorsal de modelo de linguagem. Todo modelo de linguagem tem uma
00:03:50regra de formatação interna chamada dimensão oculta. Pense nela como um tamanho de bandeja padronizado. Seja
00:03:56a palavra maçã ou um pedaço de código ou uma pontuação, tudo o que é alimentado no LLM deve ser convertido
00:04:04nesta lista massiva específica de números porque precisa corresponder às dimensões das matrizes. E este
00:04:11pedaço de pixel de 48 por 48 bruto é apenas uma grade de 2304 números de cores individuais. Se você tentar alimentar esse pedaço bruto
00:04:19diretamente no LLM, o modelo o rejeitará porque as dimensões não correspondem. E é
00:04:26exatamente por isso que essa camada de mapeamento de 35 milhões de parâmetros existe. É literalmente uma única grade massiva de
00:04:33pesos de conexão que multiplica aqueles 2304 valores de pixel e os estica em uma única linha que
00:04:40corresponde perfeitamente ao formato de token de texto do LLM. Ele não faz nenhum pensamento analítico, ele apenas atua como um conversor
00:04:48de formato para que os dados possam deslizar diretamente para o transformador principal, onde o raciocínio visual real acontece
00:04:54nativamente. E o modelo faz algo semelhante para o raciocínio de áudio também, mas para áudio é ainda mais simples.
00:05:01Então, a maneira como conseguiram se livrar do codificador de áudio foi pegando um sinal de áudio bruto de 16 kilohertz e
00:05:07fatiando-o em quadros contínuos de 40 milissegundos. Cada pequeno quadro contém exatamente 640 números de ponto flutuante
00:05:15descrevendo a onda sonora. O modelo pega esses 640 floats e os executa através de uma camada de
00:05:21projeção simples semelhante que os mapeia diretamente para o espaço de entrada do modelo de linguagem. Para a espinha dorsal do
00:05:28transformador, um bloco de áudio de 40 milissegundos parece idêntico a um fluxo contínuo de tokens de texto. Porque o som
00:05:35já é uma sequência cronológica, assim como uma frase em uma sequência de palavras, o LLM trata o áudio
00:05:42exatamente como texto. Então essa integração nativa profunda permite que o modelo de 12 bilhões de parâmetros lide com transcrição ao vivo,
00:05:49tradução e formatação de texto em uma única passagem sem forçá-lo a carregar redes de fala
00:05:56separadas na sua memória. Então essa tática inteligente é uma vitória massiva para executar modelos localmente no seu próprio
00:06:02hardware. Ao remover toda a gordura do codificador, o DeepMind conseguiu empacotar um poder de raciocínio incrível
00:06:08em uma pequena pegada. E olhando para o benchmark, ele chega perto do desempenho de seus massivos modelos de 26
00:06:15bilhões de parâmetros, mas cabe facilmente em um laptop padrão com 16 gigabytes de VRAM
00:06:21ou mais. Além disso, o Google incluiu redatores nativos de previsão de múltiplos tokens prontos para uso, o que significa que ele prevê
00:06:28múltiplos tokens de uma vez para velocidades de inferência local rápidas sem forçá-lo a comprimir o modelo.
00:06:34Então tudo isso soa impressionante. Então agora vamos testar e ver como funciona no meu MacBook Pro M2 local.
00:06:41E algumas das pessoas no meu vídeo anterior do OMLX estavam perguntando quanta VRAM eu realmente tenho na minha
00:06:48máquina? Então, para responder a essa pergunta, tenho 24 gigabytes de VRAM. Então é com isso que estamos trabalhando
00:06:53hoje. Eu também tenho que dizer que este aplicativo de galeria de ponta é tão cheio de bugs. Por exemplo, se eu tentar adicionar uma
00:07:01imagem e pedir: por favor, analise esta imagem, ele falhará instantaneamente e me dará esse erro aleatório. E isso
00:07:13está na versão mais recente. Então, infelizmente, não conseguimos testar o codificador de visão usando o aplicativo oficial de galeria
00:07:20IA do Google, mas há outra maneira de realmente testá-lo. Ok. Então, como eu não pude
00:07:26testar de forma confiável o processamento de imagem com o modelo Gemma 4 de 12 bilhões no aplicativo oficial de galeria
00:07:34IA do Google, decidi testá-lo no OMLX. E também fiz um vídeo sobre o OMLX. É um framework incrível
00:07:42para executar modelos de IA localmente, especificamente no Apple Silicon. E como você pode ver aqui, eu
00:07:47baixei a versão quantizada de oito bits deste modelo. Então agora vou para a seção de chat
00:07:54e vamos ver quão rápido ele consegue realmente fazer o raciocínio de imagem em tempo real. Então aqui eu tenho uma pasta de teste
00:08:01com duas imagens. Uma delas é apenas uma captura de tela de partidas de aeroporto. Então usaremos esta imagem
00:08:09e perguntaremos: o que você vê nesta imagem? E quero que você preste atenção que não estou acelerando este vídeo.
00:08:18Tudo isso é em tempo real. Quero que você preste atenção quão rápido ele consegue fazer o raciocínio
00:08:24em tal imagem. Então ele está começando aqui, está carregando o modelo, gerando e bum, olhe só para isso.
00:08:33Olhe quão rápido ele consegue analisar esta imagem e extrair informações valiosas dela.
00:08:41A primeira vez que vi isso no OMLX, fiquei genuinamente impressionado com a velocidade. É absolutamente insano.
00:08:50Então, tenho que dizer que este é o melhor modelo que testei localmente para raciocínio de imagem. E também
00:08:57quero que você preste atenção ao fato de que estou executando este modelo offline. Não estou com o Wi-Fi ligado.
00:09:03Então, vamos tentar outro exemplo. Este é apenas uma imagem borrada da série de TV Vikings mostrando alguns
00:09:10personagens. Então, mais uma vez, vamos abrir esta imagem e perguntar a mesma coisa. O que você vê nesta
00:09:21imagem? Está gerando.
00:09:27E bum, olhe só para isso.
00:09:30Quero dizer, isso é simplesmente insano. É tão rápido. Fiquei muito surpreso.
00:09:37Então, sim, estou honestamente muito, muito impressionado com o desempenho de processamento de imagem deste novo modelo.
00:09:43Então aí está, pessoal. Esse é o novo modelo Gemma 4 de 12 bilhões sem codificador em poucas palavras.
00:09:50Fiquei bastante frustrado por não poder testar com confiança no aplicativo oficial de galeria
00:09:56IA do Google. Mas, como vimos, existem outras formas alternativas e talvez até melhores de executá-lo
00:10:01localmente. Então, acho que este é um modelo muito bom e muda completamente o futuro da execução
00:10:07de modelos de IA local. O Google DeepMind provou que uma única espinha dorsal de linguagem é inteligente o suficiente
00:10:13para lidar com visão e som nativamente. Então, essa nova técnica provavelmente abrirá portas para desenvolver ainda
00:10:19mais modelos de raciocínio multimodal eficientes que podem rodar facilmente em dispositivos de borda. Então, o que você acha
00:10:26do novo modelo Gemma? Você já tentou? Você vai usar? Deixe-nos saber na seção de comentários abaixo
00:10:32e, pessoal, se vocês gostam desses tipos de análises técnicas, por favor, me avisem esmagando aquele botão
00:10:37de curtir embaixo do vídeo. E também não se esqueçam de se inscrever no nosso canal. Este foi Andres
00:10:43da BetterStack e vejo vocês nos próximos vídeos.

Key Takeaway

Ao remover codificadores multimodais pesados e utilizar projeções lineares simples, o Google Gemma 4 12B permite processamento multimodal nativo e eficiente em hardware doméstico.

Highlights

  • O modelo Gemma 4 de 12 bilhões de parâmetros elimina o codificador de visão tradicional, reduzindo drasticamente o consumo de VRAM.

  • Imagens são divididas em patches de 48 por 48 pixels e processadas através de uma projeção linear de 35 milhões de parâmetros.

  • O modelo trata o áudio como sequências temporais de 40 milissegundos, processando-as nativamente como tokens de texto.

  • O Gemma 4 12B apresenta desempenho comparável a modelos de 26 bilhões de parâmetros, mas roda em hardware com 16GB de VRAM.

  • A ausência de camadas de processamento visual pesado permite que o modelo execute inferência local em tempo real sem sobrecarregar o hardware.

Timeline

Arquitetura sem codificador

  • Modelos multimodais convencionais dependem de codificadores separados para traduzir pixels ou áudio para a linguagem do LLM.
  • O Gemma 4 12B substitui o codificador de visão por uma projeção linear de etapa única.
  • A nova técnica mapeia 2304 valores de pixel (patches de 48x48) diretamente para o formato de entrada do modelo de linguagem.

A maioria das IAs consome poder computacional excessivo ao rodar múltiplas redes simultaneamente para traduzir dados brutos. O Google DeepMind contornou isso eliminando o codificador visual, que tradicionalmente utiliza centenas de milhões de parâmetros para 'pensar' sobre a imagem. A projeção linear atua apenas como um conversor de formato estático, preparando os dados para o transformador principal.

Eficiência e processamento nativo

  • A camada de mapeamento de 35 milhões de parâmetros substitui codificadores que consumiam 550 milhões de parâmetros.
  • O áudio é segmentado em blocos de 40 milissegundos e tratado cronologicamente como texto pelo LLM.
  • A otimização permite inferência local rápida em dispositivos com 16GB de VRAM.

O uso de uma grade de pesos de conexão estática remove a carga analítica anterior ao modelo principal. Para áudio, o sistema processa fluxos de 16kHz convertidos em 640 floats por bloco, tornando a transcrição e tradução nativas. Esse design minimiza o uso de VRAM e possibilita a execução de modelos complexos em laptops como o MacBook Pro M2.

Testes práticos localmente

  • Testes realizados via OMLX confirmam a velocidade de raciocínio de imagem em tempo real localmente.
  • O modelo processa capturas de tela e imagens complexas offline sem necessidade de conexão com a rede.
  • A técnica de remoção de codificadores define um novo padrão para modelos de IA rodarem nativamente em dispositivos de borda.

A execução do modelo em um ambiente offline no MacBook Pro M2 demonstrou alta capacidade de análise visual e agilidade na resposta. A ausência de falhas durante o processamento de imagens reais reforça a viabilidade desta arquitetura enxuta. O modelo prova que a espinha dorsal de um transformador possui raciocínio suficiente para lidar com diferentes modalidades de forma integrada.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video