O Google acaba de resolver o maior problema da IA multimodal (Gemma 4 12B)

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareConsumer Electronics

Transcript

00:00:00O Google acabou de revelar seu mais novo modelo Gemma 4 de 12 bilhões de parâmetros e isso é um divisor de águas.

00:00:06Não, sério, isso não é caça-cliques. Este modelo é, de fato, um divisor de águas pela forma como é construído.

00:00:13A coisa que separa este de todos os outros modelos de IA é o fato de ele ser inteiramente

00:00:18livre de codificador. Agora, o que isso significa, como funciona e por que é um negócio tão grande?

00:00:24Bem, essas são todas boas perguntas que exploraremos no vídeo de hoje. Vai ser muito

00:00:29divertido. Então vamos mergulhar nisso. O modelo Gemma 4 de 12 bilhões tem uma nova arquitetura que

00:00:39rompe completamente com a forma como todos os outros modelos multimodais funcionam. Modelo multimodal. Oh meu

00:00:46Deus, isso é um trava-língua. Então, para entender por que isso é um grande negócio, precisamos

00:00:51olhar para como todos os outros modelos multimodais lidam com as coisas agora. Modelos de linguagem são feitos para ler

00:00:57tokens, basicamente pedaços de texto transformados em números. Eles não sabem naturalmente o que é um pixel ou como

00:01:05uma onda sonora se parece. Então, geralmente, colamos modelos diferentes. Se você der uma imagem à IA, um enorme

00:01:11codificador de visão a intercepta primeiro. Ele gasta toneladas de poder de processamento traduzindo esses pixels brutos em uma

00:01:19linguagem que o LLM pode realmente entender. E o mesmo vale para o áudio. Um codificador de fala separado tem que

00:01:25traduzir as ondas sonoras primeiro. Quando o cérebro real da IA recebe os dados, você está executando três

00:01:32redes separadas ao mesmo tempo. Em um laptop padrão, isso consome completamente sua VRAM e torna

00:01:38tudo mais lento. Mas o Google DeepMind analisou esse problema e pensou: e se pudéssemos eliminar o

00:01:44intermediário? Então, no modelo Gemma 4 de 12 bilhões, eles deletaram completamente o pesado codificador de visão. Em vez disso,

00:01:51quando você fornece uma imagem, o modelo a corta em pequenos patches de 48 por 48 pixels. E em vez de passar

00:01:58esses patches por dezenas de camadas de uma rede de visão separada, os pixels brutos passam por um único

00:02:04passo matemático fino chamado projeção linear. E essa projeção linear é apenas uma grade massiva de números

00:02:11que leva 2304 valores de pixel, porque isso se correlaciona a um quadrado de 48 por 48 pixels, os multiplica em um

00:02:19único passo e os estica em uma única linha que corresponde perfeitamente ao formato de token de texto

00:02:26do LLM. Então ele ainda não analisa o que está na imagem, ele apenas reformata os dados brutos para que possam caber

00:02:32pelo modelo. E se você olhar para modelos padrão, seus codificadores de visão são massivos. Por exemplo,

00:02:38este tem 550 milhões de parâmetros. Isso porque um codificador tradicional precisa de muitos dados para remodelar,

00:02:45mapear e entender a imagem. Ele tem dezenas de camadas internas de atenção calculando relacionamentos

00:02:50entre pixels, tentando descobrir onde estão as bordas, quais são as formas e quais podem ser os objetos

00:02:57antes mesmo de entregá-la ao modelo de texto. Mas o DeepMind o encolheu ao deletar completamente toda aquela

00:03:04potência cerebral pesada. Eles perceberam que a espinha dorsal principal da linguagem já é incrivelmente inteligente e tem muitas

00:03:10camadas para fazer o raciocínio visual real. Então, ao remover todas aquelas camadas de pensamento, restaram

00:03:17apenas 35 milhões de parâmetros, e isso é literalmente apenas a contagem física bruta de pesos de conexão necessários

00:03:24para mapear essas grades de pixels em um formato de texto. Então é um mapa de camada única estático que funciona para cada imagem.

00:03:30Como ele não faz nenhum pensamento interno, não consome praticamente nenhum poder de processamento, liberando a VRAM

00:03:37e deixando o LLM principal lidar com a inteligência real de forma nativa. E para entender como esse único passo funciona,

00:03:44você precisa olhar para o que realmente está acontecendo dentro de uma espinha dorsal de modelo de linguagem. Todo modelo de linguagem tem uma

00:03:50regra de formatação interna chamada dimensão oculta. Pense nela como um tamanho de bandeja padronizado. Seja

00:03:56a palavra maçã ou um pedaço de código ou uma pontuação, tudo o que é alimentado no LLM deve ser convertido

00:04:04nesta lista massiva específica de números porque precisa corresponder às dimensões das matrizes. E este

00:04:11pedaço de pixel de 48 por 48 bruto é apenas uma grade de 2304 números de cores individuais. Se você tentar alimentar esse pedaço bruto

00:04:19diretamente no LLM, o modelo o rejeitará porque as dimensões não correspondem. E é

00:04:26exatamente por isso que essa camada de mapeamento de 35 milhões de parâmetros existe. É literalmente uma única grade massiva de

00:04:33pesos de conexão que multiplica aqueles 2304 valores de pixel e os estica em uma única linha que

00:04:40corresponde perfeitamente ao formato de token de texto do LLM. Ele não faz nenhum pensamento analítico, ele apenas atua como um conversor

00:04:48de formato para que os dados possam deslizar diretamente para o transformador principal, onde o raciocínio visual real acontece

00:04:54nativamente. E o modelo faz algo semelhante para o raciocínio de áudio também, mas para áudio é ainda mais simples.

00:05:01Então, a maneira como conseguiram se livrar do codificador de áudio foi pegando um sinal de áudio bruto de 16 kilohertz e

00:05:07fatiando-o em quadros contínuos de 40 milissegundos. Cada pequeno quadro contém exatamente 640 números de ponto flutuante

00:05:15descrevendo a onda sonora. O modelo pega esses 640 floats e os executa através de uma camada de

00:05:21projeção simples semelhante que os mapeia diretamente para o espaço de entrada do modelo de linguagem. Para a espinha dorsal do

00:05:28transformador, um bloco de áudio de 40 milissegundos parece idêntico a um fluxo contínuo de tokens de texto. Porque o som

00:05:35já é uma sequência cronológica, assim como uma frase em uma sequência de palavras, o LLM trata o áudio

00:05:42exatamente como texto. Então essa integração nativa profunda permite que o modelo de 12 bilhões de parâmetros lide com transcrição ao vivo,

00:05:49tradução e formatação de texto em uma única passagem sem forçá-lo a carregar redes de fala

00:05:56separadas na sua memória. Então essa tática inteligente é uma vitória massiva para executar modelos localmente no seu próprio

00:06:02hardware. Ao remover toda a gordura do codificador, o DeepMind conseguiu empacotar um poder de raciocínio incrível

00:06:08em uma pequena pegada. E olhando para o benchmark, ele chega perto do desempenho de seus massivos modelos de 26

00:06:15bilhões de parâmetros, mas cabe facilmente em um laptop padrão com 16 gigabytes de VRAM

00:06:21ou mais. Além disso, o Google incluiu redatores nativos de previsão de múltiplos tokens prontos para uso, o que significa que ele prevê

00:06:28múltiplos tokens de uma vez para velocidades de inferência local rápidas sem forçá-lo a comprimir o modelo.

00:06:34Então tudo isso soa impressionante. Então agora vamos testar e ver como funciona no meu MacBook Pro M2 local.

00:06:41E algumas das pessoas no meu vídeo anterior do OMLX estavam perguntando quanta VRAM eu realmente tenho na minha

00:06:48máquina? Então, para responder a essa pergunta, tenho 24 gigabytes de VRAM. Então é com isso que estamos trabalhando

00:06:53hoje. Eu também tenho que dizer que este aplicativo de galeria de ponta é tão cheio de bugs. Por exemplo, se eu tentar adicionar uma

00:07:01imagem e pedir: por favor, analise esta imagem, ele falhará instantaneamente e me dará esse erro aleatório. E isso

00:07:13está na versão mais recente. Então, infelizmente, não conseguimos testar o codificador de visão usando o aplicativo oficial de galeria

00:07:20IA do Google, mas há outra maneira de realmente testá-lo. Ok. Então, como eu não pude

00:07:26testar de forma confiável o processamento de imagem com o modelo Gemma 4 de 12 bilhões no aplicativo oficial de galeria

00:07:34IA do Google, decidi testá-lo no OMLX. E também fiz um vídeo sobre o OMLX. É um framework incrível

00:07:42para executar modelos de IA localmente, especificamente no Apple Silicon. E como você pode ver aqui, eu

00:07:47baixei a versão quantizada de oito bits deste modelo. Então agora vou para a seção de chat

00:07:54e vamos ver quão rápido ele consegue realmente fazer o raciocínio de imagem em tempo real. Então aqui eu tenho uma pasta de teste

00:08:01com duas imagens. Uma delas é apenas uma captura de tela de partidas de aeroporto. Então usaremos esta imagem

00:08:09e perguntaremos: o que você vê nesta imagem? E quero que você preste atenção que não estou acelerando este vídeo.

00:08:18Tudo isso é em tempo real. Quero que você preste atenção quão rápido ele consegue fazer o raciocínio

00:08:24em tal imagem. Então ele está começando aqui, está carregando o modelo, gerando e bum, olhe só para isso.

00:08:33Olhe quão rápido ele consegue analisar esta imagem e extrair informações valiosas dela.

00:08:41A primeira vez que vi isso no OMLX, fiquei genuinamente impressionado com a velocidade. É absolutamente insano.

00:08:50Então, tenho que dizer que este é o melhor modelo que testei localmente para raciocínio de imagem. E também

00:08:57quero que você preste atenção ao fato de que estou executando este modelo offline. Não estou com o Wi-Fi ligado.

00:09:03Então, vamos tentar outro exemplo. Este é apenas uma imagem borrada da série de TV Vikings mostrando alguns

00:09:10personagens. Então, mais uma vez, vamos abrir esta imagem e perguntar a mesma coisa. O que você vê nesta

00:09:21imagem? Está gerando.

00:09:27E bum, olhe só para isso.

00:09:30Quero dizer, isso é simplesmente insano. É tão rápido. Fiquei muito surpreso.

00:09:37Então, sim, estou honestamente muito, muito impressionado com o desempenho de processamento de imagem deste novo modelo.

00:09:43Então aí está, pessoal. Esse é o novo modelo Gemma 4 de 12 bilhões sem codificador em poucas palavras.

00:09:50Fiquei bastante frustrado por não poder testar com confiança no aplicativo oficial de galeria

00:09:56IA do Google. Mas, como vimos, existem outras formas alternativas e talvez até melhores de executá-lo

00:10:01localmente. Então, acho que este é um modelo muito bom e muda completamente o futuro da execução

00:10:07de modelos de IA local. O Google DeepMind provou que uma única espinha dorsal de linguagem é inteligente o suficiente

00:10:13para lidar com visão e som nativamente. Então, essa nova técnica provavelmente abrirá portas para desenvolver ainda

00:10:19mais modelos de raciocínio multimodal eficientes que podem rodar facilmente em dispositivos de borda. Então, o que você acha

00:10:26do novo modelo Gemma? Você já tentou? Você vai usar? Deixe-nos saber na seção de comentários abaixo

00:10:32e, pessoal, se vocês gostam desses tipos de análises técnicas, por favor, me avisem esmagando aquele botão

00:10:37de curtir embaixo do vídeo. E também não se esqueçam de se inscrever no nosso canal. Este foi Andres

00:10:43da BetterStack e vejo vocês nos próximos vídeos.

Key Takeaway

Ao remover codificadores multimodais pesados e utilizar projeções lineares simples, o Google Gemma 4 12B permite processamento multimodal nativo e eficiente em hardware doméstico.

Highlights

O modelo Gemma 4 de 12 bilhões de parâmetros elimina o codificador de visão tradicional, reduzindo drasticamente o consumo de VRAM.
Imagens são divididas em patches de 48 por 48 pixels e processadas através de uma projeção linear de 35 milhões de parâmetros.
O modelo trata o áudio como sequências temporais de 40 milissegundos, processando-as nativamente como tokens de texto.
O Gemma 4 12B apresenta desempenho comparável a modelos de 26 bilhões de parâmetros, mas roda em hardware com 16GB de VRAM.
A ausência de camadas de processamento visual pesado permite que o modelo execute inferência local em tempo real sem sobrecarregar o hardware.

Timeline

Arquitetura sem codificador

Modelos multimodais convencionais dependem de codificadores separados para traduzir pixels ou áudio para a linguagem do LLM.
O Gemma 4 12B substitui o codificador de visão por uma projeção linear de etapa única.
A nova técnica mapeia 2304 valores de pixel (patches de 48x48) diretamente para o formato de entrada do modelo de linguagem.

A maioria das IAs consome poder computacional excessivo ao rodar múltiplas redes simultaneamente para traduzir dados brutos. O Google DeepMind contornou isso eliminando o codificador visual, que tradicionalmente utiliza centenas de milhões de parâmetros para 'pensar' sobre a imagem. A projeção linear atua apenas como um conversor de formato estático, preparando os dados para o transformador principal.

Eficiência e processamento nativo

A camada de mapeamento de 35 milhões de parâmetros substitui codificadores que consumiam 550 milhões de parâmetros.
O áudio é segmentado em blocos de 40 milissegundos e tratado cronologicamente como texto pelo LLM.
A otimização permite inferência local rápida em dispositivos com 16GB de VRAM.

O uso de uma grade de pesos de conexão estática remove a carga analítica anterior ao modelo principal. Para áudio, o sistema processa fluxos de 16kHz convertidos em 640 floats por bloco, tornando a transcrição e tradução nativas. Esse design minimiza o uso de VRAM e possibilita a execução de modelos complexos em laptops como o MacBook Pro M2.

Testes práticos localmente

Testes realizados via OMLX confirmam a velocidade de raciocínio de imagem em tempo real localmente.
O modelo processa capturas de tela e imagens complexas offline sem necessidade de conexão com a rede.
A técnica de remoção de codificadores define um novo padrão para modelos de IA rodarem nativamente em dispositivos de borda.

A execução do modelo em um ambiente offline no MacBook Pro M2 demonstrou alta capacidade de análise visual e agilidade na resposta. A ausência de falhas durante o processamento de imagens reais reforça a viabilidade desta arquitetura enxuta. O modelo prova que a espinha dorsal de um transformador possui raciocínio suficiente para lidar com diferentes modalidades de forma integrada.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video