A Google Criou o MELHOR Modelo de IA de Borda? (Gemma 4)

BBetter Stack
컴퓨터/소프트웨어어학(외국어)가전제품/카메라스마트폰/모바일AI/미래기술

Transcript

00:00:00Na semana passada, o Google fez algo inesperado.
00:00:02Eles lançaram um modelo verdadeiramente de código aberto sob a licença Apache 2.0.
00:00:08Chama-se Gemma 4 e apresenta versões especializadas para dispositivos de borda tão pequenas quanto 2,3 bilhões de parâmetros
00:00:14que são projetadas para rodar inteiramente offline em dispositivos como o seu iPhone, flagships Android
00:00:21ou até mesmo em um Raspberry Pi.
00:00:23Parece que a corrida para construir o modelo pequeno definitivo está realmente esquentando.
00:00:28Há apenas algumas semanas, fiz alguns testes no QWAN 3.5 para ver como ele estava desafiando os limites da
00:00:33IA local, mas agora o Google promete uma densidade de inteligência ainda maior.
00:00:39Então, neste vídeo, vamos realizar testes semelhantes no Gemma 4 para ver se este modelo é realmente
00:00:44o melhor modelo pequeno disponível.
00:00:47Vai ser muito divertido, então vamos mergulhar nisso.
00:00:53Então, o que há de tão único nesses novos modelos Gemma 4?
00:00:57Bem, a real mudança técnica aqui é algo que o Google chama de embeddings por camada.
00:01:03Em transformers tradicionais, um token recebe um embedding no início que deve carregar
00:01:08todo o seu significado através de cada camada.
00:01:11Mas no Gemma 4, cada camada tem seu próprio conjunto de embeddings, permitindo que o modelo introduza
00:01:16novas informações exatamente onde são necessárias.
00:01:19É por isso que você vê o "E" nos nomes dos modelos E2B e E4B.
00:01:24Significa parâmetros efetivos.
00:01:27Embora o modelo atue com a profundidade de raciocínio de um modelo de 5 bilhões de parâmetros, ele usa apenas
00:01:32cerca de 2,3 bilhões de parâmetros ativos durante a inferência.
00:01:36Isso resulta em uma densidade de inteligência muito maior, permitindo-lhe lidar com lógica complexa
00:01:42enquanto usa menos de 1,5 gigabytes de RAM.
00:01:46E além do desempenho em texto, o Gemma 4 é nativamente multimodal.
00:01:50Isso significa que visão, texto e até áudio são processados dentro da mesma arquitetura unificada
00:01:56em vez de serem anexados como módulos separados.
00:01:59Esta arquitetura permite um novo modo de pensamento que usa uma cadeia de raciocínio interna para verificar
00:02:05sua própria lógica antes de fornecer uma resposta.
00:02:08Isso foi projetado especificamente para evitar loops infinitos e erros de lógica que muitas vezes
00:02:13afetam modelos pequenos.
00:02:15Ele também vem com uma janela de contexto de 128K e suporte para mais de 140 idiomas, o que deve
00:02:22torná-lo significativamente mais capaz em tarefas como OCR complexo ou identificação de idiomas locais.
00:02:29E para demonstrar essas habilidades, o Google divulgou alguns benchmarks reveladores.
00:02:34Em seus testes internos, o modelo E4B alcançou uma pontuação de 42,5% no benchmark de matemática AIME 2026,
00:02:43o que é mais do que o dobro da pontuação de modelos muito maiores da geração anterior.
00:02:49Eles também demonstraram o potencial de agente do modelo no T2 bench, onde ele mostrou
00:02:54um salto massivo na precisão do uso de ferramentas.
00:02:57Eles também demonstraram o potencial de agente do modelo através de um recurso chamado habilidades de agente.
00:03:02Em vez de apenas gerar texto estático, o modelo foi mostrado usando chamadas de função nativas
00:03:07para lidar com fluxos de trabalho de várias etapas, como consultar a Wikipedia para dados ao vivo ou construir um
00:03:13widget de chamadas de animais de ponta a ponta.
00:03:15Tudo isso soa impressionante, mas vamos testar por conta própria e ver como funciona.
00:03:20No meu vídeo anterior do QUEN 3.5, testei os modelos pequenos executando-os localmente sem
00:03:25conexão com a internet usando o LMStudio e o CLINE.
00:03:28Vou usar a mesma configuração para testar o GEMMA 4.
00:03:32Primeiro, temos que baixar os modelos no LMStudio, depois aumentar a janela de contexto disponível
00:03:37e iniciar o servidor.
00:03:39Podemos então ir para o CLINE e conectar nosso servidor local do LMStudio, escolher o modelo E2B,
00:03:45desligar nossa conexão com a internet e começar nossos testes.
00:03:49Da última vez, vimos que o QUEN 3.5 foi razoável ao gerar um site simples de café usando HTML,
00:03:55CSS e JavaScript com dois de seus modelos de menores parâmetros.
00:04:00Vamos reutilizar o mesmo prompt e ver se o GEMMA 4 é tão bom quanto nessa tarefa de codificação.
00:04:05O modelo E2B levou cerca de 1,5 minutos para completar essa tarefa.
00:04:10E para um modelo com 2,3 bilhões de parâmetros ativos, os resultados foram honestamente um pouco decepcionantes
00:04:16se comparados ao resultado da saída do QUEN, que usou apenas 0,8 bilhão de parâmetros.
00:04:22A coisa mais irritante foi que o GEMMA anexou a lista de tarefas ao final do arquivo HTML, bem
00:04:28como ao final do arquivo CSS, então tive que excluí-la manualmente de ambos os arquivos antes
00:04:33de abrir a página.
00:04:34E ele também afirmou ter escrito um arquivo JavaScript, quando na verdade nenhum arquivo JS foi produzido
00:04:40na saída final, então os resultados do teste E2B foram um pouco frustrantes.
00:04:45Mas essa situação melhorou bastante ao mudar para a versão do modelo E4B.
00:04:50Esta versão levou cerca de 3,5 minutos para terminar a tarefa, mas o resultado final foi notavelmente
00:04:55melhor.
00:04:56Talvez não em termos de design, ainda parece muito sem graça, mas esta versão na verdade tinha uma
00:05:00funcionalidade de carrinho funcional que nenhum dos testes anteriores, tanto para QUEN quanto GEMMA,
00:05:06foi capaz de produzir com sucesso.
00:05:08Portanto, a versão E4B já é um grande passo à frente em relação à versão E2B, mas obviamente ninguém
00:05:15consideraria seriamente usar modelos tão pequenos para codificação complexa ou séria.
00:05:20Eu apenas realizei esses testes por curiosidade para ver se uma contagem de parâmetros tão pequena
00:05:25ainda pode produzir um resultado significativo para uma tarefa de codificação.
00:05:29Tudo bem, agora vamos ver como o GEMMA 4 se comporta em dispositivos de borda como um iPhone.
00:05:34No meu vídeo do QUEN 3.5, construí um aplicativo iOS personalizado capaz de rodar o modelo
00:05:40na GPU Metal nativa usando o framework MLX da Swift.
00:05:44Embora o GEMMA 4 seja de código aberto, infelizmente não há bindings de MLX disponíveis para este
00:05:49modelo até o momento, que seriam capazes de rodar este modelo no iOS com capacidades multimodais.
00:05:56E o próprio Google está rodando o GEMMA 4 em seu aplicativo AI Edge Gallery usando seu próprio
00:06:01framework de inferência chamado Lite RTLM, que infelizmente também não suporta bindings para iOS no
00:06:07momento.
00:06:08Portanto, para testá-lo em um iPhone, nossa melhor opção agora é usar o aplicativo Edge Gallery deles.
00:06:13Então vamos realizar nossos testes no aplicativo deles e ver como ele se sai.
00:06:18Vamos para a seção de chat de IA.
00:06:20E aqui seremos solicitados a baixar a versão E2B do GEMMA 4.
00:06:25E você também tem a opção de baixar a versão E4B, mas por algum motivo o app diz
00:06:29que eu não tenho espaço suficiente para baixá-lo, o que tenho certeza que não é verdade, então talvez seja
00:06:34um bug no aplicativo.
00:06:36Mas enfim, agora que baixei o modelo, podemos finalmente começar a usá-lo.
00:06:41E vamos começar digitando um simples "olá".
00:06:43Uau, você viu como a resposta foi rápida?
00:06:46Muito mais rápida que o QUEN 3.5.
00:06:48Talvez essa seja a mágica do framework Lite RTLM que eles estão usando.
00:06:53Agora vamos tentar o famoso teste do lava-jato e ver se o GEMMA acerta.
00:06:57Uau, ele me dá uma resposta realmente longa.
00:07:00E ao final dela, vemos que a recomendação final é dirigir, o que está correto,
00:07:06mas tenho que levar em conta o fato de que ele está olhando para conveniência e conforto
00:07:10e não para o fato lógico em si.
00:07:13Então não sei, ele meio que passa no teste, mas ao mesmo tempo meio que não passa.
00:07:18Tudo bem, agora vamos para a seção de perguntar sobre imagem e ver se o GEMMA consegue identificar
00:07:24o cachorro nesta foto.
00:07:26Ele identificou que é de fato um cachorro e dá alguns outros detalhes sobre a imagem.
00:07:31Isso é bem legal.
00:07:32Mas se eu perguntar: qual é a raça do cachorro?
00:07:35Ele responde dizendo que é um Border Collie, o que não é verdade.
00:07:39Na verdade é um Corgi.
00:07:40Mas devo dizer que, para pouco mais de 2 bilhões de parâmetros ativos, essa resposta é muito
00:07:45boa, apesar de tudo.
00:07:46Por último, vamos tentar o teste de OCR.
00:07:48Se você assistiu ao meu vídeo anterior com o Quen 3.5, lembrará que o testei com
00:07:54uma imagem que tinha texto em letão, que também é minha língua nativa.
00:07:59Agora, o GEMMA se gaba de ser capaz de entender até 140 idiomas.
00:08:05Então presumo que ele deva passar neste teste facilmente.
00:08:08E sim, de fato, ele identifica que o idioma é o letão.
00:08:13E estou surpreso que a maior parte do texto está realmente bem correta.
00:08:16Com algumas pequenas exceções, vejo que algumas palavras não existem e algumas das estruturas
00:08:22gramaticais são simplesmente muito bizarras.
00:08:24Mas ainda é muito impressionante.
00:08:26Então, darei uma nota de aprovação para este teste.
00:08:28Agora, isso na verdade levanta a questão: posso conversar com este modelo em letão?
00:08:32Vou tentar isso a seguir.
00:08:33Vejo que a resposta é de fato em letão.
00:08:36Mas, mais uma vez, as estruturas gramaticais são muito bizarras.
00:08:39E ninguém fala desse jeito.
00:08:41Mas ainda assim, o letão é um idioma muito pequeno.
00:08:44Portanto, já é impressionante que ele tenha todo esse conhecimento em um modelo tão pequeno.
00:08:48E enquanto estou nisso, vou perguntar quem é o atual presidente dos EUA para ver qual
00:08:53é o limite de conhecimento do GEMMA 4.
00:08:56E ele responde que é Joe Biden.
00:08:58E então, se eu perguntar: qual é o seu limite de conhecimento?
00:09:02Ele me dirá que é janeiro de 2025, o que faz sentido.
00:09:06Então, aqui está.
00:09:07Este é o GEMMA 4, o mais novo modelo de código aberto do Google.
00:09:10E tenho que ser honesto, este modelo parece ser muito bom.
00:09:14Ele faz o que anuncia, embora falte um pouco de criatividade no web design.
00:09:19Mas fora isso, os modelos pequenos, como acabamos de ver, são mais do que capazes de completar
00:09:24com sucesso todas as tarefas que eu estava lhe dando.
00:09:27É uma pena que ainda não tenhamos os bindings de MLX para este modelo, pois eu adoraria
00:09:32usar o GEMMA 4 localmente em um aplicativo iOS personalizado.
00:09:36Mas tenho certeza de que não levará muito tempo para o Google liberar isso para o público.
00:09:41E, enquanto isso, estou de olho em projetos da comunidade como o SwiftLM, que já estão
00:09:46trabalhando em bindings nativos não oficiais para esses modelos.
00:09:50Então, essas são as minhas considerações sobre o modelo.
00:09:52O que você acha do GEMMA 4?
00:09:54Você já experimentou?
00:09:55Você vai usá-lo?
00:09:56Deixe-nos saber na seção de comentários abaixo.
00:09:59E pessoal, se vocês gostam desse tipo de análise técnica, por favor me avisem clicando
00:10:03no botão de curtir abaixo do vídeo.
00:10:05E também não se esqueça de se inscrever no nosso canal.
00:10:07Aqui foi o Andres da BetterStack e vejo vocês nos próximos vídeos.

Key Takeaway

O Google Gemma 4 redefine a eficiência em IA de borda ao utilizar embeddings por camada e uma arquitetura multimodal nativa para entregar raciocínio complexo e suporte a 140 idiomas em dispositivos com apenas 1,5 GB de RAM.

Highlights

O modelo Gemma 4 E2B utiliza apenas 2,3 bilhões de parâmetros ativos, permitindo execução offline em dispositivos com menos de 1,5 GB de RAM.

A tecnologia de embeddings por camada introduz conjuntos de dados específicos em cada etapa do processamento, em vez de carregar um único embedding inicial.

A versão E4B atingiu 42,5% no benchmark de matemática AIME 2026, superando o dobro da pontuação de modelos significativamente maiores da geração anterior.

O Gemma 4 possui suporte nativo para multimodalidade, processando visão, texto e áudio em uma única arquitetura unificada sem módulos externos.

A janela de contexto estende-se por 128K tokens e o treinamento abrange suporte para mais de 140 idiomas diferentes.

O modelo utiliza uma cadeia de raciocínio interna para validar a própria lógica e evitar loops infinitos ou erros comuns em modelos de pequena escala.

A base de conhecimento do modelo está atualizada até o corte temporal de janeiro de 2025.

Timeline

Arquitetura e Inovação Técnica do Gemma 4

  • O modelo opera sob a licença de código aberto Apache 2.0.
  • A tecnologia de embeddings por camada permite a introdução de novas informações em pontos específicos da rede neural.
  • O sufixo E nos modelos E2B e E4B refere-se aos parâmetros efetivos utilizados durante a inferência.

Diferente de transformers tradicionais, esta arquitetura não depende de um único embedding estático no início do processo. Cada camada possui autonomia para injetar contexto onde for necessário, garantindo que um modelo de 2,3 bilhões de parâmetros ativos entregue a profundidade de raciocínio de um modelo de 5 bilhões. Esta eficiência técnica possibilita a execução total em hardware limitado como Raspberry Pi ou smartphones.

Benchmarks e Habilidades de Agente

  • O benchmark AIME 2026 registrou uma pontuação de 42,5% para o modelo E4B.
  • A precisão no uso de ferramentas externas apresenta um salto significativo no benchmark T2.
  • Chamadas de função nativas permitem a execução de fluxos de trabalho de múltiplas etapas.

O desempenho em tarefas matemáticas supera modelos maiores de gerações passadas por uma margem de 100%. Além da geração de texto, o modelo demonstra capacidades práticas de agente, sendo capaz de consultar dados ao vivo na Wikipedia ou construir widgets funcionais de ponta a ponta. O foco está na utilidade prática e na interação direta com APIs e funções.

Desempenho em Tarefas de Programação Local

  • O modelo E4B gerou um carrinho de compras funcional em código HTML e CSS.
  • A versão E2B apresenta falhas de formatação ao anexar listas de tarefas no final dos arquivos.
  • A latência para completar uma tarefa simples de web design varia entre 1,5 e 3,5 minutos em execução local.

Testes realizados via LMStudio e CLINE sem internet revelam disparidades entre as versões. Enquanto o E2B falha ao produzir arquivos JavaScript prometidos e polui o código com metadados, o E4B demonstra superioridade lógica ao implementar funcionalidades que modelos concorrentes como o Qwen 3.5 não conseguiram. O design visual permanece básico, mas a integridade estrutural do código é mantida na versão maior.

Execução em Dispositivos Móveis e Multimodalidade

  • O framework Lite RTLM proporciona respostas quase instantâneas em dispositivos móveis.
  • O reconhecimento visual funciona de forma integrada na arquitetura principal.
  • O sistema de OCR identifica e processa corretamente textos em mais de 140 idiomas.

A velocidade de resposta em dispositivos móveis supera competidores diretos, validando a otimização do framework de inferência. A capacidade multimodal nativa permite que o modelo descreva imagens e transcreva textos em idiomas complexos simultaneamente. Embora ocorram erros em classificações muito específicas, a compreensão contextual de imagens e documentos é robusta para a categoria de IA de borda.

Limites de Conhecimento e Perspectivas Futuras

  • A data de corte para o treinamento do Gemma 4 é janeiro de 2025.
  • A fluência em idiomas menores apresenta estruturas gramaticais pouco naturais apesar da alta precisão léxica.
  • Bindings nativos não oficiais estão sendo desenvolvidos por projetos da comunidade como o SwiftLM.

O modelo demonstra consciência de eventos recentes, identificando corretamente figuras políticas atuais. Apesar de possuir um vocabulário vasto em diversos idiomas, a construção sintática em línguas menos comuns ainda carece de naturalidade humana. A expectativa recai sobre a liberação de bindings oficiais pelo Google para facilitar a integração em aplicativos iOS personalizados de forma nativa.

Community Posts

View all posts