00:00:00Na semana passada, o Google fez algo inesperado.
00:00:02Eles lançaram um modelo verdadeiramente de código aberto sob a licença Apache 2.0.
00:00:08Chama-se Gemma 4 e apresenta versões especializadas para dispositivos de borda tão pequenas quanto 2,3 bilhões de parâmetros
00:00:14que são projetadas para rodar inteiramente offline em dispositivos como o seu iPhone, flagships Android
00:00:21ou até mesmo em um Raspberry Pi.
00:00:23Parece que a corrida para construir o modelo pequeno definitivo está realmente esquentando.
00:00:28Há apenas algumas semanas, fiz alguns testes no QWAN 3.5 para ver como ele estava desafiando os limites da
00:00:33IA local, mas agora o Google promete uma densidade de inteligência ainda maior.
00:00:39Então, neste vídeo, vamos realizar testes semelhantes no Gemma 4 para ver se este modelo é realmente
00:00:44o melhor modelo pequeno disponível.
00:00:47Vai ser muito divertido, então vamos mergulhar nisso.
00:00:53Então, o que há de tão único nesses novos modelos Gemma 4?
00:00:57Bem, a real mudança técnica aqui é algo que o Google chama de embeddings por camada.
00:01:03Em transformers tradicionais, um token recebe um embedding no início que deve carregar
00:01:08todo o seu significado através de cada camada.
00:01:11Mas no Gemma 4, cada camada tem seu próprio conjunto de embeddings, permitindo que o modelo introduza
00:01:16novas informações exatamente onde são necessárias.
00:01:19É por isso que você vê o "E" nos nomes dos modelos E2B e E4B.
00:01:24Significa parâmetros efetivos.
00:01:27Embora o modelo atue com a profundidade de raciocínio de um modelo de 5 bilhões de parâmetros, ele usa apenas
00:01:32cerca de 2,3 bilhões de parâmetros ativos durante a inferência.
00:01:36Isso resulta em uma densidade de inteligência muito maior, permitindo-lhe lidar com lógica complexa
00:01:42enquanto usa menos de 1,5 gigabytes de RAM.
00:01:46E além do desempenho em texto, o Gemma 4 é nativamente multimodal.
00:01:50Isso significa que visão, texto e até áudio são processados dentro da mesma arquitetura unificada
00:01:56em vez de serem anexados como módulos separados.
00:01:59Esta arquitetura permite um novo modo de pensamento que usa uma cadeia de raciocínio interna para verificar
00:02:05sua própria lógica antes de fornecer uma resposta.
00:02:08Isso foi projetado especificamente para evitar loops infinitos e erros de lógica que muitas vezes
00:02:13afetam modelos pequenos.
00:02:15Ele também vem com uma janela de contexto de 128K e suporte para mais de 140 idiomas, o que deve
00:02:22torná-lo significativamente mais capaz em tarefas como OCR complexo ou identificação de idiomas locais.
00:02:29E para demonstrar essas habilidades, o Google divulgou alguns benchmarks reveladores.
00:02:34Em seus testes internos, o modelo E4B alcançou uma pontuação de 42,5% no benchmark de matemática AIME 2026,
00:02:43o que é mais do que o dobro da pontuação de modelos muito maiores da geração anterior.
00:02:49Eles também demonstraram o potencial de agente do modelo no T2 bench, onde ele mostrou
00:02:54um salto massivo na precisão do uso de ferramentas.
00:02:57Eles também demonstraram o potencial de agente do modelo através de um recurso chamado habilidades de agente.
00:03:02Em vez de apenas gerar texto estático, o modelo foi mostrado usando chamadas de função nativas
00:03:07para lidar com fluxos de trabalho de várias etapas, como consultar a Wikipedia para dados ao vivo ou construir um
00:03:13widget de chamadas de animais de ponta a ponta.
00:03:15Tudo isso soa impressionante, mas vamos testar por conta própria e ver como funciona.
00:03:20No meu vídeo anterior do QUEN 3.5, testei os modelos pequenos executando-os localmente sem
00:03:25conexão com a internet usando o LMStudio e o CLINE.
00:03:28Vou usar a mesma configuração para testar o GEMMA 4.
00:03:32Primeiro, temos que baixar os modelos no LMStudio, depois aumentar a janela de contexto disponível
00:03:37e iniciar o servidor.
00:03:39Podemos então ir para o CLINE e conectar nosso servidor local do LMStudio, escolher o modelo E2B,
00:03:45desligar nossa conexão com a internet e começar nossos testes.
00:03:49Da última vez, vimos que o QUEN 3.5 foi razoável ao gerar um site simples de café usando HTML,
00:03:55CSS e JavaScript com dois de seus modelos de menores parâmetros.
00:04:00Vamos reutilizar o mesmo prompt e ver se o GEMMA 4 é tão bom quanto nessa tarefa de codificação.
00:04:05O modelo E2B levou cerca de 1,5 minutos para completar essa tarefa.
00:04:10E para um modelo com 2,3 bilhões de parâmetros ativos, os resultados foram honestamente um pouco decepcionantes
00:04:16se comparados ao resultado da saída do QUEN, que usou apenas 0,8 bilhão de parâmetros.
00:04:22A coisa mais irritante foi que o GEMMA anexou a lista de tarefas ao final do arquivo HTML, bem
00:04:28como ao final do arquivo CSS, então tive que excluí-la manualmente de ambos os arquivos antes
00:04:33de abrir a página.
00:04:34E ele também afirmou ter escrito um arquivo JavaScript, quando na verdade nenhum arquivo JS foi produzido
00:04:40na saída final, então os resultados do teste E2B foram um pouco frustrantes.
00:04:45Mas essa situação melhorou bastante ao mudar para a versão do modelo E4B.
00:04:50Esta versão levou cerca de 3,5 minutos para terminar a tarefa, mas o resultado final foi notavelmente
00:04:55melhor.
00:04:56Talvez não em termos de design, ainda parece muito sem graça, mas esta versão na verdade tinha uma
00:05:00funcionalidade de carrinho funcional que nenhum dos testes anteriores, tanto para QUEN quanto GEMMA,
00:05:06foi capaz de produzir com sucesso.
00:05:08Portanto, a versão E4B já é um grande passo à frente em relação à versão E2B, mas obviamente ninguém
00:05:15consideraria seriamente usar modelos tão pequenos para codificação complexa ou séria.
00:05:20Eu apenas realizei esses testes por curiosidade para ver se uma contagem de parâmetros tão pequena
00:05:25ainda pode produzir um resultado significativo para uma tarefa de codificação.
00:05:29Tudo bem, agora vamos ver como o GEMMA 4 se comporta em dispositivos de borda como um iPhone.
00:05:34No meu vídeo do QUEN 3.5, construí um aplicativo iOS personalizado capaz de rodar o modelo
00:05:40na GPU Metal nativa usando o framework MLX da Swift.
00:05:44Embora o GEMMA 4 seja de código aberto, infelizmente não há bindings de MLX disponíveis para este
00:05:49modelo até o momento, que seriam capazes de rodar este modelo no iOS com capacidades multimodais.
00:05:56E o próprio Google está rodando o GEMMA 4 em seu aplicativo AI Edge Gallery usando seu próprio
00:06:01framework de inferência chamado Lite RTLM, que infelizmente também não suporta bindings para iOS no
00:06:07momento.
00:06:08Portanto, para testá-lo em um iPhone, nossa melhor opção agora é usar o aplicativo Edge Gallery deles.
00:06:13Então vamos realizar nossos testes no aplicativo deles e ver como ele se sai.
00:06:18Vamos para a seção de chat de IA.
00:06:20E aqui seremos solicitados a baixar a versão E2B do GEMMA 4.
00:06:25E você também tem a opção de baixar a versão E4B, mas por algum motivo o app diz
00:06:29que eu não tenho espaço suficiente para baixá-lo, o que tenho certeza que não é verdade, então talvez seja
00:06:34um bug no aplicativo.
00:06:36Mas enfim, agora que baixei o modelo, podemos finalmente começar a usá-lo.
00:06:41E vamos começar digitando um simples "olá".
00:06:43Uau, você viu como a resposta foi rápida?
00:06:46Muito mais rápida que o QUEN 3.5.
00:06:48Talvez essa seja a mágica do framework Lite RTLM que eles estão usando.
00:06:53Agora vamos tentar o famoso teste do lava-jato e ver se o GEMMA acerta.
00:06:57Uau, ele me dá uma resposta realmente longa.
00:07:00E ao final dela, vemos que a recomendação final é dirigir, o que está correto,
00:07:06mas tenho que levar em conta o fato de que ele está olhando para conveniência e conforto
00:07:10e não para o fato lógico em si.
00:07:13Então não sei, ele meio que passa no teste, mas ao mesmo tempo meio que não passa.
00:07:18Tudo bem, agora vamos para a seção de perguntar sobre imagem e ver se o GEMMA consegue identificar
00:07:24o cachorro nesta foto.
00:07:26Ele identificou que é de fato um cachorro e dá alguns outros detalhes sobre a imagem.
00:07:31Isso é bem legal.
00:07:32Mas se eu perguntar: qual é a raça do cachorro?
00:07:35Ele responde dizendo que é um Border Collie, o que não é verdade.
00:07:39Na verdade é um Corgi.
00:07:40Mas devo dizer que, para pouco mais de 2 bilhões de parâmetros ativos, essa resposta é muito
00:07:45boa, apesar de tudo.
00:07:46Por último, vamos tentar o teste de OCR.
00:07:48Se você assistiu ao meu vídeo anterior com o Quen 3.5, lembrará que o testei com
00:07:54uma imagem que tinha texto em letão, que também é minha língua nativa.
00:07:59Agora, o GEMMA se gaba de ser capaz de entender até 140 idiomas.
00:08:05Então presumo que ele deva passar neste teste facilmente.
00:08:08E sim, de fato, ele identifica que o idioma é o letão.
00:08:13E estou surpreso que a maior parte do texto está realmente bem correta.
00:08:16Com algumas pequenas exceções, vejo que algumas palavras não existem e algumas das estruturas
00:08:22gramaticais são simplesmente muito bizarras.
00:08:24Mas ainda é muito impressionante.
00:08:26Então, darei uma nota de aprovação para este teste.
00:08:28Agora, isso na verdade levanta a questão: posso conversar com este modelo em letão?
00:08:32Vou tentar isso a seguir.
00:08:33Vejo que a resposta é de fato em letão.
00:08:36Mas, mais uma vez, as estruturas gramaticais são muito bizarras.
00:08:39E ninguém fala desse jeito.
00:08:41Mas ainda assim, o letão é um idioma muito pequeno.
00:08:44Portanto, já é impressionante que ele tenha todo esse conhecimento em um modelo tão pequeno.
00:08:48E enquanto estou nisso, vou perguntar quem é o atual presidente dos EUA para ver qual
00:08:53é o limite de conhecimento do GEMMA 4.
00:08:56E ele responde que é Joe Biden.
00:08:58E então, se eu perguntar: qual é o seu limite de conhecimento?
00:09:02Ele me dirá que é janeiro de 2025, o que faz sentido.
00:09:06Então, aqui está.
00:09:07Este é o GEMMA 4, o mais novo modelo de código aberto do Google.
00:09:10E tenho que ser honesto, este modelo parece ser muito bom.
00:09:14Ele faz o que anuncia, embora falte um pouco de criatividade no web design.
00:09:19Mas fora isso, os modelos pequenos, como acabamos de ver, são mais do que capazes de completar
00:09:24com sucesso todas as tarefas que eu estava lhe dando.
00:09:27É uma pena que ainda não tenhamos os bindings de MLX para este modelo, pois eu adoraria
00:09:32usar o GEMMA 4 localmente em um aplicativo iOS personalizado.
00:09:36Mas tenho certeza de que não levará muito tempo para o Google liberar isso para o público.
00:09:41E, enquanto isso, estou de olho em projetos da comunidade como o SwiftLM, que já estão
00:09:46trabalhando em bindings nativos não oficiais para esses modelos.
00:09:50Então, essas são as minhas considerações sobre o modelo.
00:09:52O que você acha do GEMMA 4?
00:09:54Você já experimentou?
00:09:55Você vai usá-lo?
00:09:56Deixe-nos saber na seção de comentários abaixo.
00:09:59E pessoal, se vocês gostam desse tipo de análise técnica, por favor me avisem clicando
00:10:03no botão de curtir abaixo do vídeo.
00:10:05E também não se esqueça de se inscrever no nosso canal.
00:10:07Aqui foi o Andres da BetterStack e vejo vocês nos próximos vídeos.