Transcript
00:00:00o melhor modelo aberto do mundo no momento não vem de uma empresa chamada open ai, é claro que vem de um
00:00:04laboratório chinês e este é o GLM 5.2 da Zhipu, este modelo é seriamente impressionante, equiparando-se ao GPT 5.5 em
00:00:10certos benchmarks e há até uma categoria onde ele parece superar o Claude, tudo isso
00:00:15sendo de código aberto licenciado pelo MIT. Vamos dar uma olhada. Então, o GLM 5.2 é um modelo de 744 bilhões de parâmetros totais
00:00:26com 40 bilhões de parâmetros ativos e, na verdade, tem o mesmo tamanho do seu predecessor, o GLM 5.1,
00:00:31e é por isso que é muito impressionante que eles tenham dado um salto tão grande no índice de inteligência
00:00:35da Artificial Analysis; esta é uma pontuação combinada em vários benchmarks, como raciocínio, codificação,
00:00:40ciência, tudo isso. O GLM 5.2 obteve aqui uma pontuação de 51, que é 11 pontos à frente da sua iteração anterior
00:00:45e é o melhor modelo aberto por uma margem bastante saudável. Você pode ver que o Qwen 3.7 é o próximo, depois o Minimax M3,
00:00:51seguido pelo Kimi K 2.6. Isso o coloca no mesmo patamar do Gemini 3.5 Flash e GPT 5.4 em
00:00:57esforço máximo, o que é simplesmente insano. E em alguns dos benchmarks incluídos neste índice, como o GPT-4V,
00:01:03ele realmente supera o GPT 5.5. Se focarmos especificamente na codificação, ele continua ótimo no índice de codificação;
00:01:09ele pontua o mesmo que o Gemini 3.1 Pro e realmente supera o Sonnet 4.6, e não fica nem um pouco atrás dos
00:01:14modelos de fronteira topo de linha. Ele também está um pouco à frente do Kimi K 2.7 Code, que é nosso modelo mais novo, do qual sei que
00:01:19muitas pessoas, eu inclusive, somos grandes fãs. Sempre achei que os modelos Kimi têm um toque
00:01:23muito bom. Fora do índice de codificação, outro benchmark que as pessoas parecem gostar muito hoje em dia
00:01:27é o DeepSeek; então, se dermos uma olhada, ele realmente supera o Opus 4.7 em um esforço médio,
00:01:33o que é genuinamente impressionante. Vale notar, no entanto, que nem todo modelo
00:01:38foi testado neste e o harness usado foi, na verdade, o Claude Code; você só precisa de um pouco de truque de API
00:01:42para apontar para a Zhipu em vez da Anthropic. O conjunto final de benchmarks que gosto são as Design Arenas
00:01:47e é aqui que as coisas ficam interessantes. O GLM 5.2 acabou de conquistar o primeiro lugar geral na Design Arena
00:01:53na tabela de classificação de design web HTML de turno único, tornando-se o primeiro modelo da história a superar a linha do Claude,
00:01:58incluindo o Claude 3.5. Parece que esta pode ter sido uma área de foco do modelo, já que uma investigação mais aprofundada
00:02:02pela Design Arena parece mostrar que o GLM 5.2 tem um forte conjunto de modelos especialistas que evitam os comuns
00:02:08anti-padrões de IA, então você deve obter menos gradientes roxos, e também parece funcionar muito bem
00:02:12com bibliotecas comuns como Chart.js, Three.js e Tailwind. Isso vem com um pequeno custo que
00:02:18é o fato de ser um pouco mais lento, mas voltarei a isso mais tarde. Ele também não é o número um em todos os lugares na Design Arena,
00:02:22ficando em segundo lugar em desenvolvimento de jogos, visualização de dados e 3D, e em quarto lugar em componentes de interface (UI), mas isso é
00:02:28ainda super impressionante. Pensei em testar isso em alguns aplicativos de demonstração, e o primeiro foi na verdade
00:02:32recriar o Linear, mas uma das coisas irritantes sobre o GLM 5.2, que é uma pequena desvantagem,
00:02:37é que ele só aceita modalidades de texto, então você não pode enviar uma captura de tela e dizer recrie isso
00:02:42então o que fiz foi enviar uma captura de tela para o Claude e dizer: “me dê um prompt para recriar isso”
00:02:46e esse foi o prompt que acabei dando ao GLM 5.2. Independentemente disso, os resultados que obtive foram super
00:02:51impressionantes. À esquerda aqui, tenho a página web real do Linear e, à direita, temos a recriação
00:02:55do GLM. Você pode ver que ele acertou os elementos gerais, e para a captura de tela aqui, na verdade, apenas
00:02:59recriou a interface do usuário, o que achei muito legal. Conforme descemos a página, você pode ver que ele captou
00:03:04a sensação geral do site da Linear, e acho que ficou muito bom. Então, ele tem fortes habilidades de design
00:03:09de UI. Obviamente, não é perfeito, já que não conseguiu processar uma captura de tela, então ele meio que faz isso como
00:03:14uma recriação daquele prompt de texto que mostrei, mas esta página web está muito bonita. Para comparação,
00:03:19à esquerda aqui tenho o que o Claude Opus 4.8 me deu com exatamente o mesmo prompt, e este aqui é o
00:03:23Kimi K 2.7 Code, e novamente, todos fizeram um trabalho muito bom ao recriar o site apenas a partir daquele
00:03:29prompt, e na verdade, acho que gostei mais do Kimi K 2.7. Ele simplesmente tem a melhor sensação geral
00:03:34e parece o mais completo, na minha opinião. Em seguida, pensei que seria bom
00:03:38dar a esses modelos um novo site que provavelmente eles não viram antes, já que o Linear provavelmente está
00:03:42nos dados de treinamento de muitos desses modelos, então apenas disse: “projete e construa um site de uma página bonita
00:03:46para um produto fictício chamado North Star”. É um aplicativo de planejamento pessoal alimentado por IA. Você pode ver
00:03:50que também há alguma direção de design abaixo, como: queremos uma seção principal, prova social, seção de
00:03:56preços, todas as coisas usuais. E aqui embaixo a direção do design é: estética SaaS limpa e premium,
00:04:00gradientes suaves, tipografia forte, cartões arredondados e assim por diante. Este é o resultado que recebi de dois dos
00:04:06modelos, e direi qual é qual no final, mas você pode ver enquanto descemos que acho que isso
00:04:10parece muito bom, e acho que ele fez um trabalho muito bom. É um site de startup bem básico com sua
00:04:15seção de preços normal e assim por diante, e o mesmo à direita aqui. Talvez eu goste desse estilo um pouco
00:04:20mais, mas você pode ver que ele optou por aquele visual de IA com gradiente roxo, mas acho que há apenas
00:04:25algo sobre este site que parece um pouco mais limpo e completo para mim, mas isso é
00:04:29completamente opinativo. Se você tem um favorito, me avise nos comentários abaixo e também se inscreva
00:04:33enquanto está lá. O da esquerda aqui foi na verdade o GLM 5.2 e este foi o Claude Opus 4.8.
00:04:39Para completar, isto é o que o Kimi K 2.7 Code me deu, e realmente acho que este cai naquele tipo
00:04:43de visual de IA com esses gradientes roxos. É um pouco semelhante ao do Claude, apenas com menos
00:04:48animações e menos polimento. Eu também queria ver rapidamente aqui o que o GLM 5.2 faria se eu não lhe desse
00:04:53nenhuma direção de design, então apenas lhe dei a parte inicial do prompt, e não acho
00:04:56que o resultado pareça ruim, mas não tenho certeza se concordo com a Design Arena que isso não tem o
00:05:01visual comum de IA; este realmente está usando esses gradientes roxos ao máximo. Para o próximo teste, eu
00:05:05pensei em testá-los em aplicações Three.js de uma só vez, e simplesmente disse: “construa um jogo Three.js
00:05:10onde eu possa correr com um carro de F1 em Silverstone”. Você pode ver que este funcionou aqui e levou
00:05:15ao todo cerca de 10 minutos; se descermos até o fim, usou 40.000 tokens e custou 32
00:05:20centavos. Este é o resultado que o GLM 5.2 nos deu, então você pode ver que diz: “Silverstone F1” e “inicie seu
00:05:25motor”. A propósito, Lewis Hamilton acabou de vencer pela Ferrari, isso é absolutamente incrível, estou feliz em ver que temos
00:05:30um carro vermelho aqui, uma Ferrari, embora estejamos definitivamente um pouco mais lentos do que eu gostaria que estivéssemos
00:05:35e uma coisa que estou notando aqui é que, se pressiono 'A', parece que vou para a direita e 'D' para a esquerda, então os controles estão
00:05:40invertidos, mas parece que não nas setas do teclado. E definitivamente esta não é a velocidade que eu gostaria
00:05:45que uma Ferrari estivesse fazendo em Silverstone, mas, quero dizer, não está nada mal para uma primeira tentativa, na verdade
00:05:51parece que vou mais rápido se eu andar de ré, então talvez se eu apenas der ré na pista, seja melhor. Eu tentei
00:05:55o mesmo teste com o Kimi K 2.7 Code, mas na verdade não recebi um exemplo funcional em um único
00:05:59prompt. Algum lugar aqui embaixo eu tive alguns erros de console que ficavam em loop constante, então precisei
00:06:04dizer a ele que tive alguns erros, mas aí ele corrigiu no segundo prompt, e você pode ver
00:06:08que este aqui realmente usou mais tokens, 110.000, e custou 81 centavos. O resultado que recebi também foi
00:06:14um pouco menos jogável, parece que temos um pouco mais de velocidade, mas nosso círculo de giro é terrível. Eu
00:06:19não acho que já vi um piloto de F1 girar assim, e também podemos passar por alguns prédios
00:06:23aqui. É legal que eles colocaram os nomes das curvas em Silverstone, mas também não há pista, são
00:06:27aparentemente apenas balizadores. O último então é o Claude Opus 4.8, e este é um pouco mais jogável
00:06:33além do fato de que não acho que existam árvores no meio da pista de Silverstone. Quero dizer, na
00:06:37última vez que verifiquei não havia, e sim, é um jogo razoavelmente bom. Temos alguns controles de
00:06:42câmera aqui; minhas rodas provavelmente não gostariam deles se eu fosse um piloto de F1, mas parece estar lidando
00:06:47bem com tudo. A pista em si, no entanto, é também uma das pistas mais confusas que acho que já
00:06:52vi alguém correr, há muitas sobreposições acontecendo aqui e não sei exatamente para qual caminho
00:06:57ir, mas eu diria que o Opus 4.8 nos deu a demo mais jogável em um único prompt. O teste final que fiz
00:07:02é um pouco mais envolvido: é um front-end e um back-end do zero de um gerenciamento de finanças pessoais
00:07:07com um painel (dashboard) com alguns recursos que você pode ver listados aqui, e a ideia geral aqui é
00:07:11ver qual stack ele escolhe quando começa do zero e também se ele pode conectar um front-end e um back-end
00:07:16tudo naquele único prompt sem erros. Aqui está a tentativa do GLM 5.2 e devo dizer, sim, é um
00:07:22painel de aparência bem básica. Não há nada chique, mas também não há muitas coisas sofisticadas que você
00:07:26pode fazer com o tipo de prompt que dei. Tudo parece estar funcionando, adicionei coisas ao banco de dados,
00:07:32paguei minha assinatura do Fable 5 aqui, todas essas páginas são clicáveis e tudo é transferido
00:07:37entre elas quando clico. Eu testei, então parece que ele fez um trabalho muito bom a partir
00:07:41daquele único prompt. Sempre fico curioso sobre qual stack ele escolheu também, e este foi com uma aplicação
00:07:46Next.js, usou Prisma para o banco de dados e podemos ver que aqui também temos um banco de dados de
00:07:50desenvolvimento. Provavelmente eu teria preferido que ele usasse Drizzle e talvez TanStack, mas não posso realmente
00:07:55reclamar, não dei nenhuma direção. Isso é na verdade o que o Kimi K 2.7 Code me deu, e você pode ver que é
00:07:59quase a mesma aplicação, é só que eu diria que não é tão chique. Eles definitivamente têm alguns dos
00:08:04mesmos modelos em seu treinamento em algum lugar que parece exatamente com isso, e novamente, sim, não posso
00:08:09reclamar muito sobre isso, mas está faltando todos os extras com os botões para poder
00:08:13transferir. Tenho os recursos de adicionar conta e adicionar transações, eles funcionam, mas eu diria que a
00:08:18interface geral disso e a experiência do usuário são um pouco piores, já que não tem aquela informação
00:08:23clicável aqui em cima. O stack padrão que ele escolheu eu também diria que é um pouco pior; usou React aqui com
00:08:28apenas uma configuração normal de Vite e React Router, com o qual não tenho problemas, mas o back-end ele optou pelo
00:08:33Express, e se dermos uma olhada no arquivo de banco de dados real, ele está apenas usando Node SQLite para escrever nele e
00:08:39escrevendo os esquemas no texto aqui, o que acho que será um pouco menos escalável. Se eu estivesse
00:08:43completamente “vibe coding” e não soubesse nada sobre o stack, provavelmente eu iria querer o GLM 5.2, mas se eu estivesse
00:08:48usando o Kimi K 2.7 Code, provavelmente eu teria dado a ele instruções para usar Drizzle, Next.js e
00:08:53várias outras coisas também, então apenas varia com base no que você gosta. Falando em opinativo também, este
00:08:58é na verdade o que o Claude Opus 4.8 me deu. Definitivamente, ele optou por um estilo completamente diferente
00:09:03do que vimos antes, mas é uma espécie de estilo de texto que o Claude parece gostar no
00:09:07momento. É definitivamente o que eles colocaram nos dados de treinamento ou para o qual estão empurrando, e tudo
00:09:11isso funciona muito bem, e sim, acho que parece muito bom. Provavelmente eu pediria para ele talvez usar
00:09:16fontes diferentes e um esquema de cores diferente, mas a base geral é muito boa. Ele não
00:09:20fez páginas separadas para isso, apenas fez seções separadas, então talvez isso seja pior, mas, novamente,
00:09:25isso depende do prompt. Todos os recursos e tudo mais estão funcionando. Dando uma olhada
00:09:29no código real que o Opus me deu, na verdade acho que o GLM 5.2 pode ter ganhado esta. O que o Opus
00:09:34fez foi apenas usar uma aplicação React normal, ele nem se deu ao trabalho com o React Router, já que estava
00:09:38tudo naquela página única, e ele também optou pelo Express para o seu back-end, mas então ele não
00:09:43fez nenhuma conexão com um banco de dados. Tudo é, na verdade, apenas um armazenamento em memória que podemos ver
00:09:48aqui, onde ele semeia os dados e apenas executa tudo a partir de um objeto JavaScript, o que, novamente, provavelmente
00:09:53não é o que eu quero se eu for escalar isso no futuro, mas depende do prompt. Acho que
00:09:58essa é a minha principal conclusão ao testar este modelo nos últimos dias. Acho que, para muitas
00:10:02tarefas, você poderia secretamente trocar o GLM 5.2 pelo Sonnet ou até mesmo pelo Opus para tarefas mais simples, e eu
00:10:07provavelmente não notaria. É um modelo realmente capaz e, se você der a ele a direção certa, obtém
00:10:12resultados realmente bons. É um dos primeiros modelos abertos que não senti como se estivesse lutando para
00:10:16usar e, também, um dos primeiros modelos abertos onde, ao usá-lo, não tive aquela sensação de “eu sei que o Claude
00:10:21poderia fazer isso melhor ou mais rápido”. As últimas coisas a mencionar então, para encerrar isto, são tokens, custo e
00:10:25velocidade. Um dos pontos negativos do GLM 5.2 poderia ser que ele é um pouco mais faminto por tokens quando comparado a
00:10:31outros modelos em sua classe; ele usou uma média de 43.000 tokens por tarefa, o que é mais do que o Kimi K 2.6,
00:10:37Minimax e DeepSeek, mas a boa notícia é que, na verdade, não custa tanto. Dependendo do
00:10:41provedor, é cerca de 1,40 dólar por um milhão de tokens de entrada e 4,40 dólares por um milhão de tokens de saída. E nos
00:10:47benchmarks da Artificial Analysis, ele na verdade custou cerca de 50 centavos por tarefa. E você pode ver que este é um
00:10:52ponto muito bom quando analisamos custo versus inteligência. Ignore o rótulo Gemini aqui, na verdade é este ponto azul
00:10:57e você pode ver que é um gráfico bastante lotado, mas o que isso mostra é que em seu nível de
00:11:02inteligência, o GLM 5.2 é o modelo mais barato, embora eu deva dizer aqui que, se você puder aceitar um impacto na inteligência,
00:11:07eu realmente acho que o Minimax e especialmente o DeepSeek V4 são muito bons por esse preço. Quando se trata de velocidade,
00:11:12o GLM 5.2 na verdade não é nada mal; ele superou a maioria dos modelos abertos perto do seu nível de inteligência,
00:11:17como DeepSeek V4, Kimi 2.7 Code e Minimax, e fica um pouco atrás de um modelo de fronteira como o Gemini 3.1 Pro,
00:11:24que tem o mesmo nível de inteligência, mas esse é um modelo de fronteira. E eu adoraria ver o Gemini
00:11:283.5 Pro adicionado a esta lista. Google, por favor, lance isso. Quando se trata de velocidade também, a Design Arena
00:11:33na verdade, aparentemente, obteve um resultado um pouco diferente, onde eles dizem que o GLM 5.2 pontua mais alto na
00:11:38preferência do usuário pelo design, mas foi também o mais lento entre os modelos topo de linha, embora seja também
00:11:42vale notar que todos esses modelos topo de linha são de fronteira e não abertos. No geral, realmente
00:11:47parece que estamos em um ponto onde esses modelos abertos estão, digamos, quatro a seis meses atrás, então
00:11:51talvez, de forma otimista demais, possamos estar esperando um modelo Claude até o próximo ano, e quero dizer, eles próprios
00:11:56estão realmente prometendo até o primeiro trimestre. E eu odeio concordar com essa próxima pessoa em qualquer coisa, mas ele levanta um
00:12:01bom ponto aqui que talvez nos benchmarks eles pudessem alcançar o Claude, mas a utilidade real parece
00:12:06um pouco diferente, e é nisso que a Anthropic é muito boa. É muito raro vê-lo realmente
00:12:10fazendo um elogio a eles, mas tenho que concordar com esse sentimento de que realmente usar
00:12:14esses modelos parece um pouco diferente. Mas acho que o GLM 5.2 é um dos primeiros que quebrou
00:12:19esse ciclo para mim. Acho que se você me dissesse um ano atrás que esses modelos abertos estariam perto
00:12:23de serem tão bons, eu teria ficado absolutamente chocado e provavelmente não teria acreditado em você. E eu não sou, na verdade,
00:12:27um “prepper” do fim do mundo, mas sinto que, com o recente banimento do Claude, só quero baixar o GLM 5.2 e armazená-lo
00:12:31em um SSD, só caso precise dele mais tarde. Me diga o que você acha deste modelo nos comentários
00:12:36aqui embaixo e também me diga qual é o seu modelo aberto favorito para usar. Enquanto estiver lá, inscreva-se
00:12:40e, como sempre, vejo você no próximo.