O GLM 5.2 é o meu novo modelo favorito...

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00o melhor modelo aberto do mundo no momento não vem de uma empresa chamada open ai, é claro que vem de um

00:00:04laboratório chinês e este é o GLM 5.2 da Zhipu, este modelo é seriamente impressionante, equiparando-se ao GPT 5.5 em

00:00:10certos benchmarks e há até uma categoria onde ele parece superar o Claude, tudo isso

00:00:15sendo de código aberto licenciado pelo MIT. Vamos dar uma olhada. Então, o GLM 5.2 é um modelo de 744 bilhões de parâmetros totais

00:00:26com 40 bilhões de parâmetros ativos e, na verdade, tem o mesmo tamanho do seu predecessor, o GLM 5.1,

00:00:31e é por isso que é muito impressionante que eles tenham dado um salto tão grande no índice de inteligência

00:00:35da Artificial Analysis; esta é uma pontuação combinada em vários benchmarks, como raciocínio, codificação,

00:00:40ciência, tudo isso. O GLM 5.2 obteve aqui uma pontuação de 51, que é 11 pontos à frente da sua iteração anterior

00:00:45e é o melhor modelo aberto por uma margem bastante saudável. Você pode ver que o Qwen 3.7 é o próximo, depois o Minimax M3,

00:00:51seguido pelo Kimi K 2.6. Isso o coloca no mesmo patamar do Gemini 3.5 Flash e GPT 5.4 em

00:00:57esforço máximo, o que é simplesmente insano. E em alguns dos benchmarks incluídos neste índice, como o GPT-4V,

00:01:03ele realmente supera o GPT 5.5. Se focarmos especificamente na codificação, ele continua ótimo no índice de codificação;

00:01:09ele pontua o mesmo que o Gemini 3.1 Pro e realmente supera o Sonnet 4.6, e não fica nem um pouco atrás dos

00:01:14modelos de fronteira topo de linha. Ele também está um pouco à frente do Kimi K 2.7 Code, que é nosso modelo mais novo, do qual sei que

00:01:19muitas pessoas, eu inclusive, somos grandes fãs. Sempre achei que os modelos Kimi têm um toque

00:01:23muito bom. Fora do índice de codificação, outro benchmark que as pessoas parecem gostar muito hoje em dia

00:01:27é o DeepSeek; então, se dermos uma olhada, ele realmente supera o Opus 4.7 em um esforço médio,

00:01:33o que é genuinamente impressionante. Vale notar, no entanto, que nem todo modelo

00:01:38foi testado neste e o harness usado foi, na verdade, o Claude Code; você só precisa de um pouco de truque de API

00:01:42para apontar para a Zhipu em vez da Anthropic. O conjunto final de benchmarks que gosto são as Design Arenas

00:01:47e é aqui que as coisas ficam interessantes. O GLM 5.2 acabou de conquistar o primeiro lugar geral na Design Arena

00:01:53na tabela de classificação de design web HTML de turno único, tornando-se o primeiro modelo da história a superar a linha do Claude,

00:01:58incluindo o Claude 3.5. Parece que esta pode ter sido uma área de foco do modelo, já que uma investigação mais aprofundada

00:02:02pela Design Arena parece mostrar que o GLM 5.2 tem um forte conjunto de modelos especialistas que evitam os comuns

00:02:08anti-padrões de IA, então você deve obter menos gradientes roxos, e também parece funcionar muito bem

00:02:12com bibliotecas comuns como Chart.js, Three.js e Tailwind. Isso vem com um pequeno custo que

00:02:18é o fato de ser um pouco mais lento, mas voltarei a isso mais tarde. Ele também não é o número um em todos os lugares na Design Arena,

00:02:22ficando em segundo lugar em desenvolvimento de jogos, visualização de dados e 3D, e em quarto lugar em componentes de interface (UI), mas isso é

00:02:28ainda super impressionante. Pensei em testar isso em alguns aplicativos de demonstração, e o primeiro foi na verdade

00:02:32recriar o Linear, mas uma das coisas irritantes sobre o GLM 5.2, que é uma pequena desvantagem,

00:02:37é que ele só aceita modalidades de texto, então você não pode enviar uma captura de tela e dizer recrie isso

00:02:42então o que fiz foi enviar uma captura de tela para o Claude e dizer: “me dê um prompt para recriar isso”

00:02:46e esse foi o prompt que acabei dando ao GLM 5.2. Independentemente disso, os resultados que obtive foram super

00:02:51impressionantes. À esquerda aqui, tenho a página web real do Linear e, à direita, temos a recriação

00:02:55do GLM. Você pode ver que ele acertou os elementos gerais, e para a captura de tela aqui, na verdade, apenas

00:02:59recriou a interface do usuário, o que achei muito legal. Conforme descemos a página, você pode ver que ele captou

00:03:04a sensação geral do site da Linear, e acho que ficou muito bom. Então, ele tem fortes habilidades de design

00:03:09de UI. Obviamente, não é perfeito, já que não conseguiu processar uma captura de tela, então ele meio que faz isso como

00:03:14uma recriação daquele prompt de texto que mostrei, mas esta página web está muito bonita. Para comparação,

00:03:19à esquerda aqui tenho o que o Claude Opus 4.8 me deu com exatamente o mesmo prompt, e este aqui é o

00:03:23Kimi K 2.7 Code, e novamente, todos fizeram um trabalho muito bom ao recriar o site apenas a partir daquele

00:03:29prompt, e na verdade, acho que gostei mais do Kimi K 2.7. Ele simplesmente tem a melhor sensação geral

00:03:34e parece o mais completo, na minha opinião. Em seguida, pensei que seria bom

00:03:38dar a esses modelos um novo site que provavelmente eles não viram antes, já que o Linear provavelmente está

00:03:42nos dados de treinamento de muitos desses modelos, então apenas disse: “projete e construa um site de uma página bonita

00:03:46para um produto fictício chamado North Star”. É um aplicativo de planejamento pessoal alimentado por IA. Você pode ver

00:03:50que também há alguma direção de design abaixo, como: queremos uma seção principal, prova social, seção de

00:03:56preços, todas as coisas usuais. E aqui embaixo a direção do design é: estética SaaS limpa e premium,

00:04:00gradientes suaves, tipografia forte, cartões arredondados e assim por diante. Este é o resultado que recebi de dois dos

00:04:06modelos, e direi qual é qual no final, mas você pode ver enquanto descemos que acho que isso

00:04:10parece muito bom, e acho que ele fez um trabalho muito bom. É um site de startup bem básico com sua

00:04:15seção de preços normal e assim por diante, e o mesmo à direita aqui. Talvez eu goste desse estilo um pouco

00:04:20mais, mas você pode ver que ele optou por aquele visual de IA com gradiente roxo, mas acho que há apenas

00:04:25algo sobre este site que parece um pouco mais limpo e completo para mim, mas isso é

00:04:29completamente opinativo. Se você tem um favorito, me avise nos comentários abaixo e também se inscreva

00:04:33enquanto está lá. O da esquerda aqui foi na verdade o GLM 5.2 e este foi o Claude Opus 4.8.

00:04:39Para completar, isto é o que o Kimi K 2.7 Code me deu, e realmente acho que este cai naquele tipo

00:04:43de visual de IA com esses gradientes roxos. É um pouco semelhante ao do Claude, apenas com menos

00:04:48animações e menos polimento. Eu também queria ver rapidamente aqui o que o GLM 5.2 faria se eu não lhe desse

00:04:53nenhuma direção de design, então apenas lhe dei a parte inicial do prompt, e não acho

00:04:56que o resultado pareça ruim, mas não tenho certeza se concordo com a Design Arena que isso não tem o

00:05:01visual comum de IA; este realmente está usando esses gradientes roxos ao máximo. Para o próximo teste, eu

00:05:05pensei em testá-los em aplicações Three.js de uma só vez, e simplesmente disse: “construa um jogo Three.js

00:05:10onde eu possa correr com um carro de F1 em Silverstone”. Você pode ver que este funcionou aqui e levou

00:05:15ao todo cerca de 10 minutos; se descermos até o fim, usou 40.000 tokens e custou 32

00:05:20centavos. Este é o resultado que o GLM 5.2 nos deu, então você pode ver que diz: “Silverstone F1” e “inicie seu

00:05:25motor”. A propósito, Lewis Hamilton acabou de vencer pela Ferrari, isso é absolutamente incrível, estou feliz em ver que temos

00:05:30um carro vermelho aqui, uma Ferrari, embora estejamos definitivamente um pouco mais lentos do que eu gostaria que estivéssemos

00:05:35e uma coisa que estou notando aqui é que, se pressiono 'A', parece que vou para a direita e 'D' para a esquerda, então os controles estão

00:05:40invertidos, mas parece que não nas setas do teclado. E definitivamente esta não é a velocidade que eu gostaria

00:05:45que uma Ferrari estivesse fazendo em Silverstone, mas, quero dizer, não está nada mal para uma primeira tentativa, na verdade

00:05:51parece que vou mais rápido se eu andar de ré, então talvez se eu apenas der ré na pista, seja melhor. Eu tentei

00:05:55o mesmo teste com o Kimi K 2.7 Code, mas na verdade não recebi um exemplo funcional em um único

00:05:59prompt. Algum lugar aqui embaixo eu tive alguns erros de console que ficavam em loop constante, então precisei

00:06:04dizer a ele que tive alguns erros, mas aí ele corrigiu no segundo prompt, e você pode ver

00:06:08que este aqui realmente usou mais tokens, 110.000, e custou 81 centavos. O resultado que recebi também foi

00:06:14um pouco menos jogável, parece que temos um pouco mais de velocidade, mas nosso círculo de giro é terrível. Eu

00:06:19não acho que já vi um piloto de F1 girar assim, e também podemos passar por alguns prédios

00:06:23aqui. É legal que eles colocaram os nomes das curvas em Silverstone, mas também não há pista, são

00:06:27aparentemente apenas balizadores. O último então é o Claude Opus 4.8, e este é um pouco mais jogável

00:06:33além do fato de que não acho que existam árvores no meio da pista de Silverstone. Quero dizer, na

00:06:37última vez que verifiquei não havia, e sim, é um jogo razoavelmente bom. Temos alguns controles de

00:06:42câmera aqui; minhas rodas provavelmente não gostariam deles se eu fosse um piloto de F1, mas parece estar lidando

00:06:47bem com tudo. A pista em si, no entanto, é também uma das pistas mais confusas que acho que já

00:06:52vi alguém correr, há muitas sobreposições acontecendo aqui e não sei exatamente para qual caminho

00:06:57ir, mas eu diria que o Opus 4.8 nos deu a demo mais jogável em um único prompt. O teste final que fiz

00:07:02é um pouco mais envolvido: é um front-end e um back-end do zero de um gerenciamento de finanças pessoais

00:07:07com um painel (dashboard) com alguns recursos que você pode ver listados aqui, e a ideia geral aqui é

00:07:11ver qual stack ele escolhe quando começa do zero e também se ele pode conectar um front-end e um back-end

00:07:16tudo naquele único prompt sem erros. Aqui está a tentativa do GLM 5.2 e devo dizer, sim, é um

00:07:22painel de aparência bem básica. Não há nada chique, mas também não há muitas coisas sofisticadas que você

00:07:26pode fazer com o tipo de prompt que dei. Tudo parece estar funcionando, adicionei coisas ao banco de dados,

00:07:32paguei minha assinatura do Fable 5 aqui, todas essas páginas são clicáveis e tudo é transferido

00:07:37entre elas quando clico. Eu testei, então parece que ele fez um trabalho muito bom a partir

00:07:41daquele único prompt. Sempre fico curioso sobre qual stack ele escolheu também, e este foi com uma aplicação

00:07:46Next.js, usou Prisma para o banco de dados e podemos ver que aqui também temos um banco de dados de

00:07:50desenvolvimento. Provavelmente eu teria preferido que ele usasse Drizzle e talvez TanStack, mas não posso realmente

00:07:55reclamar, não dei nenhuma direção. Isso é na verdade o que o Kimi K 2.7 Code me deu, e você pode ver que é

00:07:59quase a mesma aplicação, é só que eu diria que não é tão chique. Eles definitivamente têm alguns dos

00:08:04mesmos modelos em seu treinamento em algum lugar que parece exatamente com isso, e novamente, sim, não posso

00:08:09reclamar muito sobre isso, mas está faltando todos os extras com os botões para poder

00:08:13transferir. Tenho os recursos de adicionar conta e adicionar transações, eles funcionam, mas eu diria que a

00:08:18interface geral disso e a experiência do usuário são um pouco piores, já que não tem aquela informação

00:08:23clicável aqui em cima. O stack padrão que ele escolheu eu também diria que é um pouco pior; usou React aqui com

00:08:28apenas uma configuração normal de Vite e React Router, com o qual não tenho problemas, mas o back-end ele optou pelo

00:08:33Express, e se dermos uma olhada no arquivo de banco de dados real, ele está apenas usando Node SQLite para escrever nele e

00:08:39escrevendo os esquemas no texto aqui, o que acho que será um pouco menos escalável. Se eu estivesse

00:08:43completamente “vibe coding” e não soubesse nada sobre o stack, provavelmente eu iria querer o GLM 5.2, mas se eu estivesse

00:08:48usando o Kimi K 2.7 Code, provavelmente eu teria dado a ele instruções para usar Drizzle, Next.js e

00:08:53várias outras coisas também, então apenas varia com base no que você gosta. Falando em opinativo também, este

00:08:58é na verdade o que o Claude Opus 4.8 me deu. Definitivamente, ele optou por um estilo completamente diferente

00:09:03do que vimos antes, mas é uma espécie de estilo de texto que o Claude parece gostar no

00:09:07momento. É definitivamente o que eles colocaram nos dados de treinamento ou para o qual estão empurrando, e tudo

00:09:11isso funciona muito bem, e sim, acho que parece muito bom. Provavelmente eu pediria para ele talvez usar

00:09:16fontes diferentes e um esquema de cores diferente, mas a base geral é muito boa. Ele não

00:09:20fez páginas separadas para isso, apenas fez seções separadas, então talvez isso seja pior, mas, novamente,

00:09:25isso depende do prompt. Todos os recursos e tudo mais estão funcionando. Dando uma olhada

00:09:29no código real que o Opus me deu, na verdade acho que o GLM 5.2 pode ter ganhado esta. O que o Opus

00:09:34fez foi apenas usar uma aplicação React normal, ele nem se deu ao trabalho com o React Router, já que estava

00:09:38tudo naquela página única, e ele também optou pelo Express para o seu back-end, mas então ele não

00:09:43fez nenhuma conexão com um banco de dados. Tudo é, na verdade, apenas um armazenamento em memória que podemos ver

00:09:48aqui, onde ele semeia os dados e apenas executa tudo a partir de um objeto JavaScript, o que, novamente, provavelmente

00:09:53não é o que eu quero se eu for escalar isso no futuro, mas depende do prompt. Acho que

00:09:58essa é a minha principal conclusão ao testar este modelo nos últimos dias. Acho que, para muitas

00:10:02tarefas, você poderia secretamente trocar o GLM 5.2 pelo Sonnet ou até mesmo pelo Opus para tarefas mais simples, e eu

00:10:07provavelmente não notaria. É um modelo realmente capaz e, se você der a ele a direção certa, obtém

00:10:12resultados realmente bons. É um dos primeiros modelos abertos que não senti como se estivesse lutando para

00:10:16usar e, também, um dos primeiros modelos abertos onde, ao usá-lo, não tive aquela sensação de “eu sei que o Claude

00:10:21poderia fazer isso melhor ou mais rápido”. As últimas coisas a mencionar então, para encerrar isto, são tokens, custo e

00:10:25velocidade. Um dos pontos negativos do GLM 5.2 poderia ser que ele é um pouco mais faminto por tokens quando comparado a

00:10:31outros modelos em sua classe; ele usou uma média de 43.000 tokens por tarefa, o que é mais do que o Kimi K 2.6,

00:10:37Minimax e DeepSeek, mas a boa notícia é que, na verdade, não custa tanto. Dependendo do

00:10:41provedor, é cerca de 1,40 dólar por um milhão de tokens de entrada e 4,40 dólares por um milhão de tokens de saída. E nos

00:10:47benchmarks da Artificial Analysis, ele na verdade custou cerca de 50 centavos por tarefa. E você pode ver que este é um

00:10:52ponto muito bom quando analisamos custo versus inteligência. Ignore o rótulo Gemini aqui, na verdade é este ponto azul

00:10:57e você pode ver que é um gráfico bastante lotado, mas o que isso mostra é que em seu nível de

00:11:02inteligência, o GLM 5.2 é o modelo mais barato, embora eu deva dizer aqui que, se você puder aceitar um impacto na inteligência,

00:11:07eu realmente acho que o Minimax e especialmente o DeepSeek V4 são muito bons por esse preço. Quando se trata de velocidade,

00:11:12o GLM 5.2 na verdade não é nada mal; ele superou a maioria dos modelos abertos perto do seu nível de inteligência,

00:11:17como DeepSeek V4, Kimi 2.7 Code e Minimax, e fica um pouco atrás de um modelo de fronteira como o Gemini 3.1 Pro,

00:11:24que tem o mesmo nível de inteligência, mas esse é um modelo de fronteira. E eu adoraria ver o Gemini

00:11:283.5 Pro adicionado a esta lista. Google, por favor, lance isso. Quando se trata de velocidade também, a Design Arena

00:11:33na verdade, aparentemente, obteve um resultado um pouco diferente, onde eles dizem que o GLM 5.2 pontua mais alto na

00:11:38preferência do usuário pelo design, mas foi também o mais lento entre os modelos topo de linha, embora seja também

00:11:42vale notar que todos esses modelos topo de linha são de fronteira e não abertos. No geral, realmente

00:11:47parece que estamos em um ponto onde esses modelos abertos estão, digamos, quatro a seis meses atrás, então

00:11:51talvez, de forma otimista demais, possamos estar esperando um modelo Claude até o próximo ano, e quero dizer, eles próprios

00:11:56estão realmente prometendo até o primeiro trimestre. E eu odeio concordar com essa próxima pessoa em qualquer coisa, mas ele levanta um

00:12:01bom ponto aqui que talvez nos benchmarks eles pudessem alcançar o Claude, mas a utilidade real parece

00:12:06um pouco diferente, e é nisso que a Anthropic é muito boa. É muito raro vê-lo realmente

00:12:10fazendo um elogio a eles, mas tenho que concordar com esse sentimento de que realmente usar

00:12:14esses modelos parece um pouco diferente. Mas acho que o GLM 5.2 é um dos primeiros que quebrou

00:12:19esse ciclo para mim. Acho que se você me dissesse um ano atrás que esses modelos abertos estariam perto

00:12:23de serem tão bons, eu teria ficado absolutamente chocado e provavelmente não teria acreditado em você. E eu não sou, na verdade,

00:12:27um “prepper” do fim do mundo, mas sinto que, com o recente banimento do Claude, só quero baixar o GLM 5.2 e armazená-lo

00:12:31em um SSD, só caso precise dele mais tarde. Me diga o que você acha deste modelo nos comentários

00:12:36aqui embaixo e também me diga qual é o seu modelo aberto favorito para usar. Enquanto estiver lá, inscreva-se

00:12:40e, como sempre, vejo você no próximo.

Key Takeaway

O GLM 5.2 da Zhipu redefine o padrão de modelos de código aberto, igualando-se em performance a modelos de fronteira como o GPT-4V e o Claude 3.5 em benchmarks de codificação e design web.

Highlights

O GLM 5.2, modelo de código aberto da Zhipu, possui 744 bilhões de parâmetros totais e 40 bilhões de parâmetros ativos.
O modelo atingiu uma pontuação de 51 no índice de inteligência da Artificial Analysis, superando a versão anterior em 11 pontos.
Na Design Arena de web design HTML, o GLM 5.2 tornou-se o primeiro modelo a superar a performance do Claude 3.5.
Apesar da alta capacidade, o modelo limita-se a entradas de texto, não processando capturas de tela diretamente.
O custo operacional do GLM 5.2 gira em torno de 1,40 dólar por um milhão de tokens de entrada e 4,40 dólares por um milhão de tokens de saída.
Em termos de velocidade, o modelo supera alternativas abertas como o DeepSeek V4 e o Kimi K 2.7 Code em tarefas similares.

Timeline

Desempenho e Benchmarks de Inteligência

O GLM 5.2 alcançou uma pontuação combinada de 51 no índice da Artificial Analysis.
O modelo equipara-se em esforço máximo ao Gemini 3.5 Flash e ao GPT 5.4.
A codificação apresenta performance comparável ao Gemini 3.1 Pro, superando o Sonnet 4.6.

Com 40 bilhões de parâmetros ativos, o GLM 5.2 apresenta um salto expressivo de 11 pontos em relação ao seu predecessor. O modelo mantém competitividade direta com os principais modelos de fronteira do mercado, destacando-se em raciocínio, ciência e, especificamente, em tarefas de codificação.

Habilidades em Design e Interface

O GLM 5.2 conquistou o primeiro lugar na Design Arena para web design HTML.
O modelo evita anti-padrões comuns de IA, como gradientes roxos excessivos, e integra-se bem com bibliotecas como Chart.js e Tailwind.
A ausência de modalidade multimodal obriga o uso de prompts de texto descritivos baseados em capturas de tela.

O modelo demonstrou capacidade superior na criação de interfaces, sendo o primeiro a ultrapassar a linha de performance do Claude. Embora precise de descrições textuais devido à restrição de entrada, os resultados na recriação de sites como o Linear e projetos fictícios são altamente polidos e funcionais.

Testes Práticos de Codificação e Jogos

A criação de um jogo Three.js em um único prompt levou 10 minutos e consumiu 40.000 tokens.
O desenvolvimento de um painel de finanças pessoais utilizou a stack Next.js e Prisma por padrão.
A performance em codificação prática frequentemente iguala ou supera modelos como o Claude Opus 4.8.

Ao testar a criação de sistemas complexos, o GLM 5.2 escolhe stacks tecnológicas modernas de forma autônoma. O modelo apresenta consistência na entrega de código funcional, sendo uma alternativa viável ao Opus e ao Sonnet para tarefas de desenvolvimento de aplicações full-stack.

Eficiência, Custo e Conclusão

O custo médio de execução por tarefa é de aproximadamente 50 centavos.
A velocidade de processamento é superior à de outros modelos abertos de nível similar.
O modelo posiciona-se como o mais econômico dentre os de alta inteligência.

Embora apresente um consumo de tokens levemente mais elevado, a relação custo-benefício do GLM 5.2 é uma das melhores do mercado. A capacidade de rodar tarefas complexas sem a sensação de inferioridade em relação aos modelos de fronteira marca uma mudança significativa no ecossistema de código aberto.

Community Posts

Write about this video