Eu testei o GLM 5.2 vs Opus 4.8 vs GPT 5.5

Portuguêsالعربية Deutsch English Español Français हिन्दी 한국어 Русский 中文

컴퓨터/소프트웨어게임/e스포츠AI/미래기술

Transcript

00:00:00O GLM 5.2 acabou de ser lançado esta semana, e é o modelo de código aberto mais forte que já

00:00:04vimos. E em alguns benchmarks, como você vê aqui, este modelo até supera gigantes

00:00:10como o Opus 4.8 da Anthropic e o 5.5 da OpenAI. Mas esses benchmarks são legítimos? Como este modelo

00:00:18se compara diretamente ao Opus 4.8 e ao GPT 5.5? Bem, é exatamente isso que vamos responder

00:00:25no vídeo de hoje, enquanto faço vários testes com esses três grandes modelos para ver

00:00:31como ele realmente se comporta no mundo real. Além disso, faremos uma análise profunda de um

00:00:35benchmark em particular que considero bastante importante, além de explicar o que realmente

00:00:40queremos dizer com o GLM 5.2 ser melhor em alguns casos do que o Opus e o GPT 5.5. Estamos falando

00:00:47sobre ele ser mais eficiente, custar menos ou ele realmente fazer tudo isso melhor ao mesmo

00:00:51tempo? Então, sem mais delongas, vamos direto ao ponto. Agora, antes de partirmos para o teste

00:00:56direto, vamos primeiro analisar alguns dos benchmarks que já existem comparando esses

00:00:59três modelos. O que eu quero que vocês prestem atenção é o DeepSuite. O DeepSuite é

00:01:04um benchmark relativamente novo, e pretende ser uma melhoria em relação a coisas como Terminal

00:01:08Bench e Terminal Bench Pro. Não vou entrar profundamente neste benchmark, vocês

00:01:12podem conferir o site ou o repositório no GitHub deles, que explica com mais detalhes. Mas ele foca

00:01:17em tarefas agenticas de longa duração, especificamente 113 tarefas em TypeScript, Go, Python, JavaScript,

00:01:23e Rust com ambientes isolados e verificadores baseados em programas. E aqui neste gráfico, podemos ver

00:01:29a pontuação, a porcentagem de acertos no lado esquerdo, bem como o custo médio

00:01:34por tarefa. Queremos estar no canto superior direito. A área mais eficiente está aqui no canto

00:01:39superior direito. É onde obtemos a pontuação mais alta com o menor custo. E podemos ver aqui, o GLM 5.2

00:01:44max está nos dando 44% a $3,92 por tarefa. Se compararmos isso ao Opus 4.8 e ao GPT 5.5, podemos ver

00:01:55que eles se saem muito melhor. No max, o Opus 4.8 está fazendo 59%, e o 5.5 está fazendo 67% no extra high. Obviamente,

00:02:04no extra high e max, temos um custo bem elevado. Para o GPT 5.5, é de $7,23. $13 para o Opus,

00:02:12e no GLM, é de $3,92. Então é muito mais barato. No entanto, quando olhamos para diferentes níveis de esforço

00:02:19no 5.5 e no Opus, se estivermos no medium, por exemplo, com o Opus 4.8, vamos pontuar

00:02:25mais alto que o GLM 5.2, e seremos menos caros. Ou seja, 49% a 3,44 versus 44% a 3,92. E isso é

00:02:36significativo no 5.5 com 54% a $2,75 versus 44% a $3,92. Então, logo de cara, neste benchmark,

00:02:47se levarmos pelo valor de face, o 4.8 e o 5.5 estão um nível acima do GLM 5.2. E isso não é surpreendente. Esses

00:02:55são os melhores dos melhores modelos de fronteira. Eles não são de código aberto. E se realmente pisarmos

00:03:01fundo, eles vão meio que detonar o GLM 5.2 nessas tarefas de longo prazo, o que era

00:03:07esperado. O que talvez você não esperasse é o fato de que ele pode fazer melhor por um preço menor,

00:03:11o que é um problema. E eu só quero deixar isso claro porque sei que há muita

00:03:16conversa e muito hype agora sobre o GLM 5.2 e o fato de ser de código aberto. E, sabe,

00:03:21isso meio que implica automaticamente que: oh, é super, super barato. E podemos fazer coisas muito boas.

00:03:25Bem, quero dizer, pelos números, é bom, mas não é o 4.8 nem o 5.5 com base neste benchmark. E lembre-se,

00:03:33esses números do 4.8 e 5.5 são baseados em custos de API. Se eu estiver no plano max, é umas 10 vezes mais barato do que

00:03:40isto. A mesma coisa se eu estiver apenas no plano de $100 por mês ou $200 por mês da OpenAI. Então

00:03:46essa é outra coisa a se levar em consideração. Então, só quero dar uma segurada em qualquer

00:03:50tipo de afirmação dizendo que o GLM é muito mais barato, porque não é. E mesmo que seja de código aberto,

00:03:56o GLM 5.2, o modelo de código aberto que está obtendo esses números, não é de código aberto. Tipo, você

00:04:01não pode simplesmente baixar isso no seu computador. É código aberto no sentido de que você pode ver o código,

00:04:05você pode ver os pesos. Não é código aberto no sentido de: oh, não, é apenas, posso baixar

00:04:09no OLAMA. Posso rodar no meu PC pessoal. Não, você não pode. Não, você não pode. Isso tem quase um

00:04:14trilhão de parâmetros. Isso requer muito hardware para rodar. Então não se confunda, porque sei que

00:04:20existe uma parcela da população que se confunde, mas isso é só para preparar o terreno. E, novamente,

00:04:24isso é sobre o DeepSuite. Isso são tarefas muito intensas que estão sendo dadas. E

00:04:30hoje vamos fazer alguns testes diferentes que são de nível um pouco mais baixo e que são

00:04:35provavelmente um reflexo melhor do que você, o usuário médio, está executando. Então, algo para manter

00:04:39em mente. E só para estarmos todos na mesma página, é isto que estamos vendo em termos de custos

00:04:44por tokens. Lembre-se, a razão pela qual foi mais barato para o Opus 4.8 e 5.5 é porque eles usaram muito menos

00:04:50tokens para fazer o que precisavam. Eles foram, em última análise, mais eficientes, mas com base por token.

00:04:55E lembre-se, para entrada e saída, isto é por milhão de tokens: GLM 5.2, $1,40 para entrada,

00:05:01$4,40 para saída. E o Opus 4.8 é 5,7 vezes mais caro. E o 5.5 do GPT é 6,8 vezes mais

00:05:10caro. Então, com base por token, é muito mais barato. Mas lembre-se, nos importamos com os resultados de uma tarefa,

00:05:16não necessariamente uma comparação um a um de tokens. E agora, antes de pularmos para os testes reais,

00:05:21uma palavra rápida do patrocinador de hoje: eu mesmo. Acabei de lançar minha Cloud Code Masterclass dentro do

00:05:26Chase AI Plus e é a número um para ir do zero ao desenvolvedor de IA, especialmente se você não vem

00:05:30de um background técnico. Atualizo isso toda semana e também inclui masterclasses para codecs

00:05:35e para criar seu próprio sistema operacional agentico. Então, se é algo sobre o qual você quer aprender mais e você

00:05:40não tem certeza de por onde começar, o Chase AI Plus é o lugar para você. Tem um link nos comentários fixados.

00:05:46Então, aqui está como vamos executar este teste. Vamos dar a cada modelo o mesmo

00:05:49prompt e modo de planejamento. Ele vai nos dar o plano. Podemos ou não fazer algum vai-e-vem,

00:05:53dependendo do que achamos do plano que eles criarem. E depois disso, vamos deixá-los executar.

00:05:58Depois que executarem, aplicarei meus critérios de avaliação extremamente subjetivos ao resultado final e direi

00:06:03qual deles eu mais gostei. Se você não gostar dos meus critérios de avaliação ou do que decidi ser o melhor, certifique-se de

00:06:08deixar um comentário. Eu também vou garantir de excluir o seu comentário. Agora, aqui na esquerda, temos

00:06:14o GPT 5.5 dentro do Codex no extra high. Temos o OpenCode no meio rodando o GLM 5.2 no extra high

00:06:21sendo roteado pelo OpenRouter. E aqui na direita, temos o Cloud Code rodando o Opus 4.8

00:06:26no high. Agora, por que escolhi essas configurações de esforço? Porque é assim que a maioria das pessoas

00:06:32usa isso na vida real. E as chances são de que você está no plano max ou em algum tipo de

00:06:37plano da OpenAI e provavelmente não está rodando no medium. Vamos ser honestos. Então acho que isto é um

00:06:42reflexo melhor de como seu usuário médio está realmente usando esses modelos no dia a dia.

00:06:47Então, para o nosso primeiro prompt, vamos pedir para ele criar um jogo de corrida 3D jogável que rode no

00:06:51navegador. E, importante, vamos manter esse prompt meio vago. Vou dizer que você tem total liberdade para

00:06:56ir na web e escolher qualquer stack e biblioteca que achar melhor para executar isso. E então,

00:07:02vamos em frente e rodar para ver o que acontece. Então temos todos os três modelos rodando no modo de planejamento.

00:07:08E, novamente, a ideia por trás de fazer o prompt meio vago é que queremos ver a maior

00:07:12divergência possível desses modelos. Se eu desse o roteiro exato, como fazer cada coisa,

00:07:18bem, então não conseguiríamos realmente ver como esses modelos pensam e como eles abordam problemas

00:07:23mais complicados. Então, depois de 13 minutos, o Opus 4.8 foi o primeiro a terminar de criar o jogo de corrida.

00:07:29Então vamos dar uma olhada no que ele fez. Então aqui estamos, meio low poly. Ele tem

00:07:37algum som rolando. Move-se bem suave. Parece que temos a habilidade de drift aqui também.

00:07:44Ok, a grama na verdade atrapalha um pouco como a física funciona. No geral, bem suave, mas

00:07:54sabe, relativamente chato, né? Tipo, esta é uma pista de corrida bem básica. Nada de louco, não

00:07:59adicionou nenhum tipo de IA ou algo assim. Então estou interessado em ver como os outros modelos se saem em termos de

00:08:04complexidade e, o que provavelmente farei depois deste primeiro teste, se todos forem meio que a mesma visão

00:08:09sem graça. Provavelmente vamos dar outro prompt que aumente as apostas. O próximo

00:08:13é o GLM 5.2. Então, levou cerca de cinco minutos a mais que o Claude Code. Para referência, o GPT 5.5 ainda está

00:08:20trabalhando, o que não me surpreende muito. Ele tende a ser um pouco mais lento. Em termos de comparação de tokens,

00:08:26o Claude Code usou cerca de 100.000 tokens para criar isso. E o GLM 5.2 levou mais de um milhão. E podemos dar uma olhada

00:08:33dentro do Open Router para esta execução, onde o gasto total foi de $1,21. E o volume total de tokens foi de 1,35

00:08:41milhão para criar este jogo. Então, logo de cara, uma pista interessante.

00:08:48Os controles são bem saltitantes, comparado ao que tivemos com o Claude Code. Tipo, estou me movendo

00:08:53muito rápido em relação à pista em si. Muito rápido. Tipo, estou disparando por aqui. E também estamos meio

00:09:00que apenas lá, não há realmente diferenciação entre a pista e o campo em si. E em

00:09:09certas instâncias, consegui, quase como você viu ali, atravessar a pista, mas não exatamente.

00:09:15Então, o carro em si é um pouco menos detalhado do que vimos dentro do Claude Code. Quero dizer,

00:09:23então existe uma pista, ela tem um cronômetro. Em termos de gameplay real, um pouco travado para o que é,

00:09:30não tão suave. E também, novamente, com a situação do low poly como vimos com

00:09:36o Opus. E então, eu adoraria ver o que ele faz se dissermos para realmente criar algo que pareça

00:09:40melhor. E também, esta pista em si não faz muito sentido. Então agora estamos olhando para

00:09:44o que o GPT 5.5 criou. Ele chama de Foundry Circuit, o time trial do turno da noite, três voltas

00:09:50pela siderúrgica. Então, algo diferente, suponho, da pista genérica que vimos nos

00:09:54últimos dois. Então vamos começar. E vamos lá. Bem, na verdade eu não sei para onde

00:10:04devo ir. Oh, acho que esta é a pista. As rodas parecem meio interessantes. Elas estão meio que

00:10:10girando para o lado errado. Então isso é algo. Ok, tem uns barulhos bem irritantes, na verdade.

00:10:21E meio que não consigo deixar de notar as rodas indo horizontalmente, ou seja lá como você descreveria isso.

00:10:28A pista em si está bem, dá para se mover. Sim, você pode sair da pista e ela te desacelera. Mas não é

00:10:35claro que esta é uma pista pavimentada, como vimos com o que o Opus construiu. E o resto é,

00:10:41sabe, o campo. Então, gráficos meio estranhos, honestamente. Além disso, quando você considera

00:10:48o fato de que levou o dobro do tempo do Opus, é meio estranho. Sim, honestamente, meio estranho. Novamente,

00:10:55tipo, por que, por que ele fez isso com as rodas? Não faço ideia. Novamente, foi para o low poly.

00:11:00E é simplesmente muito escuro, por nenhuma razão aparente. Então, quero dizer, tipo, sinto que

00:11:06isto é mais funcional do que o que conseguimos com o GLM 5.2, mas, tipo, não muito melhor. E você também

00:11:12considera o fato de que isso foi no extra high no 5.5. Agora, em termos de uso de tokens para o 5.5,

00:11:17ficou aproximadamente no que vimos com o Claude Code. Usou 7% da sua janela de cinco horas. Então quase

00:11:22nada. Agora, no ranking geral, eu teria colocado o Opus 4.8 claramente à frente do GLM 5.2 e do 5.5. Achei que

00:11:28os dois últimos eram meio travados, mas vamos dar a eles outra chance porque

00:11:32vamos dizer para eles darem outra olhada no código, fazerem outra passagem. E também queremos que

00:11:36eles se saiam muito melhor em termos de gráficos. Não quero as coisas low poly. Quero que isto pareça

00:11:40um jogo triplo A, ou o mais próximo possível disso. Então vamos ver o que acontece quando damos a eles

00:11:46a tentativa número dois. Então o Opus e o GLM terminaram sua segunda passagem e o 5.5 está terminando. Então

00:11:50vamos dar uma olhada no Opus 4.8 primeiro. Então, logo de cara, vemos um carro que é muito melhor. Tipo, isto é uma enorme

00:11:58melhoria em relação ao carro que vimos antes. Também vemos uma iluminação bem diferente.

00:12:04Tipo, você pode ver o sol refletido no chão e tudo parece muito mais suave. Quero dizer,

00:12:10as próprias árvores são tipo low polygon, mas a iluminação e especialmente o carro

00:12:15são um grande passo à frente. E ainda mantém o mesmo gameplay suave. Quero dizer, além do

00:12:20fato de termos árvores na estrada, mas as próprias árvores também têm sombras. E por uma passagem adicional

00:12:26que levou 10 minutos e cerca de 50.000 tokens, nada mal. Agora vamos olhar para o GLM. E neste ponto,

00:12:32levou cerca de mais 1,2 milhão de tokens para fazer essa atualização, colocando nosso gasto total em $1,83.

00:12:38Então vamos começar. E parece que ele tentou adicionar algum tipo de iluminação diferente. O carro parece

00:12:46um pouco melhor, mas a iluminação em si é meio estranha. Tipo, é muito ofuscante. A pista

00:12:52em si não mudou muito. Sabe, ainda é tipo, grama em toda parte. E os

00:12:57controles ainda são muito travados, né? Tipo, estou indo muito rápido em relação à pista. O mesmo tipo de problema

00:13:04que tive antes, onde tipo, algumas partes da pista eu consigo atravessar, outras não. Então, quero dizer,

00:13:10os gráficos do carro parecem melhores, mas eu diria que a iluminação e o ofuscamento são muito distrativos.

00:13:15Provavelmente é um downgrade em relação ao que tínhamos antes. E aqui está a segunda passagem com o 5.5. Agora

00:13:21o carro parece um pouco melhor, mas olhando para todo o resto, é meio que a mesma coisa. Bem,

00:13:29as rodas estão melhores. Corrigimos o problema das rodas. Elas estão virando como deveriam,

00:13:34mas ainda tem barulhos irritantes. E não há diferenciação real novamente, entre o caminho

00:13:42e a grama. Então meio que parece o mesmo que fez da primeira vez, com um

00:13:49carro ligeiramente melhor. Mas, sabe, quando pedimos para ir para um design triplo A, eu não diria que

00:13:55atingiu a marca. E, novamente, sinto que, no panorama geral, olhamos para esses três, o GLM e o 5.5, definitivamente um nível

00:14:02abaixo do Opus. Agora, para nosso próximo teste, vamos pedir para construir um site. E o prompt que vamos

00:14:07usar é este. Queremos que construa uma landing page falsa para um produto, que é um par de óculos

00:14:12inteligentes com IA. Pense em algo como os Meta Ray-Bans. Novamente, estamos dando a esses modelos liberdade total em

00:14:16termos de stack e design. Estamos dizendo para escolher o que acharem melhor, instalar o que

00:14:20precisarmos e pesquisar as melhores práticas para criar landing pages. Estamos dizendo: Ei, vá em frente e encontre

00:14:25imagens e fotos do produto. E não confie apenas em criar seu próprio HTML. E, importante,

00:14:31dizemos: faça parecer um site premiado. Não queremos que pareça “slop” de IA. Queremos uma real

00:14:35hierarquia visual, tipografia intencional e movimento onde fizer sentido. Então, landing page para óculos

00:14:42inteligentes, queremos um estilo premiado. Então, vamos ver o que eles criam. Então, todos os três

00:14:46terminaram. Para referência, o GLM usou cerca de um milhão de tokens para executar isto, enquanto o Opus e o 5.5

00:14:53usaram cerca de cem mil, mais ou menos. Então, primeiro, temos o que o Opus construiu: fundo muito escuro.

00:14:58Tem esses óculos que ele criou, e o texto está cortado aqui, o que é

00:15:04infeliz. Enquanto rolamos para baixo, isso também está meio estranhamente posicionado, porque podemos ver o texto de rolagem

00:15:12meio que por cima dele. Mas conforme passo o mouse, você pode ver que meio que se move e

00:15:18muda de cor, o que é meio legal. Conforme rolo para baixo, temos algumas animações de carregamento

00:15:24para tudo. Mas, no geral, parece bem para os próprios óculos que usam HTML.

00:15:31Então é tipo, o que você realmente está ganhando com isso? Nem encontrou nenhum tipo de óculos

00:15:35para usar. E tem, sabe, ei, aqui está como você pode reservar e aqui está como você pode comprar. Então

00:15:41está bem. Novamente, não demos muita direção, mas dissemos para buscar um visual tipo

00:15:45prêmio. Eu não consideraria nesse nível. Agora vamos dar uma olhada no que o GLM construiu.

00:15:51E não sei, na verdade, o que está acontecendo aqui. Na verdade, isso está meio que mal carregado.

00:15:59Mostra-nos alguns óculos, mas, tipo, este site é um desastre. É como se nem

00:16:04tivesse terminado isso. Ele meio que jogou tudo junto. Sim. Sim, o prompt não foi super

00:16:13detalhado, mas ele deveria ser capaz de fazer mais do que isso com base no que dei a ele. Isto é, na verdade,

00:16:19terrível. Não faço ideia do que ele realmente estava tentando realizar aqui. E, por último, temos o GPT 5.5. Então

00:16:25isso é um pouco interessante. Acho que parece bem legal, embora os óculos

00:16:30meio que sobreponham o texto aqui. E temos muito espaço morto, o que você poderia argumentar que é

00:16:34uma escolha de design. E temos o banner que realmente se move, lembre-se que a

00:16:39versão do Opus tinha um banner, mas não estava se movendo. E então, conforme rolo para baixo, você notará que o

00:16:44cursor é meio multicolorido. E conforme rolo para baixo, parece que criou alguns assets

00:16:50tipo HTML. Quero dizer, estranho, né? Dissemos: ei, você pode ir encontrar o que precisa online

00:16:55se quiser. Mas, no geral, provavelmente o melhor dos três. Mas, sabe, eu não diria que estava

00:17:04apaixonado por nenhum desses, mostra como você precisa ter mão firme ao fazer

00:17:09qualquer tipo de design visual ou interface, até mesmo esses modelos mais avançados lutam, tipo

00:17:14eu realmente não faço ideia do que está acontecendo. Tipo, isto é uma bagunça. Então, no geral, o Opus foi

00:17:21ok. O 5.5 foi o melhor de todos e o GLM foi um fracasso completo. E, assim como fizemos com

00:17:26a versão de jogo, vamos dar a eles uma segunda passagem nisto e ver se conseguem limpar o que deu

00:17:30errado. E, além disso, vamos pedir que integrem, semelhante novamente ao jogo que criamos,

00:17:36alguns elementos three JS, queremos ver como podem empurrar suas capacidades com

00:17:42tipo movimento e gráficos. E esse novo prompt parece com isto: pegue a landing page dos óculos

00:17:46inteligentes que você acabou de construir e reconstrua-a como uma experiência 3D imersiva usando

00:17:51three.js. Então queremos uma cena 3D interativa. E, novamente, estamos dando liberdade total para

00:17:56executar como acharem melhor. E aqui está o que conseguimos com o Opus 4.8. Você pode ver agora que ele adicionou

00:18:02alguns three JS, esses óculos meio que se movem. Mas além disso, temos alguns dos problemas originais,

00:18:08né, o texto sendo cortado, sendo sobrescrito aqui. E o resto disso, meio que apenas sendo,

00:18:13cara, isto é bem óbvio que a IA criou. Ah, a propósito, os custos de tokens

00:18:21foram praticamente iguais na segunda execução para todos. Em seguida,

00:18:27temos o GLM 5.2. E desta vez, ele realmente criou um site que faz sentido. Temos esses óculos,

00:18:32embora os óculos que criou sejam meio estranhos, tipo, você só tem, sabe,

00:18:36nenhum óculos realmente pareceria com isso e o texto também está cortado aqui. Mas temos um banner

00:18:42que rola quando passo o mouse por cima, ele para. E eu diria, no geral, em termos de

00:18:48como ele montou o site, provavelmente daria vantagem a ele sobre o Opus. Agora, não acho

00:18:55que nenhum deles seja particularmente bom. E meio que demos liberdade para fazerem o que quisessem. Mas

00:18:59eu colocaria isso acima desta configuração. Embora em termos de hero section em si,

00:19:05eu gosto mais do Opus 4.8. Agora, o GPT 5.5, acho que é o vencedor aqui. Acho que isto parece

00:19:10melhor no geral, do ponto de vista de design subjetivo. E acho que os gráficos de movimento

00:19:18que ele adicionou aqui usando three JS são bem legais. Acho que faz sentido no contexto do que criou. Tipo, temos

00:19:22todo este espaço em branco no topo e os óculos, sabe, conseguem viver ali. E quanto ao

00:19:27resto do site, acho que parece bem. Novamente, ainda parece muito, quote-unquote,

00:19:32“slop” de IA no sentido de que a IA definitivamente criou isso, mas não parece ruim. E de cima

00:19:37a baixo, prefiro o que o 5.5 nos deu em relação a todos os outros. E então, quando olhamos para

00:19:42tudo isso, trazendo esses benchmarks mais sofisticados, como o DeepSuite ao lado

00:19:48do que acabamos de fazer hoje, acho que é isso que esperávamos. Não acho que o GLM tenha tido um desempenho extremamente pobre

00:19:56em qualquer sentido da palavra, mas definitivamente pareceu um passo abaixo do GPT 5.5 ou 4.8 ou em

00:20:03cenários onde, sabe, na primeira seção onde o Opus era melhor que todos eles. E em

00:20:07segundo cenário onde o GPT era melhor que todos, o GLM estava sempre perto do final. Não era

00:20:12grosseiramente pior que nenhum deles, mas certamente não era melhor. E também usou infinitamente mais tokens.

00:20:17E então, quando olhamos para algo assim, a pontuação no DeepSuite, onde é tipo,

00:20:21ei, o GLM está meio que na parte de baixo e é na verdade menos eficiente que o 5.5 e o 4.8, tanto em termos de

00:20:27custo quanto de quão bem se sai. Meio que faz sentido. Acho que é isso que vemos. E então, panorama

00:20:35geral, o GLM é um ótimo modelo de código aberto? Definitivamente. Mas será que ele encontra alguns problemas que modelos

00:20:41de código aberto têm em geral, nomeadamente, que não são tão poderosos? Sim. E, além disso, se você

00:20:47é alguém que prioriza o código aberto, entenda que isto não é algo que você rodaria no seu PC, certo? Isso requer

00:20:52muito hardware para usar. E acho que o que se perde na conversa é o que discutimos no

00:20:57início, que é tipo, ok, os custos já são um problema para o GLM 5.2. E isso

00:21:05nem leva em consideração a enorme subsídio que você recebe no plano Anthropic Max ou no

00:21:12plano OpenAI Max. Então, pense nisso e, tipo, ok, não é nem um debate.

00:21:16Realmente não é um debate. Então, eu sugeriria usar o GLM 5.2 para a pessoa comum? Não,

00:21:24não realmente. Acho que talvez se você estiver fazendo tarefas de baixo nível e você é alguém que está comparando

00:21:29apenas pelos preços de API, talvez, talvez. Mas, sabe, acho difícil argumentar

00:21:38isso, porque então o que faremos quando o próximo Sonnet 5 sair semana que vem? Tipo,

00:21:42você vai simplesmente pular de um para o outro? Tipo, há algo a se dizer sobre simplesmente

00:21:46ficar com o modelo, especialmente quando falamos de coisas de nível empresarial, de equipe,

00:21:50onde os custos de API realmente começam a somar. Porque, novamente, para o usuário individual médio

00:21:55que estará usando um dos planos subsidiados e não está pagando custos diretos de API, não vejo argumento para

00:22:01o GLM 5.2. Então, é aí que vou deixar vocês hoje. Espero ter esclarecido

00:22:05todo esse debate do GLM e todo o hype que vocês veem em torno dele. Como sempre, deixem-me saber

00:22:09o que acharam nos comentários. Certifiquem-se de conferir o Chase AI Plus se quiserem colocar as mãos

00:22:13no Cloud Code Masterclass, e vejo vocês por aí.

Key Takeaway

Embora o GLM 5.2 apresente um custo por token reduzido, o Opus 4.8 e o GPT 5.5 demonstram maior eficiência total, qualidade superior em tarefas complexas e menor consumo de tokens em casos de uso no mundo real.

Highlights

O GLM 5.2 atinge 44% de precisão no benchmark DeepSuite, enquanto o Opus 4.8 alcança 59% e o GPT 5.5 chega a 67%.
O custo por tarefa no DeepSuite é de $3,92 para o GLM 5.2, comparado a $7,23 para o GPT 5.5 e $13,00 para o Opus 4.8.
O GLM 5.2 exige um hardware massivo para rodar, contendo quase um trilhão de parâmetros, o que impede seu uso em computadores pessoais via ferramentas como Ollama.
Em testes práticos de desenvolvimento de jogos e landing pages, o Opus 4.8 e o GPT 5.5 superaram consistentemente o GLM 5.2 em qualidade visual e funcionalidade.
O GLM 5.2 consumiu cerca de 1 milhão de tokens para tarefas que o Opus 4.8 e o GPT 5.5 realizaram com aproximadamente 100 mil tokens.

Timeline

Análise técnica do GLM 5.2 e benchmarks

O GLM 5.2 não supera os modelos de fronteira Opus 4.8 e GPT 5.5 em tarefas complexas de longa duração.
Apesar do menor custo por token ($1,40 entrada / $4,40 saída), a eficiência global favorece os modelos proprietários.
O rótulo de código aberto para o GLM 5.2 refere-se à visibilidade do código e pesos, não à viabilidade de execução local.

Os benchmarks do DeepSuite demonstram que o GLM 5.2, embora promissor, entrega resultados inferiores aos modelos topo de linha quando avaliados por tarefa completa. O consumo de tokens do GLM é significativamente mais alto, anulando a vantagem nominal do preço por token. Além disso, a necessidade de hardware robusto inviabiliza o uso doméstico, diferenciando-o de modelos leves de código aberto.

Teste prático: Desenvolvimento de jogos 3D

O Opus 4.8 entregou o melhor resultado gráfico e a física mais suave na primeira tentativa.
O GLM 5.2 exigiu mais de 1 milhão de tokens, apresentando problemas de colisão e falta de diferenciação visual entre elementos.
O GPT 5.5, embora funcional, cometeu erros estranhos de design, como a rotação horizontal incorreta de rodas em veículos.

Ao solicitar a criação de um jogo de corrida 3D, o Opus 4.8 destacou-se pela estabilidade e design polido logo na primeira passagem. O GLM 5.2 e o GPT 5.5 apresentaram falhas gráficas notáveis e uma performance menos refinada. Na segunda tentativa, o Opus manteve a liderança com melhores sombras e iluminação, enquanto os demais continuaram apresentando limitações visuais.

Teste prático: Criação de landing page 3D

O GPT 5.5 produziu o layout mais organizado e visualmente coerente com elementos em Three.js.
O GLM 5.2 apresentou dificuldades extremas de renderização, gerando um resultado considerado um fracasso completo.
A superioridade de modelos como o Opus 4.8 e o GPT 5.5 torna o GLM 5.2 pouco competitivo para usuários médios ou empresas.

Na construção de uma landing page para óculos inteligentes, o GPT 5.5 superou os concorrentes ao integrar melhor a tipografia e animações 3D. O GLM 5.2 falhou ao entregar um site mal carregado e desestruturado, mesmo após uma segunda tentativa. A conclusão é que, para usuários que utilizam planos subsidiados da OpenAI ou Anthropic, não há justificativa prática para migrar para o GLM 5.2.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video