00:00:00Os caras da ZAI acabaram de lançar o GLM 4.7,
00:00:03e por $29 por ano,
00:00:04isso é absurdamente barato para um modelo que eles afirmam atingir 73% no SWE bench,
00:00:09bem ao lado do Sonnet 4.5.
00:00:11O timing não é aleatório.
00:00:12Eles estão abrindo capital e precisam mostrar penetração no mercado ocidental..
00:00:15Eles até fizeram um Q&A ao vivo no Reddit,
00:00:17algo que nunca vi um laboratório de IA chinês fazer.
00:00:19Mas a versão 4.6 tinha problemas reais.
00:00:21O 4.7 realmente foi corrigido?.
00:00:23E aí,
00:00:23se vocês são novos por aqui,
00:00:24este é AI Labs,
00:00:25e bem-vindo a mais um episódio de Debunked,
00:00:27uma série onde a gente pega ferramentas de IA e modelos de IA,
00:00:30tira a tagarelice de marketing,
00:00:31e mostra o que eles realmente conseguem fazer com testes reais e resultados honestos.
00:00:35O novo modelo foi principalmente melhorado através de pós-treinamento,
00:00:38não mudança de arquitetura.
00:00:40Está muito otimizado para Claude Code,
00:00:41e o time da ZAI explicitamente disse que isso é o framework prioritário deles.
00:00:46Atualmente,
00:00:46na verdade está superando muitos dos modelos de ponta,
00:00:49incluindo GPT-5,
00:00:50especialmente em benchmarks de codificação.
00:00:52Em todos os seus planos de codificação,
00:00:54uma coisa adicional que eles adicionaram são essas novas ferramentas MCP,
00:00:57que não são integradas diretamente.
00:00:58São servidores MCP separados.
00:01:00Eles listaram três por enquanto..
00:01:02E para que todos funcionem,
00:01:03você só precisa de uma chave de API.
00:01:04É por isso que estão inclusos no plano,
00:01:06mas separados do modelo..
00:01:07Quanto aos limites de uso,
00:01:09são praticamente os mesmos que eram no 4.6.
00:01:11Mas se você não sabe quais eram antes,
00:01:13eu na verdade gerei um relatório sobre isso.
00:01:15O engraçado é que primeiro tentei gerar com o Gemini 3,
00:01:18e por algum motivo ele não conseguiu me dar uma comparação adequada dos planos.
00:01:22Voltei para o Claude, e ele pesquisou direitinho.
00:01:24Basicamente,
00:01:24tudo que você precisa saber é que no plano de entrada,
00:01:27você recebe de 10 a 40 prompts no Claude Code,
00:01:30enquanto no GLM Code você recebe 120 prompts por apenas $3,
00:01:33o que é uma diferença gigante.
00:01:34Isso só aumenta conforme você sobe para as camadas mais altas,
00:01:38onde o plano de $200 oferece até 800 prompts nessa janela de 5 horas com Claude,
00:01:43enquanto $30 oferece 2.400.
00:01:44Todas essas taxas têm desconto no primeiro mês,
00:01:47depois elas dobram.
00:01:48Mas se você está no plano anual, é muito mais acessível.
00:01:50Outro benchmark significativo foi o último exame da humanidade.
00:01:53Para quem não sabe,
00:01:54é um dos benchmarks não saturados,
00:01:56e a maioria dos modelos mais novos ainda pontua baixo nele porque é genuinamente difícil.
00:02:00Para testar a UI,
00:02:01temos esse prompt,
00:02:03que não realmente foca na arquitetura.
00:02:05Ele se concentra principalmente na lógica de design que o modelo deve implementar,
00:02:09enquanto também oferece algumas opções de design.
00:02:11Podemos então ver,
00:02:12baseado na empresa que estou propondo,
00:02:14que neste caso é uma plataforma de revisão de código alimentada por IA,
00:02:17o que ele cria.
00:02:18Também nos inscrevemos no plano MAX,
00:02:19e há duas formas de você realmente conectá-lo com o Claude Code.
00:02:22Em ambos os casos,
00:02:23você muda o settings.json,
00:02:25mas um fica localizado na raiz do seu projeto,
00:02:27que muda as configurações globais.
00:02:29Se você fizer dentro do seu projeto,
00:02:31isso só muda para aquele projeto.
00:02:33Fizemos isso para que pudéssemos realmente compará-lo com o Sonnet 4.5.
00:02:36Isso é o que o Sonnet 4.5 criou.
00:02:38O prompt é na verdade bem bom,
00:02:39e estamos usando para realmente identificar qual desses modelos constrói UI e o quão criativos eles são ao fazer isso.
00:02:45É JavaScript vanilla simples,
00:02:46então não estamos olhando a arquitetura agora,
00:02:48apenas o design.
00:02:49Isso é o que o GLM 4.7 criou.
00:02:52Em termos de design,
00:02:53é bem bom,
00:02:53mas cometeu um erro aqui onde realmente não levou em conta o tamanho,
00:02:57o que faz os artefatos quebrarem um pouco.
00:02:59Além disso,
00:02:59o design é sólido,
00:03:00mas realmente não gostei desses emojis.
00:03:02O Sonnet não usou emojis,
00:03:04o que é bom e condiz com a linguagem de design.
00:03:06Para realmente testá-los,
00:03:08tenho esse projeto Next.js pré-feito,
00:03:10que tem esse contexto inicializado que precisa construir uma UI escalável e pronta para backend.
00:03:15Essa parte é importante porque,
00:03:17conforme vou avaliar as razões pelas quais o GLM surpreendentemente teve melhor desempenho,
00:03:21vai voltar a esse ponto.
00:03:22Framer Motion e componentes ShadCN foram pré-instalados para construir a UI.
00:03:27Ambos foram solicitados a construir a página principal do navegador para uma plataforma de streaming semelhante ao Netflix.
00:03:32Foram especificados o que realmente construir e o que precisa estar na página.
00:03:35Se você está falando sobre a usabilidade do modelo GLM com Claude Code,
00:03:39um problema com GLM 4.6 era que era extremamente lento na geração de código.
00:03:43Aqui,
00:03:44esse problema,
00:03:45na minha experiência,
00:03:46não foi resolvido.
00:03:47Ainda é extremamente lento..
00:03:48Mas há uma mudança.
00:03:49Com GLM 4.6,
00:03:50o modelo na verdade não pensava,
00:03:52ou seja,
00:03:52não pensava dentro do Claude Code..
00:03:54A transcrição detalhada que você vê aqui claramente mostra pensamento,
00:03:57mas isso não estava aparecendo no 4.6.
00:03:59Você pode ver claramente que ele realmente pensa com o modelo 4.7,
00:04:02então isso foi corrigido.
00:04:04Além disso,
00:04:04há algumas peculiaridades que você precisa saber.
00:04:07GLM 4.7 não é tão autônomo..
00:04:09Descobri isso durante meus testes.
00:04:10Como você pode ver aqui,
00:04:12essa pasta GLM já tem uma pasta de benchmark de UI em que precisa implementar o app,
00:04:16mas ele escolheu ignorar..
00:04:18Mesmo estando claramente escrito no contexto,
00:04:20ele foi em frente e fez outro app Next.js por conta própria.
00:04:22Ele nem inicializou, só começou a escrever código.
00:04:25Às vezes ele realmente age bem burramente..
00:04:27Mas depois que corrigi e dirigi para a direção certa,
00:04:30em termos de implementação,
00:04:31isso é o que Claude criou.
00:04:32De novo, sendo o modelo superior, é bem bom em UI.
00:04:35Isso é o que GLM 4.7 criou.
00:04:37Claude obviamente criou uma UI melhor porque,
00:04:39na nossa opinião,
00:04:40ainda é melhor em design..
00:04:42Pelo preço, está ok.
00:04:43Mas depois que olhei o código e investiguei,
00:04:45já que disseram que isso deveria estar pronto para o backend e que por enquanto precisam usar dados simulados,
00:04:50o modelo GLM na verdade implementou uma arquitetura melhor ao colocar todos os dados simulados em um arquivo..
00:04:56Então quando precisamos trocar,
00:04:57é só mudar aquele arquivo porque as importações estão conectadas lá,
00:05:00ao contrário do que Claude implementou onde praticamente cada componente tem seu próprio import.
00:05:05Quando realmente implementarmos o backend,
00:05:07vamos precisar mudar todos esses arquivos um por um.
00:05:09Em termos de arquitetura básica e qualidade de código,
00:05:12GLM realmente se saiu bem,
00:05:14e me surpreendeu porque 4.6 não era tão bom nos meus testes.
00:05:17O plano anterior realmente não era justificado por quanto eu tive que dirigi-lo e quantos erros cometeu,
00:05:22mas esse é definitivamente um salto gigantesco.
00:05:24Esses benchmarks são definitivamente justificados pelos testes que fiz.
00:05:27Também olhei algumas outras pequenas coisas no código,
00:05:30e GLM 4.7 é realmente um bom modelo.
00:05:32Dados esses resultados inesperados,
00:05:34estamos honestamente recomendando que todos consigam o plano de $29 por ano.
00:05:38Se você já tem o plano Claude de $20,
00:05:40isso é basicamente nada em comparação.
00:05:42Dito isso,
00:05:43ainda não é um modelo que você usaria para codificação completamente autônoma.
00:05:46Mesmo que Claude tenha realmente errado a arquitetura aqui,
00:05:49é bom o suficiente para que ele possa corrigir e melhorar depois.
00:05:52Mas com as pequenas peculiaridades que GLM ainda tem,
00:05:54não achamos uma boa ideia depender apenas dele.
00:05:57Isso nos leva ao final deste vídeo.
00:05:58Se você quer apoiar o canal e ajudar a gente a continuar fazendo vídeos assim,
00:06:02pode fazer isso usando o botão super thanks abaixo.
00:06:05Como sempre, obrigado por assistir e até o próximo!