GLM 4.7 é INSANO Para Desenvolvimento de Software...

AAI LABS
컴퓨터/소프트웨어창업/스타트업재택/원격 근무AI/미래기술

Transcript

00:00:00Os caras da ZAI acabaram de lançar o GLM 4.7,
00:00:03e por $29 por ano,
00:00:04isso é absurdamente barato para um modelo que eles afirmam atingir 73% no SWE bench,
00:00:09bem ao lado do Sonnet 4.5.
00:00:11O timing não é aleatório.
00:00:12Eles estão abrindo capital e precisam mostrar penetração no mercado ocidental..
00:00:15Eles até fizeram um Q&A ao vivo no Reddit,
00:00:17algo que nunca vi um laboratório de IA chinês fazer.
00:00:19Mas a versão 4.6 tinha problemas reais.
00:00:21O 4.7 realmente foi corrigido?.
00:00:23E aí,
00:00:23se vocês são novos por aqui,
00:00:24este é AI Labs,
00:00:25e bem-vindo a mais um episódio de Debunked,
00:00:27uma série onde a gente pega ferramentas de IA e modelos de IA,
00:00:30tira a tagarelice de marketing,
00:00:31e mostra o que eles realmente conseguem fazer com testes reais e resultados honestos.
00:00:35O novo modelo foi principalmente melhorado através de pós-treinamento,
00:00:38não mudança de arquitetura.
00:00:40Está muito otimizado para Claude Code,
00:00:41e o time da ZAI explicitamente disse que isso é o framework prioritário deles.
00:00:46Atualmente,
00:00:46na verdade está superando muitos dos modelos de ponta,
00:00:49incluindo GPT-5,
00:00:50especialmente em benchmarks de codificação.
00:00:52Em todos os seus planos de codificação,
00:00:54uma coisa adicional que eles adicionaram são essas novas ferramentas MCP,
00:00:57que não são integradas diretamente.
00:00:58São servidores MCP separados.
00:01:00Eles listaram três por enquanto..
00:01:02E para que todos funcionem,
00:01:03você só precisa de uma chave de API.
00:01:04É por isso que estão inclusos no plano,
00:01:06mas separados do modelo..
00:01:07Quanto aos limites de uso,
00:01:09são praticamente os mesmos que eram no 4.6.
00:01:11Mas se você não sabe quais eram antes,
00:01:13eu na verdade gerei um relatório sobre isso.
00:01:15O engraçado é que primeiro tentei gerar com o Gemini 3,
00:01:18e por algum motivo ele não conseguiu me dar uma comparação adequada dos planos.
00:01:22Voltei para o Claude, e ele pesquisou direitinho.
00:01:24Basicamente,
00:01:24tudo que você precisa saber é que no plano de entrada,
00:01:27você recebe de 10 a 40 prompts no Claude Code,
00:01:30enquanto no GLM Code você recebe 120 prompts por apenas $3,
00:01:33o que é uma diferença gigante.
00:01:34Isso só aumenta conforme você sobe para as camadas mais altas,
00:01:38onde o plano de $200 oferece até 800 prompts nessa janela de 5 horas com Claude,
00:01:43enquanto $30 oferece 2.400.
00:01:44Todas essas taxas têm desconto no primeiro mês,
00:01:47depois elas dobram.
00:01:48Mas se você está no plano anual, é muito mais acessível.
00:01:50Outro benchmark significativo foi o último exame da humanidade.
00:01:53Para quem não sabe,
00:01:54é um dos benchmarks não saturados,
00:01:56e a maioria dos modelos mais novos ainda pontua baixo nele porque é genuinamente difícil.
00:02:00Para testar a UI,
00:02:01temos esse prompt,
00:02:03que não realmente foca na arquitetura.
00:02:05Ele se concentra principalmente na lógica de design que o modelo deve implementar,
00:02:09enquanto também oferece algumas opções de design.
00:02:11Podemos então ver,
00:02:12baseado na empresa que estou propondo,
00:02:14que neste caso é uma plataforma de revisão de código alimentada por IA,
00:02:17o que ele cria.
00:02:18Também nos inscrevemos no plano MAX,
00:02:19e há duas formas de você realmente conectá-lo com o Claude Code.
00:02:22Em ambos os casos,
00:02:23você muda o settings.json,
00:02:25mas um fica localizado na raiz do seu projeto,
00:02:27que muda as configurações globais.
00:02:29Se você fizer dentro do seu projeto,
00:02:31isso só muda para aquele projeto.
00:02:33Fizemos isso para que pudéssemos realmente compará-lo com o Sonnet 4.5.
00:02:36Isso é o que o Sonnet 4.5 criou.
00:02:38O prompt é na verdade bem bom,
00:02:39e estamos usando para realmente identificar qual desses modelos constrói UI e o quão criativos eles são ao fazer isso.
00:02:45É JavaScript vanilla simples,
00:02:46então não estamos olhando a arquitetura agora,
00:02:48apenas o design.
00:02:49Isso é o que o GLM 4.7 criou.
00:02:52Em termos de design,
00:02:53é bem bom,
00:02:53mas cometeu um erro aqui onde realmente não levou em conta o tamanho,
00:02:57o que faz os artefatos quebrarem um pouco.
00:02:59Além disso,
00:02:59o design é sólido,
00:03:00mas realmente não gostei desses emojis.
00:03:02O Sonnet não usou emojis,
00:03:04o que é bom e condiz com a linguagem de design.
00:03:06Para realmente testá-los,
00:03:08tenho esse projeto Next.js pré-feito,
00:03:10que tem esse contexto inicializado que precisa construir uma UI escalável e pronta para backend.
00:03:15Essa parte é importante porque,
00:03:17conforme vou avaliar as razões pelas quais o GLM surpreendentemente teve melhor desempenho,
00:03:21vai voltar a esse ponto.
00:03:22Framer Motion e componentes ShadCN foram pré-instalados para construir a UI.
00:03:27Ambos foram solicitados a construir a página principal do navegador para uma plataforma de streaming semelhante ao Netflix.
00:03:32Foram especificados o que realmente construir e o que precisa estar na página.
00:03:35Se você está falando sobre a usabilidade do modelo GLM com Claude Code,
00:03:39um problema com GLM 4.6 era que era extremamente lento na geração de código.
00:03:43Aqui,
00:03:44esse problema,
00:03:45na minha experiência,
00:03:46não foi resolvido.
00:03:47Ainda é extremamente lento..
00:03:48Mas há uma mudança.
00:03:49Com GLM 4.6,
00:03:50o modelo na verdade não pensava,
00:03:52ou seja,
00:03:52não pensava dentro do Claude Code..
00:03:54A transcrição detalhada que você vê aqui claramente mostra pensamento,
00:03:57mas isso não estava aparecendo no 4.6.
00:03:59Você pode ver claramente que ele realmente pensa com o modelo 4.7,
00:04:02então isso foi corrigido.
00:04:04Além disso,
00:04:04há algumas peculiaridades que você precisa saber.
00:04:07GLM 4.7 não é tão autônomo..
00:04:09Descobri isso durante meus testes.
00:04:10Como você pode ver aqui,
00:04:12essa pasta GLM já tem uma pasta de benchmark de UI em que precisa implementar o app,
00:04:16mas ele escolheu ignorar..
00:04:18Mesmo estando claramente escrito no contexto,
00:04:20ele foi em frente e fez outro app Next.js por conta própria.
00:04:22Ele nem inicializou, só começou a escrever código.
00:04:25Às vezes ele realmente age bem burramente..
00:04:27Mas depois que corrigi e dirigi para a direção certa,
00:04:30em termos de implementação,
00:04:31isso é o que Claude criou.
00:04:32De novo, sendo o modelo superior, é bem bom em UI.
00:04:35Isso é o que GLM 4.7 criou.
00:04:37Claude obviamente criou uma UI melhor porque,
00:04:39na nossa opinião,
00:04:40ainda é melhor em design..
00:04:42Pelo preço, está ok.
00:04:43Mas depois que olhei o código e investiguei,
00:04:45já que disseram que isso deveria estar pronto para o backend e que por enquanto precisam usar dados simulados,
00:04:50o modelo GLM na verdade implementou uma arquitetura melhor ao colocar todos os dados simulados em um arquivo..
00:04:56Então quando precisamos trocar,
00:04:57é só mudar aquele arquivo porque as importações estão conectadas lá,
00:05:00ao contrário do que Claude implementou onde praticamente cada componente tem seu próprio import.
00:05:05Quando realmente implementarmos o backend,
00:05:07vamos precisar mudar todos esses arquivos um por um.
00:05:09Em termos de arquitetura básica e qualidade de código,
00:05:12GLM realmente se saiu bem,
00:05:14e me surpreendeu porque 4.6 não era tão bom nos meus testes.
00:05:17O plano anterior realmente não era justificado por quanto eu tive que dirigi-lo e quantos erros cometeu,
00:05:22mas esse é definitivamente um salto gigantesco.
00:05:24Esses benchmarks são definitivamente justificados pelos testes que fiz.
00:05:27Também olhei algumas outras pequenas coisas no código,
00:05:30e GLM 4.7 é realmente um bom modelo.
00:05:32Dados esses resultados inesperados,
00:05:34estamos honestamente recomendando que todos consigam o plano de $29 por ano.
00:05:38Se você já tem o plano Claude de $20,
00:05:40isso é basicamente nada em comparação.
00:05:42Dito isso,
00:05:43ainda não é um modelo que você usaria para codificação completamente autônoma.
00:05:46Mesmo que Claude tenha realmente errado a arquitetura aqui,
00:05:49é bom o suficiente para que ele possa corrigir e melhorar depois.
00:05:52Mas com as pequenas peculiaridades que GLM ainda tem,
00:05:54não achamos uma boa ideia depender apenas dele.
00:05:57Isso nos leva ao final deste vídeo.
00:05:58Se você quer apoiar o canal e ajudar a gente a continuar fazendo vídeos assim,
00:06:02pode fazer isso usando o botão super thanks abaixo.
00:06:05Como sempre, obrigado por assistir e até o próximo!

Key Takeaway

GLM 4.7 representa um salto significativo de desempenho da ZAI com preço extremamente acessível, oferecendo qualidade competitiva ao Sonnet 4.5 em codificação, mas ainda com limitações de autonomia que o tornam mais adequado como ferramenta complementar.

Highlights

GLM 4.7 foi lançado pela ZAI com preço extremamente competitivo de $29 por ano, atingindo 73% no SWE bench, comparável ao Sonnet 4.5

Melhorias principais vieram através de pós-treinamento, não mudança de arquitetura, com otimização específica para Claude Code

GLM 4.7 agora demonstra pensamento explícito dentro do Claude Code, resolvendo um problema crítico que o 4.6 tinha

Planos de preço oferecem muito mais prompts que Claude: $3 oferece 120 prompts no GLM Code versus 10-40 no plano de entrada do Claude

Em testes práticos, GLM 4.7 implementou arquitetura de código superior ao Sonnet 4.5 apesar de design UI ligeiramente inferior

O modelo ainda apresenta limitações de autonomia e velocidade na geração de código, não sendo adequado para desenvolvimento completamente autônomo

Recomendação final é aproveitar o plano de $29 anuais como complemento, especialmente para desenvolvedores que já usam Claude

Timeline

Apresentação do GLM 4.7 e Contexto de Lançamento

O vídeo abre com a apresentação do novo modelo GLM 4.7 da ZAI, lançado por apenas $29 por ano, alegando atingir 73% de desempenho no SWE bench, equiparável ao Sonnet 4.5 da Anthropic. O timing do lançamento não é aleatório, pois a ZAI está em processo de abertura de capital e buscando penetração no mercado ocidental, inclusive realizando Q&A ao vivo no Reddit, algo nunca feito por laboratórios de IA chineses. O vídeo faz parte da série 'Debunked' do canal AI Labs, que tira a tagarelice de marketing e testa ferramentas de IA com resultados honestos. Há questões legítimas sobre se o modelo 4.7 realmente corrigiu os problemas reais do 4.6 anterior.

Melhorias Técnicas e Recursos do GLM 4.7

O novo modelo foi principalmente melhorado através de pós-treinamento, sem mudanças na arquitetura base, e está altamente otimizado para Claude Code como framework prioritário da ZAI. GLM 4.7 está superando muitos modelos de ponta, incluindo GPT-5, especialmente em benchmarks de codificação. O time adicionou novas ferramentas MCP (Model Context Protocol) que funcionam como servidores separados, requerendo apenas uma chave de API para operação. Os limites de uso são praticamente os mesmos do 4.6, mas apresentam uma diferença gigante em relação aos planos da Claude: no plano de entrada, recebe-se 10-40 prompts no Claude Code contra 120 prompts por apenas $3 no GLM Code, uma vantagem que aumenta significativamente nos planos superiores.

Comparação de Preços e Limites de Uso

A análise de preços revela diferenças substanciais nos limites de prompts entre os serviços. O plano anual de Claude de $200 oferece até 800 prompts em uma janela de 5 horas, enquanto o GLM oferece 2.400 prompts pelo mesmo período por apenas $30. Todas essas taxas têm desconto no primeiro mês e depois dobram, mas o plano anual oferece muito mais acessibilidade. O benchmarks também incluem o teste 'Última Exame da Humanidade' (Humanity's Last Exam), um benchmark não saturado onde a maioria dos modelos novos pontua baixo porque é genuinamente difícil. Essa desproporção de custo versus capacidade coloca o GLM 4.7 como uma opção extremamente competitiva para desenvolvimento com IA.

Testes Práticos de Interface de Usuário e Design

O testador usou um prompt focado em lógica de design para ambos os modelos criarem uma plataforma de revisão de código alimentada por IA. O Sonnet 4.5 criou uma interface mais polida sem emojis, seguindo melhor os padrões de design. O GLM 4.7 criou um design sólido mas cometeu erros de dimensionamento que quebraram artefatos, e usou emojis desnecessários na interface. Os modelos foram testados com um projeto Next.js pré-configurado com Framer Motion e componentes ShadCN, solicitando a construção de uma página principal para uma plataforma de streaming estilo Netflix. Apesar do design UI superior do Claude, o teste revelaria que a qualidade da arquitetura de código seria um fator surpresa nos resultados.

Problemas Identificados e Melhorias do GLM 4.7

Um problema crítico do GLM 4.6 era a velocidade extremamente lenta na geração de código, que na experiência do testador não foi resolvido no 4.7, ainda sendo muito lento. Porém, houve uma mudança importante: enquanto o 4.6 não pensava dentro do Claude Code, o 4.7 agora demonstra pensamento explícito e audível durante a geração, uma correção significativa. O modelo também apresenta limitações de autonomia, ignorando instruções claras de contexto e optando por criar seu próprio aplicativo Next.js em vez de implementar o existente. Apesar dessas peculiaridades, a qualidade final do código gerado foi melhor que o esperado, com GLM 4.7 implementando uma arquitetura superior ao colocar dados simulados em um arquivo centralizado, facilitando futuras migrações para dados reais do backend.

Análise Comparativa de Qualidade de Código e Recomendações

Enquanto o Claude criou uma UI visualmente superior, a investigação do código revelou que GLM 4.7 implementou arquitetura melhor, com importações centralizadas que facilitarão manutenção futura versus a abordagem do Claude com importações distribuídas em cada componente. Em termos de arquitetura básica e qualidade de código, GLM surpreendeu positivamente, representando um salto gigantesco comparado aos problemas do 4.6. Dados os resultados dos testes, o vídeo recomenda que todos obtenham o plano de $29 por ano, especialmente considerando quem já tem planos Claude de $20. Porém, a recomendação final é clara: GLM 4.7 não é adequado para codificação completamente autônoma, tendo ainda peculiaridades que desaconselham depender unicamente dele, funcionando melhor como ferramenta complementar que pode ser corrigida e melhorada posteriormente.

Community Posts

View all posts