00:00:00O novo melhor modelo chegou: Opus 4.7. Parece ser uma atualização muito boa, obviamente
00:00:05ele é melhor em codificação, mas também melhorou em visão, autoverificação e supostamente
00:00:09está melhor em criar interfaces (UI), tornando-as mais elegantes e criativas.
00:00:12O lado negativo é que, embora o custo não tenha mudado, o tokenizador mudou, então o exato
00:00:17mesmo prompt de entrada agora pode usar até 35% mais tokens e ele também pensa mais, então são
00:00:22mais tokens para queimar. Definitivamente há alguns detalhes muito interessantes neste lançamento
00:00:26e provavelmente uma mudança que você vai querer fazer no Claude Code agora, então vamos lá, ver o que há
00:00:30de novo e testá-lo.
00:00:31Agora, vou começar pelos benchmarks porque eu meio que menti antes quando disse que este
00:00:40era o novo melhor modelo. É o melhor disponível publicamente, mas estes benchmarks também incluem
00:00:44o Mythos, o modelo tão poderoso que ainda não temos permissão de usar.
00:00:47De acordo com a Anthropic, o Opus 4.7 está testando novas salvaguardas cibernéticas para bloquear pedidos
00:00:52que indiquem usos proibidos ou de alto risco em cibersegurança, e o que aprenderem com isso vai
00:00:56ajudá-los a trabalhar para um lançamento amplo dos modelos da classe Mythos, então espero que no futuro
00:01:00eu possa fazer um vídeo sobre o lançamento do Mythos e como ele é o fim do desenvolvimento de software
00:01:03como o conhecemos. Então inscreva-se se não quiser perder esse vídeo.
00:01:06Por enquanto, vou ignorar o Mythos e focar no que podemos realmente usar, que
00:01:10é o Opus 4.7, e ele realmente obteve grandes ganhos nos benchmarks.
00:01:13Não vou entrar em muitos detalhes sobre eles, e você pode pausar a tela se quiser
00:01:16ler cada um. Você pode ver que em benchmarks como o SWE Bench Pro, ele deu um salto de 10%
00:01:21sobre o Opus 4.6, e no Verified, um salto de 7%, e esse padrão continua
00:01:26no restante dos benchmarks, exceto em cibersegurança, onde ele caiu um pouco, aparentemente
00:01:30relacionado às salvaguardas que mencionei antes; parece que mantiveram
00:01:34esta pontuação baixa artificialmente para tentar salvar o mundo ou algo assim.
00:01:37Também encontrei um benchmark muito interessante naquele sistema onde parece que a
00:01:40performance de contexto longo aparentemente despencou em comparação ao Opus 4.6 ao usar
00:01:45o teste "agulha no palheiro", então estou curioso para ver como isso impactará o uso real ao
00:01:50longo do tempo. Fora os benchmarks, há algumas outras melhorias notáveis que podem
00:01:54até mudar como você usa o Claude. A primeira é que ele segue melhor as instruções,
00:01:58o que significa que você pode ter resultados inesperados com prompts que já usou
00:02:01antes, já que modelos antigos interpretavam instruções vagamente ou pulavam partes, enquanto o Opus 4.7
00:02:07está realmente focado em seguir instruções literalmente, então você pode ter alguns ajustes de prompt
00:02:11a fazer. Em seguida, ele tem suporte multimodal aprimorado, podendo aceitar imagens de resolução três
00:02:16vezes maior que os modelos antigos, o que deve torná-lo melhor em tarefas como uso do computador e
00:02:20extração de dados. O uso de memória também melhorou, então o Opus 4.7 deve ser melhor em usar memória
00:02:25baseada em sistema de arquivos, onde ele lembra notas importantes em sessões de trabalho longas e usa
00:02:30isso para avançar em novas tarefas que, como resultado, precisam de menos contexto inicial. Talvez isso
00:02:34me economize alguns tokens, o que é bem importante agora, já que a próxima mudança é no tokenizador
00:02:39e no pensamento. O Opus 4.7 usa um tokenizador atualizado que melhora como o modelo processa texto,
00:02:45mas também significa que o mesmo prompt de entrada pode custar até 35% mais tokens, e quando você
00:02:49combina isso com o fato de que o Opus 4.7 pensa mais em níveis de esforço mais altos, este modelo
00:02:54realmente vai queimar muitos tokens. Para piorar, há também um novo nível
00:02:58de esforço "extra alto", e ele está definido como padrão no Claude Code, então eu recomendo
00:03:02fortemente que você teste os vários níveis de esforço e encontre o que melhor lhe atende para ver
00:03:05se pode diminuir isso sem notar impacto. Para comparação, o novo
00:03:09nível de esforço extra alto usa quase a mesma quantidade de tokens que o nível máximo do Opus 4.6,
00:03:14e o nível de esforço alto do Opus 4.7 supera o nível máximo do Opus 4.6
00:03:19usando menos tokens. Então, se você já está satisfeito com o que tinha antes, eu usaria aquela tabela
00:03:24para comparar, porque eu sei que, no meu caso, provavelmente mudarei para o nível de esforço
00:03:27alto na maioria das vezes. Com o resumo das novidades feito, vou gastar
00:03:31meu uso e testar isso. A primeira coisa que vou verificar é se ele é melhor em design de UI,
00:03:35então dei um prompt muito simples para criar um site de café apenas com index.html e
00:03:40estou usando o nível de esforço máximo em todos os modelos que estou testando, então vou tentar
00:03:43no Opus 4.7, 4.6, Gemini 3.1 e GPT 5.4. Este é o resultado que recebi do Opus 4.7
00:03:51e acho que ficou bem legal, tem uma boa vibração de café, usou uma
00:03:55fonte bonita e pegou imagens do Unsplash. No geral, não posso reclamar, é
00:03:59um site bem simples, tem uma seção de menu legal, tudo é responsivo e, no geral,
00:04:04sim, eu diria que ficou muito bom. Se compararmos com o que o Opus 4.6 me deu, você vê que
00:04:09ele seguiu um estilo um pouco diferente, mas tem uma fonte e uma seção de menu
00:04:12semelhantes, e no geral é um pouco pior, eu diria, apenas porque não usou um
00:04:16fundo legal e esse gradiente não ficou nada bom, mas ainda assim não posso
00:04:20reclamar muito; eu diria que o Opus 4.7 está apenas um passo acima. O Gemini 3.1, por outro
00:04:25lado, acho que me deu o melhor resultado, ou pelo menos este é o meu favorito, então me conte nos
00:04:29comentários abaixo qual é o seu; eu só gostei muito que ele tem esse fundo que não
00:04:33se move quando rolamos a tela, acho que ele fez muito bem essa seção de imagem na seção
00:04:36"nossa história", o menu parece similar aos outros, mas novamente acho que está bem
00:04:40organizado, assim como o rodapé, então acho que o 3.1 venceu para mim. Ficando
00:04:45em último lugar, com certeza, está o GPT 5.4; ele tem tanto aquela aparência de GPT,
00:04:50ele adora esses tipos de cartões com um desfoque legal neles e simplesmente não é um
00:04:55bom site de café na minha opinião, parece qualquer outro app de GPT que já vi, então
00:04:59o Opus 4.7 é definitivamente bom em UI e provavelmente lidará ainda melhor com
00:05:04mais direcionamento; no momento, na arena de design, o Opus 4.6 lidera para sites,
00:05:09então espero que o 4.7 tome seu lugar. Obviamente aquele teste foi bem
00:05:13simples, então agora vou dar a todos uma tarefa mais avançada; você pode ver aqui no Claude Code
00:05:17com o Opus 4.6, estou pedindo um painel de gestão financeira pessoal que ofereça uma visão
00:05:21detalhada da saúde financeira de um indivíduo com várias funcionalidades que coloquei no
00:05:25prompt, e não estou dando nenhuma indicação da stack que ele deve usar; ele vai
00:05:30escolher tudo e começar do zero. Primeiro temos o resultado do Opus 4.7 e
00:05:34ele fez tudo em um único prompt em cerca de 20 minutos, e minha reação inicial é apenas:
00:05:39uau, isso ficou realmente bom, a UI é muito limpa, tem gráficos ótimos, tudo
00:05:44está bem organizado, usa um bom esquema de cores e, para ser honesto com você, não há muito
00:05:48que eu mesmo melhoraria; ele fez um trabalho fantástico no lado da interface (UI),
00:05:53e também tem todas as páginas individuais que pedi: podemos ver todas as nossas contas,
00:05:57nossas transações e orçamentos; não podemos adicionar novos orçamentos no
00:06:02momento, parece que isso não é uma funcionalidade, o mesmo com as metas, mas podemos
00:06:05adicionar às nossas metas aqui, os números aumentam e ele atualiza a API de backend
00:06:10que ele construiu, e a mesma coisa acontece se enviarmos dinheiro para as pessoas também, então se
00:06:14eu testar pagar minha assinatura do Claude Code aqui, isso deve ser enviado com sucesso e posso
00:06:17ver que foi enviado e, no painel, meu patrimônio líquido foi atualizado com aquela transação,
00:06:22então tudo está funcionando e ele está usando um banco de dados no backend, e também
00:06:26aparece em nossas transações recentes. Olhando o código gerado, tudo
00:06:30parece muito bom, usou React e Vite para o frontend, o mesmo que eu teria
00:06:34feito, e também usou React Router, talvez eu tivesse usado TanStack mas não
00:06:38importa, ambos são ótimas opções; em tudo isso você pode ver que tudo está
00:06:42bem estruturado, temos todos os nossos componentes de UI individuais, no geral o frontend está muito bem feito.
00:06:46Onde eu tiraria pontos é no backend, porque estamos usando
00:06:51um servidor Express; não há nada de errado com isso, mas eu teria escolhido algo
00:06:54como Bun talvez, ou Hono, pela simplicidade do app, e também a forma como ele está
00:06:59armazenando os dados é tudo em memória, então se eu desligar o serviço de backend e iniciá-lo
00:07:04novamente, ele vai carregar os dados deste script de seed e são apenas
00:07:08arrays locais; não tinha um banco de dados para salvar isso. Passando para o que o Opus 4.6 me deu,
00:07:13devo dizer de imediato que o Opus 4.7 definitivamente fez um trabalho melhor no design da UI,
00:07:18tem algo nesta interface que não gosto muito, não sei se tem um
00:07:21pouco de preenchimento (padding) excessivo ou se é o fato de estar no modo claro enquanto o outro estava
00:07:24no modo escuro, eu definitivamente prefiro o do Opus 4.7; no geral ele tem componentes similares,
00:07:29vemos os cartões com nosso patrimônio líquido, temos um gráfico de tendência, as
00:07:33transações recentes e nossas metas financeiras, e também temos as páginas individuais para rastrear
00:07:38isso. Além da UI, também podemos testar algumas funcionalidades, então vou adicionar uma nova
00:07:42transação aqui; esta será de cento e cinquenta dólares para compras domésticas,
00:07:46parece que recebemos uma atualização aqui e, no painel, meu patrimônio líquido também atualizou,
00:07:50então parece estar funcionando; um lugar onde o Opus 4.6 pode ter vencido o
00:07:54Opus 4.7 no prompt único é que posso adicionar contas aqui, acabei de adicionar esta conta,
00:07:58e o mesmo vale para as metas e o orçamento, então também adicionei o orçamento de educação,
00:08:03então parece que o Opus 4.6 adicionou mais funcionalidades, mas para ser honesto,
00:08:07eu apenas pedi ao Opus 4.7 para adicioná-las para mim, obviamente você normalmente não faria um único prompt.
00:08:12Olhando o código, o Opus 4.6 seguiu um caminho similar com uma aplicação React em Vite, mas
00:08:16uma coisa interessante que notei agora é que ele está usando React 19 e React Router
00:08:20Dom 7, enquanto o Opus 4.7 usou React 18 e React Router 6, mesmo tendo
00:08:27certeza de que o Opus 4.7 tem uma data de corte de conhecimento mais recente. Além disso, outra vitória do Opus 4.6 é que
00:08:32ele usou um banco de dados no backend, então os dados serão persistidos; você pode ver que ele usa
00:08:36um SQLite aqui e temos os bancos de dados, então isso é uma vitória; mas onde
00:08:40ele perde é que aparentemente usou JavaScript para todo o projeto, enquanto o Opus 4.7 usou corretamente
00:08:45TypeScript. Em seguida, temos o resultado do GPT 5.4 e, para ser sincero, não tenho
00:08:50ideia do que ele está fazendo aqui; esta não é uma UI utilizável, parece muito ruim na minha opinião, tudo
00:08:55está muito bagunçado, não gosto da fonte e, é, não vou gastar
00:08:59muito tempo nisso, parece bem pior que os do Claude. Posso confirmar, porém,
00:09:03que funciona quando adicionamos dinheiro, exceto que ele recarrega a página inteira,
00:09:07não melhora muito no código também; aparentemente o GPT 5.4 não quis começar
00:09:11um projeto completo a partir disso, então ele seguiu uma abordagem muito simples onde temos apenas
00:09:14nosso index.html, nosso arquivo JavaScript e nossos estilos e, para o banco de dados, é apenas
00:09:19um único script JavaScript também, não está usando um banco de dados, faz tudo
00:09:23em memória como o Opus 4.7 e, novamente, usou JavaScript para tudo em vez
00:09:28de TypeScript. Quanto ao Gemini 3.1, serei honesto, tive muitos problemas para tentar
00:09:32fazer este app rodar e tive que enviar vários prompts de acompanhamento apenas porque estava curioso
00:09:36para ver como ele era, e ele se parece exatamente com o do Opus 4.6; não
00:09:41sei se eles têm os mesmos dados de treinamento para a UI, mas é muito similar,
00:09:45nenhuma destas funcionalidades funciona e nenhuma destas abas é clicável; o Gemini 3.1
00:09:50provavelmente foi o pior, embora o 5.4 esteja próximo, apenas pela forma como ele criou
00:09:54o app. Devo dizer que o Gemini 3.1 tentou uma boa abordagem,
00:09:59usando Next.js em vez de React Router, o que é uma boa ideia porque permite usar
00:10:02as rotas de API do servidor, e como era um app simples, não me oponho a isso,
00:10:07mas usou Prisma, onde eu teria preferido algo como Drizzle.
00:10:10Estes testes honestamente me surpreenderam porque, até agora, eu era um usuário pesado do Codex
00:10:15e tinha me afastado do Claude Code, mas o Opus 4.7 pode me trazer de volta porque ele teve
00:10:19um design de UI muito bom e a maior parte do app pareceu funcionar; obviamente tudo depende
00:10:24da qualidade do prompt, e eu dei um prompt bem vago sobre a stack, normalmente eu daria
00:10:28as especificações exatas do que quero, mas ainda assim estou impressionado com o resultado que
00:10:32tivemos aqui. Estou curioso para saber o que você acha; qual é o seu modelo de preferência no momento? Conte-me
00:10:36na descrição abaixo; aproveite para se inscrever e, como sempre, nos vemos no
00:10:49próximo vídeo.