Opus 4.7 é SENSACIONAL (exceto pelo uso de tokens)

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00O novo melhor modelo chegou: Opus 4.7. Parece ser uma atualização muito boa, obviamente

00:00:05ele é melhor em codificação, mas também melhorou em visão, autoverificação e supostamente

00:00:09está melhor em criar interfaces (UI), tornando-as mais elegantes e criativas.

00:00:12O lado negativo é que, embora o custo não tenha mudado, o tokenizador mudou, então o exato

00:00:17mesmo prompt de entrada agora pode usar até 35% mais tokens e ele também pensa mais, então são

00:00:22mais tokens para queimar. Definitivamente há alguns detalhes muito interessantes neste lançamento

00:00:26e provavelmente uma mudança que você vai querer fazer no Claude Code agora, então vamos lá, ver o que há

00:00:30de novo e testá-lo.

00:00:31Agora, vou começar pelos benchmarks porque eu meio que menti antes quando disse que este

00:00:40era o novo melhor modelo. É o melhor disponível publicamente, mas estes benchmarks também incluem

00:00:44o Mythos, o modelo tão poderoso que ainda não temos permissão de usar.

00:00:47De acordo com a Anthropic, o Opus 4.7 está testando novas salvaguardas cibernéticas para bloquear pedidos

00:00:52que indiquem usos proibidos ou de alto risco em cibersegurança, e o que aprenderem com isso vai

00:00:56ajudá-los a trabalhar para um lançamento amplo dos modelos da classe Mythos, então espero que no futuro

00:01:00eu possa fazer um vídeo sobre o lançamento do Mythos e como ele é o fim do desenvolvimento de software

00:01:03como o conhecemos. Então inscreva-se se não quiser perder esse vídeo.

00:01:06Por enquanto, vou ignorar o Mythos e focar no que podemos realmente usar, que

00:01:10é o Opus 4.7, e ele realmente obteve grandes ganhos nos benchmarks.

00:01:13Não vou entrar em muitos detalhes sobre eles, e você pode pausar a tela se quiser

00:01:16ler cada um. Você pode ver que em benchmarks como o SWE Bench Pro, ele deu um salto de 10%

00:01:21sobre o Opus 4.6, e no Verified, um salto de 7%, e esse padrão continua

00:01:26no restante dos benchmarks, exceto em cibersegurança, onde ele caiu um pouco, aparentemente

00:01:30relacionado às salvaguardas que mencionei antes; parece que mantiveram

00:01:34esta pontuação baixa artificialmente para tentar salvar o mundo ou algo assim.

00:01:37Também encontrei um benchmark muito interessante naquele sistema onde parece que a

00:01:40performance de contexto longo aparentemente despencou em comparação ao Opus 4.6 ao usar

00:01:45o teste "agulha no palheiro", então estou curioso para ver como isso impactará o uso real ao

00:01:50longo do tempo. Fora os benchmarks, há algumas outras melhorias notáveis que podem

00:01:54até mudar como você usa o Claude. A primeira é que ele segue melhor as instruções,

00:01:58o que significa que você pode ter resultados inesperados com prompts que já usou

00:02:01antes, já que modelos antigos interpretavam instruções vagamente ou pulavam partes, enquanto o Opus 4.7

00:02:07está realmente focado em seguir instruções literalmente, então você pode ter alguns ajustes de prompt

00:02:11a fazer. Em seguida, ele tem suporte multimodal aprimorado, podendo aceitar imagens de resolução três

00:02:16vezes maior que os modelos antigos, o que deve torná-lo melhor em tarefas como uso do computador e

00:02:20extração de dados. O uso de memória também melhorou, então o Opus 4.7 deve ser melhor em usar memória

00:02:25baseada em sistema de arquivos, onde ele lembra notas importantes em sessões de trabalho longas e usa

00:02:30isso para avançar em novas tarefas que, como resultado, precisam de menos contexto inicial. Talvez isso

00:02:34me economize alguns tokens, o que é bem importante agora, já que a próxima mudança é no tokenizador

00:02:39e no pensamento. O Opus 4.7 usa um tokenizador atualizado que melhora como o modelo processa texto,

00:02:45mas também significa que o mesmo prompt de entrada pode custar até 35% mais tokens, e quando você

00:02:49combina isso com o fato de que o Opus 4.7 pensa mais em níveis de esforço mais altos, este modelo

00:02:54realmente vai queimar muitos tokens. Para piorar, há também um novo nível

00:02:58de esforço "extra alto", e ele está definido como padrão no Claude Code, então eu recomendo

00:03:02fortemente que você teste os vários níveis de esforço e encontre o que melhor lhe atende para ver

00:03:05se pode diminuir isso sem notar impacto. Para comparação, o novo

00:03:09nível de esforço extra alto usa quase a mesma quantidade de tokens que o nível máximo do Opus 4.6,

00:03:14e o nível de esforço alto do Opus 4.7 supera o nível máximo do Opus 4.6

00:03:19usando menos tokens. Então, se você já está satisfeito com o que tinha antes, eu usaria aquela tabela

00:03:24para comparar, porque eu sei que, no meu caso, provavelmente mudarei para o nível de esforço

00:03:27alto na maioria das vezes. Com o resumo das novidades feito, vou gastar

00:03:31meu uso e testar isso. A primeira coisa que vou verificar é se ele é melhor em design de UI,

00:03:35então dei um prompt muito simples para criar um site de café apenas com index.html e

00:03:40estou usando o nível de esforço máximo em todos os modelos que estou testando, então vou tentar

00:03:43no Opus 4.7, 4.6, Gemini 3.1 e GPT 5.4. Este é o resultado que recebi do Opus 4.7

00:03:51e acho que ficou bem legal, tem uma boa vibração de café, usou uma

00:03:55fonte bonita e pegou imagens do Unsplash. No geral, não posso reclamar, é

00:03:59um site bem simples, tem uma seção de menu legal, tudo é responsivo e, no geral,

00:04:04sim, eu diria que ficou muito bom. Se compararmos com o que o Opus 4.6 me deu, você vê que

00:04:09ele seguiu um estilo um pouco diferente, mas tem uma fonte e uma seção de menu

00:04:12semelhantes, e no geral é um pouco pior, eu diria, apenas porque não usou um

00:04:16fundo legal e esse gradiente não ficou nada bom, mas ainda assim não posso

00:04:20reclamar muito; eu diria que o Opus 4.7 está apenas um passo acima. O Gemini 3.1, por outro

00:04:25lado, acho que me deu o melhor resultado, ou pelo menos este é o meu favorito, então me conte nos

00:04:29comentários abaixo qual é o seu; eu só gostei muito que ele tem esse fundo que não

00:04:33se move quando rolamos a tela, acho que ele fez muito bem essa seção de imagem na seção

00:04:36"nossa história", o menu parece similar aos outros, mas novamente acho que está bem

00:04:40organizado, assim como o rodapé, então acho que o 3.1 venceu para mim. Ficando

00:04:45em último lugar, com certeza, está o GPT 5.4; ele tem tanto aquela aparência de GPT,

00:04:50ele adora esses tipos de cartões com um desfoque legal neles e simplesmente não é um

00:04:55bom site de café na minha opinião, parece qualquer outro app de GPT que já vi, então

00:04:59o Opus 4.7 é definitivamente bom em UI e provavelmente lidará ainda melhor com

00:05:04mais direcionamento; no momento, na arena de design, o Opus 4.6 lidera para sites,

00:05:09então espero que o 4.7 tome seu lugar. Obviamente aquele teste foi bem

00:05:13simples, então agora vou dar a todos uma tarefa mais avançada; você pode ver aqui no Claude Code

00:05:17com o Opus 4.6, estou pedindo um painel de gestão financeira pessoal que ofereça uma visão

00:05:21detalhada da saúde financeira de um indivíduo com várias funcionalidades que coloquei no

00:05:25prompt, e não estou dando nenhuma indicação da stack que ele deve usar; ele vai

00:05:30escolher tudo e começar do zero. Primeiro temos o resultado do Opus 4.7 e

00:05:34ele fez tudo em um único prompt em cerca de 20 minutos, e minha reação inicial é apenas:

00:05:39uau, isso ficou realmente bom, a UI é muito limpa, tem gráficos ótimos, tudo

00:05:44está bem organizado, usa um bom esquema de cores e, para ser honesto com você, não há muito

00:05:48que eu mesmo melhoraria; ele fez um trabalho fantástico no lado da interface (UI),

00:05:53e também tem todas as páginas individuais que pedi: podemos ver todas as nossas contas,

00:05:57nossas transações e orçamentos; não podemos adicionar novos orçamentos no

00:06:02momento, parece que isso não é uma funcionalidade, o mesmo com as metas, mas podemos

00:06:05adicionar às nossas metas aqui, os números aumentam e ele atualiza a API de backend

00:06:10que ele construiu, e a mesma coisa acontece se enviarmos dinheiro para as pessoas também, então se

00:06:14eu testar pagar minha assinatura do Claude Code aqui, isso deve ser enviado com sucesso e posso

00:06:17ver que foi enviado e, no painel, meu patrimônio líquido foi atualizado com aquela transação,

00:06:22então tudo está funcionando e ele está usando um banco de dados no backend, e também

00:06:26aparece em nossas transações recentes. Olhando o código gerado, tudo

00:06:30parece muito bom, usou React e Vite para o frontend, o mesmo que eu teria

00:06:34feito, e também usou React Router, talvez eu tivesse usado TanStack mas não

00:06:38importa, ambos são ótimas opções; em tudo isso você pode ver que tudo está

00:06:42bem estruturado, temos todos os nossos componentes de UI individuais, no geral o frontend está muito bem feito.

00:06:46Onde eu tiraria pontos é no backend, porque estamos usando

00:06:51um servidor Express; não há nada de errado com isso, mas eu teria escolhido algo

00:06:54como Bun talvez, ou Hono, pela simplicidade do app, e também a forma como ele está

00:06:59armazenando os dados é tudo em memória, então se eu desligar o serviço de backend e iniciá-lo

00:07:04novamente, ele vai carregar os dados deste script de seed e são apenas

00:07:08arrays locais; não tinha um banco de dados para salvar isso. Passando para o que o Opus 4.6 me deu,

00:07:13devo dizer de imediato que o Opus 4.7 definitivamente fez um trabalho melhor no design da UI,

00:07:18tem algo nesta interface que não gosto muito, não sei se tem um

00:07:21pouco de preenchimento (padding) excessivo ou se é o fato de estar no modo claro enquanto o outro estava

00:07:24no modo escuro, eu definitivamente prefiro o do Opus 4.7; no geral ele tem componentes similares,

00:07:29vemos os cartões com nosso patrimônio líquido, temos um gráfico de tendência, as

00:07:33transações recentes e nossas metas financeiras, e também temos as páginas individuais para rastrear

00:07:38isso. Além da UI, também podemos testar algumas funcionalidades, então vou adicionar uma nova

00:07:42transação aqui; esta será de cento e cinquenta dólares para compras domésticas,

00:07:46parece que recebemos uma atualização aqui e, no painel, meu patrimônio líquido também atualizou,

00:07:50então parece estar funcionando; um lugar onde o Opus 4.6 pode ter vencido o

00:07:54Opus 4.7 no prompt único é que posso adicionar contas aqui, acabei de adicionar esta conta,

00:07:58e o mesmo vale para as metas e o orçamento, então também adicionei o orçamento de educação,

00:08:03então parece que o Opus 4.6 adicionou mais funcionalidades, mas para ser honesto,

00:08:07eu apenas pedi ao Opus 4.7 para adicioná-las para mim, obviamente você normalmente não faria um único prompt.

00:08:12Olhando o código, o Opus 4.6 seguiu um caminho similar com uma aplicação React em Vite, mas

00:08:16uma coisa interessante que notei agora é que ele está usando React 19 e React Router

00:08:20Dom 7, enquanto o Opus 4.7 usou React 18 e React Router 6, mesmo tendo

00:08:27certeza de que o Opus 4.7 tem uma data de corte de conhecimento mais recente. Além disso, outra vitória do Opus 4.6 é que

00:08:32ele usou um banco de dados no backend, então os dados serão persistidos; você pode ver que ele usa

00:08:36um SQLite aqui e temos os bancos de dados, então isso é uma vitória; mas onde

00:08:40ele perde é que aparentemente usou JavaScript para todo o projeto, enquanto o Opus 4.7 usou corretamente

00:08:45TypeScript. Em seguida, temos o resultado do GPT 5.4 e, para ser sincero, não tenho

00:08:50ideia do que ele está fazendo aqui; esta não é uma UI utilizável, parece muito ruim na minha opinião, tudo

00:08:55está muito bagunçado, não gosto da fonte e, é, não vou gastar

00:08:59muito tempo nisso, parece bem pior que os do Claude. Posso confirmar, porém,

00:09:03que funciona quando adicionamos dinheiro, exceto que ele recarrega a página inteira,

00:09:07não melhora muito no código também; aparentemente o GPT 5.4 não quis começar

00:09:11um projeto completo a partir disso, então ele seguiu uma abordagem muito simples onde temos apenas

00:09:14nosso index.html, nosso arquivo JavaScript e nossos estilos e, para o banco de dados, é apenas

00:09:19um único script JavaScript também, não está usando um banco de dados, faz tudo

00:09:23em memória como o Opus 4.7 e, novamente, usou JavaScript para tudo em vez

00:09:28de TypeScript. Quanto ao Gemini 3.1, serei honesto, tive muitos problemas para tentar

00:09:32fazer este app rodar e tive que enviar vários prompts de acompanhamento apenas porque estava curioso

00:09:36para ver como ele era, e ele se parece exatamente com o do Opus 4.6; não

00:09:41sei se eles têm os mesmos dados de treinamento para a UI, mas é muito similar,

00:09:45nenhuma destas funcionalidades funciona e nenhuma destas abas é clicável; o Gemini 3.1

00:09:50provavelmente foi o pior, embora o 5.4 esteja próximo, apenas pela forma como ele criou

00:09:54o app. Devo dizer que o Gemini 3.1 tentou uma boa abordagem,

00:09:59usando Next.js em vez de React Router, o que é uma boa ideia porque permite usar

00:10:02as rotas de API do servidor, e como era um app simples, não me oponho a isso,

00:10:07mas usou Prisma, onde eu teria preferido algo como Drizzle.

00:10:10Estes testes honestamente me surpreenderam porque, até agora, eu era um usuário pesado do Codex

00:10:15e tinha me afastado do Claude Code, mas o Opus 4.7 pode me trazer de volta porque ele teve

00:10:19um design de UI muito bom e a maior parte do app pareceu funcionar; obviamente tudo depende

00:10:24da qualidade do prompt, e eu dei um prompt bem vago sobre a stack, normalmente eu daria

00:10:28as especificações exatas do que quero, mas ainda assim estou impressionado com o resultado que

00:10:32tivemos aqui. Estou curioso para saber o que você acha; qual é o seu modelo de preferência no momento? Conte-me

00:10:36na descrição abaixo; aproveite para se inscrever e, como sempre, nos vemos no

00:10:49próximo vídeo.

Key Takeaway

O Opus 4.7 supera concorrentes como GPT 5.4 e Gemini 3.1 em design de interfaces e precisão de codificação TypeScript, embora exija uma gestão rigorosa de custos devido ao aumento de 35% no consumo de tokens do novo tokenizador.

Highlights

O modelo Opus 4.7 processa imagens com uma resolução três vezes superior às versões anteriores, otimizando tarefas de extração de dados.

A atualização do tokenizador e o aumento da capacidade de raciocínio elevam o consumo de tokens em até 35% para o mesmo prompt de entrada.

O novo nível de esforço padrão no Claude Code, denominado Extra High, utiliza uma quantidade de tokens equivalente ao nível máximo do Opus 4.6.

Em testes de codificação SWE Bench Pro, o Opus 4.7 registrou um aumento de desempenho de 10% em relação à versão 4.6.

O suporte a memórias baseadas em sistema de arquivos permite que o modelo retenha notas de sessões longas, reduzindo a necessidade de contexto inicial em novas tarefas.

A performance em contextos longos apresentou uma queda significativa no teste Needle In A Haystack em comparação ao antecessor.

Timeline

Capacidades técnicas e compromissos de desempenho

O Opus 4.7 apresenta melhorias em autoverificação, visão e criação de interfaces criativas.
Novas salvaguardas cibernéticas restringem pedidos de alto risco para preparar o lançamento futuro da classe de modelos Mythos.
O desempenho em benchmarks de codificação subiu entre 7% e 10%, exceto em cibersegurança devido às restrições artificiais de segurança.

O modelo equilibra avanços em lógica e visão com uma infraestrutura de segurança mais rígida. A Anthropic utiliza os dados deste lançamento para validar protocolos que permitirão a liberação do modelo Mythos, considerado ainda mais potente. As métricas de desempenho mostram ganhos consistentes em quase todas as categorias de produtividade técnica.

Impacto do novo tokenizador e níveis de esforço

O seguimento de instruções tornou-se estritamente literal, exigindo ajustes em prompts anteriormente vagos.
O nível de esforço High do Opus 4.7 entrega resultados superiores ao nível máximo do 4.6 consumindo menos tokens.
A resolução de imagem ampliada em 3x melhora significativamente a eficácia da função de uso do computador.

A mudança no tokenizador altera a economia do uso da API, tornando o modelo mais caro para processar o mesmo volume de texto. O sistema de memória aprimorado tenta mitigar esse custo ao permitir que o modelo recupere informações de arquivos locais sem reenviar todo o contexto. Usuários do Claude Code enfrentam o nível Extra High por padrão, o que acelera o consumo de créditos se não for ajustado manualmente.

Comparativo de design de interface (UI)

O Opus 4.7 gera interfaces responsivas com integração automática de ativos visuais do Unsplash.
O Gemini 3.1 supera o Opus 4.7 em estética visual específica, como o uso de fundos fixos e organização de rodapés.
O GPT 5.4 apresenta o pior desempenho em design, mantendo padrões genéricos e estruturas de cartões pouco atraentes.

Em um teste de criação de site para uma cafeteria, o Opus 4.7 demonstrou superioridade sobre o 4.6 ao evitar gradientes datados e escolher tipografias mais elegantes. O Gemini 3.1 se destacou pelo refinamento visual do layout. O modelo da OpenAI falhou em capturar a identidade visual necessária, entregando um resultado excessivamente funcional e esteticamente pobre.

Desenvolvimento de aplicações Full Stack

O Opus 4.7 constrói painéis financeiros complexos com React, Vite e TypeScript em apenas 20 minutos.
O Opus 4.6 opta por persistência de dados com SQLite, enquanto o 4.7 foca na estrutura de componentes e tipagem rigorosa.
O Gemini 3.1 e o GPT 5.4 falham em entregar aplicações prontas para execução, apresentando erros de navegação ou código desorganizado.

O teste de um dashboard financeiro revelou que o Opus 4.7 prioriza tecnologias modernas e seguras, como TypeScript, embora tenha negligenciado a persistência em banco de dados no primeiro prompt. O Opus 4.6, apesar de usar JavaScript puro e versões mais antigas de bibliotecas, entregou uma funcionalidade de banco de dados mais robusta. O Gemini 3.1 tentou uma arquitetura Next.js com Prisma, mas resultou em uma aplicação não funcional, evidenciando a instabilidade em tarefas de prompt único.

Community Posts

Métodos de Design de Prompt para Conter o Aumento do Consumo de Tokens no Opus 4.7

makedreamvor 5 Tagen3970

Write about this video