Claude Lançou o Opus 4.7 e a Diferença é Brutal

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareBusiness NewsConsumer ElectronicsInternet Technology

Transcript

00:00:00O Opus 4.7 acabou de ser lançado e, pelos números,

00:00:04esta é uma atualização enorme. Vamos conferir. Primeiro,

00:00:08os benchmarks. Eles mostram o Mythos aqui à direita,

00:00:12só para nos provocar sobre coisas que já existem.

00:00:15Mas o que eu realmente quero focar é no 4.7 contra o 4.6, pois quem sabe

00:00:20quando o Mythos estará disponível. E, pelos números,

00:00:23este é um salto muito sólido, especialmente em codificação.

00:00:28Se olharmos para codificação agentic, vemos um salto de 53 para 64,

00:00:32de 80 para 87,

00:00:34e de 65 para 69 nos três grandes testes: SWE-bench

00:00:39Pro, SWE-bench Verified e Terminal-bench 2.0.

00:00:42Os únicos lugares onde vemos os benchmarks do Opus 4.7

00:00:46não estarem no topo de todos os outros modelos,

00:00:49exceto pelo Mythos, é em busca agentic, onde vemos o GPT 5.4.

00:00:54Ele está com 89.3 contra o Opus 4.7,

00:00:57que, curiosamente, caiu em relação ao 4.6, o que, sabe como é,

00:01:01quando você vê coisas assim,

00:01:02onde mostram benchmarks que caíram em relação ao Opus 4.6,

00:01:06você se pergunta se eles apenas inseriram isso. Tipo: "Ah não,

00:01:08esses benchmarks são legítimos, pessoal. Não mentiríamos sobre isso. Vejam,

00:01:11vejam isso". Bem,

00:01:12mas o 5.4 está à frente em busca agentic e também em raciocínio

00:01:17de nível de pós-graduação. Outra área com melhoria massiva é o raciocínio visual.

00:01:21Saltamos de 69 para 82,

00:01:25e isso pode ter a ver com o fato de que este modelo tem uma visão

00:01:29muito melhor.

00:01:29Eles nos dizem que as imagens que você coloca no Opus 4.7 têm

00:01:34o triplo da resolução agora, o que é enorme.

00:01:36Se você trabalha com diagramas ou textos pequenos,

00:01:38e vemos esses mesmos números refletidos aqui nestes gráficos.

00:01:42Melhorias em trabalho de conhecimento, visão, um salto enorme em raciocínio de documentos,

00:01:46de 57.1 para 80.6, o que é uma grande vantagem.

00:01:50Se você é alguém que usa algo como cowork,

00:01:52usa isso em um cenário de escritório e passa o dia alimentando-o

00:01:55com documentos. O raciocínio de contexto longo também é importante.

00:01:57Sempre insistimos neste canal sobre a degradação do contexto e a ideia de

00:02:02focarmos muito na gestão da sessão. Não acho que isso mude. Quer dizer,

00:02:07ir de 71 para 75 é ótimo.

00:02:09Acho que você não deve mudar o quão agressivamente limpa o contexto;

00:02:13atingiu 20% ou 25% da janela, você deve limpar, mas isso é uma melhoria.

00:02:17Adoramos ver isso. E este aqui também é interessante.

00:02:19Este benchmark de codificação relacionado ao multimodal. Eles estão codificando,

00:02:22mas isso também inclui situações onde inserem contextos com coisas

00:02:25como imagens. Não acho que seja surpresa,

00:02:28e creio que muito disso se deve à resolução.

00:02:30Agora, além do modelo em si, houve mais algumas atualizações.

00:02:32A maior delas é mais controle de esforço. Agora existe o nível X-high,

00:02:37provavelmente copiado da OpenAI, entre o high e o max.

00:02:40Além disso, o Claude Code agora vem por padrão no extra high.

00:02:44Acho que isso é uma resposta a muitas pessoas alegando que o Opus 4.6

00:02:48foi piorado. E então Boris Cherny, o criador do Opus, bem, não o criador do Opus,

00:02:52o criador do Claude Code, veio a público dizer que,

00:02:54na verdade, eles mudaram o nível padrão de raciocínio, o nível de esforço,

00:02:58para médio. Então o fato de lançarem o X-high,

00:03:01creio ser uma resposta a isso para torná-lo "melhor" e

00:03:05fazê-lo se esforçar mais, sem empurrar as pessoas para o máximo, pois aí

00:03:10o problema inverte e todos reclamam que o limite de uso esgotou. Lembre-se,

00:03:12se você quiser mudar isso,

00:03:13basta usar o comando /effort e definir o seu nível.

00:03:16A resolução mais alta também está disponível na API.

00:03:19E eles também lançaram o novo comando /ultra-review.

00:03:24Assim, ele recebe uma sessão de revisão dedicada. Além disso,

00:03:28eles estenderam o modo automático. E se você não conhece o modo automático,

00:03:31é basicamente uma alternativa para pular permissões perigosas. Agora,

00:03:34uma coisa que eles observam aqui é que o Opus 4.7 usará mais tokens

00:03:39do que o 4.6.

00:03:40Eles afirmam explicitamente que o Opus 4.7 usa um tokenizador atualizado e melhora

00:03:45o processamento de texto, mas que isso aumenta a quantidade de tokens na entrada,

00:03:50cerca de 1 a 1.35 vezes, dependendo do tipo de conteúdo.

00:03:54E, em segundo lugar, o Opus 4.7 pensa mais em níveis de esforço mais altos.

00:03:58Lembre-se disso, pois eles estão definindo o esforço padrão como extra high,

00:04:03sendo que antes estava no médio e o Opus 4.7 usa mais tokens.

00:04:07Portanto, se você esteve no médio o tempo todo,

00:04:09nunca mudou e já estava atingindo as taxas ou limites de uso no

00:04:134.6, tome cuidado. Entenda que você pode ter problemas de limite de uso.

00:04:18Se você já passa por isso,

00:04:19saiba que agora ele usará ainda mais tokens.

00:04:21O que também é interessante é que removeram o pensamento estendido.

00:04:25E se quiser ler mais e se aprofundar nessa migração,

00:04:28eles publicaram um material completo na documentação.

00:04:30No geral, parece ser uma atualização muito sólida.

00:04:32Estou animado para começar a testá-la eu mesmo.

Key Takeaway

O Opus 4.7 prioriza o desempenho em codificação e visão com o triplo da resolução de imagem, mas exige cautela dos usuários devido ao aumento de até 35% no consumo de tokens e à mudança do nível de esforço padrão para X-high.

Highlights

O Opus 4.7 apresenta um salto em codificação agêntica, subindo de 53 para 64 no SWE-bench Pro e de 80 para 87 no SWE-bench Verified.
A resolução de imagens processadas pelo modelo triplicou em comparação à versão anterior, facilitando a análise de diagramas e textos pequenos.
O raciocínio de documentos saltou de 57.1 para 80.6, representando a maior evolução em tarefas de conhecimento de escritório.
O nível de esforço padrão no Claude Code foi alterado para X-high, uma nova categoria situada entre os níveis high e max.
O uso de tokens no Opus 4.7 aumentou entre 1 e 1.35 vezes devido a um novo tokenizador e ao processamento de texto mais denso.
O modelo superou todos os concorrentes em benchmarks de codificação, perdendo apenas para o GPT 5.4 em busca agêntica e raciocínio de pós-graduação.

Timeline

Desempenho em Benchmarks e Codificação

A atualização para a versão 4.7 foca no aumento de capacidades de codificação agêntica.
Os testes SWE-bench Pro e Verified mostram ganhos de 11 e 7 pontos percentuais, respectivamente.
O GPT 5.4 mantém a liderança apenas em busca agêntica com uma pontuação de 89.3.

Os números indicam uma evolução sólida em relação à versão 4.6, especialmente em tarefas que exigem autonomia do agente de código. O modelo Mythos aparece nos gráficos como uma provocação tecnológica, mas o Opus 4.7 se estabelece como a ferramenta disponível mais potente para desenvolvedores. Existe uma leve regressão em busca agêntica comparado ao antecessor, o que valida a legitimidade dos dados apresentados.

Avanços em Visão e Raciocínio de Documentos

O raciocínio visual subiu de 69 para 82 pontos graças ao novo suporte para alta resolução.
O processamento de documentos complexos teve um ganho de eficiência superior a 23 pontos.
A estabilidade do contexto longo melhorou de 71% para 75% de aproveitamento.

O aumento triplo na resolução de entrada permite que o Opus 4.7 interprete detalhes minuciosos em imagens e diagramas técnicos. Essa capacidade reflete diretamente no benchmark de codificação multimodal, onde o contexto visual auxilia na geração de código. Apesar da melhoria no contexto longo, a recomendação técnica permanece a de limpar a sessão ao atingir 25% da janela para evitar degradação.

Novos Controles de Esforço e Gestão de Tokens

A introdução do nível X-high visa equilibrar a profundidade do raciocínio com os limites de uso do sistema.
O Opus 4.7 consome até 1.35 vezes mais tokens de entrada do que a versão 4.6.
O comando /ultra-review agora aciona uma sessão de revisão dedicada para o código produzido.

A mudança do nível de esforço padrão de médio para X-high no Claude Code é uma resposta direta às reclamações de perda de qualidade na versão anterior. O novo tokenizador otimiza o processamento de texto, mas resulta em custos maiores por solicitação e esgotamento mais rápido das cotas de uso. O modo de pensamento estendido foi removido nesta versão, sendo substituído pelos novos níveis de controle manual via comando /effort.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video