00:00:00O Opus 4.7 acabou de ser lançado e, pelos números,
00:00:04esta é uma atualização enorme. Vamos conferir. Primeiro,
00:00:08os benchmarks. Eles mostram o Mythos aqui à direita,
00:00:12só para nos provocar sobre coisas que já existem.
00:00:15Mas o que eu realmente quero focar é no 4.7 contra o 4.6, pois quem sabe
00:00:20quando o Mythos estará disponível. E, pelos números,
00:00:23este é um salto muito sólido, especialmente em codificação.
00:00:28Se olharmos para codificação agentic, vemos um salto de 53 para 64,
00:00:32de 80 para 87,
00:00:34e de 65 para 69 nos três grandes testes: SWE-bench
00:00:39Pro, SWE-bench Verified e Terminal-bench 2.0.
00:00:42Os únicos lugares onde vemos os benchmarks do Opus 4.7
00:00:46não estarem no topo de todos os outros modelos,
00:00:49exceto pelo Mythos, é em busca agentic, onde vemos o GPT 5.4.
00:00:54Ele está com 89.3 contra o Opus 4.7,
00:00:57que, curiosamente, caiu em relação ao 4.6, o que, sabe como é,
00:01:01quando você vê coisas assim,
00:01:02onde mostram benchmarks que caíram em relação ao Opus 4.6,
00:01:06você se pergunta se eles apenas inseriram isso. Tipo: "Ah não,
00:01:08esses benchmarks são legítimos, pessoal. Não mentiríamos sobre isso. Vejam,
00:01:11vejam isso". Bem,
00:01:12mas o 5.4 está à frente em busca agentic e também em raciocínio
00:01:17de nível de pós-graduação. Outra área com melhoria massiva é o raciocínio visual.
00:01:21Saltamos de 69 para 82,
00:01:25e isso pode ter a ver com o fato de que este modelo tem uma visão
00:01:29muito melhor.
00:01:29Eles nos dizem que as imagens que você coloca no Opus 4.7 têm
00:01:34o triplo da resolução agora, o que é enorme.
00:01:36Se você trabalha com diagramas ou textos pequenos,
00:01:38e vemos esses mesmos números refletidos aqui nestes gráficos.
00:01:42Melhorias em trabalho de conhecimento, visão, um salto enorme em raciocínio de documentos,
00:01:46de 57.1 para 80.6, o que é uma grande vantagem.
00:01:50Se você é alguém que usa algo como cowork,
00:01:52usa isso em um cenário de escritório e passa o dia alimentando-o
00:01:55com documentos. O raciocínio de contexto longo também é importante.
00:01:57Sempre insistimos neste canal sobre a degradação do contexto e a ideia de
00:02:02focarmos muito na gestão da sessão. Não acho que isso mude. Quer dizer,
00:02:07ir de 71 para 75 é ótimo.
00:02:09Acho que você não deve mudar o quão agressivamente limpa o contexto;
00:02:13atingiu 20% ou 25% da janela, você deve limpar, mas isso é uma melhoria.
00:02:17Adoramos ver isso. E este aqui também é interessante.
00:02:19Este benchmark de codificação relacionado ao multimodal. Eles estão codificando,
00:02:22mas isso também inclui situações onde inserem contextos com coisas
00:02:25como imagens. Não acho que seja surpresa,
00:02:28e creio que muito disso se deve à resolução.
00:02:30Agora, além do modelo em si, houve mais algumas atualizações.
00:02:32A maior delas é mais controle de esforço. Agora existe o nível X-high,
00:02:37provavelmente copiado da OpenAI, entre o high e o max.
00:02:40Além disso, o Claude Code agora vem por padrão no extra high.
00:02:44Acho que isso é uma resposta a muitas pessoas alegando que o Opus 4.6
00:02:48foi piorado. E então Boris Cherny, o criador do Opus, bem, não o criador do Opus,
00:02:52o criador do Claude Code, veio a público dizer que,
00:02:54na verdade, eles mudaram o nível padrão de raciocínio, o nível de esforço,
00:02:58para médio. Então o fato de lançarem o X-high,
00:03:01creio ser uma resposta a isso para torná-lo "melhor" e
00:03:05fazê-lo se esforçar mais, sem empurrar as pessoas para o máximo, pois aí
00:03:10o problema inverte e todos reclamam que o limite de uso esgotou. Lembre-se,
00:03:12se você quiser mudar isso,
00:03:13basta usar o comando /effort e definir o seu nível.
00:03:16A resolução mais alta também está disponível na API.
00:03:19E eles também lançaram o novo comando /ultra-review.
00:03:24Assim, ele recebe uma sessão de revisão dedicada. Além disso,
00:03:28eles estenderam o modo automático. E se você não conhece o modo automático,
00:03:31é basicamente uma alternativa para pular permissões perigosas. Agora,
00:03:34uma coisa que eles observam aqui é que o Opus 4.7 usará mais tokens
00:03:39do que o 4.6.
00:03:40Eles afirmam explicitamente que o Opus 4.7 usa um tokenizador atualizado e melhora
00:03:45o processamento de texto, mas que isso aumenta a quantidade de tokens na entrada,
00:03:50cerca de 1 a 1.35 vezes, dependendo do tipo de conteúdo.
00:03:54E, em segundo lugar, o Opus 4.7 pensa mais em níveis de esforço mais altos.
00:03:58Lembre-se disso, pois eles estão definindo o esforço padrão como extra high,
00:04:03sendo que antes estava no médio e o Opus 4.7 usa mais tokens.
00:04:07Portanto, se você esteve no médio o tempo todo,
00:04:09nunca mudou e já estava atingindo as taxas ou limites de uso no
00:04:134.6, tome cuidado. Entenda que você pode ter problemas de limite de uso.
00:04:18Se você já passa por isso,
00:04:19saiba que agora ele usará ainda mais tokens.
00:04:21O que também é interessante é que removeram o pensamento estendido.
00:04:25E se quiser ler mais e se aprofundar nessa migração,
00:04:28eles publicaram um material completo na documentação.
00:04:30No geral, parece ser uma atualização muito sólida.
00:04:32Estou animado para começar a testá-la eu mesmo.