Transcript
00:00:00A Anthropic acabou de lançar o Claude Opus 4.8 hoje.
00:00:02Então, neste vídeo, vou mostrar rapidamente
00:00:05o que mudou e ao que você precisa prestar atenção
00:00:08com este novo modelo.
00:00:09Vamos direto aos benchmarks.
00:00:12Temos o Opus 4.8 aqui em destaque
00:00:14e, comparado ao Opus 4.7, GPT 5.5 e Gemini 3.1 Pro,
00:00:20o Opus praticamente supera todos em todas as categorias
00:00:24exceto em codificação via terminal com agentes,
00:00:26que é o Terminal Bench 2.1.
00:00:28Lá, ele pontua 74,6,
00:00:30o que ainda é um grande salto em relação ao Opus 4.7,
00:00:34embora ainda fique atrás do GPT 5.5.
00:00:37Mas em todo o resto, no SWE Bench Pro,
00:00:40raciocínio multidisciplinar, uso de computador por agentes,
00:00:42trabalho de conhecimento, assim como análise financeira por agentes,
00:00:45ele se destaca do restante.
00:00:47Agora, todos nós encaramos benchmarks com certa cautela
00:00:49neste momento, mas é bom ver esses grandes avanços
00:00:53em relação ao que relataram com o Opus 4.7,
00:00:56há pouco tempo.
00:00:57Digo, foi apenas alguns meses atrás,
00:00:58o 4.7 foi lançado e já temos o 4.8
00:01:01e subimos de 64 para 69 na codificação com agentes.
00:01:04Tipo, isso é muito bom.
00:01:05Agora, uma das grandes melhorias do 4.8 em relação ao 4.7,
00:01:08de acordo com a Anthropic, é sua honestidade.
00:01:11E por honestidade, queremos dizer que este modelo de IA,
00:01:14quando você pede para fazer algo,
00:01:15se ele não consegue fazer ou se não fez,
00:01:18ele realmente vai te dizer.
00:01:19Isso é um grande negócio
00:01:20se você já usou esses modelos
00:01:22nos últimos anos,
00:01:22onde você pede para fazer algo como,
00:01:24ei, dê uma olhada nesta transcrição gigante
00:01:27e leia de verdade e me diga o que você fez.
00:01:29E então, quando você olha para a saída dele
00:01:31e você realmente o interroga,
00:01:32ele diz algo como,
00:01:33bem, na verdade eu só resumi.
00:01:35Eu não li tudo.
00:01:35Tipo, isso é um problema grave.
00:01:37E se você tem usado IA para qualquer tipo de trabalho real,
00:01:40você sabe o quão importante é criar todos esses testes,
00:01:42para ter certeza de que ele faz o que diz que está fazendo.
00:01:46Mas a Anthropic está dizendo,
00:01:47ei, isso pode não ser um problema tanto com o 4.8
00:01:50quanto com alguns dos modelos anteriores.
00:01:51Especificamente, eles dizem,
00:01:52de acordo com suas avaliações,
00:01:54que você pode dar uma olhada dentro do cartão do sistema deles,
00:01:56que tem cerca de 250 páginas,
00:01:59eles dizem que mostra que o Opus 4.8
00:02:01é cerca de quatro vezes menos propenso que seu antecessor
00:02:04a permitir que falhas no código que escreveu passem despercebidas.
00:02:07Então, novamente, ele será muito mais honesto
00:02:09sobre o que não está funcionando versus o que está,
00:02:12e ele não vai te manipular.
00:02:13Eles também avaliam que o 4.8 tem taxas de comportamento desalinhado
00:02:16como decepção ou cooperação com mau uso
00:02:18que são substancialmente menores que o Opus 4.7
00:02:21e são similares ao Mythos.
00:02:24E você pode ver esse comportamento desalinhado aqui
00:02:25onde o Opus 4.7 e especialmente o Sonnet 4.6
00:02:28teriam algumas dessas tendências,
00:02:31e nós realmente não vemos isso tanto com o Mythos
00:02:33ou Opus 4.8.
00:02:35Agora, além do modelo em si,
00:02:36existem algumas outras atualizações que a Anthropic lançou.
00:02:39A primeira é fluxos de trabalho dinâmicos.
00:02:41Agora, fluxos de trabalho dinâmicos são similares a metas.
00:02:43A ideia é que agora podemos colocar o código do Claude
00:02:45em uma tarefa muito complexa,
00:02:47e ele vai trabalhar nisso ao longo do tempo,
00:02:50gerando dezenas a centenas de agentes paralelos
00:02:52em uma única sessão
00:02:53para garantir que o trabalho seja realmente concluído.
00:02:56Como você bem sabe, existem muitos problemas
00:02:57que, mesmo se você fizer algo em modo de planejamento
00:02:59e quebrá-lo em um monte de tarefas,
00:03:00são apenas demais para o código do Claude lidar de uma vez.
00:03:03Esses fluxos de trabalho dinâmicos são a resposta para esse problema,
00:03:05e eu farei uma análise profunda
00:03:06sobre fluxos de trabalho dinâmicos muito em breve.
00:03:09Mas se você quiser tentar hoje,
00:03:11existem duas opções reais.
00:03:12A primeira é usar linguagem simples
00:03:13e dizer, ei, Claude, crie um fluxo de trabalho dinâmico,
00:03:15ou ativar a nova configuração específica do Claude Code
00:03:18chamada UltraCode.
00:03:20Outra grande mudança para o Claude.ai,
00:03:22o chatbot real e cowork,
00:03:24isso não é realmente o caso com código,
00:03:26é que eles agora têm mais controles
00:03:27quando se trata de selecionar quanto esforço
00:03:30o Claude coloca na resposta, certo?
00:03:31Tivemos isso com o Claude Code por um tempo
00:03:33com níveis como alto versus extra alto versus máximo.
00:03:35Bem, isso agora está dentro de coisas
00:03:36como o Claude.ai e o cowork.
00:03:38E por último, se você é alguém
00:03:39que tem usado a API de Mensagens,
00:03:41ela agora aceita entradas de sistema dentro da matriz de mensagens.
00:03:44Isso é muito legal
00:03:45porque você pode atualizar as instruções do Claude durante a tarefa.
00:03:47Isso é um pouco similar ao Codex
00:03:50e ao recurso de direcionamento
00:03:51versus o recurso de fila
00:03:52quando você dá um prompt adicional.
00:03:54Vale notar, o Opus também assume o nível alto como padrão,
00:03:57não extra alto.
00:03:59Lembre-se do Opus 4.7
00:04:00onde eles nos mostraram aquele gráfico,
00:04:01eles estavam nos dizendo,
00:04:03ei, extra alto é meio que para onde você quer ir.
00:04:05Então, apenas entenda que o 4.8 está no alto
00:04:07e você ainda tem dois níveis acima disso que pode ir
00:04:09se quiser obter um pouco mais de esforço
00:04:11deste novo modelo.
00:04:12E caso você esteja se perguntando sobre o uso de tokens,
00:04:14eles aumentaram os limites de taxa no Claude Code
00:04:16para acomodar o maior uso de tokens
00:04:18dos níveis de esforço mais altos,
00:04:20o que é muito bom.
00:04:21Então essa é a sua visão geral
00:04:22do novo Claude Opus 4.8.
00:04:24Lembre-se, ele tem exatamente o mesmo preço
00:04:25do Opus 4.7,
00:04:26então você não está pagando nada extra
00:04:28por esse novo poder também.
00:04:29Como sempre, deixe-me saber o que você achou.
00:04:31Certifique-se de conferir o Chase AI Plus
00:04:33no comentário fixado
00:04:34se você quiser colocar as mãos
00:04:35no meu Masterclass de Claude Code
00:04:36e nos vemos por aí.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video