Anthropic lança a BOMBA Opus 4.8

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00A Anthropic acabou de lançar o Claude Opus 4.8 hoje.

00:00:02Então, neste vídeo, vou mostrar rapidamente

00:00:05o que mudou e ao que você precisa prestar atenção

00:00:08com este novo modelo.

00:00:09Vamos direto aos benchmarks.

00:00:12Temos o Opus 4.8 aqui em destaque

00:00:14e, comparado ao Opus 4.7, GPT 5.5 e Gemini 3.1 Pro,

00:00:20o Opus praticamente supera todos em todas as categorias

00:00:24exceto em codificação via terminal com agentes,

00:00:26que é o Terminal Bench 2.1.

00:00:28Lá, ele pontua 74,6,

00:00:30o que ainda é um grande salto em relação ao Opus 4.7,

00:00:34embora ainda fique atrás do GPT 5.5.

00:00:37Mas em todo o resto, no SWE Bench Pro,

00:00:40raciocínio multidisciplinar, uso de computador por agentes,

00:00:42trabalho de conhecimento, assim como análise financeira por agentes,

00:00:45ele se destaca do restante.

00:00:47Agora, todos nós encaramos benchmarks com certa cautela

00:00:49neste momento, mas é bom ver esses grandes avanços

00:00:53em relação ao que relataram com o Opus 4.7,

00:00:56há pouco tempo.

00:00:57Digo, foi apenas alguns meses atrás,

00:00:58o 4.7 foi lançado e já temos o 4.8

00:01:01e subimos de 64 para 69 na codificação com agentes.

00:01:04Tipo, isso é muito bom.

00:01:05Agora, uma das grandes melhorias do 4.8 em relação ao 4.7,

00:01:08de acordo com a Anthropic, é sua honestidade.

00:01:11E por honestidade, queremos dizer que este modelo de IA,

00:01:14quando você pede para fazer algo,

00:01:15se ele não consegue fazer ou se não fez,

00:01:18ele realmente vai te dizer.

00:01:19Isso é um grande negócio

00:01:20se você já usou esses modelos

00:01:22nos últimos anos,

00:01:22onde você pede para fazer algo como,

00:01:24ei, dê uma olhada nesta transcrição gigante

00:01:27e leia de verdade e me diga o que você fez.

00:01:29E então, quando você olha para a saída dele

00:01:31e você realmente o interroga,

00:01:32ele diz algo como,

00:01:33bem, na verdade eu só resumi.

00:01:35Eu não li tudo.

00:01:35Tipo, isso é um problema grave.

00:01:37E se você tem usado IA para qualquer tipo de trabalho real,

00:01:40você sabe o quão importante é criar todos esses testes,

00:01:42para ter certeza de que ele faz o que diz que está fazendo.

00:01:46Mas a Anthropic está dizendo,

00:01:47ei, isso pode não ser um problema tanto com o 4.8

00:01:50quanto com alguns dos modelos anteriores.

00:01:51Especificamente, eles dizem,

00:01:52de acordo com suas avaliações,

00:01:54que você pode dar uma olhada dentro do cartão do sistema deles,

00:01:56que tem cerca de 250 páginas,

00:01:59eles dizem que mostra que o Opus 4.8

00:02:01é cerca de quatro vezes menos propenso que seu antecessor

00:02:04a permitir que falhas no código que escreveu passem despercebidas.

00:02:07Então, novamente, ele será muito mais honesto

00:02:09sobre o que não está funcionando versus o que está,

00:02:12e ele não vai te manipular.

00:02:13Eles também avaliam que o 4.8 tem taxas de comportamento desalinhado

00:02:16como decepção ou cooperação com mau uso

00:02:18que são substancialmente menores que o Opus 4.7

00:02:21e são similares ao Mythos.

00:02:24E você pode ver esse comportamento desalinhado aqui

00:02:25onde o Opus 4.7 e especialmente o Sonnet 4.6

00:02:28teriam algumas dessas tendências,

00:02:31e nós realmente não vemos isso tanto com o Mythos

00:02:33ou Opus 4.8.

00:02:35Agora, além do modelo em si,

00:02:36existem algumas outras atualizações que a Anthropic lançou.

00:02:39A primeira é fluxos de trabalho dinâmicos.

00:02:41Agora, fluxos de trabalho dinâmicos são similares a metas.

00:02:43A ideia é que agora podemos colocar o código do Claude

00:02:45em uma tarefa muito complexa,

00:02:47e ele vai trabalhar nisso ao longo do tempo,

00:02:50gerando dezenas a centenas de agentes paralelos

00:02:52em uma única sessão

00:02:53para garantir que o trabalho seja realmente concluído.

00:02:56Como você bem sabe, existem muitos problemas

00:02:57que, mesmo se você fizer algo em modo de planejamento

00:02:59e quebrá-lo em um monte de tarefas,

00:03:00são apenas demais para o código do Claude lidar de uma vez.

00:03:03Esses fluxos de trabalho dinâmicos são a resposta para esse problema,

00:03:05e eu farei uma análise profunda

00:03:06sobre fluxos de trabalho dinâmicos muito em breve.

00:03:09Mas se você quiser tentar hoje,

00:03:11existem duas opções reais.

00:03:12A primeira é usar linguagem simples

00:03:13e dizer, ei, Claude, crie um fluxo de trabalho dinâmico,

00:03:15ou ativar a nova configuração específica do Claude Code

00:03:18chamada UltraCode.

00:03:20Outra grande mudança para o Claude.ai,

00:03:22o chatbot real e cowork,

00:03:24isso não é realmente o caso com código,

00:03:26é que eles agora têm mais controles

00:03:27quando se trata de selecionar quanto esforço

00:03:30o Claude coloca na resposta, certo?

00:03:31Tivemos isso com o Claude Code por um tempo

00:03:33com níveis como alto versus extra alto versus máximo.

00:03:35Bem, isso agora está dentro de coisas

00:03:36como o Claude.ai e o cowork.

00:03:38E por último, se você é alguém

00:03:39que tem usado a API de Mensagens,

00:03:41ela agora aceita entradas de sistema dentro da matriz de mensagens.

00:03:44Isso é muito legal

00:03:45porque você pode atualizar as instruções do Claude durante a tarefa.

00:03:47Isso é um pouco similar ao Codex

00:03:50e ao recurso de direcionamento

00:03:51versus o recurso de fila

00:03:52quando você dá um prompt adicional.

00:03:54Vale notar, o Opus também assume o nível alto como padrão,

00:03:57não extra alto.

00:03:59Lembre-se do Opus 4.7

00:04:00onde eles nos mostraram aquele gráfico,

00:04:01eles estavam nos dizendo,

00:04:03ei, extra alto é meio que para onde você quer ir.

00:04:05Então, apenas entenda que o 4.8 está no alto

00:04:07e você ainda tem dois níveis acima disso que pode ir

00:04:09se quiser obter um pouco mais de esforço

00:04:11deste novo modelo.

00:04:12E caso você esteja se perguntando sobre o uso de tokens,

00:04:14eles aumentaram os limites de taxa no Claude Code

00:04:16para acomodar o maior uso de tokens

00:04:18dos níveis de esforço mais altos,

00:04:20o que é muito bom.

00:04:21Então essa é a sua visão geral

00:04:22do novo Claude Opus 4.8.

00:04:24Lembre-se, ele tem exatamente o mesmo preço

00:04:25do Opus 4.7,

00:04:26então você não está pagando nada extra

00:04:28por esse novo poder também.

00:04:29Como sempre, deixe-me saber o que você achou.

00:04:31Certifique-se de conferir o Chase AI Plus

00:04:33no comentário fixado

00:04:34se você quiser colocar as mãos

00:04:35no meu Masterclass de Claude Code

00:04:36e nos vemos por aí.

Key Takeaway

O lançamento do Claude Opus 4.8 traz um modelo mais honesto, com taxas de comportamento desalinhado reduzidas e a introdução de fluxos de trabalho dinâmicos, mantendo o custo operacional da versão anterior.

Highlights

O Claude Opus 4.8 supera modelos anteriores e concorrentes em quase todos os benchmarks, exceto em codificação via terminal com agentes.
A pontuação na codificação com agentes subiu de 64 para 69 pontos em poucos meses.
O modelo apresenta quatro vezes menos propensão a deixar falhas de código passarem despercebidas em comparação ao seu antecessor.
Fluxos de trabalho dinâmicos permitem a execução de dezenas a centenas de agentes paralelos para concluir tarefas complexas.
Novos controles de esforço (alto, extra alto, máximo) foram integrados ao Claude.ai e ao cowork, sendo 'alto' o padrão.
A API de Mensagens agora aceita entradas de sistema na matriz de mensagens, permitindo atualizar instruções durante a execução de uma tarefa.
O Opus 4.8 mantém exatamente o mesmo preço do Opus 4.7.

Timeline

Desempenho e Benchmarks

O Opus 4.8 supera o Opus 4.7, GPT 5.5 e Gemini 3.1 Pro na maioria das categorias.
A categoria de codificação via terminal com agentes registrou pontuação de 74,6.
O progresso na codificação com agentes avançou de 64 para 69 pontos desde o lançamento do 4.7.

O novo modelo demonstra superioridade em áreas como raciocínio multidisciplinar, SWE Bench Pro e análise financeira. Apesar de pontuar menos que o GPT 5.5 na codificação via terminal, a evolução em relação ao antecessor é considerada significativa em curto intervalo de tempo.

Melhorias em Honestidade e Comportamento

O modelo apresenta quatro vezes menos probabilidade de ignorar erros no código gerado.
Taxas de comportamento desalinhado, como decepção, são substancialmente menores em comparação ao Opus 4.7.
O comportamento do 4.8 é similar ao do modelo Mythos em testes de alinhamento.

A Anthropic focou na honestidade do modelo, garantindo que ele comunique falhas ou incapacidade de realizar tarefas específicas, evitando manipulação ou falsos resumos. Avaliações internas baseadas em um cartão de sistema de 250 páginas sustentam essas melhorias na integridade do código e redução de tendências de cooperação com mau uso.

Novas Funcionalidades e Controles

Fluxos de trabalho dinâmicos permitem que o modelo gerencie tarefas complexas criando múltiplos agentes paralelos.
Controles de nível de esforço (alto, extra alto, máximo) estão agora disponíveis no Claude.ai e cowork.
A API de Mensagens passou a permitir a inclusão de entradas de sistema para atualização de instruções em tempo real.
Os limites de taxa no Claude Code foram aumentados para suportar o uso intensivo de tokens em níveis de esforço mais altos.

Os fluxos de trabalho dinâmicos resolvem problemas complexos que superam a capacidade de resposta única do modelo, permitindo a orquestração de diversas instâncias. Usuários podem ativar essas capacidades via linguagem simples ou configurando o modo UltraCode. Além disso, a flexibilidade na API e a manutenção do preço anterior ampliam as possibilidades de uso profissional sem custos adicionais.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video