Novo Modo Advisor do Claude: Melhores Resultados e MAIS BARATO

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareManagementInternet Technology

Transcript

00:00:00A Anthropic acaba de lançar a estratégia de consultor,

00:00:02que nos permite não apenas obter um melhor desempenho

00:00:05de nossos modelos Anthropic, mas fazê-lo a um custo menor.

00:00:09E a maneira como funciona é bem simples.

00:00:10Ela combina o Opus como um consultor

00:00:12com o Sonnet ou Haiku como executor.

00:00:15Assim, o Opus cria um plano

00:00:17e o modelo mais barato faz todo o trabalho.

00:00:19Isso é muito semelhante a quando usamos o Claude Code

00:00:22e fazemos o Opus rodar o modo de planejamento,

00:00:24mas passamos a execução real para o Sonnet.

00:00:27A diferença é que, com a estratégia de consultor,

00:00:30isso tudo é feito automaticamente via API.

00:00:32Portanto, isso é perfeito se você estiver trabalhando em algo

00:00:34fora do Claude Code.

00:00:35Se você tem qualquer tipo de aplicação web

00:00:38que usa APIs da Anthropic nos bastidores,

00:00:41isso é uma escolha óbvia.

00:00:42Você obterá resultados mais eficazes por um preço menor.

00:00:46E na verdade é um pouco mais sofisticado

00:00:48do que fazemos no Claude Code com o Opus planejando

00:00:50e depois o Sonnet executando.

00:00:52Porque esta relação consultor-executor

00:00:55está constantemente em fluxo e não é algo único

00:00:58onde o Opus aconselha uma vez e o Sonnet executa.

00:01:01Na verdade, há um vai e vem.

00:01:02Como diz aqui, quando o executor,

00:01:04ou seja, o Sonnet ou Haiku, encontra uma decisão

00:01:06que não consegue resolver razoavelmente,

00:01:08ele consulta o Opus para orientação como consultor.

00:01:11O Opus tem todo o contexto do que o Sonnet está fazendo.

00:01:15E por isso não é apenas como o modo de plano,

00:01:16onde ele dá uma estratégia e pronto.

00:01:19É como se o Sonnet tentasse executar,

00:01:22encontrasse um obstáculo e voltasse para o Opus.

00:01:24Portanto, há um vai e vem constante.

00:01:26Além disso, para manter os custos baixos,

00:01:28o Opus não faz chamadas de ferramentas em nenhum momento.

00:01:30As únicas chamadas de ferramentas são feitas por aquele LLM menor,

00:01:34neste caso, o Sonnet ou o Haiku.

00:01:35Mas o Opus retém todo o contexto compartilhado.

00:01:39E, como mencionei na introdução,

00:01:40isso nos dá melhores resultados por menos.

00:01:43Aqui, está comparando o Sonnet 3.5 com

00:01:46o consultor Opus versus o Sonnet 3.5 sozinho.

00:01:50O Sonnet pontuou mais no SWE-bench com 74,8 contra 72,1,

00:01:55e saiu mais barato.

00:01:56Custou pouco mais de 96 centavos por tarefa de agente

00:02:00contra quase 1 dólar e 9 centavos, o que é significativo.

00:02:03E você vê a mesma coisa acontecer em outros benchmarks

00:02:06como BrowseComp e TerminalBench.

00:02:0860,4 contra 58,1, e é mais barato.

00:02:12O fato de ser mais barato é ótimo porque, como todos sabemos,

00:02:14as APIs da Anthropic são incríveis,

00:02:16mas são muito caras.

00:02:19E muitas vezes você sente que quer algo

00:02:21entre o Sonnet e o Opus, mas isso simplesmente não existia.

00:02:24Então, isso nos dá um meio-termo

00:02:26em termos de desempenho entre Sonnet e Opus,

00:02:28mas com um custo menor do que o Sonnet normal.

00:02:31O que não há para amar?

00:02:32Como eu disse antes, isso é algo da API,

00:02:33não necessariamente do Claude Code.

00:02:35Para usar isso, você só terá que ajustar seu código

00:02:38e como ele faz essas chamadas de API.

00:02:41Especificamente, você deve definir o tipo como "advisor",

00:02:45bem como o máximo de usos.

00:02:47O máximo de usos sendo o número de vezes

00:02:48que ele voltará ao Opus

00:02:50para obter conselhos sobre um problema específico.

00:02:52Para resumir, esta é uma atualização incrível.

00:02:54Se você usa a API da Anthropic

00:02:56em projetos reais fora do ecossistema Claude Code,

00:03:00estamos obtendo melhores resultados por um preço menor.

00:03:03Porque, como você sabe, muitas vezes o Opus é exagero

00:03:06para a grande maioria das coisas,

00:03:08mas às vezes você quer algo um pouco melhor que o Sonnet.

00:03:10E aqui está, este é o meio-termo perfeito.

Key Takeaway

A estratégia de consultor da Anthropic permite que o modelo Opus guie modelos mais baratos como Sonnet ou Haiku via API, resultando em desempenho superior a custos até 12% menores em tarefas complexas.

Highlights

A Anthropic lançou a estratégia de consultor que combina o modelo Opus com o Sonnet ou Haiku via API para reduzir custos operacionais.

O modelo Sonnet 3.5 com consultor Opus atingiu 74,8 no benchmark SWE-bench, superando os 72,1 do Sonnet 3.5 isolado.

O custo por tarefa de agente caiu de 1,09 dólar para 96 centavos de dólar ao utilizar a arquitetura de consultor.

O modelo executor é o único responsável por realizar chamadas de ferramentas, enquanto o consultor fornece apenas orientação estratégica.

A configuração da API exige a definição do tipo como advisor e um limite de usos para controlar as consultas ao modelo superior.

Timeline

Arquitetura e funcionamento do modo consultor

O sistema utiliza o Opus como consultor estratégico e o Sonnet ou Haiku como executores de tarefas.
A integração ocorre de forma automática através da API da Anthropic para aplicações web.
Esta dinâmica difere do planejamento estático por permitir um fluxo contínuo de troca de informações.

Diferente de fluxos de trabalho manuais, a estratégia de consultor automatiza a interação entre modelos de diferentes capacidades. O Opus cria o plano inicial e supervisiona a execução, enquanto os modelos mais econômicos realizam o trabalho pesado. Essa estrutura é ideal para desenvolvedores que buscam a inteligência do Opus sem o custo integral de processamento para cada comando enviado.

Interação dinâmica e gestão de contexto

O executor consulta o Opus sempre que encontra uma decisão complexa ou um obstáculo na execução.
O Opus mantém o contexto compartilhado de toda a operação realizada pelo executor.
Chamadas de ferramentas são restritas aos modelos menores para otimizar a latência e o preço.

A relação entre os modelos não é linear, mas sim um processo de ida e volta baseado na necessidade técnica do executor. Quando o Sonnet encontra um problema que não consegue resolver sozinho, ele solicita orientação ao Opus, que já possui todo o histórico da tarefa. Esse método garante que a inteligência superior seja acionada apenas em pontos críticos, mantendo a eficiência financeira.

Benchmarks de desempenho e economia

Testes no SWE-bench, BrowseComp e TerminalBench confirmam resultados superiores com o uso do consultor.
A solução preenche a lacuna de desempenho entre o Sonnet e o Opus com preço reduzido.
O custo operacional por tarefa é menor do que utilizar o Sonnet 3.5 de forma convencional.

Dados comparativos mostram que a combinação de modelos supera o Sonnet 3.5 sozinho em precisão técnica. No TerminalBench, a pontuação subiu de 58,1 para 60,4 com a nova estratégia. O sistema oferece um meio-termo para empresas que precisam de resultados mais confiáveis que o Sonnet, mas consideram o Opus excessivamente caro para uso constante.

Implementação técnica via API

A ativação requer a configuração do parâmetro de tipo para advisor no código da aplicação.
O parâmetro de máximo de usos limita quantas vezes o executor pode recorrer ao consultor.
O ajuste fino da API permite equilibrar a precisão necessária com o orçamento disponível.

A implementação é voltada especificamente para o uso via API fora do ambiente Claude Code tradicional. Os desenvolvedores devem definir explicitamente o número de consultas permitidas ao Opus para evitar custos imprevistos. Essa flexibilidade permite que o sistema seja calibrado conforme a complexidade de cada projeto real, garantindo que o Opus atue apenas onde o Sonnet falharia.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video