Novo Modo Advisor do Claude: Melhores Resultados e MAIS BARATO

CChase AI
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00A Anthropic acaba de lançar a estratégia de consultor,
00:00:02que nos permite não apenas obter um melhor desempenho
00:00:05de nossos modelos Anthropic, mas fazê-lo a um custo menor.
00:00:09E a maneira como funciona é bem simples.
00:00:10Ela combina o Opus como um consultor
00:00:12com o Sonnet ou Haiku como executor.
00:00:15Assim, o Opus cria um plano
00:00:17e o modelo mais barato faz todo o trabalho.
00:00:19Isso é muito semelhante a quando usamos o Claude Code
00:00:22e fazemos o Opus rodar o modo de planejamento,
00:00:24mas passamos a execução real para o Sonnet.
00:00:27A diferença é que, com a estratégia de consultor,
00:00:30isso tudo é feito automaticamente via API.
00:00:32Portanto, isso é perfeito se você estiver trabalhando em algo
00:00:34fora do Claude Code.
00:00:35Se você tem qualquer tipo de aplicação web
00:00:38que usa APIs da Anthropic nos bastidores,
00:00:41isso é uma escolha óbvia.
00:00:42Você obterá resultados mais eficazes por um preço menor.
00:00:46E na verdade é um pouco mais sofisticado
00:00:48do que fazemos no Claude Code com o Opus planejando
00:00:50e depois o Sonnet executando.
00:00:52Porque esta relação consultor-executor
00:00:55está constantemente em fluxo e não é algo único
00:00:58onde o Opus aconselha uma vez e o Sonnet executa.
00:01:01Na verdade, há um vai e vem.
00:01:02Como diz aqui, quando o executor,
00:01:04ou seja, o Sonnet ou Haiku, encontra uma decisão
00:01:06que não consegue resolver razoavelmente,
00:01:08ele consulta o Opus para orientação como consultor.
00:01:11O Opus tem todo o contexto do que o Sonnet está fazendo.
00:01:15E por isso não é apenas como o modo de plano,
00:01:16onde ele dá uma estratégia e pronto.
00:01:19É como se o Sonnet tentasse executar,
00:01:22encontrasse um obstáculo e voltasse para o Opus.
00:01:24Portanto, há um vai e vem constante.
00:01:26Além disso, para manter os custos baixos,
00:01:28o Opus não faz chamadas de ferramentas em nenhum momento.
00:01:30As únicas chamadas de ferramentas são feitas por aquele LLM menor,
00:01:34neste caso, o Sonnet ou o Haiku.
00:01:35Mas o Opus retém todo o contexto compartilhado.
00:01:39E, como mencionei na introdução,
00:01:40isso nos dá melhores resultados por menos.
00:01:43Aqui, está comparando o Sonnet 3.5 com
00:01:46o consultor Opus versus o Sonnet 3.5 sozinho.
00:01:50O Sonnet pontuou mais no SWE-bench com 74,8 contra 72,1,
00:01:55e saiu mais barato.
00:01:56Custou pouco mais de 96 centavos por tarefa de agente
00:02:00contra quase 1 dólar e 9 centavos, o que é significativo.
00:02:03E você vê a mesma coisa acontecer em outros benchmarks
00:02:06como BrowseComp e TerminalBench.
00:02:0860,4 contra 58,1, e é mais barato.
00:02:12O fato de ser mais barato é ótimo porque, como todos sabemos,
00:02:14as APIs da Anthropic são incríveis,
00:02:16mas são muito caras.
00:02:19E muitas vezes você sente que quer algo
00:02:21entre o Sonnet e o Opus, mas isso simplesmente não existia.
00:02:24Então, isso nos dá um meio-termo
00:02:26em termos de desempenho entre Sonnet e Opus,
00:02:28mas com um custo menor do que o Sonnet normal.
00:02:31O que não há para amar?
00:02:32Como eu disse antes, isso é algo da API,
00:02:33não necessariamente do Claude Code.
00:02:35Para usar isso, você só terá que ajustar seu código
00:02:38e como ele faz essas chamadas de API.
00:02:41Especificamente, você deve definir o tipo como "advisor",
00:02:45bem como o máximo de usos.
00:02:47O máximo de usos sendo o número de vezes
00:02:48que ele voltará ao Opus
00:02:50para obter conselhos sobre um problema específico.
00:02:52Para resumir, esta é uma atualização incrível.
00:02:54Se você usa a API da Anthropic
00:02:56em projetos reais fora do ecossistema Claude Code,
00:03:00estamos obtendo melhores resultados por um preço menor.
00:03:03Porque, como você sabe, muitas vezes o Opus é exagero
00:03:06para a grande maioria das coisas,
00:03:08mas às vezes você quer algo um pouco melhor que o Sonnet.
00:03:10E aqui está, este é o meio-termo perfeito.

Key Takeaway

A estratégia de consultor da Anthropic permite que o modelo Opus guie modelos mais baratos como Sonnet ou Haiku via API, resultando em desempenho superior a custos até 12% menores em tarefas complexas.

Highlights

A Anthropic lançou a estratégia de consultor que combina o modelo Opus com o Sonnet ou Haiku via API para reduzir custos operacionais.

O modelo Sonnet 3.5 com consultor Opus atingiu 74,8 no benchmark SWE-bench, superando os 72,1 do Sonnet 3.5 isolado.

O custo por tarefa de agente caiu de 1,09 dólar para 96 centavos de dólar ao utilizar a arquitetura de consultor.

O modelo executor é o único responsável por realizar chamadas de ferramentas, enquanto o consultor fornece apenas orientação estratégica.

A configuração da API exige a definição do tipo como advisor e um limite de usos para controlar as consultas ao modelo superior.

Timeline

Arquitetura e funcionamento do modo consultor

  • O sistema utiliza o Opus como consultor estratégico e o Sonnet ou Haiku como executores de tarefas.
  • A integração ocorre de forma automática através da API da Anthropic para aplicações web.
  • Esta dinâmica difere do planejamento estático por permitir um fluxo contínuo de troca de informações.

Diferente de fluxos de trabalho manuais, a estratégia de consultor automatiza a interação entre modelos de diferentes capacidades. O Opus cria o plano inicial e supervisiona a execução, enquanto os modelos mais econômicos realizam o trabalho pesado. Essa estrutura é ideal para desenvolvedores que buscam a inteligência do Opus sem o custo integral de processamento para cada comando enviado.

Interação dinâmica e gestão de contexto

  • O executor consulta o Opus sempre que encontra uma decisão complexa ou um obstáculo na execução.
  • O Opus mantém o contexto compartilhado de toda a operação realizada pelo executor.
  • Chamadas de ferramentas são restritas aos modelos menores para otimizar a latência e o preço.

A relação entre os modelos não é linear, mas sim um processo de ida e volta baseado na necessidade técnica do executor. Quando o Sonnet encontra um problema que não consegue resolver sozinho, ele solicita orientação ao Opus, que já possui todo o histórico da tarefa. Esse método garante que a inteligência superior seja acionada apenas em pontos críticos, mantendo a eficiência financeira.

Benchmarks de desempenho e economia

  • Testes no SWE-bench, BrowseComp e TerminalBench confirmam resultados superiores com o uso do consultor.
  • A solução preenche a lacuna de desempenho entre o Sonnet e o Opus com preço reduzido.
  • O custo operacional por tarefa é menor do que utilizar o Sonnet 3.5 de forma convencional.

Dados comparativos mostram que a combinação de modelos supera o Sonnet 3.5 sozinho em precisão técnica. No TerminalBench, a pontuação subiu de 58,1 para 60,4 com a nova estratégia. O sistema oferece um meio-termo para empresas que precisam de resultados mais confiáveis que o Sonnet, mas consideram o Opus excessivamente caro para uso constante.

Implementação técnica via API

  • A ativação requer a configuração do parâmetro de tipo para advisor no código da aplicação.
  • O parâmetro de máximo de usos limita quantas vezes o executor pode recorrer ao consultor.
  • O ajuste fino da API permite equilibrar a precisão necessária com o orçamento disponível.

A implementação é voltada especificamente para o uso via API fora do ambiente Claude Code tradicional. Os desenvolvedores devem definir explicitamente o número de consultas permitidas ao Opus para evitar custos imprevistos. Essa flexibilidade permite que o sistema seja calibrado conforme a complexidade de cada projeto real, garantindo que o Opus atue apenas onde o Sonnet falharia.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video