Nouveau mode Advisor de Claude : meilleurs résultats et MOINS CHER

CChase AI
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Anthropic vient de publier sa stratégie « advisor »,
00:00:02qui nous permet non seulement d'obtenir de meilleures performances
00:00:05de nos modèles Anthropic, mais à un coût inférieur.
00:00:09Et la manière dont cela fonctionne est assez simple.
00:00:10Elle associe Opus en tant que conseiller
00:00:12avec Sonnet ou Haiku en tant qu'exécuteur.
00:00:15Ainsi, Opus conçoit un plan
00:00:17et le modèle le moins cher fait tout le travail.
00:00:19C'est donc très similaire à l'utilisation de Claude Code
00:00:22où Opus exécute le mode planification,
00:00:24mais laisse l'exécution réelle à Sonnet.
00:00:27La différence avec la stratégie « advisor »,
00:00:30c'est que tout se fait automatiquement via une API.
00:00:32C'est donc parfait si vous travaillez sur des projets
00:00:34en dehors de Claude Code.
00:00:35Si vous avez n'importe quel type d'application web
00:00:38utilisant les API d'Anthropic en arrière-plan,
00:00:41c'est une évidence.
00:00:42Vous obtiendrez des résultats plus efficaces pour moins cher.
00:00:46Et c'est en fait un peu plus sophistiqué
00:00:48que ce que nous faisons dans Claude Code avec Opus qui planifie
00:00:50et Sonnet qui exécute.
00:00:52Car cette relation conseiller-exécuteur
00:00:55est constamment en mouvement et n'est pas ponctuelle,
00:00:58où Opus conseille une fois puis Sonnet exécute.
00:01:01Il y a en réalité des va-et-vient.
00:01:02Comme indiqué ici, quand l'exécuteur,
00:01:04donc Sonnet ou Haiku, rencontre une décision
00:01:06qu'il ne peut raisonnablement pas résoudre,
00:01:08il consulte Opus pour obtenir des conseils.
00:01:11Opus a tout le contexte de ce que fait Sonnet.
00:01:15Ce n'est donc pas seulement un mode planification
00:01:16où il donne une stratégie puis s'en va.
00:01:19C'est comme s'il essayait d'exécuter la tâche,
00:01:22qu'il butait sur un obstacle, puis retournait voir Opus.
00:01:24Il y a donc un va-et-vient constant.
00:01:26De plus, pour maintenir les coûts bas,
00:01:28Opus n'effectue aucun appel d'outil à aucun moment.
00:01:30Les seuls appels d'outils sont faits par le petit LLM,
00:01:34dans ce cas, Sonnet ou Haiku.
00:01:35Mais Opus conserve tout le contexte partagé.
00:01:39Et comme je l'ai mentionné au début,
00:01:40cela nous donne de meilleurs résultats pour moins cher.
00:01:43Ici, on compare Sonnet 3.5 avec
00:01:46Opus comme conseiller versus Sonnet 3.5 seul.
00:01:50Sonnet a mieux réussi sur SWE-bench avec 74,8 contre 72,1,
00:01:55et cela a coûté moins cher.
00:01:56C'était juste au-dessus de 96 cents par tâche agentique
00:02:00contre presque 1,09 dollar, ce qui est significatif.
00:02:03On voit la même chose sur d'autres benchmarks
00:02:06comme BrowseComp et TerminalBench.
00:02:08Soit 60,4 contre 58,1, et c'est moins cher.
00:02:12Le fait que ce soit moins cher est génial car,
00:02:14comme on le sait, les API d'Anthropic sont géniales,
00:02:16mais elles sont tellement chères.
00:02:19Souvent, on a l'impression de vouloir quelque chose
00:02:21entre Sonnet et Opus, mais ça n'existe pas.
00:02:24Ceci nous offre donc un juste milieu
00:02:26en termes de performance entre Sonnet et Opus,
00:02:28mais pour un coût inférieur au Sonnet classique.
00:02:31Alors, qu'est-ce qu'on ne pourrait pas aimer ?
00:02:32Comme dit plus tôt, c'est une fonctionnalité d'API,
00:02:33pas forcément réservée à Claude Code.
00:02:35Pour l'utiliser, vous devrez simplement ajuster votre code
00:02:38et la manière de faire ces appels d'API.
00:02:41Précisément, vous devez définir le type sur « advisor »,
00:02:45ainsi que le nombre maximum d'utilisations.
00:02:47Le nombre maximum d'utilisations étant le nombre de fois
00:02:48qu'il retournera consulter Opus
00:02:50pour obtenir des conseils sur un problème donné.
00:02:52En résumé, c'est une mise à jour incroyable.
00:02:54Si vous utilisez l'API d'Anthropic
00:02:56dans des projets hors de l'écosystème Claude Code,
00:03:00on obtient de meilleurs résultats pour moins cher.
00:03:03Parce que, comme vous le savez, Opus est souvent excessif
00:03:06pour la grande majorité des tâches,
00:03:08mais parfois vous voulez quelque chose de mieux que Sonnet.
00:03:10Et voilà, c'est le compromis parfait.

Key Takeaway

Le mode Advisor d'Anthropic surpasse les performances de Sonnet 3.5 de 2,7 points sur SWE-bench tout en réduisant le coût par tâche de 12 % grâce à une collaboration dynamique entre modèles via l'API.

Highlights

La stratégie Advisor associe le modèle Opus comme conseiller à Sonnet ou Haiku comme exécuteurs pour réduire les coûts d'exploitation.

Le modèle exécuteur consulte Opus uniquement lorsqu'il rencontre un obstacle décisionnel complexe au lieu de suivre un plan statique.

L'utilisation d'Opus Advisor avec Sonnet 3.5 atteint un score de 74,8 sur le benchmark SWE-bench contre 72,1 pour Sonnet seul.

Le coût par tâche agentique chute à 96 cents avec le mode Advisor alors qu'il s'élève à 1,09 dollar avec Sonnet standard.

L'intégration nécessite la définition du paramètre « type » sur « advisor » et d'une limite « max_uses » pour les consultations du conseiller via l'API.

Opus ne réalise aucun appel d'outil direct afin de maintenir une structure de tarification basse durant tout le processus.

Timeline

Structure de la stratégie Advisor

  • Le système utilise Opus pour la planification et Sonnet ou Haiku pour l'exécution technique.
  • Cette automatisation s'opère directement via l'API pour les applications web externes à l'écosystème Claude Code.
  • La méthode garantit une efficacité supérieure pour un investissement financier moindre.

Cette architecture logicielle repose sur une division des tâches entre un modèle à haute capacité de raisonnement et des modèles plus rapides. Contrairement aux méthodes de planification simples, cette approche est conçue pour les développeurs intégrant l'IA dans leurs propres infrastructures applicatives. Le processus remplace le besoin de choisir entre la puissance coûteuse d'Opus et l'économie de Sonnet.

Interaction dynamique entre conseiller et exécuteur

  • L'exécuteur interroge Opus en temps réel lorsqu'une décision dépasse ses capacités de résolution.
  • Opus conserve l'intégralité du contexte partagé sans exécuter lui-même d'appels d'outils.
  • Le flux de travail consiste en un va-et-vient constant plutôt qu'en une instruction initiale unique.

La relation entre les modèles est fluide et s'adapte aux difficultés rencontrées pendant l'exécution de la tâche. Si Sonnet ou Haiku bute sur un obstacle, il retourne vers Opus pour obtenir une orientation stratégique précise. Cette restriction d'Opus aux conseils textuels évite les frais liés aux capacités de manipulation d'outils du modèle le plus onéreux.

Comparaison des performances et des coûts

  • Le mode Advisor obtient des résultats supérieurs sur les benchmarks SWE-bench, BrowseComp et TerminalBench.
  • Le coût de 0,96 dollar par tâche représente une économie significative par rapport au dollar et 9 cents de la configuration classique.
  • Cette solution comble l'écart de performance existant entre les modèles Sonnet et Opus.

Les données chiffrées confirment que l'ajout d'un conseiller améliore la précision des agents IA tout en allégeant la facture mensuelle d'API. Le score de 60,4 sur BrowseComp illustre cette progression face aux 58,1 de la version de base. Ce compromis technique offre une alternative aux utilisateurs qui trouvaient Opus trop coûteux pour des tâches répétitives mais Sonnet insuffisant.

Implémentation technique via l'API

  • La configuration logicielle impose de spécifier le mode advisor dans les appels d'API.
  • Le paramètre de nombre maximum d'utilisations limite la fréquence des consultations d'Opus pour contrôler le budget.
  • Cette mise à jour cible principalement les flux de travail complexes où Opus est jugé excessif pour l'intégralité du code.

Le passage à ce mode nécessite une modification mineure du code source pour déclarer les rôles de chaque modèle. Le développeur garde le contrôle total sur les dépenses en définissant combien de fois l'exécuteur peut solliciter l'aide du conseiller. C'est l'outil idéal pour optimiser les tâches agentiques qui demandent un discernement ponctuel de haut niveau.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video