Claude 全新 Advisor 模式:效果更佳且价格更低

CChase AI
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Anthropic 刚刚发布了顾问策略 (Advisor Strategy),
00:00:02这让我们不仅能获得更好的性能
00:00:05来自我们的 Anthropic 模型, 还能降低成本。
00:00:09它的工作原理非常简单。
00:00:10它将 Opus 作为顾问 (Advisor)
00:00:12与 Sonnet 或 Haiku 作为执行者 (Executor) 配对。
00:00:15所以 Opus 负责制定计划,
00:00:17而较便宜的模型负责完成所有工作。
00:00:19这与我们在使用 Claude Code
00:00:22并让 Opus 运行计划模式时非常相似,
00:00:24但实际的执行过程会转交给 Sonnet。
00:00:27不同之处在于, 通过顾问策略,
00:00:30这一切都是通过 API 自动完成的。
00:00:32所以如果你在 Claude Code 之外
00:00:34进行开发, 这将非常完美。
00:00:35如果你有任何类型的 Web 应用程序
00:00:38在底层使用 Anthropic API,
00:00:41这绝对是不二之选。
00:00:42你会以更低的成本获得更有效的输出。
00:00:46而且它实际上比我们在 Claude Code 中
00:00:48让 Opus 规划、Sonnet 执行
00:00:50的操作要更复杂一些。
00:00:52因为这种顾问与执行者的关系
00:00:55是不断变化的, 而不是一次性的
00:00:58即 Opus 建议一次, 然后 Sonnet 执行。
00:01:01它实际上是来回交互的。
00:01:02正如这里所述, 当执行者
00:01:04(即 Sonnet 或 Haiku) 遇到一个
00:01:06它无法合理解决的决策时,
00:01:08它会咨询 Opus 作为顾问提供指导。
00:01:11Opus 拥有 Sonnet 正在执行任务的完整上下文。
00:01:15所以这不仅仅像计划模式
00:01:16给它一个策略然后就开始跑。
00:01:19就像即使你这么做了, Sonnet 尝试去执行,
00:01:22如果遇到障碍, 它会再次返回向 Opus 咨询。
00:01:24所以这是一个持续的反复过程。
00:01:26此外, 为了保持低成本,
00:01:28Opus 在任何时候都不会进行工具调用。
00:01:30所有的工具调用都由较小的 LLM 完成,
00:01:34在这种情况下就是 Sonnet 或 Haiku。
00:01:35但 Opus 确实保留了完整的共享上下文。
00:01:39就像我在开头提到的,
00:01:40这让我们能花更少的钱获得更好的结果。
00:01:43在这里, 它对比了开启 Opus 顾问的
00:01:46Sonnet 3.5 (High) 与单独的 Sonnet 3.5 (High)。
00:01:50Sonnet 在 SWE-bench 上的得分更高, 为 74.8 对 72.1,
00:01:55而且成本更低。
00:01:56每个代理任务的费用略高于 96 美分,
00:02:00而之前几乎是 1.09 美元, 这个差距很显著。
00:02:03你在其他基准测试中也能看到同样的结果,
00:02:06比如 BrowseComp 和 TerminalBench。
00:02:08得分是 60.4 对 58.1, 而且更便宜。
00:02:12价格更便宜这一点很棒, 因为众所周知,
00:02:14Anthropic 的 API 虽然很棒,
00:02:16但真的太贵了。
00:02:19很多时候你觉得需要一种
00:02:21介于 Sonnet 和 Opus 之间的模型, 但那并不存在。
00:02:24所以这给了我们一个中间地带,
00:02:26性能处于 Sonnet 和 Opus 之间,
00:02:28但成本甚至比普通的 Sonnet 还要便宜。
00:02:31所以有什么理由不喜欢它呢?
00:02:32正如我之前所说, 这是一个 API 层面的功能,
00:02:33不一定局限于 Claude Code。
00:02:35要使用它, 你只需要调整你的代码
00:02:38以及它是如何发起 API 调用。
00:02:41具体来说, 你需要将类型 (Type) 指定为 "advisor",
00:02:45并设置最大使用次数 (Max Uses)。
00:02:47这里的最大使用次数是指
00:02:48它针对特定问题返回向 Opus
00:02:50寻求建议的次数。
00:02:52总而言之, 这是一个了不起的升级。
00:02:54如果你是在 Claude Code 生态系统之外的
00:02:56实际项目中使用 Anthropic API 的人,
00:03:00我们正在以更低的价格获得更好的结果。
00:03:03因为如你所知, 绝大多数情况下
00:03:06使用 Opus 实在是杀鸡用牛刀,
00:03:08但有时你又希望 Sonnet 能表现得更好一点。
00:03:10现在好了, 这就是完美的中间方案。

Key Takeaway

Anthropic 的顾问策略通过 API 自动协调 Opus 的规划能力与 Sonnet 的执行效率,使 SWE-bench 性能提升 3.7% 的同时将单次代理任务成本压缩至 1 美元以下。

Highlights

Anthropic 发布的顾问策略(Advisor Strategy)通过将 Opus 作为顾问与 Sonnet 或 Haiku 作为执行者配对,实现了性能提升与成本降低的双重目标。

在 SWE-bench 基准测试中,开启顾问模式的 Sonnet 3.5 得分为 74.8,高于独立 Sonnet 3.5 的 72.1,且每个任务成本从 1.09 美元降至 96 美分。

顾问模式在整个任务执行过程中保持 Opus 与执行者模型之间的双向实时交互,而非单次性的计划制定。

所有实际的工具调用(Tool Calls)均由成本较低的执行者模型完成,Opus 仅负责提供指导并保留完整的共享上下文。

开发者通过在 API 调用中将类型指定为 "advisor" 并设置 "max_uses" 参数即可在任何 Web 应用程序中启用此功能。

Timeline

顾问策略的核心运行机制

  • 顾问策略将高性能模型 Opus 与低成本模型 Sonnet 或 Haiku 进行角色配对。
  • Opus 负责制定全局计划,而较便宜的模型承担具体的执行工作。
  • 该功能通过 API 自动完成,适用于所有基于 Anthropic API 开发的 Web 应用程序。

这种架构将模型的逻辑规划能力与实际操作任务分离。Opus 作为大脑提供策略,执行者模型则处理繁琐的劳动。这种模式不仅限于 Claude Code 内部,而是作为一种通用的 API 服务提供给广大开发者,旨在优化生产环境中的性价比。

动态交互与成本优化逻辑

  • 执行者模型在遇到无法解决的决策点时会实时回溯并咨询顾问模型。
  • Opus 在整个过程中不会直接进行工具调用,从而有效锁定成本上限。
  • 顾问模型始终保留执行任务的完整共享上下文,确保指导的连续性。

传统的规划模式通常是一次性给出指令,但顾问策略实现了持续的反馈循环。当 Sonnet 或 Haiku 在执行中遇到障碍,它们会携带上下文请求 Opus 的支持。通过将高费用的工具调用限制在低廉模型中,该策略避免了 Opus 产生不必要的昂贵开销。

基准测试数据与成本对比分析

  • 开启顾问模式后,Sonnet 在 BrowseComp 和 TerminalBench 等多个基准测试中的表现均优于原生模式。
  • 系统提供了性能介于 Sonnet 和 Opus 之间,但成本低于普通 Sonnet 的中间地带。
  • 单次代理任务的费用显著下降,解决了 Anthropic API 长期以来价格过高的问题。

数据显示,顾问模式下的 Sonnet 在 SWE-bench 上取得了 74.8 的高分,同时费用从 1.09 美元降低到 96 美分。这种配置填补了市场中缺乏高性价比中端模型方案的空白,利用协同效应实现了低价高质的输出。

API 实现方式与配置指南

  • 用户只需在 API 调用的 JSON 结构中调整类型参数为 "advisor" 即可激活。
  • "max_uses" 参数用于限定单个问题中向顾问寻求建议的最大次数。
  • 此方案解决了 Opus 在处理简单任务时大材小用的资源浪费问题。

集成该功能仅需对现有代码进行微调。通过设置最大使用次数,开发者可以精确控制顾问参与的深度和成本。这为那些希望提升 Sonnet 表现力又不愿承担 Opus 全额费用的项目提供了完美的平衡点。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video