Anthropic 投下 Opus 4.8 震撼弹

CChase AI
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Anthropic 刚刚发布了 Claude Opus 4.8。
00:00:02所以在这个视频里,我将快速带大家过一遍
00:00:05有哪些变化,以及你需要关注的重点
00:00:08这个全新模型。
00:00:09让我们直接进入基准测试看看。
00:00:12这里高亮显示的是 Opus 4.8
00:00:14与 Opus 4.7、GPT 5.5 和 Gemini 3.1 Pro 相比,
00:00:20Opus 在几乎每一个类别中都全面胜出
00:00:24除了代理终端编程 (Agentic terminal coding),
00:00:26也就是 Terminal Bench 2.1。
00:00:28在那里,它的得分是 74.6,
00:00:30这相比 Opus 4.7 仍然是一个巨大的飞跃,
00:00:34但依然落后于 GPT 5.5。
00:00:37但在其他方面,如 SWE Bench Pro、
00:00:40多学科推理、代理计算机使用、
00:00:42知识工作,以及代理财务分析,
00:00:45它都领先于其他竞争对手。
00:00:47当然,我们现在对基准测试都持保留态度,
00:00:49但看到它相比之前发布的 Opus 4.7 有这么大的跨越
00:00:53还是挺让人高兴的,
00:00:56距离上次发布也没多久。
00:00:57我的意思是,才过去几个月,
00:00:584.7 发布后我们现在就有了 4.8,
00:01:01代理编程得分从 64 提升到了 69。
00:01:04这真的很棒。
00:01:054.8 相比 4.7 的一大改进,
00:01:08根据 Anthropic 的说法,是它的诚实度。
00:01:11所谓的诚实,是指当你让这个 AI 模型
00:01:14去做某件事时,
00:01:15如果它做不到或者还没做,
00:01:18它会直接告诉你。
00:01:19如果你过去几年
00:01:20使用过这些模型,这真的很关键,
00:01:22你让它做某事,比如,
00:01:22嘿,看一下这个巨大的转录稿,
00:01:24认真阅读它并告诉我你做了什么。
00:01:27认真读完并告诉我你做了什么。
00:01:29当你查看它的输出结果
00:01:31它会说类似这样的话,
00:01:32好吧,我其实只是稍微总结了一下。
00:01:33我并没有读完全部内容。
00:01:35这简直是个大问题。
00:01:35如果你用 AI 进行任何实际工作,
00:01:37你就知道创建这些测试,
00:01:40确保它真的做了它声称在做的事,有多重要。
00:01:42但 Anthropic 表示,
00:01:46嘿,在 4.8 中这个问题可能就不会那么严重了,
00:01:47相比之前的一些模型。
00:01:50具体来说,他们表示,
00:01:51根据他们的评估,
00:01:52你可以在他们的系统卡片里看到,
00:01:54那份文件大约有 250 页长,
00:01:56他们说这表明 Opus 4.8
00:01:59比其前身漏掉其所写代码中的错误的可能性
00:02:01降低了大约四倍。
00:02:04所以再次强调,它会对什么是有效的、什么是无效的
00:02:07更加诚实,
00:02:09而且它不会对你进行煤气灯操控。
00:02:12他们还评估称,4.8 的未对齐行为发生率,
00:02:13例如欺骗或配合误用,
00:02:16都比 Opus 4.7 大幅降低,
00:02:18与 Mythos 相似。
00:02:21你可以从这里看到这些未对齐行为,
00:02:24Opus 4.7 尤其是 Sonnet 4.6
00:02:25会有一些这样的倾向,
00:02:28而在 Mythos 或 Opus 4.8 中,我们不太会看到这些。
00:02:31除了模型本身,
00:02:33Anthropic 还推动了一些其他更新。
00:02:35第一个是动态工作流。
00:02:36动态工作流与目标类似。
00:02:39其核心思想是,我们现在可以让 Claude 代码
00:02:41处理非常复杂的任务,
00:02:43它会随着时间推移去执行,
00:02:45在一个会话中自动生成
00:02:47并且它会随着时间推移去处理,
00:02:50在单次会话中启动数十到数百个并行代理
00:02:52大家都知道,即便你在规划模式下
00:02:53把任务拆解成许多子任务,
00:02:56也常常会遇到 Claude 代码难以一次性处理的情况。
00:02:57这个动态工作流就是为了解决这个问题,
00:02:59我很快会专门针对动态工作流做一期深度解析。
00:03:00对于 Claude Code 来说一次性处理的工作量太大了。
00:03:03这种动态工作流就是解决这个问题的方案,
00:03:05第一个是使用自然语言说:嘿,Claude,创建一个动态工作流,
00:03:06或者开启全新的 Claude 代码专用设置,
00:03:09名为 UltraCode。
00:03:11Claude.ai 的另一个重大变化,
00:03:12即聊天机器人和 Cowork 功能,
00:03:13第一种是用简单的语言说,嘿,Claude,创建一个动态工作流,
00:03:15或者开启名为 UltraCode 的
00:03:18新 Claude 代码专用设置。
00:03:20对吧?我们已经在 Claude 代码中使用过这个功能了,
00:03:22比如高、超高和最大这几种模式。
00:03:24现在这些设置也被加入到
00:03:26Claude.ai 和 Cowork 中了。
00:03:27最后,如果你是使用 Messages API 的用户,
00:03:30它现在可以在消息数组中接受系统条目。
00:03:31这真的很棒,
00:03:33因为你可以在任务进行中更新 Claude 的指令。
00:03:35这有点类似于 Codex
00:03:36以及当你提供额外提示时
00:03:38的引导功能。
00:03:39值得注意的是,Opus 现在默认采用高努力模式,
00:03:41而不是超高。
00:03:44回想 Opus 4.7
00:03:45展示给我们看的那个图表,
00:03:47他们当时告诉我们,
00:03:50嘿,超高努力模式是你想要追求的方向。
00:03:51所以只要记住 4.8 默认是高努力模式,
00:03:52如果你想让新模型投入更多精力,
00:03:54你还有两个更高级别可以调整。
00:03:57如果你在考虑 Token 使用量,
00:03:59他们已经增加了 Claude 代码中的速率限制,
00:04:00以适应更高努力级别带来的
00:04:01更高 Token 使用量,
00:04:03这真的很贴心。
00:04:05这就是全新的 Claude Opus 4.8 的简要概览。
00:04:07请记住,它与 Opus 4.7
00:04:09定价完全相同,
00:04:11所以你不需要为这种新的强大能力支付额外费用。
00:04:12一如既往,请告诉我你的想法。
00:04:14如果想获取我的 Claude 代码大师课,
00:04:16请务必查看置顶评论中
00:04:18的 Chase AI Plus。
00:04:20我们下次见。
00:04:21好了,这就是关于全新 Claude Opus 4.8
00:04:22的直观概述。
00:04:24请记住,它与 Opus 4.7 的价格
00:04:25完全相同,
00:04:26所以你无需为这种新的强大能力
00:04:28支付额外费用。
00:04:29一如既往,请告诉我你的想法。
00:04:31如果你想获取我的 Claude 代码大师课,
00:04:33请务必查看置顶评论中的
00:04:34Chase AI Plus。
00:04:35获取我的 Claude Code 大师课
00:04:36我们下次再见。

Key Takeaway

Anthropic 推出的 Claude Opus 4.8 在全面提升推理与纠错能力的同时,通过动态工作流和 API 指令更新功能,显著增强了复杂任务的处理效率。

Highlights

  • Claude Opus 4.8 相比 4.7 在 SWE Bench Pro、多学科推理、代理计算机使用及财务分析等几乎所有类别中全面胜出。

  • Opus 4.8 在代码编写中漏掉错误的概率相比前代降低了约四倍。

  • 模型在任务无法完成时表现得更加诚实,并降低了未对齐行为发生率。

  • Claude Code 引入动态工作流功能,支持在单次会话中启动数十至数百个并行代理以处理复杂任务。

  • Messages API 现在支持在消息数组中接受系统条目,允许在任务执行中实时更新 Claude 的指令。

  • Opus 4.8 的定价与 Opus 4.7 完全相同,无需额外费用。

Timeline

性能基准与模型能力提升

  • Opus 4.8 在绝大多数基准测试中超越了 GPT 5.5 和 Gemini 3.1 Pro。
  • 代理编程得分从 4.7 版本的 64 提升至 69,虽然在 Terminal Bench 2.1 中仍落后于 GPT 5.5,但进步显著。

该模型在多学科推理和代理任务处理上展现了领先优势。尽管在终端编程任务中未占据榜首,但其相比前代的跃升幅度依然巨大,且发布周期极短。

可靠性与安全性优化

  • Opus 4.8 在无法执行任务时能更直接地告知用户,提升了反馈的诚实度。
  • 代码错误遗漏率下降了约四倍,且欺骗或配合误用等未对齐行为大幅降低。

通过系统评估,Opus 4.8 减少了类似煤气灯操控的不良反馈,在处理长篇文档和复杂代码时表现得更为严谨,安全性已接近 Mythos 模型水平。

工作流、API 及设置更新

  • 新增的动态工作流支持在单次会话中并行执行大量子任务。
  • Claude.ai 和 Cowork 新增了高、超高和最大三种努力模式设置。
  • Messages API 支持动态系统指令更新,且针对更高 Token 使用量提高了速率限制。

动态工作流方案解决了 Claude Code 在处理海量任务时的拆解瓶颈。此外,用户现在可以通过 Messages API 在任务进程中灵活调整指令,且所有新功能均保持原有定价。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video