Anthropic 投下 Opus 4.8 震撼弹

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Anthropic 刚刚发布了 Claude Opus 4.8。

00:00:02所以在这个视频里，我将快速带大家过一遍

00:00:05有哪些变化，以及你需要关注的重点

00:00:08这个全新模型。

00:00:09让我们直接进入基准测试看看。

00:00:12这里高亮显示的是 Opus 4.8

00:00:14与 Opus 4.7、GPT 5.5 和 Gemini 3.1 Pro 相比，

00:00:20Opus 在几乎每一个类别中都全面胜出

00:00:24除了代理终端编程 (Agentic terminal coding)，

00:00:26也就是 Terminal Bench 2.1。

00:00:28在那里，它的得分是 74.6，

00:00:30这相比 Opus 4.7 仍然是一个巨大的飞跃，

00:00:34但依然落后于 GPT 5.5。

00:00:37但在其他方面，如 SWE Bench Pro、

00:00:40多学科推理、代理计算机使用、

00:00:42知识工作，以及代理财务分析，

00:00:45它都领先于其他竞争对手。

00:00:47当然，我们现在对基准测试都持保留态度，

00:00:49但看到它相比之前发布的 Opus 4.7 有这么大的跨越

00:00:53还是挺让人高兴的，

00:00:56距离上次发布也没多久。

00:00:57我的意思是，才过去几个月，

00:00:584.7 发布后我们现在就有了 4.8，

00:01:01代理编程得分从 64 提升到了 69。

00:01:04这真的很棒。

00:01:054.8 相比 4.7 的一大改进，

00:01:08根据 Anthropic 的说法，是它的诚实度。

00:01:11所谓的诚实，是指当你让这个 AI 模型

00:01:14去做某件事时，

00:01:15如果它做不到或者还没做，

00:01:18它会直接告诉你。

00:01:19如果你过去几年

00:01:20使用过这些模型，这真的很关键，

00:01:22你让它做某事，比如，

00:01:22嘿，看一下这个巨大的转录稿，

00:01:24认真阅读它并告诉我你做了什么。

00:01:27认真读完并告诉我你做了什么。

00:01:29当你查看它的输出结果

00:01:31它会说类似这样的话，

00:01:32好吧，我其实只是稍微总结了一下。

00:01:33我并没有读完全部内容。

00:01:35这简直是个大问题。

00:01:35如果你用 AI 进行任何实际工作，

00:01:37你就知道创建这些测试，

00:01:40确保它真的做了它声称在做的事，有多重要。

00:01:42但 Anthropic 表示，

00:01:46嘿，在 4.8 中这个问题可能就不会那么严重了，

00:01:47相比之前的一些模型。

00:01:50具体来说，他们表示，

00:01:51根据他们的评估，

00:01:52你可以在他们的系统卡片里看到，

00:01:54那份文件大约有 250 页长，

00:01:56他们说这表明 Opus 4.8

00:01:59比其前身漏掉其所写代码中的错误的可能性

00:02:01降低了大约四倍。

00:02:04所以再次强调，它会对什么是有效的、什么是无效的

00:02:07更加诚实，

00:02:09而且它不会对你进行煤气灯操控。

00:02:12他们还评估称，4.8 的未对齐行为发生率，

00:02:13例如欺骗或配合误用，

00:02:16都比 Opus 4.7 大幅降低，

00:02:18与 Mythos 相似。

00:02:21你可以从这里看到这些未对齐行为，

00:02:24Opus 4.7 尤其是 Sonnet 4.6

00:02:25会有一些这样的倾向，

00:02:28而在 Mythos 或 Opus 4.8 中，我们不太会看到这些。

00:02:31除了模型本身，

00:02:33Anthropic 还推动了一些其他更新。

00:02:35第一个是动态工作流。

00:02:36动态工作流与目标类似。

00:02:39其核心思想是，我们现在可以让 Claude 代码

00:02:41处理非常复杂的任务，

00:02:43它会随着时间推移去执行，

00:02:45在一个会话中自动生成

00:02:47并且它会随着时间推移去处理，

00:02:50在单次会话中启动数十到数百个并行代理

00:02:52大家都知道，即便你在规划模式下

00:02:53把任务拆解成许多子任务，

00:02:56也常常会遇到 Claude 代码难以一次性处理的情况。

00:02:57这个动态工作流就是为了解决这个问题，

00:02:59我很快会专门针对动态工作流做一期深度解析。

00:03:00对于 Claude Code 来说一次性处理的工作量太大了。

00:03:03这种动态工作流就是解决这个问题的方案，

00:03:05第一个是使用自然语言说：嘿，Claude，创建一个动态工作流，

00:03:06或者开启全新的 Claude 代码专用设置，

00:03:09名为 UltraCode。

00:03:11Claude.ai 的另一个重大变化，

00:03:12即聊天机器人和 Cowork 功能，

00:03:13第一种是用简单的语言说，嘿，Claude，创建一个动态工作流，

00:03:15或者开启名为 UltraCode 的

00:03:18新 Claude 代码专用设置。

00:03:20对吧？我们已经在 Claude 代码中使用过这个功能了，

00:03:22比如高、超高和最大这几种模式。

00:03:24现在这些设置也被加入到

00:03:26Claude.ai 和 Cowork 中了。

00:03:27最后，如果你是使用 Messages API 的用户，

00:03:30它现在可以在消息数组中接受系统条目。

00:03:31这真的很棒，

00:03:33因为你可以在任务进行中更新 Claude 的指令。

00:03:35这有点类似于 Codex

00:03:36以及当你提供额外提示时

00:03:38的引导功能。

00:03:39值得注意的是，Opus 现在默认采用高努力模式，

00:03:41而不是超高。

00:03:44回想 Opus 4.7

00:03:45展示给我们看的那个图表，

00:03:47他们当时告诉我们，

00:03:50嘿，超高努力模式是你想要追求的方向。

00:03:51所以只要记住 4.8 默认是高努力模式，

00:03:52如果你想让新模型投入更多精力，

00:03:54你还有两个更高级别可以调整。

00:03:57如果你在考虑 Token 使用量，

00:03:59他们已经增加了 Claude 代码中的速率限制，

00:04:00以适应更高努力级别带来的

00:04:01更高 Token 使用量，

00:04:03这真的很贴心。

00:04:05这就是全新的 Claude Opus 4.8 的简要概览。

00:04:07请记住，它与 Opus 4.7

00:04:09定价完全相同，

00:04:11所以你不需要为这种新的强大能力支付额外费用。

00:04:12一如既往，请告诉我你的想法。

00:04:14如果想获取我的 Claude 代码大师课，

00:04:16请务必查看置顶评论中

00:04:18的 Chase AI Plus。

00:04:20我们下次见。

00:04:21好了，这就是关于全新 Claude Opus 4.8

00:04:22的直观概述。

00:04:24请记住，它与 Opus 4.7 的价格

00:04:25完全相同，

00:04:26所以你无需为这种新的强大能力

00:04:28支付额外费用。

00:04:29一如既往，请告诉我你的想法。

00:04:31如果你想获取我的 Claude 代码大师课，

00:04:33请务必查看置顶评论中的

00:04:34Chase AI Plus。

00:04:35获取我的 Claude Code 大师课

00:04:36我们下次再见。

Key Takeaway

Anthropic 推出的 Claude Opus 4.8 在全面提升推理与纠错能力的同时，通过动态工作流和 API 指令更新功能，显著增强了复杂任务的处理效率。

Highlights

Claude Opus 4.8 相比 4.7 在 SWE Bench Pro、多学科推理、代理计算机使用及财务分析等几乎所有类别中全面胜出。
Opus 4.8 在代码编写中漏掉错误的概率相比前代降低了约四倍。
模型在任务无法完成时表现得更加诚实，并降低了未对齐行为发生率。
Claude Code 引入动态工作流功能，支持在单次会话中启动数十至数百个并行代理以处理复杂任务。
Messages API 现在支持在消息数组中接受系统条目，允许在任务执行中实时更新 Claude 的指令。
Opus 4.8 的定价与 Opus 4.7 完全相同，无需额外费用。

Timeline

性能基准与模型能力提升

Opus 4.8 在绝大多数基准测试中超越了 GPT 5.5 和 Gemini 3.1 Pro。
代理编程得分从 4.7 版本的 64 提升至 69，虽然在 Terminal Bench 2.1 中仍落后于 GPT 5.5，但进步显著。

该模型在多学科推理和代理任务处理上展现了领先优势。尽管在终端编程任务中未占据榜首，但其相比前代的跃升幅度依然巨大，且发布周期极短。

可靠性与安全性优化

Opus 4.8 在无法执行任务时能更直接地告知用户，提升了反馈的诚实度。
代码错误遗漏率下降了约四倍，且欺骗或配合误用等未对齐行为大幅降低。

通过系统评估，Opus 4.8 减少了类似煤气灯操控的不良反馈，在处理长篇文档和复杂代码时表现得更为严谨，安全性已接近 Mythos 模型水平。

工作流、API 及设置更新

新增的动态工作流支持在单次会话中并行执行大量子任务。
Claude.ai 和 Cowork 新增了高、超高和最大三种努力模式设置。
Messages API 支持动态系统指令更新，且针对更高 Token 使用量提高了速率限制。

动态工作流方案解决了 Claude Code 在处理海量任务时的拆解瓶颈。此外，用户现在可以通过 Messages API 在任务进程中灵活调整指令，且所有新功能均保持原有定价。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video