Claude 发布 Opus 4.7:性能遥遥领先,不接受反驳

CChase AI
Computing/SoftwareBusiness NewsConsumer ElectronicsInternet Technology

Transcript

00:00:00Opus 4.7 刚刚发布,从各项数据来看,
00:00:04这是一次巨大的升级。让我们深入了解一下。首先,
00:00:08来看基准测试。他们在右侧展示了 Mythos,
00:00:12只是为了逗弄我们这些确实存在的东西。
00:00:15但我真正关注的是 4.7 与 4.6 的对比,因为谁知道
00:00:20Mythos 什么时候才能上线。而从数据上看,
00:00:23这是一个非常坚实的跨越,尤其是在编程方面。
00:00:28如果我们看智能体编程,我们看到数据从 53 跳到了 64,
00:00:32从 80 跳到了 87,
00:00:34然后在 SWE-bench Pro、SWE-bench Verified 和 Terminal Bench 2.0
00:00:39这三大测试中,从 65 增长到了 69。
00:00:42Opus 4.7 唯一没有排在
00:00:46所有其他模型之首的地方
00:00:49(除了 Mythos 之外),是 GPT 5.4 领先的智能体搜索。
00:00:54它是 89.3,而 Opus 4.7 是……
00:00:57奇怪的是,它比 4.6 还有所下降。你知道,
00:01:01当你看到这样的数据时,
00:01:02看到它在某些基准测试上比 Opus 4.6 还低,
00:01:06你会怀疑他们是不是故意放进去的。就像在说:“不,
00:01:08这些基准测试是真的。我们没撒谎。看,
00:01:11看这个。” 嗯……
00:01:12但 5.4 在智能体搜索和研究生级推理方面确实领先。
00:01:17另一个有巨大进步的领域是视觉推理。
00:01:21我们从 69 跳到了 82,
00:01:25这可能与该模型拥有更好的
00:01:29视觉能力有关。
00:01:29他们告诉我们,输入 Opus 4.7 的图片分辨率
00:01:34现在是以前的 3 倍,这非常重要。
00:01:36如果你在处理图表或微小文本,
00:01:38我们可以在这些图表中看到同样的数值体现。
00:01:42在知识工作、视觉方面都有提升,文档推理更是大幅跨越,
00:01:46从 57.1 增长到 80.6,这是一个巨大的优势。
00:01:50如果你是那种使用 CoWork 的用户,
00:01:52或者在办公场景中使用它,整天给它投喂
00:01:55文档。长文本推理也是一个重点。
00:01:57我们在这个频道经常强调“上下文腐烂”以及
00:02:02必须专注于会话管理。我不认为这会有所改变。我是说,
00:02:07从 71 提升到 75 固然很好,
00:02:09但我不认为你应该改变清理频率,也就是说,一旦达到
00:02:1320% 或 25% 的上下文窗口,你就该清理了,但这确实是进步。
00:02:17我们乐见其成。而这个也很有意思,
00:02:19这个关于多模态的编程基准测试。他们正在编程,
00:02:22但也包括了一些投喂含有图片等内容的
00:02:25上下文的情况。我想这并不意外,
00:02:28我认为这在很大程度上与分辨率有关。
00:02:30除了模型本身,还有一些其他的更新。
00:02:32最大的是更多的“努力程度”控制。现在多了一个 "X High" 级别,
00:02:37可能是从 OpenAI 那里借鉴的,介于 High 和 Max 之间。
00:02:40除此之外,Claude Code 现在默认设为 Extra High。
00:02:44我想这可能是对许多人抱怨 Opus 4.6 被“削弱”的回应。
00:02:48接着 Boris Cherny,Opus 的创始人——不,是 Claude Code 的创始人
00:02:52出来解释说,
00:02:54实际上他们是把默认的推理级别、默认努力程度
00:02:58调到了 Medium。所以推出了 X High,
00:03:01我认为是为了让它变得“更好”、更努力,
00:03:05同时又不至于把用户推向 Max 级别,因为那样会走极端,
00:03:10导致大家抱怨配额很快耗尽。记住,
00:03:12如果你想更改这个设置,
00:03:13只需输入 /effort 然后设置你的级别。
00:03:16更高分辨率的功能在 API 上也可用。
00:03:19然后他们还发布了新的 /ultra-review 命令。
00:03:24它会在原本基础上增加一个专门的审核环节。
00:03:28他们还扩展了自动模式(Auto Mode)。如果你还不了解它,
00:03:31它基本上就是“危险地跳过权限”的替代方案。
00:03:34有一点需要注意,Opus 4.7 将会比 4.6
00:03:39消耗更多的 Token。
00:03:40他们明确表示,Opus 4.7 使用了更新的分词器并改进了
00:03:45处理文本的方式,但这会增加输入端的 Token 数量,
00:03:50根据内容类型的不同,大约增加 1 到 1.35 倍。
00:03:54其次,Opus 4.7 在更高的努力级别下会思考更多。
00:03:58所以请记住,他们将默认努力程度设为 Extra High,
00:04:03而以前是 Medium,且 Opus 4.7 本身就更耗 Token。
00:04:07所以如果你一直使用 Medium 级别,
00:04:09从未更改过,并且在 4.6 上就已经达到了使用频率
00:04:13或配额限制,那么请警惕这一点。要明白你确实可能
00:04:18会遇到使用限制问题,如果你已经是重度用户,
00:04:19因为它现在会消耗更多的 Token。
00:04:21同样有趣的是,他们也移除了扩展思维功能。
00:04:25如果你想了解更多关于这次迁移的深度解析,
00:04:28他们在文档中发布了完整的内容。
00:04:30总而言之,这看起来是一次非常扎实的升级。
00:04:32我很期待能亲自上手测试一下。

Key Takeaway

Opus 4.7 通过 3 倍图片分辨率提升和默认 Extra High 推理级别显著增强了编程与视觉推理能力,但也带来了最高 1.35 倍的 Token 消耗增长。

Highlights

Opus 4.7 在智能体编程基准测试中表现显著,得分从 53 提升至 64,部分测试达到 87。

图片处理分辨率提升至原先的 3 倍,直接带动视觉推理得分从 69 跳升至 82。

文档推理能力大幅增强,基准测试数据从 57.1% 增长到 80.6%。

新版本引入 Extra High 努力程度控制选项,并将其设为 Claude Code 的默认级别。

由于更新了分词器并改进了文本处理方式,Opus 4.7 的输入 Token 消耗量增加了 1 到 1.35 倍。

系统移除了原有的扩展思维功能,转而通过增加推理深度和努力级别来提升表现。

Timeline

编程与智能体基准测试表现

  • 智能体编程得分从 53 大幅跃升至 64。
  • 在 SWE-bench Pro 等三大核心测试中,得分从 65 增长到 69。
  • GPT 5.4 在智能体搜索和研究生级推理方面仍保持领先地位。

Opus 4.7 在编程任务中展现出坚实的性能跨越。虽然在智能体搜索测试中出现了略微低于 4.6 版本的异常数据,但这被视为测试真实性的体现。整体而言,除了面对 GPT 5.4 的特定优势领域外,Opus 4.7 在大多数逻辑指标上处于领先水平。

视觉与长文本推理能力升级

  • 输入图片的分辨率达到旧版本的 3 倍。
  • 文档推理准确率从 57.1% 跨越式增长至 80.6%。
  • 长文本推理得分从 71 提升至 75。

分辨率的提升解决了处理复杂图表和微小文本的难题,这直接反映在多模态编程和视觉推理的得分中。针对办公场景中的文档投喂任务,其理解深度有明显改善。尽管长文本推理有所进步,但对于上下文窗口达到 20% 至 25% 时的清理建议依然保持不变。

努力程度控制与新功能指令

  • 新增介于 High 与 Max 之间的 Extra High 努力级别。
  • 通过 /effort 命令可以手动调节模型的思考投入程度。
  • 新发布的 /ultra-review 命令在原有基础上增加了一个专门的审核环节。

为了回应用户对旧版本性能削弱的反馈,系统将默认努力程度从 Medium 上调。Extra High 级别的设计旨在平衡性能与配额消耗,避免 Max 级别导致的使用限制过快耗尽。自动模式(Auto Mode)也得到了扩展,作为权限管理的一种替代方案。

Token 消耗增加与成本警示

  • 文本处理方式的改进导致输入 Token 数量增加 1 至 1.35 倍。
  • 默认努力级别上调会导致模型在处理任务时产生更多思考量。
  • 系统正式移除了扩展思维功能。

更新后的分词器虽然提升了理解精度,但也直接拉高了使用成本。重度用户在维持原有使用习惯的情况下,可能会因为 Token 消耗量和努力级别的提升而更频繁地触及配额上限。关于从旧版本迁移的深度技术细节,已在官方文档中全面公开。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video