Claude 发布 Opus 4.7：性能遥遥领先，不接受反驳

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareBusiness NewsConsumer ElectronicsInternet Technology

Transcript

00:00:00Opus 4.7 刚刚发布，从各项数据来看，

00:00:04这是一次巨大的升级。让我们深入了解一下。首先，

00:00:08来看基准测试。他们在右侧展示了 Mythos，

00:00:12只是为了逗弄我们这些确实存在的东西。

00:00:15但我真正关注的是 4.7 与 4.6 的对比，因为谁知道

00:00:20Mythos 什么时候才能上线。而从数据上看，

00:00:23这是一个非常坚实的跨越，尤其是在编程方面。

00:00:28如果我们看智能体编程，我们看到数据从 53 跳到了 64，

00:00:32从 80 跳到了 87，

00:00:34然后在 SWE-bench Pro、SWE-bench Verified 和 Terminal Bench 2.0

00:00:39这三大测试中，从 65 增长到了 69。

00:00:42Opus 4.7 唯一没有排在

00:00:46所有其他模型之首的地方

00:00:49（除了 Mythos 之外），是 GPT 5.4 领先的智能体搜索。

00:00:54它是 89.3，而 Opus 4.7 是……

00:00:57奇怪的是，它比 4.6 还有所下降。你知道，

00:01:01当你看到这样的数据时，

00:01:02看到它在某些基准测试上比 Opus 4.6 还低，

00:01:06你会怀疑他们是不是故意放进去的。就像在说：“不，

00:01:08这些基准测试是真的。我们没撒谎。看，

00:01:11看这个。” 嗯……

00:01:12但 5.4 在智能体搜索和研究生级推理方面确实领先。

00:01:17另一个有巨大进步的领域是视觉推理。

00:01:21我们从 69 跳到了 82，

00:01:25这可能与该模型拥有更好的

00:01:29视觉能力有关。

00:01:29他们告诉我们，输入 Opus 4.7 的图片分辨率

00:01:34现在是以前的 3 倍，这非常重要。

00:01:36如果你在处理图表或微小文本，

00:01:38我们可以在这些图表中看到同样的数值体现。

00:01:42在知识工作、视觉方面都有提升，文档推理更是大幅跨越，

00:01:46从 57.1 增长到 80.6，这是一个巨大的优势。

00:01:50如果你是那种使用 CoWork 的用户，

00:01:52或者在办公场景中使用它，整天给它投喂

00:01:55文档。长文本推理也是一个重点。

00:01:57我们在这个频道经常强调“上下文腐烂”以及

00:02:02必须专注于会话管理。我不认为这会有所改变。我是说，

00:02:07从 71 提升到 75 固然很好，

00:02:09但我不认为你应该改变清理频率，也就是说，一旦达到

00:02:1320% 或 25% 的上下文窗口，你就该清理了，但这确实是进步。

00:02:17我们乐见其成。而这个也很有意思，

00:02:19这个关于多模态的编程基准测试。他们正在编程，

00:02:22但也包括了一些投喂含有图片等内容的

00:02:25上下文的情况。我想这并不意外，

00:02:28我认为这在很大程度上与分辨率有关。

00:02:30除了模型本身，还有一些其他的更新。

00:02:32最大的是更多的“努力程度”控制。现在多了一个 "X High" 级别，

00:02:37可能是从 OpenAI 那里借鉴的，介于 High 和 Max 之间。

00:02:40除此之外，Claude Code 现在默认设为 Extra High。

00:02:44我想这可能是对许多人抱怨 Opus 4.6 被“削弱”的回应。

00:02:48接着 Boris Cherny，Opus 的创始人——不，是 Claude Code 的创始人

00:02:52出来解释说，

00:02:54实际上他们是把默认的推理级别、默认努力程度

00:02:58调到了 Medium。所以推出了 X High，

00:03:01我认为是为了让它变得“更好”、更努力，

00:03:05同时又不至于把用户推向 Max 级别，因为那样会走极端，

00:03:10导致大家抱怨配额很快耗尽。记住，

00:03:12如果你想更改这个设置，

00:03:13只需输入 /effort 然后设置你的级别。

00:03:16更高分辨率的功能在 API 上也可用。

00:03:19然后他们还发布了新的 /ultra-review 命令。

00:03:24它会在原本基础上增加一个专门的审核环节。

00:03:28他们还扩展了自动模式（Auto Mode）。如果你还不了解它，

00:03:31它基本上就是“危险地跳过权限”的替代方案。

00:03:34有一点需要注意，Opus 4.7 将会比 4.6

00:03:39消耗更多的 Token。

00:03:40他们明确表示，Opus 4.7 使用了更新的分词器并改进了

00:03:45处理文本的方式，但这会增加输入端的 Token 数量，

00:03:50根据内容类型的不同，大约增加 1 到 1.35 倍。

00:03:54其次，Opus 4.7 在更高的努力级别下会思考更多。

00:03:58所以请记住，他们将默认努力程度设为 Extra High，

00:04:03而以前是 Medium，且 Opus 4.7 本身就更耗 Token。

00:04:07所以如果你一直使用 Medium 级别，

00:04:09从未更改过，并且在 4.6 上就已经达到了使用频率

00:04:13或配额限制，那么请警惕这一点。要明白你确实可能

00:04:18会遇到使用限制问题，如果你已经是重度用户，

00:04:19因为它现在会消耗更多的 Token。

00:04:21同样有趣的是，他们也移除了扩展思维功能。

00:04:25如果你想了解更多关于这次迁移的深度解析，

00:04:28他们在文档中发布了完整的内容。

00:04:30总而言之，这看起来是一次非常扎实的升级。

00:04:32我很期待能亲自上手测试一下。

Key Takeaway

Opus 4.7 通过 3 倍图片分辨率提升和默认 Extra High 推理级别显著增强了编程与视觉推理能力，但也带来了最高 1.35 倍的 Token 消耗增长。

Highlights

Opus 4.7 在智能体编程基准测试中表现显著，得分从 53 提升至 64，部分测试达到 87。
图片处理分辨率提升至原先的 3 倍，直接带动视觉推理得分从 69 跳升至 82。
文档推理能力大幅增强，基准测试数据从 57.1% 增长到 80.6%。
新版本引入 Extra High 努力程度控制选项，并将其设为 Claude Code 的默认级别。
由于更新了分词器并改进了文本处理方式，Opus 4.7 的输入 Token 消耗量增加了 1 到 1.35 倍。
系统移除了原有的扩展思维功能，转而通过增加推理深度和努力级别来提升表现。

Timeline

编程与智能体基准测试表现

智能体编程得分从 53 大幅跃升至 64。
在 SWE-bench Pro 等三大核心测试中，得分从 65 增长到 69。
GPT 5.4 在智能体搜索和研究生级推理方面仍保持领先地位。

Opus 4.7 在编程任务中展现出坚实的性能跨越。虽然在智能体搜索测试中出现了略微低于 4.6 版本的异常数据，但这被视为测试真实性的体现。整体而言，除了面对 GPT 5.4 的特定优势领域外，Opus 4.7 在大多数逻辑指标上处于领先水平。

视觉与长文本推理能力升级

输入图片的分辨率达到旧版本的 3 倍。
文档推理准确率从 57.1% 跨越式增长至 80.6%。
长文本推理得分从 71 提升至 75。

分辨率的提升解决了处理复杂图表和微小文本的难题，这直接反映在多模态编程和视觉推理的得分中。针对办公场景中的文档投喂任务，其理解深度有明显改善。尽管长文本推理有所进步，但对于上下文窗口达到 20% 至 25% 时的清理建议依然保持不变。

努力程度控制与新功能指令

新增介于 High 与 Max 之间的 Extra High 努力级别。
通过 /effort 命令可以手动调节模型的思考投入程度。
新发布的 /ultra-review 命令在原有基础上增加了一个专门的审核环节。

为了回应用户对旧版本性能削弱的反馈，系统将默认努力程度从 Medium 上调。Extra High 级别的设计旨在平衡性能与配额消耗，避免 Max 级别导致的使用限制过快耗尽。自动模式（Auto Mode）也得到了扩展，作为权限管理的一种替代方案。

Token 消耗增加与成本警示

文本处理方式的改进导致输入 Token 数量增加 1 至 1.35 倍。
默认努力级别上调会导致模型在处理任务时产生更多思考量。
系统正式移除了扩展思维功能。

更新后的分词器虽然提升了理解精度，但也直接拉高了使用成本。重度用户在维持原有使用习惯的情况下，可能会因为 Token 消耗量和努力级别的提升而更频繁地触及配额上限。关于从旧版本迁移的深度技术细节，已在官方文档中全面公开。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video