00:00:00Opus 4.7 刚刚发布,从各项数据来看,
00:00:04这是一次巨大的升级。让我们深入了解一下。首先,
00:00:08来看基准测试。他们在右侧展示了 Mythos,
00:00:12只是为了逗弄我们这些确实存在的东西。
00:00:15但我真正关注的是 4.7 与 4.6 的对比,因为谁知道
00:00:20Mythos 什么时候才能上线。而从数据上看,
00:00:23这是一个非常坚实的跨越,尤其是在编程方面。
00:00:28如果我们看智能体编程,我们看到数据从 53 跳到了 64,
00:00:32从 80 跳到了 87,
00:00:34然后在 SWE-bench Pro、SWE-bench Verified 和 Terminal Bench 2.0
00:00:39这三大测试中,从 65 增长到了 69。
00:00:42Opus 4.7 唯一没有排在
00:00:46所有其他模型之首的地方
00:00:49(除了 Mythos 之外),是 GPT 5.4 领先的智能体搜索。
00:00:54它是 89.3,而 Opus 4.7 是……
00:00:57奇怪的是,它比 4.6 还有所下降。你知道,
00:01:01当你看到这样的数据时,
00:01:02看到它在某些基准测试上比 Opus 4.6 还低,
00:01:06你会怀疑他们是不是故意放进去的。就像在说:“不,
00:01:08这些基准测试是真的。我们没撒谎。看,
00:01:11看这个。” 嗯……
00:01:12但 5.4 在智能体搜索和研究生级推理方面确实领先。
00:01:17另一个有巨大进步的领域是视觉推理。
00:01:21我们从 69 跳到了 82,
00:01:25这可能与该模型拥有更好的
00:01:29视觉能力有关。
00:01:29他们告诉我们,输入 Opus 4.7 的图片分辨率
00:01:34现在是以前的 3 倍,这非常重要。
00:01:36如果你在处理图表或微小文本,
00:01:38我们可以在这些图表中看到同样的数值体现。
00:01:42在知识工作、视觉方面都有提升,文档推理更是大幅跨越,
00:01:46从 57.1 增长到 80.6,这是一个巨大的优势。
00:01:50如果你是那种使用 CoWork 的用户,
00:01:52或者在办公场景中使用它,整天给它投喂
00:01:55文档。长文本推理也是一个重点。
00:01:57我们在这个频道经常强调“上下文腐烂”以及
00:02:02必须专注于会话管理。我不认为这会有所改变。我是说,
00:02:07从 71 提升到 75 固然很好,
00:02:09但我不认为你应该改变清理频率,也就是说,一旦达到
00:02:1320% 或 25% 的上下文窗口,你就该清理了,但这确实是进步。
00:02:17我们乐见其成。而这个也很有意思,
00:02:19这个关于多模态的编程基准测试。他们正在编程,
00:02:22但也包括了一些投喂含有图片等内容的
00:02:25上下文的情况。我想这并不意外,
00:02:28我认为这在很大程度上与分辨率有关。
00:02:30除了模型本身,还有一些其他的更新。
00:02:32最大的是更多的“努力程度”控制。现在多了一个 "X High" 级别,
00:02:37可能是从 OpenAI 那里借鉴的,介于 High 和 Max 之间。
00:02:40除此之外,Claude Code 现在默认设为 Extra High。
00:02:44我想这可能是对许多人抱怨 Opus 4.6 被“削弱”的回应。
00:02:48接着 Boris Cherny,Opus 的创始人——不,是 Claude Code 的创始人
00:02:52出来解释说,
00:02:54实际上他们是把默认的推理级别、默认努力程度
00:02:58调到了 Medium。所以推出了 X High,
00:03:01我认为是为了让它变得“更好”、更努力,
00:03:05同时又不至于把用户推向 Max 级别,因为那样会走极端,
00:03:10导致大家抱怨配额很快耗尽。记住,
00:03:12如果你想更改这个设置,
00:03:13只需输入 /effort 然后设置你的级别。
00:03:16更高分辨率的功能在 API 上也可用。
00:03:19然后他们还发布了新的 /ultra-review 命令。
00:03:24它会在原本基础上增加一个专门的审核环节。
00:03:28他们还扩展了自动模式(Auto Mode)。如果你还不了解它,
00:03:31它基本上就是“危险地跳过权限”的替代方案。
00:03:34有一点需要注意,Opus 4.7 将会比 4.6
00:03:39消耗更多的 Token。
00:03:40他们明确表示,Opus 4.7 使用了更新的分词器并改进了
00:03:45处理文本的方式,但这会增加输入端的 Token 数量,
00:03:50根据内容类型的不同,大约增加 1 到 1.35 倍。
00:03:54其次,Opus 4.7 在更高的努力级别下会思考更多。
00:03:58所以请记住,他们将默认努力程度设为 Extra High,
00:04:03而以前是 Medium,且 Opus 4.7 本身就更耗 Token。
00:04:07所以如果你一直使用 Medium 级别,
00:04:09从未更改过,并且在 4.6 上就已经达到了使用频率
00:04:13或配额限制,那么请警惕这一点。要明白你确实可能
00:04:18会遇到使用限制问题,如果你已经是重度用户,
00:04:19因为它现在会消耗更多的 Token。
00:04:21同样有趣的是,他们也移除了扩展思维功能。
00:04:25如果你想了解更多关于这次迁移的深度解析,
00:04:28他们在文档中发布了完整的内容。
00:04:30总而言之,这看起来是一次非常扎实的升级。
00:04:32我很期待能亲自上手测试一下。