00:00:00最强新模型现已发布,Opus 4.7。这看起来确实是一次相当不错的升级,显而易见
00:00:05它的编程能力更强,但也提升了视觉能力、自我验证能力,而且据称
00:00:09更擅长制作 UI,使其更具品味和创意。
00:00:12不过缺点是,虽然成本没有变化,但分词器(tokenizer)变了,所以
00:00:17完全相同的输入提示词现在可能会多消耗高达 35% 的 Token,而且它的思考量也增加了,所以
00:00:22消耗的 Token 会更多。这次发布中确实有一些非常有趣的细节,
00:00:26现在你可能想对 Claude Code 做一些调整,所以让我们直接开始,看看
00:00:30有什么新功能并进行测试。
00:00:31现在我实际上要从基准测试开始,因为我之前说这是
00:00:40新最强模型时稍微撒了点谎。它是目前公开可用的最强模型,但这些基准测试也包括了
00:00:44Mythos,这个模型如此强大,以至于我们还不被允许使用它。
00:00:47根据 Anthropic 的说法,Opus 4.7 实际上正在测试新的网络安全防护措施,以拦截
00:00:52表明属于禁止或高风险网络安全用途的请求,他们从中学习到的经验将
00:00:56帮助他们致力于广泛发布 Mythos 级模型,所以希望在未来
00:01:00我可以做一个关于 Mythos 发布的视频,以及它如何终结我们所认知的软件开发。
00:01:03所以,如果你不想错过那一集,请订阅。
00:01:06现在我会先忽略 Mythos,专注于我们实际可以使用的 Opus 4.7,
00:01:10它在基准测试中确实取得了巨大的进步。
00:01:13现在我不会对这些进行过多详细说明,如果你想阅读具体的某项,
00:01:16可以暂停屏幕。你可以看到,在 SWE Bench Pro 等基准测试中,它实际上比
00:01:21Opus 4.6 实现了 10% 的飞跃,在 verified 上也提升了 7%,这种趋势
00:01:26在其余的基准测试中几乎都有延续,除了在网络安全方面,它实际上略有下降,
00:01:30似乎与我之前提到的防护措施有关,看起来像是人为地
00:01:34压低了这个分数,试图以此来拯救世界之类的。
00:01:37我还在该系统卡片中发现了一个非常有趣的基准测试,看起来
00:01:40长文本上下文性能与 Opus 4.6 相比似乎大幅下滑,
00:01:45这是在使用“大海捞针”测试时发现的,所以我很好奇随着时间的推移,这将如何影响实际使用。
00:01:50除了基准测试之外,还有一些其他的显著改进,
00:01:54甚至可能改变你使用 Claude 的方式。第一个是它有更好的指令遵循能力,
00:01:58这实际上意味着对于你以前使用过的提示词,可能会产生意想不到的结果,
00:02:01因为旧模型对指令的理解比较松散或会跳过部分内容,而 Opus 4.7 则
00:02:07非常专注于字面理解指令,所以你可能确实需要对提示词进行一些微调。
00:02:11接下来,它改进了多模态支持,因此它可以接受比旧模型高出三倍的
00:02:16高分辨率图像,这应该会让它更擅长处理电脑操作和
00:02:20数据提取等任务。它的内存使用也得到了改进,因此 Opus 4.7 应该更擅长
00:02:25利用基于文件系统的内存,它可以记住跨越长时间多会话工作的重要笔记,
00:02:30并利用这些笔记进入新任务,从而减少前期的上下文需求。所以也许这
00:02:34会帮我节省一些 Token,这在现在非常重要,因为下一个变化是关于分词器
00:02:39和思考。Opus 4.7 使用了更新的分词器,改进了模型处理文本的方式,
00:02:45但也意味着相同的输入提示词可能会多消耗高达 35% 的 Token,而且
00:02:49结合 Opus 4.7 在高努力水平(effort level)下思考更多这一事实,这个模型
00:02:54确实会消耗大量的 Token。更糟糕的是,现在还有一个新的“超高”
00:02:58努力水平,而且它实际上被设置为 Claude Code 的默认值,所以我强烈建议
00:03:02你去测试各种努力水平,找到最适合你的那一个,看看
00:03:05你是否可以在不察觉影响的情况下降低它。作为对比,新的
00:03:09“超高”努力水平使用的 Token 数量大约相当于 Opus 4.6 的“最高”努力水平,
00:03:14而 Opus 4.7 的“高”努力水平实际上以更少的 Token 消耗,
00:03:19在得分上超过了 Opus 4.6 的“最高”水平。所以如果你已经满足于之前的表现,
00:03:24我会建议使用那个图表进行对比,因为我知道对我来说,在大多数情况下
00:03:27我可能会改用“高”努力水平。在讲完新功能的简要总结后,我要
00:03:31耗尽我的额度来测试一下。我要检查的第一件事是,它的 UI 设计能力是否更强了,
00:03:35所以我给了它一个非常简单的提示词,让它创建一个仅包含 index.html 的咖啡馆网站,
00:03:40我在测试的所有模型上都使用了最高努力水平,所以我将在
00:03:43Opus 4.7、4.6、Gemini 3.1 和 GPT 5.4 上进行尝试。这是我从 Opus 4.7 得到的结果,
00:03:51我觉得它看起来很漂亮,有一种很好的咖啡馆氛围,使用了
00:03:55不错的字体,还从 Unsplash 抓取了图片。总的来说,我真的无可挑剔,
00:03:59这是一个相当简单的网站,有漂亮的菜单部分,所有内容都是响应式的,总的来说
00:04:04是的,我想说它看起来很棒。如果我们把它和 Opus 4.6 给我的结果进行对比,你可以看到
00:04:09它采用了略微不同的风格,但有类似的字体和类似的菜单部分,
00:04:12总的来说稍微逊色一点,我认为是因为它没有使用好看的
00:04:16背景,而且这个渐变色的切换也并不好看,但仍然
00:04:20没什么可抱怨的,我想说 Opus 4.7 只比它领先了一点点。另一方面,Gemini 3.1,
00:04:25我认为给了我最好的结果,至少这是我最喜欢的,所以请在
00:04:29下方的评论区告诉我你最喜欢哪一个。我真的很喜欢它的背景
00:04:33在滚动时保持不动,我觉得它在这个图片部分和“我们的故事”
00:04:36部分做得非常好,菜单看起来和其他的差不多,但同样,我认为布局
00:04:40很精致,页脚也是如此,所以我觉得 3.1 在这次比拼中赢了。然而,
00:04:45排在最后的一定是 GPT 5.4,它有一种强烈的 GPT 观感,
00:04:50它特别喜欢这种带有漂亮模糊效果的卡片,但在我看来,
00:04:55它并不是一个好的咖啡馆网站,它看起来就像我见过的所有其他 GPT 应用一样,
00:04:59所以 Opus 4.7 绝对擅长 UI,而且如果有更多方向性指导的话,它可能会处理得更好。
00:05:04目前在设计竞技场中,Opus 4.6 在网站设计方面实际上处于领先地位,
00:05:09所以我预计 4.7 会取代它的位置。显然那个测试非常简单,
00:05:13所以接下来我要给它们一个更高级的任务。你可以看到,在这里的 Claude Code 中,
00:05:17我要求 Opus 4.6 制作一个个人财务管理仪表盘,提供关于
00:05:21个人财务状况的详细概览,并附带了我在提示词中列出的一系列功能,
00:05:25而且我没有给出它应该使用什么技术栈的任何指示,它将
00:05:30自行选择这一切并从零开始。首先是 Opus 4.7 的结果,
00:05:34它在单次提示词下在大约 20 分钟内完成了这一切,我的第一反应就是
00:05:39哇,这看起来真的很棒,UI 非常简洁,有非常精美的图表,一切
00:05:44布局都很合理,使用了很好的配色方案。老实说,
00:05:48我自己也没什么可改进的了,它在 UI 方面做得非常出色,
00:05:53而且它还拥有我要求的所有独立页面。我们可以看到所有的账户,
00:05:57可以看到我们的交易记录和预算。我们目前实际上无法添加任何新预算,
00:06:02看来那不是个现有功能,目标页面(goals)也是如此。但我们确实能够
00:06:05在这里增加我们的目标值,数字确实会增加,而且它也确实更新了它构建的
00:06:10后端 API,同样的情况也适用于我们给别人汇款。所以如果
00:06:14我测试支付一下我的 Claude Code 订阅费用,这应该能发送成功,我
00:06:17可以看到它已经发出了,回到仪表盘,我的净资产已经随着那笔交易而更新,
00:06:22所以一切都在正常运行,而且它确实在后端使用了数据库。我们还看到
00:06:26它显示在我们的近期交易中。通读它们生成的代码,一切
00:06:30看起来都很好。它在前端使用了 React 和 Vite,和我
00:06:34会做的一样,它还使用了 React Router,也许我会用 TanStack,但这并不
00:06:38重要,它们都是非常好的选择。在所有这些中,你可以看到一切都
00:06:42布局整齐。我们有所有独立的 UI 组件。总的来说,前端做得相当不错。
00:06:46我会给它扣分的地方是在后端,因为我们正在使用
00:06:51Express 服务器。这倒也没什么错,但我可能会选择像
00:06:54Bun 或是 Hono 这样的,考虑到这个应用有多简单。而且它实际
00:06:59存储这些数据的方式全在内存中,所以如果我现在关闭后端服务并
00:07:04重新启动,它将从这个种子脚本(seed script)中加载数据,而这只是
00:07:08本地数组,它没有任何数据库来备份这些。接下来看 Opus 4.6 给我的结果,
00:07:13我得直说,Opus 4.7 在 UI 设计方面确实做得更好,
00:07:18这个 UI 总有些我不怎么喜欢的地方。我不知道是因为它的
00:07:21内边距(padding)太多了,还是因为它是浅色模式,而另一个是
00:07:24深色模式,总之我绝对更喜欢 Opus 4.7 的那个。总的来说,它有非常类似的
00:07:29组件,你可以看到我们有显示净资产的卡片,有净资产趋势图,
00:07:33近期交易和财务目标,我们也有独立的页面来跟踪这些。
00:07:38除了 UI 之外,我们还可以测试一些功能,所以我在这里添加一笔新交易,
00:07:42这笔交易是 150 美元的杂货支出,看起来我们得到了更新,
00:07:46回到仪表盘,我的净资产也更新了,所以看起来这部分工作正常。在一个地方
00:07:50Opus 4.6 可能实际上在单次提示词中赢过了 Opus 4.7,那就是我可以在这里添加账户,
00:07:54我刚刚添加了这个账户,目标和预算也是一样,
00:07:58我也添加了教育预算。所以看起来 Opus 4.6 加入了更多功能,
00:08:03但老实说,我直接让 Opus 4.7 帮我加上它们就行了。显然通常情况下你不会只用单次提示词。
00:08:07看看代码,Opus 4.6 走了一条类似的路线,使用 Vite + React 应用,
00:08:12但我刚注意到一件有趣的事,这个用的是 React 19 和 React Router
00:08:16DOM 7,而 Opus 4.7 用的是 React 18 还有 React Router 6,尽管我
00:08:20相当肯定 Opus 4.7 的知识截止日期更晚。除此之外,Opus 4.6 的另一个
00:08:27优势是它在后端确实使用了数据库,所以它会持久化存储。你可以看到
00:08:32它在这里使用了一个 SQLite 数据库,我们确实看到了一些数据库文件。所以这绝对是个优势,
00:08:36但它输在整个项目似乎都用了 JavaScript,而 Opus 4.7 正确地
00:08:40使用了 TypeScript。接下来我们看看 GPT 5.4 的结果,老实说我
00:08:45完全不知道它在这里搞什么,这不是一个可用的 UI,在我看来它看起来非常糟糕,
00:08:50所有东西都非常拥挤,我不喜欢它的字体,而且,是的,我不打算
00:08:55在这个上面花太多时间。这看起来比 Claude 的差远了。不过我可以确认,
00:08:59当我们加钱的时候它是起作用的,除了它还会刷新整个页面。
00:09:03代码方面也好不到哪去,看来 GPT 5.4 根本不想为此
00:09:07启动一个完整的项目,所以它只用了一个非常简单的方法,我们只有
00:09:11index.html、JavaScript 文件和样式表。至于数据库,那也只是
00:09:14一个单一的 JavaScript 脚本。它实际上没有使用数据库,而是像
00:09:19Opus 4.7 一样全在内存里运行。同样,它也全程使用了 JavaScript 而不是
00:09:23TypeScript。至于 Gemini 3.1,说实话,我在尝试运行这个
00:09:28应用时遇到了很多问题,实际上还不得不发送多个后续提示词,仅仅是因为我很好奇
00:09:32它到底长什么样。它看起来和 Opus 4.6 的那个非常像。我不
00:09:36知道他们在处理 UI 时是不是用了相同的训练数据,但它们非常相似,
00:09:41而且这些功能没一个能用,这些标签页也都点不了。Gemini 3.1
00:09:45可能做得最差,虽然 5.4 也不相上下,主要是因为
00:09:50它创建应用的方式。我要说 Gemini 3.1 确实尝试采用了一种不错的方案,它
00:09:54实际上选择了 Next.js 而不是 React Router,这是一个非常好的主意,因为这意味着你
00:09:59可以使用 API 路由,而且这是一个非常简单的应用,所以我不反对这么做。
00:10:02但我得说它用了 Prisma,而我本更倾向于像 Drizzle 这样的。
00:10:07这些测试老实说让我感到惊讶,因为到目前为止我一直是一个重度的 Codex 用户,
00:10:10我已经弃用了 Claude Code,但 Opus 4.7 可能会把我拉回来,因为它
00:10:15有非常棒的 UI 设计,而且应用的大部分功能似乎都能用。显然这最终
00:10:19取决于提示词的质量,而我给出的关于技术栈的提示词相当模糊,我通常会
00:10:24提示我想要的确切东西。但即便如此,我对我们得到的结果
00:10:28依然印象深刻。我很想知道你的想法,你目前首选的模型是什么?请在
00:10:32下方的评论区告诉我。在评论的同时请订阅,一如既往,我们下期
00:10:36再见。