Opus 4.7 表现出色（除了 Token 消耗有点多）

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00最强新模型现已发布，Opus 4.7。这看起来确实是一次相当不错的升级，显而易见

00:00:05它的编程能力更强，但也提升了视觉能力、自我验证能力，而且据称

00:00:09更擅长制作 UI，使其更具品味和创意。

00:00:12不过缺点是，虽然成本没有变化，但分词器（tokenizer）变了，所以

00:00:17完全相同的输入提示词现在可能会多消耗高达 35% 的 Token，而且它的思考量也增加了，所以

00:00:22消耗的 Token 会更多。这次发布中确实有一些非常有趣的细节，

00:00:26现在你可能想对 Claude Code 做一些调整，所以让我们直接开始，看看

00:00:30有什么新功能并进行测试。

00:00:31现在我实际上要从基准测试开始，因为我之前说这是

00:00:40新最强模型时稍微撒了点谎。它是目前公开可用的最强模型，但这些基准测试也包括了

00:00:44Mythos，这个模型如此强大，以至于我们还不被允许使用它。

00:00:47根据 Anthropic 的说法，Opus 4.7 实际上正在测试新的网络安全防护措施，以拦截

00:00:52表明属于禁止或高风险网络安全用途的请求，他们从中学习到的经验将

00:00:56帮助他们致力于广泛发布 Mythos 级模型，所以希望在未来

00:01:00我可以做一个关于 Mythos 发布的视频，以及它如何终结我们所认知的软件开发。

00:01:03所以，如果你不想错过那一集，请订阅。

00:01:06现在我会先忽略 Mythos，专注于我们实际可以使用的 Opus 4.7，

00:01:10它在基准测试中确实取得了巨大的进步。

00:01:13现在我不会对这些进行过多详细说明，如果你想阅读具体的某项，

00:01:16可以暂停屏幕。你可以看到，在 SWE Bench Pro 等基准测试中，它实际上比

00:01:21Opus 4.6 实现了 10% 的飞跃，在 verified 上也提升了 7%，这种趋势

00:01:26在其余的基准测试中几乎都有延续，除了在网络安全方面，它实际上略有下降，

00:01:30似乎与我之前提到的防护措施有关，看起来像是人为地

00:01:34压低了这个分数，试图以此来拯救世界之类的。

00:01:37我还在该系统卡片中发现了一个非常有趣的基准测试，看起来

00:01:40长文本上下文性能与 Opus 4.6 相比似乎大幅下滑，

00:01:45这是在使用“大海捞针”测试时发现的，所以我很好奇随着时间的推移，这将如何影响实际使用。

00:01:50除了基准测试之外，还有一些其他的显著改进，

00:01:54甚至可能改变你使用 Claude 的方式。第一个是它有更好的指令遵循能力，

00:01:58这实际上意味着对于你以前使用过的提示词，可能会产生意想不到的结果，

00:02:01因为旧模型对指令的理解比较松散或会跳过部分内容，而 Opus 4.7 则

00:02:07非常专注于字面理解指令，所以你可能确实需要对提示词进行一些微调。

00:02:11接下来，它改进了多模态支持，因此它可以接受比旧模型高出三倍的

00:02:16高分辨率图像，这应该会让它更擅长处理电脑操作和

00:02:20数据提取等任务。它的内存使用也得到了改进，因此 Opus 4.7 应该更擅长

00:02:25利用基于文件系统的内存，它可以记住跨越长时间多会话工作的重要笔记，

00:02:30并利用这些笔记进入新任务，从而减少前期的上下文需求。所以也许这

00:02:34会帮我节省一些 Token，这在现在非常重要，因为下一个变化是关于分词器

00:02:39和思考。Opus 4.7 使用了更新的分词器，改进了模型处理文本的方式，

00:02:45但也意味着相同的输入提示词可能会多消耗高达 35% 的 Token，而且

00:02:49结合 Opus 4.7 在高努力水平（effort level）下思考更多这一事实，这个模型

00:02:54确实会消耗大量的 Token。更糟糕的是，现在还有一个新的“超高”

00:02:58努力水平，而且它实际上被设置为 Claude Code 的默认值，所以我强烈建议

00:03:02你去测试各种努力水平，找到最适合你的那一个，看看

00:03:05你是否可以在不察觉影响的情况下降低它。作为对比，新的

00:03:09“超高”努力水平使用的 Token 数量大约相当于 Opus 4.6 的“最高”努力水平，

00:03:14而 Opus 4.7 的“高”努力水平实际上以更少的 Token 消耗，

00:03:19在得分上超过了 Opus 4.6 的“最高”水平。所以如果你已经满足于之前的表现，

00:03:24我会建议使用那个图表进行对比，因为我知道对我来说，在大多数情况下

00:03:27我可能会改用“高”努力水平。在讲完新功能的简要总结后，我要

00:03:31耗尽我的额度来测试一下。我要检查的第一件事是，它的 UI 设计能力是否更强了，

00:03:35所以我给了它一个非常简单的提示词，让它创建一个仅包含 index.html 的咖啡馆网站，

00:03:40我在测试的所有模型上都使用了最高努力水平，所以我将在

00:03:43Opus 4.7、4.6、Gemini 3.1 和 GPT 5.4 上进行尝试。这是我从 Opus 4.7 得到的结果，

00:03:51我觉得它看起来很漂亮，有一种很好的咖啡馆氛围，使用了

00:03:55不错的字体，还从 Unsplash 抓取了图片。总的来说，我真的无可挑剔，

00:03:59这是一个相当简单的网站，有漂亮的菜单部分，所有内容都是响应式的，总的来说

00:04:04是的，我想说它看起来很棒。如果我们把它和 Opus 4.6 给我的结果进行对比，你可以看到

00:04:09它采用了略微不同的风格，但有类似的字体和类似的菜单部分，

00:04:12总的来说稍微逊色一点，我认为是因为它没有使用好看的

00:04:16背景，而且这个渐变色的切换也并不好看，但仍然

00:04:20没什么可抱怨的，我想说 Opus 4.7 只比它领先了一点点。另一方面，Gemini 3.1，

00:04:25我认为给了我最好的结果，至少这是我最喜欢的，所以请在

00:04:29下方的评论区告诉我你最喜欢哪一个。我真的很喜欢它的背景

00:04:33在滚动时保持不动，我觉得它在这个图片部分和“我们的故事”

00:04:36部分做得非常好，菜单看起来和其他的差不多，但同样，我认为布局

00:04:40很精致，页脚也是如此，所以我觉得 3.1 在这次比拼中赢了。然而，

00:04:45排在最后的一定是 GPT 5.4，它有一种强烈的 GPT 观感，

00:04:50它特别喜欢这种带有漂亮模糊效果的卡片，但在我看来，

00:04:55它并不是一个好的咖啡馆网站，它看起来就像我见过的所有其他 GPT 应用一样，

00:04:59所以 Opus 4.7 绝对擅长 UI，而且如果有更多方向性指导的话，它可能会处理得更好。

00:05:04目前在设计竞技场中，Opus 4.6 在网站设计方面实际上处于领先地位，

00:05:09所以我预计 4.7 会取代它的位置。显然那个测试非常简单，

00:05:13所以接下来我要给它们一个更高级的任务。你可以看到，在这里的 Claude Code 中，

00:05:17我要求 Opus 4.6 制作一个个人财务管理仪表盘，提供关于

00:05:21个人财务状况的详细概览，并附带了我在提示词中列出的一系列功能，

00:05:25而且我没有给出它应该使用什么技术栈的任何指示，它将

00:05:30自行选择这一切并从零开始。首先是 Opus 4.7 的结果，

00:05:34它在单次提示词下在大约 20 分钟内完成了这一切，我的第一反应就是

00:05:39哇，这看起来真的很棒，UI 非常简洁，有非常精美的图表，一切

00:05:44布局都很合理，使用了很好的配色方案。老实说，

00:05:48我自己也没什么可改进的了，它在 UI 方面做得非常出色，

00:05:53而且它还拥有我要求的所有独立页面。我们可以看到所有的账户，

00:05:57可以看到我们的交易记录和预算。我们目前实际上无法添加任何新预算，

00:06:02看来那不是个现有功能，目标页面（goals）也是如此。但我们确实能够

00:06:05在这里增加我们的目标值，数字确实会增加，而且它也确实更新了它构建的

00:06:10后端 API，同样的情况也适用于我们给别人汇款。所以如果

00:06:14我测试支付一下我的 Claude Code 订阅费用，这应该能发送成功，我

00:06:17可以看到它已经发出了，回到仪表盘，我的净资产已经随着那笔交易而更新，

00:06:22所以一切都在正常运行，而且它确实在后端使用了数据库。我们还看到

00:06:26它显示在我们的近期交易中。通读它们生成的代码，一切

00:06:30看起来都很好。它在前端使用了 React 和 Vite，和我

00:06:34会做的一样，它还使用了 React Router，也许我会用 TanStack，但这并不

00:06:38重要，它们都是非常好的选择。在所有这些中，你可以看到一切都

00:06:42布局整齐。我们有所有独立的 UI 组件。总的来说，前端做得相当不错。

00:06:46我会给它扣分的地方是在后端，因为我们正在使用

00:06:51Express 服务器。这倒也没什么错，但我可能会选择像

00:06:54Bun 或是 Hono 这样的，考虑到这个应用有多简单。而且它实际

00:06:59存储这些数据的方式全在内存中，所以如果我现在关闭后端服务并

00:07:04重新启动，它将从这个种子脚本（seed script）中加载数据，而这只是

00:07:08本地数组，它没有任何数据库来备份这些。接下来看 Opus 4.6 给我的结果，

00:07:13我得直说，Opus 4.7 在 UI 设计方面确实做得更好，

00:07:18这个 UI 总有些我不怎么喜欢的地方。我不知道是因为它的

00:07:21内边距（padding）太多了，还是因为它是浅色模式，而另一个是

00:07:24深色模式，总之我绝对更喜欢 Opus 4.7 的那个。总的来说，它有非常类似的

00:07:29组件，你可以看到我们有显示净资产的卡片，有净资产趋势图，

00:07:33近期交易和财务目标，我们也有独立的页面来跟踪这些。

00:07:38除了 UI 之外，我们还可以测试一些功能，所以我在这里添加一笔新交易，

00:07:42这笔交易是 150 美元的杂货支出，看起来我们得到了更新，

00:07:46回到仪表盘，我的净资产也更新了，所以看起来这部分工作正常。在一个地方

00:07:50Opus 4.6 可能实际上在单次提示词中赢过了 Opus 4.7，那就是我可以在这里添加账户，

00:07:54我刚刚添加了这个账户，目标和预算也是一样，

00:07:58我也添加了教育预算。所以看起来 Opus 4.6 加入了更多功能，

00:08:03但老实说，我直接让 Opus 4.7 帮我加上它们就行了。显然通常情况下你不会只用单次提示词。

00:08:07看看代码，Opus 4.6 走了一条类似的路线，使用 Vite + React 应用，

00:08:12但我刚注意到一件有趣的事，这个用的是 React 19 和 React Router

00:08:16DOM 7，而 Opus 4.7 用的是 React 18 还有 React Router 6，尽管我

00:08:20相当肯定 Opus 4.7 的知识截止日期更晚。除此之外，Opus 4.6 的另一个

00:08:27优势是它在后端确实使用了数据库，所以它会持久化存储。你可以看到

00:08:32它在这里使用了一个 SQLite 数据库，我们确实看到了一些数据库文件。所以这绝对是个优势，

00:08:36但它输在整个项目似乎都用了 JavaScript，而 Opus 4.7 正确地

00:08:40使用了 TypeScript。接下来我们看看 GPT 5.4 的结果，老实说我

00:08:45完全不知道它在这里搞什么，这不是一个可用的 UI，在我看来它看起来非常糟糕，

00:08:50所有东西都非常拥挤，我不喜欢它的字体，而且，是的，我不打算

00:08:55在这个上面花太多时间。这看起来比 Claude 的差远了。不过我可以确认，

00:08:59当我们加钱的时候它是起作用的，除了它还会刷新整个页面。

00:09:03代码方面也好不到哪去，看来 GPT 5.4 根本不想为此

00:09:07启动一个完整的项目，所以它只用了一个非常简单的方法，我们只有

00:09:11index.html、JavaScript 文件和样式表。至于数据库，那也只是

00:09:14一个单一的 JavaScript 脚本。它实际上没有使用数据库，而是像

00:09:19Opus 4.7 一样全在内存里运行。同样，它也全程使用了 JavaScript 而不是

00:09:23TypeScript。至于 Gemini 3.1，说实话，我在尝试运行这个

00:09:28应用时遇到了很多问题，实际上还不得不发送多个后续提示词，仅仅是因为我很好奇

00:09:32它到底长什么样。它看起来和 Opus 4.6 的那个非常像。我不

00:09:36知道他们在处理 UI 时是不是用了相同的训练数据，但它们非常相似，

00:09:41而且这些功能没一个能用，这些标签页也都点不了。Gemini 3.1

00:09:45可能做得最差，虽然 5.4 也不相上下，主要是因为

00:09:50它创建应用的方式。我要说 Gemini 3.1 确实尝试采用了一种不错的方案，它

00:09:54实际上选择了 Next.js 而不是 React Router，这是一个非常好的主意，因为这意味着你

00:09:59可以使用 API 路由，而且这是一个非常简单的应用，所以我不反对这么做。

00:10:02但我得说它用了 Prisma，而我本更倾向于像 Drizzle 这样的。

00:10:07这些测试老实说让我感到惊讶，因为到目前为止我一直是一个重度的 Codex 用户，

00:10:10我已经弃用了 Claude Code，但 Opus 4.7 可能会把我拉回来，因为它

00:10:15有非常棒的 UI 设计，而且应用的大部分功能似乎都能用。显然这最终

00:10:19取决于提示词的质量，而我给出的关于技术栈的提示词相当模糊，我通常会

00:10:24提示我想要的确切东西。但即便如此，我对我们得到的结果

00:10:28依然印象深刻。我很想知道你的想法，你目前首选的模型是什么？请在

00:10:32下方的评论区告诉我。在评论的同时请订阅，一如既往，我们下期

00:10:36再见。

Key Takeaway

Opus 4.7 在 UI 设计、指令遵循和多模态能力上实现了显著的性能跨越，但用户需通过调整努力水平来应对因新分词器导致的 35% 额外 Token 成本。

Highlights

Opus 4.7 模型支持的分词器更新导致相同提示词的 Token 消耗量增加高达 35%

该模型的多模态处理能力获得显著提升，可接受的高分辨率图像数量达到旧版本的三倍

在 SWE Bench Pro 基准测试中，Opus 4.7 的性能表现比 Opus 4.6 提高了 10%

Opus 4.7 的高努力水平模式在消耗更少 Token 的情况下，基准测试得分超过了 Opus 4.6 的最高水平

Opus 4.7 在前端开发任务中默认使用 TypeScript、React 18 和 Vite，并能生成比 GPT 5.4 更具审美感的 UI 界面

新的超高努力水平已成为 Claude Code 的默认设置，其 Token 使用量与 Opus 4.6 的最高水平相当

Timeline

Opus 4.7 核心改进与 Token 消耗成本

Opus 4.7 提升了编程、视觉处理以及 UI 设计的创意表现
更新的分词器导致相同输入提示词的 Token 消耗增加 35%
该模型正在测试新的网络安全防护措施以拦截高风险请求

Opus 4.7 在保持原有成本结构的同时，通过分词器的变化调整了处理逻辑。虽然这带来了更强的自我验证和 UI 制作能力，但也意味着思考过程会占用更多资源。目前的基准测试数据中包含了更强大的 Mythos 模型，但该模型由于安全防护测试尚未公开发布。

基准测试表现与多模态功能增强

SWE Bench Pro 基准测试显示性能比 4.6 版本提升了 10%
高分辨率图像的处理上限提升至旧模型的三倍
文件系统内存的改进允许模型跨会话记住重要笔记并减少重复上下文需求

Opus 4.7 在大多数基准测试中都有进步，但在长文本“大海捞针”测试中表现有所下滑。指令遵循能力变得更加严格，这意味着模型会字面理解所有指令，而不再像旧版本那样跳过部分内容。多模态性能的增强使其更擅长电脑操作模拟和复杂数据提取任务。

多模型 UI 设计能力实测对比

Opus 4.7 生成的咖啡馆网站具备响应式布局并自动调用了 Unsplash 图片资源
GPT 5.4 在 UI 设计中表现出严重的模板化倾向且缺乏审美区分度
Gemini 3.1 在简单网页布局和背景滚动效果处理上表现最出色

通过对咖啡馆网站的简单提示词测试，各模型的审美差异显现。Opus 4.7 相比 4.6 在氛围感营造和字体选择上更胜一筹。GPT 5.4 生成的结果被评价为过于死板，类似于标准的 AI 生成应用，缺乏特定行业的视觉特征。

全栈应用开发深度测试与代码架构

Opus 4.7 在 20 分钟内完成了包含后端 API 的个人财务仪表盘开发
Opus 4.6 实现了 SQLite 数据库持久化存储，而 4.7 仅使用了内存存储
Gemini 3.1 选择了 Next.js 和 Prisma 架构，但在功能实现完整度上表现最差

在复杂的个人财务管理系统测试中，Opus 4.7 凭借简洁的深色模式 UI 和 TypeScript 的正确应用脱颖而出。尽管 4.6 版本在单次提示词下完成了更完整的数据持久化功能，但 4.7 的 UI 交互体验更接近现代化标准。GPT 5.4 未能启动完整项目，仅提供了基础的 HTML 和 JavaScript 文件，无法满足复杂应用的需求。

Community Posts

抑制 Opus 4.7 额外 Token 消耗的提示词设计法

makedreamقبل ٥ أيام4010

Write about this video