Claude Mythos 终于来了 (Fable 5)

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Claude Mythos 终于来了。

00:00:01Anthropic 刚刚发布了一款名为 Fable 5 的新模型，

00:00:03它属于 Mythos 系列模型，

00:00:05只是内置了大量的安全防护措施，

00:00:07但它的性能超越了他们发布过的任何模型，

00:00:09甚至可能超越了所有人。

00:00:11它在几乎每一个基准测试中都处于顶尖水平。

00:00:13当然，这肯定会让你付出代价，

00:00:16而且他们在定价方面

00:00:17做了一些有点意思的调整，

00:00:18我不认为会有太多人对此感到高兴。

00:00:25通常情况下，我不喜欢花太长时间

00:00:27讨论基准测试，但这张表格实在太疯狂了。

00:00:30这个模型在某些基准测试上的

00:00:31飞跃式进步，

00:00:32以及它几乎领先于每一个项目的事实。

00:00:35你可以看到它在 SWE Bench Pro 的

00:00:37Argentic Coding 上有 10% 的提升，

00:00:39而且它比 GPT 5.5 基本领先了 20%，

00:00:42并且在 Frontier Code 基准测试上也取得了类似的飞跃。

00:00:44Frontier Code 实际上是 Cognition 推出的一个新基准测试，

00:00:47就是 Devin 背后的那帮人，

00:00:48它本质上测试的是

00:00:49该模型产生的代码是否真的被合并了。

00:00:52在这张图表上，你可以看到 Fable 5 领先于

00:00:54其他所有模型，

00:00:55即使在中等推理努力下也是如此，

00:00:57但我同时也认为你可以看出这个模型

00:00:58会非常昂贵。

00:01:00它在计算机使用方面也稍微好一点，

00:01:02并不是一个巨大的飞跃，

00:01:03底部的 Terminal Bench 也是如此，

00:01:05但正如你所看到的，

00:01:06它在几乎每一个类别中都是领导者。

00:01:09不过最重要的事情之一，

00:01:10就是正变得越来越相关的

00:01:11长时间运行的任务。

00:01:12Fable 5 显然比任何其他模型

00:01:14能工作得更久，

00:01:15他们让 Stripe 对此进行了测试，

00:01:17显然它在一天之内就完成了一个

00:01:185000 万行 Ruby 代码库的

00:01:21全库迁移。

00:01:22这可能得益于它在记忆力

00:01:24和长上下文方面也变得更好了。

00:01:26显然它可以保持专注在长时间任务的

00:01:28数百万个 token 之间，

00:01:29并且它通过使用自己的笔记

00:01:31来改进自己的输出。

00:01:32现在，除了编程之外，

00:01:33它的视觉能力也非常棒。

00:01:36显然，它现在可以用一个最小化的纯视觉架构

00:01:37通关《宝可梦：火红》了，

00:01:39而以前他们不得不给这个模型提供额外的工具，

00:01:42而且还只是勉强通关，

00:01:43但现在它完全没有问题。

00:01:45它显然还能轻而易举地仅从截图

00:01:47就还原一个网站。

00:01:48我实际上用 Linear 网站测试了这一点，

00:01:50说实话，连我自己都有点困惑

00:01:52哪个是哪个，

00:01:53但右边的那个

00:01:55就是 Fable 5 仅根据

00:01:56Linear 网站的截图生成的。

00:01:58它没有使用网络搜索之类的东西，

00:02:00我只是给了它这个网页的全屏截图，

00:02:02我觉得它做得非常出色。

00:02:05所有的截图，所有的一切，

00:02:06都是用代码生成的，

00:02:08你可以看到它做得非常、非常好。

00:02:10像 SVG 动画这种东西

00:02:12可能还不够完美，

00:02:14但总的来说，我对它还原这个网站的方式

00:02:15还是挺满意的，

00:02:18它基本上搞定了每一个部分，

00:02:20或者至少让我达到了一个

00:02:21可以进行后续迭代

00:02:22并得到我想要的效果的程度。

00:02:24趁现在还没走，

00:02:24我还决定测试一下这些模型

00:02:25如何在一个空文件夹中一次性

00:02:27为财务仪表板应用程序

00:02:28构建前端和后端，

00:02:31这就是 Fable 5 给我的结果。

00:02:33我测试了所有东西，

00:02:34一切都能正常工作，

00:02:35它能与 API 通信，

00:02:37而且总的来说，设计看起来确实很不错。

00:02:39它真的很实用，

00:02:40但这就是那种

00:02:41Claude 模型最近似乎都在呈现的美学风格。

00:02:43我们可以在 Opus 4.8 给我的结果中

00:02:44也看到这一点。

00:02:45再说一次，我认为这个网站看起来确实很好，

00:02:47坦白说，

00:02:48我觉得这看起来比 Fable 5 的版本更好，

00:02:50但它同样带有那种

00:02:51Claude 被训练出来的美学风格，

00:02:53但这也是我的错。

00:02:54我并没有提示它采用任何特定的设计。

00:02:56我相信如果我做了，

00:02:57它会做得很好的。

00:02:58如果我们将此与 GPT 5.5 给我的结果进行比较，

00:03:00你会发现，

00:03:01简直没法比。

00:03:03这是基于单个提示完成的，

00:03:04完全相同的提示，

00:03:05在我看来，它们在 UI 设计方面真的差得太远了。

00:03:07我真的很希望下一个 GPT 模型

00:03:08能在这个问题上做出一些改进。

00:03:10Fable 5 在这次测试中确实给了我惊喜，

00:03:11因为它是最快的。

00:03:13它花了大约八分钟

00:03:14就完成了那个财务仪表板，

00:03:15而 Opus 花了 12 分钟，

00:03:17GPT 5.5 则花了 15 分钟

00:03:18来制造那个怪物。

00:03:20除了我自己的演示，

00:03:22我最喜欢的演示之一是 Anthropic

00:03:23展示 Fable 5 在一个

00:03:24Fable 5 自己制作的基于浏览器的 CAD 编辑器中

00:03:27构建 3D 可打印 CAD 模型。

00:03:28就像，制作你自己的小型软件

00:03:31现在变得太容易实现了，

00:03:32药物方面也是如此。

00:03:34显然这个模型在药物设计方面非常出色，

00:03:36不过你可能不需要知道那个，

00:03:38是的，它确实有安全防护，

00:03:40基本上任何涉及网络安全的东西

00:03:43都是如此，

00:03:44除非你是那个特殊计划中的企业用户。

00:03:45Fable 5 显然会非常谨慎，

00:03:46这意味着它会有

00:03:48不少的误报，

00:03:51据称少于 5% 的消息，

00:03:51但对我来说这似乎仍然很高，

00:03:53而且我以前就遇到过 Opus 的安全防护，

00:03:55所以这一个可能会更糟。

00:03:57而且我之前确实遇到过 Opus 的安全限制，

00:03:59所以这次的情况可能会更糟糕。

00:04:01而是会尝试先将你的请求

00:04:02发送给 Opus 4.8，

00:04:04看看该模型是否可以安全地完成这项工作，

00:04:05但同样，我之前遇到过这些防护，

00:04:06所以我不太确定这能有多大用。

00:04:09这个基准测试实际上展示了

00:04:11这些安全防护可能有多么疯狂。

00:04:13在网络安全评估中测试它，

00:04:14带有安全防护的 Fable 5

00:04:17通过了零个测试。

00:04:19它直接拒绝做任何事情，

00:04:20就像我之前说的，

00:04:22如果 Opus 有时会因为

00:04:24在这个测试上 88% 的通过率而拒绝我，

00:04:25我看到很多人

00:04:27在使用 Mythos 时遇到防护问题。

00:04:29最后一个需要讨论的问题

00:04:30就是定价，

00:04:32这是事情变得有点意思的地方。

00:04:33输入 token 每百万个 10 美元，

00:04:34输出 token 每百万个 50 美元，

00:04:37我觉得这其实还行，

00:04:39不是我们见过最差的，

00:04:41其实我觉得这价格还行，

00:04:42算不上最差的，

00:04:44Fable 5 从今天起

00:04:45在 Pro、Max、Team 和企业计划中可用，

00:04:47但在几周后的 6 月 23 日，

00:04:48他们基本上会取消 Plus 用户的权限，

00:04:50把这些模型拿走，

00:04:52在此之后，

00:04:53它将需要使用积分。

00:04:54然后在此之后，

00:04:56他们说会在某个不确定的日期

00:04:56将这些模型重新加回这些计划中。

00:04:58这似乎是一种奇怪的做法，

00:04:59我想他们的目标

00:05:01是让你沉迷于这些模型，

00:05:02然后从你那里拿走它们，

00:05:04让你花更多的钱在上面，

00:05:05我认为这预示着

00:05:06运行这些模型有多么昂贵。

00:05:08哦，而且它的额度消耗速度

00:05:09比 Opus 快两倍，

00:05:11所以除非你是亿万富翁，

00:05:12否则我可能不会把这个模型

00:05:13设置为你的首选模型。

00:05:14最后一个我认为值得注意的脚注

00:05:16是他们新的数据保留政策。

00:05:17为了使用这些模型，

00:05:18他们实际上要求

00:05:19对第一方和第三方工具上的所有流量

00:05:21进行 30 天的保留，

00:05:21而且据称不会对这些数据进行训练，

00:05:23这只是为了尝试

00:05:25阻止安全威胁。

00:05:25所以，这就是结论，

00:05:27Mythos 终于来了。

00:05:28你对这次模型发布

00:05:30以及软件的未来有什么看法？

00:05:31请在下方的评论区告诉我。

00:05:33在看评论的时候，记得订阅，

00:05:34一如既往，

00:05:35下一期视频再见。

00:05:36拜拜。

00:05:37Claude Mythos 终于来了。

00:05:39Anthropic 刚刚发布了一款名为 Fable 5 的新模型，

00:05:40它属于 Mythos 系列模型，

00:05:41只是内置了大量的安全防护措施，

00:05:42但它的性能超越了他们发布过的任何模型，

00:05:43甚至可能超越了所有人。

00:05:44它在几乎每一个基准测试中都处于顶尖水平。

Key Takeaway

作为 Mythos 系列的最新模型，Fable 5 在编码和视觉任务上树立了新的性能标准，但其严格的安全防护机制、高昂的运行成本及即将改变的访问权限模式值得关注。

Highlights

Fable 5 模型在 SWE Bench Pro 的代码任务上表现出 10% 的性能提升，较 GPT 5.5 领先约 20%。
该模型能够在一天内完成 5000 万行 Ruby 代码库的全库迁移，且支持长上下文任务处理。
Fable 5 具备纯视觉架构，可独立通关《宝可梦：火红》并仅通过网页截图还原网站布局。
构建财务仪表板应用时，Fable 5 用时 8 分钟，Opus 用时 12 分钟，GPT 5.5 用时 15 分钟。
Fable 5 的定价设定为输入 token 每百万个 10 美元，输出 token 每百万个 50 美元。
该模型要求对所有流量进行 30 天数据保留，以防范网络安全威胁。
6 月 23 日起，Plus 用户将暂时失去使用 Fable 5 的权限，后续该模型将通过积分形式使用。

Timeline

Fable 5 模型性能与基准测试

Fable 5 在几乎所有核心基准测试中均处于行业领先地位。
SWE Bench Pro 和 Frontier Code 测试显示该模型较竞争对手有显著的效率领先。
该模型在代码生成与合并能力上表现出明显的性能飞跃。

Anthropic 发布的 Mythos 系列新模型 Fable 5 在多项权威评估中超越了现有模型。在涉及代码合并的 Frontier Code 测试中，其表现尤为突出，即使在中等推理努力下也能保持领先。该模型虽然内置了大量的安全防护，但依然在计算机使用及推理任务上实现了显著的进步。

长任务处理与视觉架构能力

Fable 5 在长达数百万 token 的任务中能保持高度专注。
Stripe 的测试证明该模型能完成 5000 万行代码的迁移工作。
纯视觉架构支持模型直接通过截图复刻网站布局。

长上下文处理能力是 Fable 5 的一大亮点，它能通过参考自身笔记来优化输出。在视觉任务中，该模型摆脱了对外部工具的依赖，仅靠截图即可实现从界面还原到《宝可梦：火红》游戏通关的能力。在测试中，其生成的 UI 界面精确度极高，能够为后续迭代提供高质量的代码基础。

应用开发效率与设计表现

Fable 5 构建财务仪表板应用仅需 8 分钟，速度远快于竞品。
模型生成的 UI 设计具有明显的 Claude 风格美学。
浏览器 CAD 编辑器展示了其在小型软件构建上的便捷性。

在前端与后端的全栈构建测试中，Fable 5 展现了极高的响应速度，在 8 分钟内完成了完整应用的搭建，不仅设计美观，且 API 通信功能正常。相比之下，其他模型在相同任务中耗时更长且 UI 设计质量有所欠缺。该模型在 CAD 建模等垂直领域的应用展示了其工具属性的增强。

安全策略、定价及访问限制

严格的安全防护措施导致模型在网络安全测试中通过率为零。
输入输出 token 的定价分别为每百万 10 美元和 50 美元。
6 月 23 日后 Plus 用户将无法直接使用该模型，后续改用积分制。

尽管性能强大，Fable 5 的安全防护过于敏感，常导致任务被拒绝，存在较高误报率。Anthropic 对该模型采取了新的数据保留政策，要求保留 30 天流量数据。定价策略与权限调整暗示了该模型的运行成本极高，且模型额度消耗速度是 Opus 的两倍。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video