Claude Mythos 终于来了 (Fable 5)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Claude Mythos 终于来了。
00:00:01Anthropic 刚刚发布了一款名为 Fable 5 的新模型,
00:00:03它属于 Mythos 系列模型,
00:00:05只是内置了大量的安全防护措施,
00:00:07但它的性能超越了他们发布过的任何模型,
00:00:09甚至可能超越了所有人。
00:00:11它在几乎每一个基准测试中都处于顶尖水平。
00:00:13当然,这肯定会让你付出代价,
00:00:16而且他们在定价方面
00:00:17做了一些有点意思的调整,
00:00:18我不认为会有太多人对此感到高兴。
00:00:25通常情况下,我不喜欢花太长时间
00:00:27讨论基准测试,但这张表格实在太疯狂了。
00:00:30这个模型在某些基准测试上的
00:00:31飞跃式进步,
00:00:32以及它几乎领先于每一个项目的事实。
00:00:35你可以看到它在 SWE Bench Pro 的
00:00:37Argentic Coding 上有 10% 的提升,
00:00:39而且它比 GPT 5.5 基本领先了 20%,
00:00:42并且在 Frontier Code 基准测试上也取得了类似的飞跃。
00:00:44Frontier Code 实际上是 Cognition 推出的一个新基准测试,
00:00:47就是 Devin 背后的那帮人,
00:00:48它本质上测试的是
00:00:49该模型产生的代码是否真的被合并了。
00:00:52在这张图表上,你可以看到 Fable 5 领先于
00:00:54其他所有模型,
00:00:55即使在中等推理努力下也是如此,
00:00:57但我同时也认为你可以看出这个模型
00:00:58会非常昂贵。
00:01:00它在计算机使用方面也稍微好一点,
00:01:02并不是一个巨大的飞跃,
00:01:03底部的 Terminal Bench 也是如此,
00:01:05但正如你所看到的,
00:01:06它在几乎每一个类别中都是领导者。
00:01:09不过最重要的事情之一,
00:01:10就是正变得越来越相关的
00:01:11长时间运行的任务。
00:01:12Fable 5 显然比任何其他模型
00:01:14能工作得更久,
00:01:15他们让 Stripe 对此进行了测试,
00:01:17显然它在一天之内就完成了一个
00:01:185000 万行 Ruby 代码库的
00:01:21全库迁移。
00:01:22这可能得益于它在记忆力
00:01:24和长上下文方面也变得更好了。
00:01:26显然它可以保持专注在长时间任务的
00:01:28数百万个 token 之间,
00:01:29并且它通过使用自己的笔记
00:01:31来改进自己的输出。
00:01:32现在,除了编程之外,
00:01:33它的视觉能力也非常棒。
00:01:36显然,它现在可以用一个最小化的纯视觉架构
00:01:37通关《宝可梦:火红》了,
00:01:39而以前他们不得不给这个模型提供额外的工具,
00:01:42而且还只是勉强通关,
00:01:43但现在它完全没有问题。
00:01:45它显然还能轻而易举地仅从截图
00:01:47就还原一个网站。
00:01:48我实际上用 Linear 网站测试了这一点,
00:01:50说实话,连我自己都有点困惑
00:01:52哪个是哪个,
00:01:53但右边的那个
00:01:55就是 Fable 5 仅根据
00:01:56Linear 网站的截图生成的。
00:01:58它没有使用网络搜索之类的东西,
00:02:00我只是给了它这个网页的全屏截图,
00:02:02我觉得它做得非常出色。
00:02:05所有的截图,所有的一切,
00:02:06都是用代码生成的,
00:02:08你可以看到它做得非常、非常好。
00:02:10像 SVG 动画这种东西
00:02:12可能还不够完美,
00:02:14但总的来说,我对它还原这个网站的方式
00:02:15还是挺满意的,
00:02:18它基本上搞定了每一个部分,
00:02:20或者至少让我达到了一个
00:02:21可以进行后续迭代
00:02:22并得到我想要的效果的程度。
00:02:24趁现在还没走,
00:02:24我还决定测试一下这些模型
00:02:25如何在一个空文件夹中一次性
00:02:27为财务仪表板应用程序
00:02:28构建前端和后端,
00:02:31这就是 Fable 5 给我的结果。
00:02:33我测试了所有东西,
00:02:34一切都能正常工作,
00:02:35它能与 API 通信,
00:02:37而且总的来说,设计看起来确实很不错。
00:02:39它真的很实用,
00:02:40但这就是那种
00:02:41Claude 模型最近似乎都在呈现的美学风格。
00:02:43我们可以在 Opus 4.8 给我的结果中
00:02:44也看到这一点。
00:02:45再说一次,我认为这个网站看起来确实很好,
00:02:47坦白说,
00:02:48我觉得这看起来比 Fable 5 的版本更好,
00:02:50但它同样带有那种
00:02:51Claude 被训练出来的美学风格,
00:02:53但这也是我的错。
00:02:54我并没有提示它采用任何特定的设计。
00:02:56我相信如果我做了,
00:02:57它会做得很好的。
00:02:58如果我们将此与 GPT 5.5 给我的结果进行比较,
00:03:00你会发现,
00:03:01简直没法比。
00:03:03这是基于单个提示完成的,
00:03:04完全相同的提示,
00:03:05在我看来,它们在 UI 设计方面真的差得太远了。
00:03:07我真的很希望下一个 GPT 模型
00:03:08能在这个问题上做出一些改进。
00:03:10Fable 5 在这次测试中确实给了我惊喜,
00:03:11因为它是最快的。
00:03:13它花了大约八分钟
00:03:14就完成了那个财务仪表板,
00:03:15而 Opus 花了 12 分钟,
00:03:17GPT 5.5 则花了 15 分钟
00:03:18来制造那个怪物。
00:03:20除了我自己的演示,
00:03:22我最喜欢的演示之一是 Anthropic
00:03:23展示 Fable 5 在一个
00:03:24Fable 5 自己制作的基于浏览器的 CAD 编辑器中
00:03:27构建 3D 可打印 CAD 模型。
00:03:28就像,制作你自己的小型软件
00:03:31现在变得太容易实现了,
00:03:32药物方面也是如此。
00:03:34显然这个模型在药物设计方面非常出色,
00:03:36不过你可能不需要知道那个,
00:03:38是的,它确实有安全防护,
00:03:40基本上任何涉及网络安全的东西
00:03:43都是如此,
00:03:44除非你是那个特殊计划中的企业用户。
00:03:45Fable 5 显然会非常谨慎,
00:03:46这意味着它会有
00:03:48不少的误报,
00:03:51据称少于 5% 的消息,
00:03:51但对我来说这似乎仍然很高,
00:03:53而且我以前就遇到过 Opus 的安全防护,
00:03:55所以这一个可能会更糟。
00:03:57而且我之前确实遇到过 Opus 的安全限制,
00:03:59所以这次的情况可能会更糟糕。
00:04:01而是会尝试先将你的请求
00:04:02发送给 Opus 4.8,
00:04:04看看该模型是否可以安全地完成这项工作,
00:04:05但同样,我之前遇到过这些防护,
00:04:06所以我不太确定这能有多大用。
00:04:09这个基准测试实际上展示了
00:04:11这些安全防护可能有多么疯狂。
00:04:13在网络安全评估中测试它,
00:04:14带有安全防护的 Fable 5
00:04:17通过了零个测试。
00:04:19它直接拒绝做任何事情,
00:04:20就像我之前说的,
00:04:22如果 Opus 有时会因为
00:04:24在这个测试上 88% 的通过率而拒绝我,
00:04:25我看到很多人
00:04:27在使用 Mythos 时遇到防护问题。
00:04:29最后一个需要讨论的问题
00:04:30就是定价,
00:04:32这是事情变得有点意思的地方。
00:04:33输入 token 每百万个 10 美元,
00:04:34输出 token 每百万个 50 美元,
00:04:37我觉得这其实还行,
00:04:39不是我们见过最差的,
00:04:41其实我觉得这价格还行,
00:04:42算不上最差的,
00:04:44Fable 5 从今天起
00:04:45在 Pro、Max、Team 和企业计划中可用,
00:04:47但在几周后的 6 月 23 日,
00:04:48他们基本上会取消 Plus 用户的权限,
00:04:50把这些模型拿走,
00:04:52在此之后,
00:04:53它将需要使用积分。
00:04:54然后在此之后,
00:04:56他们说会在某个不确定的日期
00:04:56将这些模型重新加回这些计划中。
00:04:58这似乎是一种奇怪的做法,
00:04:59我想他们的目标
00:05:01是让你沉迷于这些模型,
00:05:02然后从你那里拿走它们,
00:05:04让你花更多的钱在上面,
00:05:05我认为这预示着
00:05:06运行这些模型有多么昂贵。
00:05:08哦,而且它的额度消耗速度
00:05:09比 Opus 快两倍,
00:05:11所以除非你是亿万富翁,
00:05:12否则我可能不会把这个模型
00:05:13设置为你的首选模型。
00:05:14最后一个我认为值得注意的脚注
00:05:16是他们新的数据保留政策。
00:05:17为了使用这些模型,
00:05:18他们实际上要求
00:05:19对第一方和第三方工具上的所有流量
00:05:21进行 30 天的保留,
00:05:21而且据称不会对这些数据进行训练,
00:05:23这只是为了尝试
00:05:25阻止安全威胁。
00:05:25所以,这就是结论,
00:05:27Mythos 终于来了。
00:05:28你对这次模型发布
00:05:30以及软件的未来有什么看法?
00:05:31请在下方的评论区告诉我。
00:05:33在看评论的时候,记得订阅,
00:05:34一如既往,
00:05:35下一期视频再见。
00:05:36拜拜。
00:05:37Claude Mythos 终于来了。
00:05:39Anthropic 刚刚发布了一款名为 Fable 5 的新模型,
00:05:40它属于 Mythos 系列模型,
00:05:41只是内置了大量的安全防护措施,
00:05:42但它的性能超越了他们发布过的任何模型,
00:05:43甚至可能超越了所有人。
00:05:44它在几乎每一个基准测试中都处于顶尖水平。

Key Takeaway

作为 Mythos 系列的最新模型,Fable 5 在编码和视觉任务上树立了新的性能标准,但其严格的安全防护机制、高昂的运行成本及即将改变的访问权限模式值得关注。

Highlights

  • Fable 5 模型在 SWE Bench Pro 的代码任务上表现出 10% 的性能提升,较 GPT 5.5 领先约 20%。

  • 该模型能够在一天内完成 5000 万行 Ruby 代码库的全库迁移,且支持长上下文任务处理。

  • Fable 5 具备纯视觉架构,可独立通关《宝可梦:火红》并仅通过网页截图还原网站布局。

  • 构建财务仪表板应用时,Fable 5 用时 8 分钟,Opus 用时 12 分钟,GPT 5.5 用时 15 分钟。

  • Fable 5 的定价设定为输入 token 每百万个 10 美元,输出 token 每百万个 50 美元。

  • 该模型要求对所有流量进行 30 天数据保留,以防范网络安全威胁。

  • 6 月 23 日起,Plus 用户将暂时失去使用 Fable 5 的权限,后续该模型将通过积分形式使用。

Timeline

Fable 5 模型性能与基准测试

  • Fable 5 在几乎所有核心基准测试中均处于行业领先地位。
  • SWE Bench Pro 和 Frontier Code 测试显示该模型较竞争对手有显著的效率领先。
  • 该模型在代码生成与合并能力上表现出明显的性能飞跃。

Anthropic 发布的 Mythos 系列新模型 Fable 5 在多项权威评估中超越了现有模型。在涉及代码合并的 Frontier Code 测试中,其表现尤为突出,即使在中等推理努力下也能保持领先。该模型虽然内置了大量的安全防护,但依然在计算机使用及推理任务上实现了显著的进步。

长任务处理与视觉架构能力

  • Fable 5 在长达数百万 token 的任务中能保持高度专注。
  • Stripe 的测试证明该模型能完成 5000 万行代码的迁移工作。
  • 纯视觉架构支持模型直接通过截图复刻网站布局。

长上下文处理能力是 Fable 5 的一大亮点,它能通过参考自身笔记来优化输出。在视觉任务中,该模型摆脱了对外部工具的依赖,仅靠截图即可实现从界面还原到《宝可梦:火红》游戏通关的能力。在测试中,其生成的 UI 界面精确度极高,能够为后续迭代提供高质量的代码基础。

应用开发效率与设计表现

  • Fable 5 构建财务仪表板应用仅需 8 分钟,速度远快于竞品。
  • 模型生成的 UI 设计具有明显的 Claude 风格美学。
  • 浏览器 CAD 编辑器展示了其在小型软件构建上的便捷性。

在前端与后端的全栈构建测试中,Fable 5 展现了极高的响应速度,在 8 分钟内完成了完整应用的搭建,不仅设计美观,且 API 通信功能正常。相比之下,其他模型在相同任务中耗时更长且 UI 设计质量有所欠缺。该模型在 CAD 建模等垂直领域的应用展示了其工具属性的增强。

安全策略、定价及访问限制

  • 严格的安全防护措施导致模型在网络安全测试中通过率为零。
  • 输入输出 token 的定价分别为每百万 10 美元和 50 美元。
  • 6 月 23 日后 Plus 用户将无法直接使用该模型,后续改用积分制。

尽管性能强大,Fable 5 的安全防护过于敏感,常导致任务被拒绝,存在较高误报率。Anthropic 对该模型采取了新的数据保留政策,要求保留 30 天流量数据。定价策略与权限调整暗示了该模型的运行成本极高,且模型额度消耗速度是 Opus 的两倍。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video