Transcript
00:00:00Claude Mythos 终于来了。
00:00:01Anthropic 刚刚发布了一款名为 Fable 5 的新模型,
00:00:03它属于 Mythos 系列模型,
00:00:05只是内置了大量的安全防护措施,
00:00:07但它的性能超越了他们发布过的任何模型,
00:00:09甚至可能超越了所有人。
00:00:11它在几乎每一个基准测试中都处于顶尖水平。
00:00:13当然,这肯定会让你付出代价,
00:00:16而且他们在定价方面
00:00:17做了一些有点意思的调整,
00:00:18我不认为会有太多人对此感到高兴。
00:00:25通常情况下,我不喜欢花太长时间
00:00:27讨论基准测试,但这张表格实在太疯狂了。
00:00:30这个模型在某些基准测试上的
00:00:31飞跃式进步,
00:00:32以及它几乎领先于每一个项目的事实。
00:00:35你可以看到它在 SWE Bench Pro 的
00:00:37Argentic Coding 上有 10% 的提升,
00:00:39而且它比 GPT 5.5 基本领先了 20%,
00:00:42并且在 Frontier Code 基准测试上也取得了类似的飞跃。
00:00:44Frontier Code 实际上是 Cognition 推出的一个新基准测试,
00:00:47就是 Devin 背后的那帮人,
00:00:48它本质上测试的是
00:00:49该模型产生的代码是否真的被合并了。
00:00:52在这张图表上,你可以看到 Fable 5 领先于
00:00:54其他所有模型,
00:00:55即使在中等推理努力下也是如此,
00:00:57但我同时也认为你可以看出这个模型
00:00:58会非常昂贵。
00:01:00它在计算机使用方面也稍微好一点,
00:01:02并不是一个巨大的飞跃,
00:01:03底部的 Terminal Bench 也是如此,
00:01:05但正如你所看到的,
00:01:06它在几乎每一个类别中都是领导者。
00:01:09不过最重要的事情之一,
00:01:10就是正变得越来越相关的
00:01:11长时间运行的任务。
00:01:12Fable 5 显然比任何其他模型
00:01:14能工作得更久,
00:01:15他们让 Stripe 对此进行了测试,
00:01:17显然它在一天之内就完成了一个
00:01:185000 万行 Ruby 代码库的
00:01:21全库迁移。
00:01:22这可能得益于它在记忆力
00:01:24和长上下文方面也变得更好了。
00:01:26显然它可以保持专注在长时间任务的
00:01:28数百万个 token 之间,
00:01:29并且它通过使用自己的笔记
00:01:31来改进自己的输出。
00:01:32现在,除了编程之外,
00:01:33它的视觉能力也非常棒。
00:01:36显然,它现在可以用一个最小化的纯视觉架构
00:01:37通关《宝可梦:火红》了,
00:01:39而以前他们不得不给这个模型提供额外的工具,
00:01:42而且还只是勉强通关,
00:01:43但现在它完全没有问题。
00:01:45它显然还能轻而易举地仅从截图
00:01:47就还原一个网站。
00:01:48我实际上用 Linear 网站测试了这一点,
00:01:50说实话,连我自己都有点困惑
00:01:52哪个是哪个,
00:01:53但右边的那个
00:01:55就是 Fable 5 仅根据
00:01:56Linear 网站的截图生成的。
00:01:58它没有使用网络搜索之类的东西,
00:02:00我只是给了它这个网页的全屏截图,
00:02:02我觉得它做得非常出色。
00:02:05所有的截图,所有的一切,
00:02:06都是用代码生成的,
00:02:08你可以看到它做得非常、非常好。
00:02:10像 SVG 动画这种东西
00:02:12可能还不够完美,
00:02:14但总的来说,我对它还原这个网站的方式
00:02:15还是挺满意的,
00:02:18它基本上搞定了每一个部分,
00:02:20或者至少让我达到了一个
00:02:21可以进行后续迭代
00:02:22并得到我想要的效果的程度。
00:02:24趁现在还没走,
00:02:24我还决定测试一下这些模型
00:02:25如何在一个空文件夹中一次性
00:02:27为财务仪表板应用程序
00:02:28构建前端和后端,
00:02:31这就是 Fable 5 给我的结果。
00:02:33我测试了所有东西,
00:02:34一切都能正常工作,
00:02:35它能与 API 通信,
00:02:37而且总的来说,设计看起来确实很不错。
00:02:39它真的很实用,
00:02:40但这就是那种
00:02:41Claude 模型最近似乎都在呈现的美学风格。
00:02:43我们可以在 Opus 4.8 给我的结果中
00:02:44也看到这一点。
00:02:45再说一次,我认为这个网站看起来确实很好,
00:02:47坦白说,
00:02:48我觉得这看起来比 Fable 5 的版本更好,
00:02:50但它同样带有那种
00:02:51Claude 被训练出来的美学风格,
00:02:53但这也是我的错。
00:02:54我并没有提示它采用任何特定的设计。
00:02:56我相信如果我做了,
00:02:57它会做得很好的。
00:02:58如果我们将此与 GPT 5.5 给我的结果进行比较,
00:03:00你会发现,
00:03:01简直没法比。
00:03:03这是基于单个提示完成的,
00:03:04完全相同的提示,
00:03:05在我看来,它们在 UI 设计方面真的差得太远了。
00:03:07我真的很希望下一个 GPT 模型
00:03:08能在这个问题上做出一些改进。
00:03:10Fable 5 在这次测试中确实给了我惊喜,
00:03:11因为它是最快的。
00:03:13它花了大约八分钟
00:03:14就完成了那个财务仪表板,
00:03:15而 Opus 花了 12 分钟,
00:03:17GPT 5.5 则花了 15 分钟
00:03:18来制造那个怪物。
00:03:20除了我自己的演示,
00:03:22我最喜欢的演示之一是 Anthropic
00:03:23展示 Fable 5 在一个
00:03:24Fable 5 自己制作的基于浏览器的 CAD 编辑器中
00:03:27构建 3D 可打印 CAD 模型。
00:03:28就像,制作你自己的小型软件
00:03:31现在变得太容易实现了,
00:03:32药物方面也是如此。
00:03:34显然这个模型在药物设计方面非常出色,
00:03:36不过你可能不需要知道那个,
00:03:38是的,它确实有安全防护,
00:03:40基本上任何涉及网络安全的东西
00:03:43都是如此,
00:03:44除非你是那个特殊计划中的企业用户。
00:03:45Fable 5 显然会非常谨慎,
00:03:46这意味着它会有
00:03:48不少的误报,
00:03:51据称少于 5% 的消息,
00:03:51但对我来说这似乎仍然很高,
00:03:53而且我以前就遇到过 Opus 的安全防护,
00:03:55所以这一个可能会更糟。
00:03:57而且我之前确实遇到过 Opus 的安全限制,
00:03:59所以这次的情况可能会更糟糕。
00:04:01而是会尝试先将你的请求
00:04:02发送给 Opus 4.8,
00:04:04看看该模型是否可以安全地完成这项工作,
00:04:05但同样,我之前遇到过这些防护,
00:04:06所以我不太确定这能有多大用。
00:04:09这个基准测试实际上展示了
00:04:11这些安全防护可能有多么疯狂。
00:04:13在网络安全评估中测试它,
00:04:14带有安全防护的 Fable 5
00:04:17通过了零个测试。
00:04:19它直接拒绝做任何事情,
00:04:20就像我之前说的,
00:04:22如果 Opus 有时会因为
00:04:24在这个测试上 88% 的通过率而拒绝我,
00:04:25我看到很多人
00:04:27在使用 Mythos 时遇到防护问题。
00:04:29最后一个需要讨论的问题
00:04:30就是定价,
00:04:32这是事情变得有点意思的地方。
00:04:33输入 token 每百万个 10 美元,
00:04:34输出 token 每百万个 50 美元,
00:04:37我觉得这其实还行,
00:04:39不是我们见过最差的,
00:04:41其实我觉得这价格还行,
00:04:42算不上最差的,
00:04:44Fable 5 从今天起
00:04:45在 Pro、Max、Team 和企业计划中可用,
00:04:47但在几周后的 6 月 23 日,
00:04:48他们基本上会取消 Plus 用户的权限,
00:04:50把这些模型拿走,
00:04:52在此之后,
00:04:53它将需要使用积分。
00:04:54然后在此之后,
00:04:56他们说会在某个不确定的日期
00:04:56将这些模型重新加回这些计划中。
00:04:58这似乎是一种奇怪的做法,
00:04:59我想他们的目标
00:05:01是让你沉迷于这些模型,
00:05:02然后从你那里拿走它们,
00:05:04让你花更多的钱在上面,
00:05:05我认为这预示着
00:05:06运行这些模型有多么昂贵。
00:05:08哦,而且它的额度消耗速度
00:05:09比 Opus 快两倍,
00:05:11所以除非你是亿万富翁,
00:05:12否则我可能不会把这个模型
00:05:13设置为你的首选模型。
00:05:14最后一个我认为值得注意的脚注
00:05:16是他们新的数据保留政策。
00:05:17为了使用这些模型,
00:05:18他们实际上要求
00:05:19对第一方和第三方工具上的所有流量
00:05:21进行 30 天的保留,
00:05:21而且据称不会对这些数据进行训练,
00:05:23这只是为了尝试
00:05:25阻止安全威胁。
00:05:25所以,这就是结论,
00:05:27Mythos 终于来了。
00:05:28你对这次模型发布
00:05:30以及软件的未来有什么看法?
00:05:31请在下方的评论区告诉我。
00:05:33在看评论的时候,记得订阅,
00:05:34一如既往,
00:05:35下一期视频再见。
00:05:36拜拜。
00:05:37Claude Mythos 终于来了。
00:05:39Anthropic 刚刚发布了一款名为 Fable 5 的新模型,
00:05:40它属于 Mythos 系列模型,
00:05:41只是内置了大量的安全防护措施,
00:05:42但它的性能超越了他们发布过的任何模型,
00:05:43甚至可能超越了所有人。
00:05:44它在几乎每一个基准测试中都处于顶尖水平。
Community Posts
No posts yet. Be the first to write about this video!
Write about this video