00:00:00你应该使用 GSD,还是应该使用 superpowers?
00:00:04或者两者都是在浪费时间?
00:00:06为了回答这个问题,
00:00:07我对 superpowers、
00:00:10GSD 和原生 Claude code 进行了三方正面测评。
00:00:13我让他们创建完全相同的 Web 应用,
00:00:15我们将根据他们的最终输出结果、
00:00:17使用的 Token 数量
00:00:18以及构建所需的时间来评分。
00:00:20而赢家并不是你预想的那一个。
00:00:23现在,在我们在 GSD、superpowers
00:00:25和基准 Claude code 之间进行正面测试之前,
00:00:28让我们先快速讨论一下
00:00:30GSD 和 superpowers 到底是什么,
00:00:33它们是如何工作的,以及彼此之间有何不同。
00:00:35GSD 和 superpowers 其实是一脉相承的。
00:00:40它们都是编排层,
00:00:41运行在 Claude code 之上,
00:00:43并改变了 Claude code 处理
00:00:46复杂项目的方式。
00:00:48它引入了更强大的规划系统、
00:00:50更强大的测试系统,
00:00:52并且它们都利用子代理驱动开发
00:00:56来应对上下文衰减问题。
00:00:57当我们观察它们实际的逐步流程时,
00:00:59这些相似之处变得更加明显。
00:01:02Superpowers 的前三步在做什么?
00:01:05它在进行规划。
00:01:06它头脑风暴,使用 git 工作树,
00:01:09然后编写计划。
00:01:10GSD 做什么?
00:01:12GSD 启动新项目,讨论计划,
00:01:15然后将计划分解为多个阶段。
00:01:17它们把你的大想法
00:01:19拆解成更小的、
00:01:21具体的原子任务,并在之后让子代理
00:01:25来完成这些任务。
00:01:27一旦计划确定,superpowers 会做什么?
00:01:30它进行子代理驱动的开发。
00:01:32我一直在重复这一点。
00:01:33它不是让 Claude code
00:01:35在同一个会话中执行所有操作,
00:01:36就像普通的“规划模式转执行”那样,
00:01:40导致你的上下文窗口一直爆满,
00:01:42相反,这些子代理每个都会被分配一个特定任务。
00:01:45这样,它们基本上拥有一个干净的上下文窗口,
00:01:48这意味着它们应该能给出更好的输出。
00:01:51这就是第四步和第五步发生的事情,
00:01:53尽管它也包含了测试驱动开发,
00:01:55即 superpowers 的部分。
00:01:56GSD 这边,只有一步:执行阶段。
00:02:01它基本上是在第四步中
00:02:04完成了 superpowers 的第四和第五步。
00:02:05然后我们完成收尾。
00:02:06Superpowers 请求代码审查,
00:02:09然后合并所有内容。
00:02:10GSD 做什么?
00:02:12它验证工作,然后交付、
00:02:14提交、创建 PR,搞定。
00:02:16所以,非常非常相似。
00:02:18当我们谈论差异时,其实非常微妙。
00:02:21关于 superpowers,
00:02:22它非常注重测试驱动开发
00:02:25以及“红-绿重构”的概念。
00:02:28如果我们看看 superpowers 内部
00:02:31实际的测试驱动开发技巧,它在讲什么?
00:02:33它提到了“铁律”:
00:02:35没有先写失败的测试,就不能写生产代码。
00:02:37所以每当它试图为一个功能编写代码时,
00:02:40它都会先为该功能创建一个测试。
00:02:41它先让测试失败,
00:02:44然后尝试编写通过该测试所需的
00:02:47最少量代码。
00:02:48之后,进入红-绿重构阶段。
00:02:50如果你想查看具体细节,
00:02:52可以查看 GitHub 上的 skills。
00:02:53我会把链接都放在下面。
00:02:55另一方面,GSD 确实强调状态和上下文。
00:02:59它会不断创建 Markdown 文件,
00:03:01记录你打算做的事情、
00:03:03已经完成的事情,
00:03:05以及未来将要完成的事情。
00:03:06比如需求 Markdown 文件、
00:03:08路线图 Markdown 文件、不同的阶段。
00:03:11它非常明确地记录下每一件事。
00:03:13其核心想法是,伴随大量的子代理执行
00:03:16和频繁的内容重置,
00:03:19我们始终需要某种“北极星”来告诉我们
00:03:21我们身处何处以及要去向何方。
00:03:23这就是 GSD 的理念。
00:03:24但实际上,这些差异很微妙。
00:03:26所以很大程度上取决于“手感”,
00:03:28这也是我们今天要观察的。
00:03:29我们要观察的其他方面
00:03:31包括它们每个执行我分配的任务
00:03:32所需的时间,
00:03:35以及 Token 的用量,
00:03:36因为成本是我们始终需要关注的。
00:03:39话虽如此,安装这些工具非常简单。
00:03:41Superpowers 在 Claude Code 的官方插件库中。
00:03:45所以如果你在 Claude Code 里输入 /plugin,
00:03:48就能在那看到 Superpowers
00:03:50并进行安装。
00:03:51至于 GSD,你只需要运行这一条命令,
00:03:53它就会安装好一切。
00:03:55那么今天这三个家伙的
00:03:56测试内容是什么呢?
00:03:57我们要让他们三个都为我们的
00:04:00AI 机构 Chase AI 构建一个网站。
00:04:02这个网站需要三样东西。
00:04:04第一,它需要一个落地页。
00:04:06这是最简单的要求。
00:04:08我只要一个标准的落地页,包含首屏、
00:04:11关于我、服务介绍,以及一个潜在客户获取表单。
00:04:14这是我们在测试它们处理简单需求的能力。
00:04:17同时我也想看看它们在网页设计
00:04:20和 skill 调用方面的表现。
00:04:21它们会使用前端设计 skills 吗?
00:04:23因为我不会明确告诉它们。
00:04:25对于第二和第三点,
00:04:25重点是创建我们的博客生成器。
00:04:27所以第二步,我希望有一个页面
00:04:30让人们可以看到我的博客,
00:04:32在那他们可以看到不同的文章,
00:04:34点击阅读,一些基础的功能。
00:04:36然后第三点是实际的博客生成器本身。
00:04:39这是一个隐藏的管理页面。
00:04:40我不希望它出现在导航栏上。
00:04:42我希望能够给我的网页提供
00:04:44一个 YouTube 视频链接或一篇文章链接。
00:04:48然后我希望它能从该链接抓取所有内容。
00:04:51我希望它使用 Anthropic SDK
00:04:53根据来自 YouTube 视频或文章的信息,
00:04:57以我的口吻创建一个干净的博客文章。
00:05:01我还希望它能从来源获取缩略图或首图,
00:05:03然后将其全部保存为新博客。
00:05:06为了节省时间,我这里不做任何身份验证。
00:05:08我有信心这三个工具都能配合
00:05:10SupaBase CLI 很好地执行这个任务。
00:05:13然后我给它们提供了一个基础技术栈
00:05:15以及某种审美引导。
00:05:18但这里的重点是给它们足够的导向,
00:05:22以便我们可以基于相同的东西给它们评分,
00:05:24同时保留足够的发挥空间,
00:05:26让它们不仅仅是在机械地听从指令。
00:05:28我想看看它们是如何思考这个提示词的。
00:05:30这就是为什么我们把某些事情
00:05:32留给它们去解读,
00:05:33比如如何实际获取字幕。
00:05:36我该如何从我提供的 YouTube 链接中
00:05:38实际获取缩略图。
00:05:39实际的博客生成系统提示词应该是什么样的。
00:05:42那个口吻应该是怎样的?
00:05:44以及,是否需要调用任何特定的 Claude code skills。
00:05:47所以,这些都是我们应该能看到
00:05:50GSD、superpowers 和原生 Claude code 之间
00:05:54存在差异的地方。
00:05:55我上个月刚刚发布了我的 Claude code 大师课,
00:06:03它是从零开始成为 AI 开发者的最佳途径,
00:06:06特别是如果你没有技术背景的话。
00:06:09我会教你关于这个工具的所有知识,
00:06:11我们专注于真实的用例。
00:06:14同样重要的是,
00:06:15我几乎每周都会更新这个课程。
00:06:18从它开始到现在,
00:06:19我们已经增加了近三个小时的额外内容。
00:06:23你可以在 Chase AI+ 内部的
00:06:24置顶评论中找到链接,我们很欢迎你的加入。
00:06:27那么,让我们开始测试吧。
00:06:28我这里有 GSD、superpowers 和 Claude code。
00:06:32我会明确说明我当前所在的标签页,
00:06:34这样你就不会感到困惑,
00:06:36但我下面也有状态栏,
00:06:37它会明确显示我所在的目录,
00:06:40因为它们都在不同的目录中。
00:06:42对于 superpowers,
00:06:43我们可以看到它加载了 superpowers 的
00:06:46头脑风暴 skill。
00:06:47Superpowers 的运行非常流畅。
00:06:50当你实际安装 superpowers 插件时,
00:06:54它加载了大约 14、15 个以上的 skills。
00:06:57核心理念是,Claude code 知道
00:07:00仅凭你与它的交谈方式
00:07:02以及你所处的流程阶段,
00:07:03它需要调用哪个 skill。
00:07:05这与 GSD 有点不同,
00:07:07在 GSD 中,你需要使用明确的斜杠命令,
00:07:10比如在目录中使用 GSD 时
00:07:13输入 GSD new project。
00:07:14实际上,GSD 是第一个
00:07:17在最初几分钟后给出反馈提问的。
00:07:19所以 GSD 是第一个带着问题回来的。
00:07:22它说我们的需求简报非常完整,
00:07:24因为我们确实给了一个相当强有力的提示词。
00:07:27但我喜欢的是它会说,
00:07:28嘿,这是我根据品味做出的一些决策。
00:07:30它立刻指出了几件
00:07:32我们提到的可能成为差异点的事情,
00:07:34即那些我们没包含在提示词里的内容。
00:07:37比如,我们从未指定
00:07:39我们希望在落地页上展示哪些服务,它给了我们四个选项。
00:07:41然后它指出了它将为 YouTube 做些什么,
00:07:43包括转录稿以及头图。
00:07:46所以我打算让它创建 project.md 文件。
00:07:49现在让我们来看看 Superpowers。
00:07:51一上来,Superpowers 就说
00:07:52它将跳过视觉伴侣(visual companion)建议。
00:07:55我会说我想要视觉伴侣建议,
00:07:58因为这实际上是 Superpowers
00:08:00和 GSD 之间的一大区别。
00:08:02所以我想看看它的实际效果。
00:08:03它紧接着提出了一些设计决策,
00:08:06特别是关于获取 URL 的事项,
00:08:09这和 GSD 一样,也是属于那种
00:08:11我们留给它自行解释的内容。
00:08:13它给了我们三个选项,并列出了优缺点,
00:08:16以及一个建议。
00:08:17然后它细化了具体的缩略图策略。
00:08:19所以在给出这类建议时,它比 GSD
00:08:22更加深入。
00:08:24在服务、设计系统、
00:08:27以及错误处理和边缘情况方面,情况也是如此。
00:08:30所以总的来说,它对返回的每一项内容
00:08:33都做得更深入一些。
00:08:34所以我写了“看起来不错”,
00:08:35但我还是想过一遍视觉伴侣,
00:08:38以确保我们已经敲定了前端的美学风格。
00:08:41然后它给出了视觉伴侣,
00:08:44这是它最酷的功能之一。
00:08:46它启动了一个开发服务器,
00:08:48现在它在问我美学风格应该怎么做。
00:08:50它确实提供了具体的选项,
00:08:51就在你面前有四个,我非常喜欢这一点,
00:08:53因为仅仅听它描述
00:08:56视觉上要做成什么样,
00:08:58或者只为一个选项启动一个开发服务器是一回事。
00:09:00但能一次性看到所有效果,感觉完全不同。
00:09:03这是 Superpowers 中我最喜欢的部分之一。
00:09:04话虽如此,这些看起来都大同小异。
00:09:08没有哪一个特别让我眼前一亮。
00:09:11在这些选项中,我会说
00:09:13“温暖社论(warm editorial)”可能是最好的。
00:09:15“电光青柠(electric lime)”很恶心,“单色(monochrome)”很无聊,
00:09:18而“线性打磨(linear polish)”看起来就像 AI 垃圾。
00:09:20哦,我们暂时选这个吧。
00:09:24至少它是有视觉效果的。
00:09:25我非常喜欢这个视觉伴侣。
00:09:27在我告诉 Superpowers 我喜欢选项 C 之后,
00:09:29现在它又给了我更多选项供参考。
00:09:32它采用了那种美学风格和颜色,
00:09:34现在我们要进入英雄区(hero section)了。
00:09:35所以它继续对网页进行深入挖掘。
00:09:40这是第一种英雄区样式。
00:09:44第二个更偏向居中。
00:09:46第三个在这里有一些内容。
00:09:51是带有特色外观的分栏布局。
00:09:53我觉得,在现实中,
00:10:00我可能会做成这样
00:10:03并删掉这里的内容,因为这里挺烂的,
00:10:05但我喜欢把这个作为模板,对吧?
00:10:06这是我们可以开始的基础。
00:10:09所以我们选 C。
00:10:10现在 Superpowers 的视觉伴侣会带你
00:10:12浏览落地页的每一个区块。
00:10:15所以我们会跳过剩下的部分,
00:10:17因为我觉得你已经明白意思了。
00:10:18Superpowers 现在已经写好了我们网站的规范,
00:10:21正让我们进行审查。
00:10:23一旦我们看完并认可它,
00:10:25它就会实际使用“编写计划”技能
00:10:28来生成实施计划。
00:10:30所以这算是它将要执行内容的
00:10:32初稿蓝图。
00:10:33这是那份设计规范。
00:10:35它非常详尽,
00:10:38但你应该看的部分是在底部,
00:10:41也就是关键的判断决策。
00:10:43到目前为止,Superpowers 替你
00:10:45做了哪些决定?
00:10:46因为如果你有不同意见,
00:10:47这就是你需要提出异议的地方。
00:10:48它将使用 /studio 作为隐藏的 URL,
00:10:50我们就在那里处理所有实际的博客内容生成,
00:10:54使用“writing”作为导航标签,
00:10:56还讨论了生成的语调。
00:10:59所以,呃,以前是海军飞行员。
00:11:00现在是 AI 顾问,好吧,很简单。
00:11:03它是根据实际的用户级 Claude 记忆完成的。
00:11:07它还谈到了安全性。
00:11:08就像我说的,在这个演示中
00:11:11我们没做身份验证。
00:11:12它甚至觉得,“哦,那有点奇怪”。
00:11:13我想我们只是在通过隐匿来实现安全。
00:11:15所以它指出了这一点。
00:11:17我就告诉 Superpowers 看起来不错。
00:11:19现在它实际上要写出计划了,
00:11:21你可以看到该技能正在加载。
00:11:23当我们在用 Superpowers 做这些的时候,
00:11:25GSD 一直在执行它自己的研究,
00:11:28然后才构建计划。
00:11:29它并行启动了四个研究员(researcher)。
00:11:32一个负责技术栈研究,一个负责功能研究,
00:11:35还有两个负责架构和潜在坑点研究。
00:11:38你可以在这里看到。
00:11:39每一个都消耗了大量的 token,对吧?
00:11:427.5万、3.3万、5.1万和6.1万。
00:11:46但其理念是,如果你正在做一些相当新颖
00:11:49或者不太常见的事情,
00:11:52从长远来看,这些研究员代理
00:11:55将会发挥奇效。
00:11:56所以我们今天做的事情,
00:11:58或者说我们今天正在做的,相当简单直接。
00:12:00网页设计、博客生成器,它以前都见过。
00:12:03但我还是让它执行了这些研究员代理,
00:12:06只是为了保持这个测试的对等,可以这么说。
00:12:10然后它合成了所有的研究成果。
00:12:13你可以看到它在这里使用了 Sonnet 4.6。
00:12:15所以尽管在大多数情况下,
00:12:17我让 GSD 尽情使用 Opus 4.6,
00:12:20但当它觉得只是在合成信息,
00:12:23而不是派人去为项目做一些
00:12:25新颖或独特的事情时,
00:12:27它会使用更小、更便宜的模型来进行合成。
00:12:30这个四代理研究阶段
00:12:32与 Superpowers 相比是非常强悍的。
00:12:34Superpowers 并不怎么做这个。
00:12:36但就像我说的,30次工具调用,9.1万个 token,15分钟。
00:12:39这需要时间。
00:12:40一旦完成研究,
00:12:41它就会定义需求。
00:12:43类似于我们刚刚在 Superpowers 中看到的 MD 文件,
00:12:48GSD 做了同样的事,甚至更多。
00:12:51它生成了多个文档。
00:12:52它创建了一个需求文档。
00:12:54它创建了一个路线图文档。
00:12:56实际上它把 Superpowers 所做的工作
00:12:58拆分成了多个文档。
00:13:01这些文档包括路线图、状态、需求,
00:13:04以及最终的阶段划分等内容。
00:13:06在第35分钟时,你能感觉到这确实需要一些时间。
00:13:10如果我们停下来看看,你知道,
00:13:13标准的 Claude Code,它的计划早就准备好了。
00:13:16我们已经有一段时间没让它执行任何操作了。
00:13:19对它来说,总共大概花了五六分钟。
00:13:22我觉得那都算慢的了,
00:13:24相比之下 GSD 在36分钟后仍在继续,
00:13:29现在回到 Superpowers。
00:13:31Superpowers 刚刚完成了它的 website plan.md。
00:13:35在我们等待 GSD 完成其路线图
00:13:38及其一系列工作的时候,
00:13:39让我们再看一眼 Superpowers。
00:13:41它刚刚创建了 website plan.md,
00:13:44其中包含28个任务和2500行内容。
00:13:47回到 VS Code,
00:13:49如果我们进入这个文件夹的 docs,
00:13:52查看规范,
00:13:53抱歉,是查看实施计划,
00:13:56它说这就是它所指的内容。
00:13:58就像我说的,大约比规范长了10倍。
00:14:03所以这里有很多,很多东西。
00:14:09现在 Superpowers 为我们提供了两个执行选项。
00:14:12一个是子代理驱动(sub-agent driven),这与 GSD 非常相似,
00:14:16每个任务都有自己的子代理,
00:14:18因此也有自己的上下文窗口。
00:14:20但正如它这里所说,这是一种权衡,
00:14:22因为对于这28个任务来说,代价太大了,
00:14:25而且如它所言,这些大多是简单的任务。
00:14:27比如,这是“核弹级”选项吗?
00:14:29我们真的需要它吗?
00:14:29第二个选项是内联执行(inline execution)。
00:14:32所以我们基本上就在
00:14:34同一个会话中执行,根据需要暂停以进行审查。
00:14:37而且这样会快得多。
00:14:39这种内联执行更类似于
00:14:42我们在标准 Claude Code 中所做的,
00:14:45即“是的,绕过权限,
00:14:47勇往直前”。
00:14:48现在,由于 Superpowers 推荐内联执行,
00:14:50我们就采用内联执行。
00:14:52我们可以看到 Superpowers 正在执行计划,
00:14:55技能加载成功。
00:14:57现在它要开始工作了。
00:14:58正当此时,GSD 现在也完成了
00:15:03我们项目的宏伟蓝图。
00:15:05它创建了 project.md, requirements.md,
00:15:07roadmap.md, state.md, cloud.md。
00:15:09它还创建了一个文件夹
00:15:12来存放它找到的所有研究资料。
00:15:14GSD 提出了8个阶段和65项需求。
00:15:18正如我们之前讨论过的,
00:15:20当谈到执行这些时,
00:15:21GSD 非常刻板或者说清晰,
00:15:25输入 next 斜杠命令,清晰,next 斜杠命令,对吧?
00:15:27所以它是非常节奏分明的,下一件事,
00:15:30下一件事,下一件事。
00:15:31它是非常阶段化的,而你知道,
00:15:34我会说 Superpower 更加灵活,对吧?
00:15:37你只需要和它交谈就行了。
00:15:38它知道如何根据需要加载命令,
00:15:40或者你期望它根据需要加载技能。
00:15:43GSD 更加黑白分明。
00:15:45现在,在我们开始使用 GSD 执行之前,
00:15:49请记住,现在还处于规划阶段。
00:15:51这是其子代理的总 Token 计数,
00:15:54仅用于规划和研究。
00:15:56我们目前处于 459,862 个。
00:16:00就使用量而言,这意味着什么?
00:16:02谁知道呢。
00:16:03这完全取决于你在一天的什么时候使用它,
00:16:05你使用的是什么套餐,诸如此类,
00:16:06但规划阶段大约花费 46 万 Token。
00:16:09加上我们现在的 16%,算作 15 万。
00:16:13让我们给它一个整数。
00:16:15我们称之为 GSD 在规划阶段
00:16:18使用了 600,000 个 Token。
00:16:19至于总耗时,
00:16:21大约是 40 分钟左右。
00:16:25现在与基准进行比较,
00:16:27标准的 Claude Code 规划阶段,
00:16:29耗时约 10 分钟,Token 约 50,000 个。
00:16:33至于 Superpowers 在规划阶段的 Token 使用情况,
00:16:36大约是 200,000 个 Token。
00:16:38以及标准 Claude code,最主要的区别就是所耗费的时间。
00:16:47Claude Code 耗时 10 分钟,Superpowers 40 分钟,
00:16:51GSD 大约也是 40 分钟。
00:16:53所以这是巨大的差异之一,
00:16:54首先,在这两层编排层
00:16:56和标准 Claude Code 之间是时间成本。
00:16:58但在 GSD 和 Superpowers 之间的 Token 使用方面,
00:17:02差异也很大,因为 GSD 非常侧重
00:17:05于研究工作。
00:17:06就像你看到的,四个并行的子代理
00:17:09正在进行大量的规划。
00:17:10那么,对于这个项目来说这有必要吗?
00:17:14也许没有。
00:17:15但对于大型项目,要明白这是必要的,
00:17:18而且这种 Token 差异将会存在。
00:17:20但这只是一个检查点,
00:17:21即规划和研究阶段。
00:17:23现在是执行时间。
00:17:25Claude Code 已经开始了,
00:17:27Superpowers 也已经开始了,
00:17:28我也会启动 GSD。
00:17:30现在谈到执行阶段,
00:17:32特别是 GSD,它比其他的更需要亲自动手。
00:17:36它不像那种:好吧,我们完成了规划和研究,
00:17:38它写好了它的东西,我只要告诉它开始,
00:17:40然后我就可以离开 30 分钟,
00:17:42回来就能看到完成的项目。
00:17:43每个阶段可能都需要
00:17:46来自你的一定程度的输入。
00:17:47至少要启动它。
00:17:49因为它想做的是,它想让你
00:17:51首先讨论每个阶段,以确保
00:17:55你和 Claude Code 在想法上完全一致,
00:17:58对吧?
00:18:00你想让那个功能具体做什么?
00:18:01你想让那个东西具体长什么样?
00:18:03它变得非常、非常详细。
00:18:05一方面,坦白说,这有点烦人。
00:18:07但另一方面,如果这是非常复杂的事情,
00:18:09把事情做对可能是很重要的。
00:18:11所以这些是你必须权衡和衡量的。
00:18:15我们要衡量的是,
00:18:17归根结底,所有这些来回的沟通
00:18:19是否真的给了我们一个更好的产品。
00:18:21所以为了节省你的时间,
00:18:23我不会向你展示 GSD 的每一个阶段。
00:18:27再次强调,请查看我之前链接的视频,
00:18:29我在那里演示了 GSD 的过程,
00:18:31如果你真的想看它的运行过程。
00:18:32只需明白这是 GSD 和 Superpowers 之间
00:18:34的一大区别。
00:18:37显而易见,对 Claude Code 也是如此。
00:18:40说到 Superpowers,
00:18:42此时实施工作已经完成。
00:18:44我们的总消耗为 25 万 Token,
00:18:47自规划阶段以来已经过去了 15 分钟。
00:18:49所以它在问我想做什么,它建议,
00:18:52我们就保持当前的分支不变。
00:18:54所以我说:“嘿,我们采纳你的建议。”
00:18:56然后 Superpowers 返回了它构建内容的摘要,
00:18:59它验证了哪些是可以工作的,
00:19:01哪些是它无法验证的,
00:19:02需要某种手动验证或更改,
00:19:05以及它做出的判断。
00:19:07此时,我也要更新我的 API 密钥,
00:19:10这样它才能实际工作。
00:19:11好的,它们终于都完成了执行。
00:19:14所以我们现在看到的是它们的“一次性”产品。
00:19:18在这里,我们有 GSD、Superpowers,
00:19:22以及作为基准的 Claude Code。
00:19:24作为参考,为了说明这一切花了多久,
00:19:27到目前为止,GSD 显然花了最长的时间。
00:19:30这些都是我在镜头外完成的,经历了每个阶段,
00:19:33让它规划,让它执行。
00:19:35坦率地说,这花了一个多小时。
00:19:38GSD 在执行阶段的总 Token 消耗
00:19:41是 600,000 个。
00:19:42所以我们看的是总数,
00:19:44从规划阶段开始
00:19:46到获得一次性结果,共使用了 120 万 Token,
00:19:50并且花了一个小时 45 分钟才达到这个阶段。
00:19:52对于 Superpowers,它只花了大约
00:19:54额外的 5 万 Token 在执行上,耗时约 15 分钟。
00:19:59所以 Superpowers 的总时间和总 Token,
00:20:02从第一次提示到实际产品,
00:20:05总共耗时一小时,消耗 25 万 Token。
00:20:10是最快的。
00:20:14耗时约 15 分钟。
00:20:16这种差异有点惊人,
00:20:19GSD 显然是最慢且最沉重的,
00:20:23正如预期的那样,标准开箱即用的 Claude Code
00:20:27是最快的。
00:20:28所以让我们看看所有这些时间和 Token 的花费是否值得。
00:20:30我们现在看的是 GSD,
00:20:32它的背景相当单调,对吧?
00:20:37基本上所有的东西都是黑色的。
00:20:40非常简陋。
00:20:44我们使用了某种橙色的配色。
00:20:45这看起来并不糟糕,但也没到
00:20:48让人惊艳的地步。
00:20:50你会觉得:好吧,这是 AI 生成的初稿。
00:20:52一切看起来都非常标准。
00:20:54当我点击博客时,
00:20:55博客就在这里,带有一些示例文本。
00:20:58嗯,这个看起来也还行。
00:21:01现在让我们看看博客生成的部分,
00:21:04那个幕后的工作室页面。
00:21:06但当我点击它给我的链接时,我们得到了 404 错误。
00:21:11所以博客工作室生成器在第一轮尝试中
00:21:14甚至无法工作。
00:21:15所以我告诉了 GSD 问题所在。
00:21:16它现在正在解决。
00:21:18在它处理的时候,
00:21:19让我们来看看 Superpowers 给我们带来了什么。
00:21:21这是 Superpowers 的结果。
00:21:22前端设计看起来就像我们在
00:21:25视觉指南中看到的那样。
00:21:26再次强调,没什么特别的。
00:21:28Claude Code 通常不太擅长前端设计。
00:21:32除非你给它非常、非常好的指令,
00:21:35或者给它加载大量的技能。
00:21:37因此,因为我们把品味、前端设计
00:21:41以及一般的涉及工作留给了 AI 自行解读,
00:21:43我们得到了一个看起来就是 AI 做的东西。
00:21:45所以这还可以。
00:21:47作为一个基础还可以。
00:21:48这是博客的样子。
00:21:50它有图片,而且整个博客的设置都在那里。
00:21:56如果我进入工作室部分,
00:21:58这个在第一次尝试时就能工作。
00:22:01我可以看到生成器。
00:22:02如果我放入我最近一段视频的链接,
00:22:05它就会为我们创建一个草稿,
00:22:06抓取了正确的缩略图。
00:22:08然后它谈论的内容实际上是正确的。
00:22:09因为在那段视频中,我谈到了像
00:22:12Claude Code 内部的 Codec、Obsidian 和自动研究等内容。
00:22:16所以它完全做到了它所说的,
00:22:20这太棒了。
00:22:20现在来看看原生的 Claude Code。
00:22:24非常标准的东西,没什么疯狂的。
00:22:29你知道,如果我们诚实的话,
00:22:30前端设计方面有很大的不同吗?
00:22:33如果我们不给它提供出色的指令,那么在这一个、
00:22:36这一个和这一个之间,
00:22:39坦白说,真的没什么区别。
00:22:43你可以告诉我这三个中的任何一个
00:22:46创造了这三个中的任何一个,
00:22:47我都无法分辨出区别。
00:22:49所以让我们看看博客。
00:22:52它为我们准备了一些假文章,而且,
00:22:57看起来还行,很平淡,
00:23:00没什么特别的,但它能工作。
00:23:02现在让我们看看工作室部分,
00:23:05即博客生成器的部分,对这个是否有效。
00:23:08就像 GSD 一样,这个不起作用。
00:23:11给我的链接是 404 页面无法找到。
00:23:14所以就像 GSD 一样,
00:23:15我告诉基础版的 Claude Code 去修复这个问题。
00:23:18当它试图修复博客生成器时,
00:23:21让我们回去看看 GSD 在第二次尝试时做了什么。
00:23:24看来 GSD 能够搞定它了。
00:23:27让我们把 URL 粘贴到这里,
00:23:29看看它是否会生成草稿。
00:23:30好的,它返回了这个 Markdown 格式的草稿。
00:23:33我很喜欢这一点。
00:23:34我可以直接快速地在行内编辑东西。
00:23:39至于实际内容,它与应有的内容相符。
00:23:41所以它在那方面做得很好。
00:23:44然后我可以看到实际的预览,这很棒。
00:23:48说实话,我更喜欢 GSD 对此的实现,
00:23:51因为它有前置的行内编辑器,
00:23:54比我喜欢的 Superpowers 的实现更好。
00:23:55我们现在可以在我们的博客中看到它了。
00:23:58最后,我们回到了开箱即用的
00:24:01基准 Claude Code。
00:24:03它修复了错误。
00:24:04现在我们来看看博客生成器,
00:24:06和 superpowers 类似。
00:24:08一旦我提供了信息,它就自动生成了。
00:24:11它没给我任何编辑的机会
00:24:13或者像 GSD 那样先看草稿,
00:24:15但这里有一个低分辨率的缩略图,
00:24:18它抓取了所有正确的信息。
00:24:20这就是它在实际博客页面中的样子。
00:24:23那么我们可以从这一切中总结出什么?
00:24:24在这场面对面的竞争中,
00:24:27这三者中谁才是真正的赢家?
00:24:28好,让我们快速回顾一下。
00:24:30就完成任务所花费的总时间而言,
00:24:33原生的 Claude code 大约花了 20 分钟。
00:24:37Superpowers 大约花了一个小时,
00:24:39而 GSD 则耗时 105 分钟,也就是 1 小时 45 分。
00:24:43从 token 消耗来看,Claude code 约为 20 万。
00:24:48Superpowers 是 25 万。
00:24:51而 GSD 消耗了 120 万 token。
00:24:56这些是客观的数据统计。
00:24:59至于主观方面,
00:25:00比如我们如何评价它们实际创作的内容?
00:25:02它们做得怎么样?
00:25:04我们是否对其中某一个有非常强烈的倾向?
00:25:08答案可能是否定的。
00:25:11答案大概是,如果我把这些结果打乱,
00:25:14然后现在进行一场大揭秘,说:
00:25:16“哦不,这个其实是 superpowers 做的。”
00:25:19“而那个是原生 Claude code 做的。”
00:25:22你根本不会在意。
00:25:23你甚至根本分不出区别。
00:25:24所有这些中唯一的实际区别是,
00:25:26superpower 实际上能够在
00:25:27第一次尝试时就完成了它应该做的事情,
00:25:30无论你想给这种“一次成功”多高的评价。
00:25:35我的意思是,说实话,如果能一次成功,那太棒了。
00:25:36如果第二次尝试才成功,对我来说也可以接受。
00:25:40你现在可能也在想:
00:25:42“嗯,这个测试有缺陷。”
00:25:44“这个任务不够复杂,”
00:25:46“不足以让 superpowers 特别是 GSD”
00:25:49“能够脱颖而出。”
00:25:51这种论点的核心问题在于:
00:25:53“好吧,那么衡量的标准是什么?”
00:25:55“什么样的理论任务才算足够复杂,”
00:25:58“从而让你决定使用像 GSD”
00:26:00“或者像 superpowers 这样的工具,”
00:26:02“来证明多花这些时间是值得的,”
00:26:03“对很多人来说,时间比 token 更重要。”
00:26:06这很清楚吗?
00:26:07这很显而易见吗?
00:26:09我会辩称,不,并非如此。
00:26:11真的不是。
00:26:12然而,我们可以从理论上承认,
00:26:16是的,可能存在某些超级复杂的任务,
00:26:18在那种情况下使用它们是有意义的。
00:26:19问题在于如何定义并提前预知这一点。
00:26:21因为如果你对眼前的任务
00:26:26复杂程度判断失误,选错了工具,
00:26:29比如你选择了 GSD 或者 superpowers,
00:26:32相比 Claude code,你刚刚多浪费了 40 分钟,
00:26:36如果你走 GSD 路线,甚至多浪费了 80 分钟。
00:26:39这可是件大事。
00:26:41因为说实话,如果让我重做一次,
00:26:43你问我今天这三者中谁是赢家,
00:26:46那是 Claude code,而且优势巨大。
00:26:48为什么?
00:26:48甚至不是因为 token,而是因为时间。
00:26:50当然,如果我们非要挑刺的话,
00:26:53你可以说它是这几个人中表现最差的,但猜猜看?
00:26:56也许它是最差的,
00:26:57但我额外多出了 40 分钟来完善它。
00:26:59或者相比 GSD,我多了 80 分钟的富余时间。
00:27:02你认为哪一个会更好?
00:27:04是这个刚刚创建的 GSD 版本?
00:27:06还是我和 Claude code 协作,又打磨了 80 分钟的版本?
00:27:09或者是又打磨了 40 分钟的版本?
00:27:11结论应该很明显了,对吧?
00:27:15所以,在这一切结束后我的立场是什么?
00:27:20我的看法是,你得有一个充分的理由
00:27:25去使用这些编排层工具。
00:27:26如果我今天要用一个,我会选 superpowers。
00:27:31如果我正在做一个我不确定
00:27:33是否会太复杂的任务,对吧?
00:27:35就是那条没人知道
00:27:36具体在哪里的想象中的界限,
00:27:39而我觉得我们可能正在接近它,
00:27:40我会使用 superpowers。
00:27:41因为我知道它不会在 token 消耗上让我崩溃。
00:27:44我可以直接去干点别的,等它运行 60 分钟。
00:27:47相比之下,如果我用 GSD,
00:27:49我得一直守在键盘前,对吧?
00:27:52如果我想充分利用它,
00:27:53我就必须经历所有的规划环节。
00:27:55这会耗费很长时间,也会消耗大量 token。
00:27:58所以如果我判断错了,那感觉会非常糟糕,对吧?
00:28:01花那么多时间在 GSD 上真的很伤。
00:28:03拍这个视频的时候我就很痛苦,只是坐在那,
00:28:05为了一个其实并不值得的结果
00:28:07去处理所有这些任务。
00:28:08所以如果我真的认为某件事
00:28:11复杂到我需要 superpowers 的地步,
00:28:13那么好吧,我认为这还可以解释得通。
00:28:17但如果它真的没那么复杂,
00:28:19或者即使是一个复杂的任务,
00:28:21我们是否可以把它拆分
00:28:23成不同的功能,然后慢慢地添加上去?
00:28:26我说的“慢慢”,其实是指比其他选项
00:28:28快得多的方式,
00:28:29因为我只使用原生的 Claude code,
00:28:32它比这些其他选项快得多。
00:28:34另一件事是,当 GSD 问世时,
00:28:38我也在那时做了一个视频。
00:28:41当时我真的很喜欢 GSD。
00:28:42superpowers 也是一样。
00:28:44当这两个东西最初出现时,
00:28:46Claude code 还没达到今天的水平。
00:28:48我已经能听到有人在抱怨,
00:28:51“现在的 Claude code 变弱了。”
00:28:52我说的不是那个意思。
00:28:54我说的是 Claude code 处理问题的方式,
00:28:56以及它的一些脚手架
00:28:57和它自身框架运行的方式。
00:28:59有很多改进,比如……
00:29:00就说当你有庞大的计划
00:29:03并想要执行它时,它会问你:
00:29:04“嘿,你想要清空上下文并这样做吗?”
00:29:07以前根本没这回事。
00:29:08比起 GSD 刚出来的时候,
00:29:10Claude code 更容易受到上下文腐烂等问题的影响。
00:29:12当 GSD 刚推出时,我觉得:
00:29:14“天哪,这简直是救星。”
00:29:15“它处理上下文的方式正是它应有的样子。”
00:29:17而现在 Claude code 已经引入了很多这些功能,
00:29:19也就是说,基准 Claude code 与这些工具
00:29:22之间的差距已经显著缩小了。
00:29:25与此同时,
00:29:26现在的执行速度却拉开了巨大的差距。
00:29:30我们不能不讨论速度上的差异。
00:29:34这 20 分钟对比 60 分钟,
00:29:36以及 105 分钟,是所有差异中最大的。
00:29:38至少在我看来,
00:29:41这是你应该重点参考的指标。
00:29:44所以综上所述,少即是多。
00:29:47我认为对于 99% 的用例和 99% 的用户来说,
00:29:53直接使用基准 Claude code 是最明智的。
00:29:56它会更快。
00:29:57即使输出结果不一定更好,
00:29:59你也有更多的时间来弥补差距,
00:30:01并实际上超越这些其他的竞争者。
00:30:03如果你认为你正在做的项目
00:30:05非常复杂,并且想要一些额外的力量,
00:30:08那就用 superpowers,因为它相对轻量,
00:30:12而 GSD 感觉就像一个庞然大物。
00:30:16老实说,用起来感觉并不好。
00:30:18我要坦白说。
00:30:19使用 superpowers 要流畅得多。
00:30:21我只需要和它对话,它就会调用技能。
00:30:23我不需要像……好吧,
00:30:25现在我们要输入 /clear。
00:30:27好的,我在一个新环境里,这有点繁琐。
00:30:29我明白 GSD2 为什么会出来,对吧?
00:30:32GC 2.0 旨在缓解这些问题。
00:30:35但你猜怎么着?
00:30:36那也没用,
00:30:37因为你不能使用 Claude code 的 Max 订阅方案,
00:30:38这意味着我要支付荒谬的高价。
00:30:40所以,也就是那么回事吧。
00:30:45希望这能为你们
00:30:46在这一整件事上提供一些参考。
00:30:47我认为如果你坚持使用标准原生的 Claude code,
00:30:49你就会做得很好。
00:30:50把 superpowers 当作备用手段,以防万一。
00:30:53只需在项目级别准备好那些技能。
00:30:55坦率地说,很难说你需要 GSD,
00:30:58除非你正在做一些疯狂的事情,
00:31:00并且你就喜欢在每个阶段
00:31:02都被人牵着手引导。
00:31:03这就是我要说的全部内容。
00:31:06一如既往,请在评论区告诉我你的想法。
00:31:09我很想听听你们是如何使用 superpowers
00:31:11和 GSD 的,以及我在应用它们时难免犯下的错误。
00:31:15如果你想获得 Claude code 大师班课程,
00:31:18请务必关注一下。
00:31:19链接在我的简介和置顶评论里。
00:31:23除此之外,我们回头再见。