GSD vs Superpowers vs Claude Code：AI 新王登基？

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00你应该使用 GSD，还是应该使用 superpowers？

00:00:04或者两者都是在浪费时间？

00:00:06为了回答这个问题，

00:00:07我对 superpowers、

00:00:10GSD 和原生 Claude code 进行了三方正面测评。

00:00:13我让他们创建完全相同的 Web 应用，

00:00:15我们将根据他们的最终输出结果、

00:00:17使用的 Token 数量

00:00:18以及构建所需的时间来评分。

00:00:20而赢家并不是你预想的那一个。

00:00:23现在，在我们在 GSD、superpowers

00:00:25和基准 Claude code 之间进行正面测试之前，

00:00:28让我们先快速讨论一下

00:00:30GSD 和 superpowers 到底是什么，

00:00:33它们是如何工作的，以及彼此之间有何不同。

00:00:35GSD 和 superpowers 其实是一脉相承的。

00:00:40它们都是编排层，

00:00:41运行在 Claude code 之上，

00:00:43并改变了 Claude code 处理

00:00:46复杂项目的方式。

00:00:48它引入了更强大的规划系统、

00:00:50更强大的测试系统，

00:00:52并且它们都利用子代理驱动开发

00:00:56来应对上下文衰减问题。

00:00:57当我们观察它们实际的逐步流程时，

00:00:59这些相似之处变得更加明显。

00:01:02Superpowers 的前三步在做什么？

00:01:05它在进行规划。

00:01:06它头脑风暴，使用 git 工作树，

00:01:09然后编写计划。

00:01:10GSD 做什么？

00:01:12GSD 启动新项目，讨论计划，

00:01:15然后将计划分解为多个阶段。

00:01:17它们把你的大想法

00:01:19拆解成更小的、

00:01:21具体的原子任务，并在之后让子代理

00:01:25来完成这些任务。

00:01:27一旦计划确定，superpowers 会做什么？

00:01:30它进行子代理驱动的开发。

00:01:32我一直在重复这一点。

00:01:33它不是让 Claude code

00:01:35在同一个会话中执行所有操作，

00:01:36就像普通的“规划模式转执行”那样，

00:01:40导致你的上下文窗口一直爆满，

00:01:42相反，这些子代理每个都会被分配一个特定任务。

00:01:45这样，它们基本上拥有一个干净的上下文窗口，

00:01:48这意味着它们应该能给出更好的输出。

00:01:51这就是第四步和第五步发生的事情，

00:01:53尽管它也包含了测试驱动开发，

00:01:55即 superpowers 的部分。

00:01:56GSD 这边，只有一步：执行阶段。

00:02:01它基本上是在第四步中

00:02:04完成了 superpowers 的第四和第五步。

00:02:05然后我们完成收尾。

00:02:06Superpowers 请求代码审查，

00:02:09然后合并所有内容。

00:02:10GSD 做什么？

00:02:12它验证工作，然后交付、

00:02:14提交、创建 PR，搞定。

00:02:16所以，非常非常相似。

00:02:18当我们谈论差异时，其实非常微妙。

00:02:21关于 superpowers，

00:02:22它非常注重测试驱动开发

00:02:25以及“红-绿重构”的概念。

00:02:28如果我们看看 superpowers 内部

00:02:31实际的测试驱动开发技巧，它在讲什么？

00:02:33它提到了“铁律”：

00:02:35没有先写失败的测试，就不能写生产代码。

00:02:37所以每当它试图为一个功能编写代码时，

00:02:40它都会先为该功能创建一个测试。

00:02:41它先让测试失败，

00:02:44然后尝试编写通过该测试所需的

00:02:47最少量代码。

00:02:48之后，进入红-绿重构阶段。

00:02:50如果你想查看具体细节，

00:02:52可以查看 GitHub 上的 skills。

00:02:53我会把链接都放在下面。

00:02:55另一方面，GSD 确实强调状态和上下文。

00:02:59它会不断创建 Markdown 文件，

00:03:01记录你打算做的事情、

00:03:03已经完成的事情，

00:03:05以及未来将要完成的事情。

00:03:06比如需求 Markdown 文件、

00:03:08路线图 Markdown 文件、不同的阶段。

00:03:11它非常明确地记录下每一件事。

00:03:13其核心想法是，伴随大量的子代理执行

00:03:16和频繁的内容重置，

00:03:19我们始终需要某种“北极星”来告诉我们

00:03:21我们身处何处以及要去向何方。

00:03:23这就是 GSD 的理念。

00:03:24但实际上，这些差异很微妙。

00:03:26所以很大程度上取决于“手感”，

00:03:28这也是我们今天要观察的。

00:03:29我们要观察的其他方面

00:03:31包括它们每个执行我分配的任务

00:03:32所需的时间，

00:03:35以及 Token 的用量，

00:03:36因为成本是我们始终需要关注的。

00:03:39话虽如此，安装这些工具非常简单。

00:03:41Superpowers 在 Claude Code 的官方插件库中。

00:03:45所以如果你在 Claude Code 里输入 /plugin，

00:03:48就能在那看到 Superpowers

00:03:50并进行安装。

00:03:51至于 GSD，你只需要运行这一条命令，

00:03:53它就会安装好一切。

00:03:55那么今天这三个家伙的

00:03:56测试内容是什么呢？

00:03:57我们要让他们三个都为我们的

00:04:00AI 机构 Chase AI 构建一个网站。

00:04:02这个网站需要三样东西。

00:04:04第一，它需要一个落地页。

00:04:06这是最简单的要求。

00:04:08我只要一个标准的落地页，包含首屏、

00:04:11关于我、服务介绍，以及一个潜在客户获取表单。

00:04:14这是我们在测试它们处理简单需求的能力。

00:04:17同时我也想看看它们在网页设计

00:04:20和 skill 调用方面的表现。

00:04:21它们会使用前端设计 skills 吗？

00:04:23因为我不会明确告诉它们。

00:04:25对于第二和第三点，

00:04:25重点是创建我们的博客生成器。

00:04:27所以第二步，我希望有一个页面

00:04:30让人们可以看到我的博客，

00:04:32在那他们可以看到不同的文章，

00:04:34点击阅读，一些基础的功能。

00:04:36然后第三点是实际的博客生成器本身。

00:04:39这是一个隐藏的管理页面。

00:04:40我不希望它出现在导航栏上。

00:04:42我希望能够给我的网页提供

00:04:44一个 YouTube 视频链接或一篇文章链接。

00:04:48然后我希望它能从该链接抓取所有内容。

00:04:51我希望它使用 Anthropic SDK

00:04:53根据来自 YouTube 视频或文章的信息，

00:04:57以我的口吻创建一个干净的博客文章。

00:05:01我还希望它能从来源获取缩略图或首图，

00:05:03然后将其全部保存为新博客。

00:05:06为了节省时间，我这里不做任何身份验证。

00:05:08我有信心这三个工具都能配合

00:05:10SupaBase CLI 很好地执行这个任务。

00:05:13然后我给它们提供了一个基础技术栈

00:05:15以及某种审美引导。

00:05:18但这里的重点是给它们足够的导向，

00:05:22以便我们可以基于相同的东西给它们评分，

00:05:24同时保留足够的发挥空间，

00:05:26让它们不仅仅是在机械地听从指令。

00:05:28我想看看它们是如何思考这个提示词的。

00:05:30这就是为什么我们把某些事情

00:05:32留给它们去解读，

00:05:33比如如何实际获取字幕。

00:05:36我该如何从我提供的 YouTube 链接中

00:05:38实际获取缩略图。

00:05:39实际的博客生成系统提示词应该是什么样的。

00:05:42那个口吻应该是怎样的？

00:05:44以及，是否需要调用任何特定的 Claude code skills。

00:05:47所以，这些都是我们应该能看到

00:05:50GSD、superpowers 和原生 Claude code 之间

00:05:54存在差异的地方。

00:05:55我上个月刚刚发布了我的 Claude code 大师课，

00:06:03它是从零开始成为 AI 开发者的最佳途径，

00:06:06特别是如果你没有技术背景的话。

00:06:09我会教你关于这个工具的所有知识，

00:06:11我们专注于真实的用例。

00:06:14同样重要的是，

00:06:15我几乎每周都会更新这个课程。

00:06:18从它开始到现在，

00:06:19我们已经增加了近三个小时的额外内容。

00:06:23你可以在 Chase AI+ 内部的

00:06:24置顶评论中找到链接，我们很欢迎你的加入。

00:06:27那么，让我们开始测试吧。

00:06:28我这里有 GSD、superpowers 和 Claude code。

00:06:32我会明确说明我当前所在的标签页，

00:06:34这样你就不会感到困惑，

00:06:36但我下面也有状态栏，

00:06:37它会明确显示我所在的目录，

00:06:40因为它们都在不同的目录中。

00:06:42对于 superpowers，

00:06:43我们可以看到它加载了 superpowers 的

00:06:46头脑风暴 skill。

00:06:47Superpowers 的运行非常流畅。

00:06:50当你实际安装 superpowers 插件时，

00:06:54它加载了大约 14、15 个以上的 skills。

00:06:57核心理念是，Claude code 知道

00:07:00仅凭你与它的交谈方式

00:07:02以及你所处的流程阶段，

00:07:03它需要调用哪个 skill。

00:07:05这与 GSD 有点不同，

00:07:07在 GSD 中，你需要使用明确的斜杠命令，

00:07:10比如在目录中使用 GSD 时

00:07:13输入 GSD new project。

00:07:14实际上，GSD 是第一个

00:07:17在最初几分钟后给出反馈提问的。

00:07:19所以 GSD 是第一个带着问题回来的。

00:07:22它说我们的需求简报非常完整，

00:07:24因为我们确实给了一个相当强有力的提示词。

00:07:27但我喜欢的是它会说，

00:07:28嘿，这是我根据品味做出的一些决策。

00:07:30它立刻指出了几件

00:07:32我们提到的可能成为差异点的事情，

00:07:34即那些我们没包含在提示词里的内容。

00:07:37比如，我们从未指定

00:07:39我们希望在落地页上展示哪些服务，它给了我们四个选项。

00:07:41然后它指出了它将为 YouTube 做些什么，

00:07:43包括转录稿以及头图。

00:07:46所以我打算让它创建 project.md 文件。

00:07:49现在让我们来看看 Superpowers。

00:07:51一上来，Superpowers 就说

00:07:52它将跳过视觉伴侣（visual companion）建议。

00:07:55我会说我想要视觉伴侣建议，

00:07:58因为这实际上是 Superpowers

00:08:00和 GSD 之间的一大区别。

00:08:02所以我想看看它的实际效果。

00:08:03它紧接着提出了一些设计决策，

00:08:06特别是关于获取 URL 的事项，

00:08:09这和 GSD 一样，也是属于那种

00:08:11我们留给它自行解释的内容。

00:08:13它给了我们三个选项，并列出了优缺点，

00:08:16以及一个建议。

00:08:17然后它细化了具体的缩略图策略。

00:08:19所以在给出这类建议时，它比 GSD

00:08:22更加深入。

00:08:24在服务、设计系统、

00:08:27以及错误处理和边缘情况方面，情况也是如此。

00:08:30所以总的来说，它对返回的每一项内容

00:08:33都做得更深入一些。

00:08:34所以我写了“看起来不错”，

00:08:35但我还是想过一遍视觉伴侣，

00:08:38以确保我们已经敲定了前端的美学风格。

00:08:41然后它给出了视觉伴侣，

00:08:44这是它最酷的功能之一。

00:08:46它启动了一个开发服务器，

00:08:48现在它在问我美学风格应该怎么做。

00:08:50它确实提供了具体的选项，

00:08:51就在你面前有四个，我非常喜欢这一点，

00:08:53因为仅仅听它描述

00:08:56视觉上要做成什么样，

00:08:58或者只为一个选项启动一个开发服务器是一回事。

00:09:00但能一次性看到所有效果，感觉完全不同。

00:09:03这是 Superpowers 中我最喜欢的部分之一。

00:09:04话虽如此，这些看起来都大同小异。

00:09:08没有哪一个特别让我眼前一亮。

00:09:11在这些选项中，我会说

00:09:13“温暖社论（warm editorial）”可能是最好的。

00:09:15“电光青柠（electric lime）”很恶心，“单色（monochrome）”很无聊，

00:09:18而“线性打磨（linear polish）”看起来就像 AI 垃圾。

00:09:20哦，我们暂时选这个吧。

00:09:24至少它是有视觉效果的。

00:09:25我非常喜欢这个视觉伴侣。

00:09:27在我告诉 Superpowers 我喜欢选项 C 之后，

00:09:29现在它又给了我更多选项供参考。

00:09:32它采用了那种美学风格和颜色，

00:09:34现在我们要进入英雄区（hero section）了。

00:09:35所以它继续对网页进行深入挖掘。

00:09:40这是第一种英雄区样式。

00:09:44第二个更偏向居中。

00:09:46第三个在这里有一些内容。

00:09:51是带有特色外观的分栏布局。

00:09:53我觉得，在现实中，

00:10:00我可能会做成这样

00:10:03并删掉这里的内容，因为这里挺烂的，

00:10:05但我喜欢把这个作为模板，对吧？

00:10:06这是我们可以开始的基础。

00:10:09所以我们选 C。

00:10:10现在 Superpowers 的视觉伴侣会带你

00:10:12浏览落地页的每一个区块。

00:10:15所以我们会跳过剩下的部分，

00:10:17因为我觉得你已经明白意思了。

00:10:18Superpowers 现在已经写好了我们网站的规范，

00:10:21正让我们进行审查。

00:10:23一旦我们看完并认可它，

00:10:25它就会实际使用“编写计划”技能

00:10:28来生成实施计划。

00:10:30所以这算是它将要执行内容的

00:10:32初稿蓝图。

00:10:33这是那份设计规范。

00:10:35它非常详尽，

00:10:38但你应该看的部分是在底部，

00:10:41也就是关键的判断决策。

00:10:43到目前为止，Superpowers 替你

00:10:45做了哪些决定？

00:10:46因为如果你有不同意见，

00:10:47这就是你需要提出异议的地方。

00:10:48它将使用 /studio 作为隐藏的 URL，

00:10:50我们就在那里处理所有实际的博客内容生成，

00:10:54使用“writing”作为导航标签，

00:10:56还讨论了生成的语调。

00:10:59所以，呃，以前是海军飞行员。

00:11:00现在是 AI 顾问，好吧，很简单。

00:11:03它是根据实际的用户级 Claude 记忆完成的。

00:11:07它还谈到了安全性。

00:11:08就像我说的，在这个演示中

00:11:11我们没做身份验证。

00:11:12它甚至觉得，“哦，那有点奇怪”。

00:11:13我想我们只是在通过隐匿来实现安全。

00:11:15所以它指出了这一点。

00:11:17我就告诉 Superpowers 看起来不错。

00:11:19现在它实际上要写出计划了，

00:11:21你可以看到该技能正在加载。

00:11:23当我们在用 Superpowers 做这些的时候，

00:11:25GSD 一直在执行它自己的研究，

00:11:28然后才构建计划。

00:11:29它并行启动了四个研究员（researcher）。

00:11:32一个负责技术栈研究，一个负责功能研究，

00:11:35还有两个负责架构和潜在坑点研究。

00:11:38你可以在这里看到。

00:11:39每一个都消耗了大量的 token，对吧？

00:11:427.5万、3.3万、5.1万和6.1万。

00:11:46但其理念是，如果你正在做一些相当新颖

00:11:49或者不太常见的事情，

00:11:52从长远来看，这些研究员代理

00:11:55将会发挥奇效。

00:11:56所以我们今天做的事情，

00:11:58或者说我们今天正在做的，相当简单直接。

00:12:00网页设计、博客生成器，它以前都见过。

00:12:03但我还是让它执行了这些研究员代理，

00:12:06只是为了保持这个测试的对等，可以这么说。

00:12:10然后它合成了所有的研究成果。

00:12:13你可以看到它在这里使用了 Sonnet 4.6。

00:12:15所以尽管在大多数情况下，

00:12:17我让 GSD 尽情使用 Opus 4.6，

00:12:20但当它觉得只是在合成信息，

00:12:23而不是派人去为项目做一些

00:12:25新颖或独特的事情时，

00:12:27它会使用更小、更便宜的模型来进行合成。

00:12:30这个四代理研究阶段

00:12:32与 Superpowers 相比是非常强悍的。

00:12:34Superpowers 并不怎么做这个。

00:12:36但就像我说的，30次工具调用，9.1万个 token，15分钟。

00:12:39这需要时间。

00:12:40一旦完成研究，

00:12:41它就会定义需求。

00:12:43类似于我们刚刚在 Superpowers 中看到的 MD 文件，

00:12:48GSD 做了同样的事，甚至更多。

00:12:51它生成了多个文档。

00:12:52它创建了一个需求文档。

00:12:54它创建了一个路线图文档。

00:12:56实际上它把 Superpowers 所做的工作

00:12:58拆分成了多个文档。

00:13:01这些文档包括路线图、状态、需求，

00:13:04以及最终的阶段划分等内容。

00:13:06在第35分钟时，你能感觉到这确实需要一些时间。

00:13:10如果我们停下来看看，你知道，

00:13:13标准的 Claude Code，它的计划早就准备好了。

00:13:16我们已经有一段时间没让它执行任何操作了。

00:13:19对它来说，总共大概花了五六分钟。

00:13:22我觉得那都算慢的了，

00:13:24相比之下 GSD 在36分钟后仍在继续，

00:13:29现在回到 Superpowers。

00:13:31Superpowers 刚刚完成了它的 website plan.md。

00:13:35在我们等待 GSD 完成其路线图

00:13:38及其一系列工作的时候，

00:13:39让我们再看一眼 Superpowers。

00:13:41它刚刚创建了 website plan.md，

00:13:44其中包含28个任务和2500行内容。

00:13:47回到 VS Code，

00:13:49如果我们进入这个文件夹的 docs，

00:13:52查看规范，

00:13:53抱歉，是查看实施计划，

00:13:56它说这就是它所指的内容。

00:13:58就像我说的，大约比规范长了10倍。

00:14:03所以这里有很多，很多东西。

00:14:09现在 Superpowers 为我们提供了两个执行选项。

00:14:12一个是子代理驱动（sub-agent driven），这与 GSD 非常相似，

00:14:16每个任务都有自己的子代理，

00:14:18因此也有自己的上下文窗口。

00:14:20但正如它这里所说，这是一种权衡，

00:14:22因为对于这28个任务来说，代价太大了，

00:14:25而且如它所言，这些大多是简单的任务。

00:14:27比如，这是“核弹级”选项吗？

00:14:29我们真的需要它吗？

00:14:29第二个选项是内联执行（inline execution）。

00:14:32所以我们基本上就在

00:14:34同一个会话中执行，根据需要暂停以进行审查。

00:14:37而且这样会快得多。

00:14:39这种内联执行更类似于

00:14:42我们在标准 Claude Code 中所做的，

00:14:45即“是的，绕过权限，

00:14:47勇往直前”。

00:14:48现在，由于 Superpowers 推荐内联执行，

00:14:50我们就采用内联执行。

00:14:52我们可以看到 Superpowers 正在执行计划，

00:14:55技能加载成功。

00:14:57现在它要开始工作了。

00:14:58正当此时，GSD 现在也完成了

00:15:03我们项目的宏伟蓝图。

00:15:05它创建了 project.md, requirements.md,

00:15:07roadmap.md, state.md, cloud.md。

00:15:09它还创建了一个文件夹

00:15:12来存放它找到的所有研究资料。

00:15:14GSD 提出了8个阶段和65项需求。

00:15:18正如我们之前讨论过的，

00:15:20当谈到执行这些时，

00:15:21GSD 非常刻板或者说清晰，

00:15:25输入 next 斜杠命令，清晰，next 斜杠命令，对吧？

00:15:27所以它是非常节奏分明的，下一件事，

00:15:30下一件事，下一件事。

00:15:31它是非常阶段化的，而你知道，

00:15:34我会说 Superpower 更加灵活，对吧？

00:15:37你只需要和它交谈就行了。

00:15:38它知道如何根据需要加载命令，

00:15:40或者你期望它根据需要加载技能。

00:15:43GSD 更加黑白分明。

00:15:45现在，在我们开始使用 GSD 执行之前，

00:15:49请记住，现在还处于规划阶段。

00:15:51这是其子代理的总 Token 计数，

00:15:54仅用于规划和研究。

00:15:56我们目前处于 459,862 个。

00:16:00就使用量而言，这意味着什么？

00:16:02谁知道呢。

00:16:03这完全取决于你在一天的什么时候使用它，

00:16:05你使用的是什么套餐，诸如此类，

00:16:06但规划阶段大约花费 46 万 Token。

00:16:09加上我们现在的 16%，算作 15 万。

00:16:13让我们给它一个整数。

00:16:15我们称之为 GSD 在规划阶段

00:16:18使用了 600,000 个 Token。

00:16:19至于总耗时，

00:16:21大约是 40 分钟左右。

00:16:25现在与基准进行比较，

00:16:27标准的 Claude Code 规划阶段，

00:16:29耗时约 10 分钟，Token 约 50,000 个。

00:16:33至于 Superpowers 在规划阶段的 Token 使用情况，

00:16:36大约是 200,000 个 Token。

00:16:38以及标准 Claude code，最主要的区别就是所耗费的时间。

00:16:47Claude Code 耗时 10 分钟，Superpowers 40 分钟，

00:16:51GSD 大约也是 40 分钟。

00:16:53所以这是巨大的差异之一，

00:16:54首先，在这两层编排层

00:16:56和标准 Claude Code 之间是时间成本。

00:16:58但在 GSD 和 Superpowers 之间的 Token 使用方面，

00:17:02差异也很大，因为 GSD 非常侧重

00:17:05于研究工作。

00:17:06就像你看到的，四个并行的子代理

00:17:09正在进行大量的规划。

00:17:10那么，对于这个项目来说这有必要吗？

00:17:14也许没有。

00:17:15但对于大型项目，要明白这是必要的，

00:17:18而且这种 Token 差异将会存在。

00:17:20但这只是一个检查点，

00:17:21即规划和研究阶段。

00:17:23现在是执行时间。

00:17:25Claude Code 已经开始了，

00:17:27Superpowers 也已经开始了，

00:17:28我也会启动 GSD。

00:17:30现在谈到执行阶段，

00:17:32特别是 GSD，它比其他的更需要亲自动手。

00:17:36它不像那种：好吧，我们完成了规划和研究，

00:17:38它写好了它的东西，我只要告诉它开始，

00:17:40然后我就可以离开 30 分钟，

00:17:42回来就能看到完成的项目。

00:17:43每个阶段可能都需要

00:17:46来自你的一定程度的输入。

00:17:47至少要启动它。

00:17:49因为它想做的是，它想让你

00:17:51首先讨论每个阶段，以确保

00:17:55你和 Claude Code 在想法上完全一致，

00:17:58对吧？

00:18:00你想让那个功能具体做什么？

00:18:01你想让那个东西具体长什么样？

00:18:03它变得非常、非常详细。

00:18:05一方面，坦白说，这有点烦人。

00:18:07但另一方面，如果这是非常复杂的事情，

00:18:09把事情做对可能是很重要的。

00:18:11所以这些是你必须权衡和衡量的。

00:18:15我们要衡量的是，

00:18:17归根结底，所有这些来回的沟通

00:18:19是否真的给了我们一个更好的产品。

00:18:21所以为了节省你的时间，

00:18:23我不会向你展示 GSD 的每一个阶段。

00:18:27再次强调，请查看我之前链接的视频，

00:18:29我在那里演示了 GSD 的过程，

00:18:31如果你真的想看它的运行过程。

00:18:32只需明白这是 GSD 和 Superpowers 之间

00:18:34的一大区别。

00:18:37显而易见，对 Claude Code 也是如此。

00:18:40说到 Superpowers，

00:18:42此时实施工作已经完成。

00:18:44我们的总消耗为 25 万 Token，

00:18:47自规划阶段以来已经过去了 15 分钟。

00:18:49所以它在问我想做什么，它建议，

00:18:52我们就保持当前的分支不变。

00:18:54所以我说：“嘿，我们采纳你的建议。”

00:18:56然后 Superpowers 返回了它构建内容的摘要，

00:18:59它验证了哪些是可以工作的，

00:19:01哪些是它无法验证的，

00:19:02需要某种手动验证或更改，

00:19:05以及它做出的判断。

00:19:07此时，我也要更新我的 API 密钥，

00:19:10这样它才能实际工作。

00:19:11好的，它们终于都完成了执行。

00:19:14所以我们现在看到的是它们的“一次性”产品。

00:19:18在这里，我们有 GSD、Superpowers，

00:19:22以及作为基准的 Claude Code。

00:19:24作为参考，为了说明这一切花了多久，

00:19:27到目前为止，GSD 显然花了最长的时间。

00:19:30这些都是我在镜头外完成的，经历了每个阶段，

00:19:33让它规划，让它执行。

00:19:35坦率地说，这花了一个多小时。

00:19:38GSD 在执行阶段的总 Token 消耗

00:19:41是 600,000 个。

00:19:42所以我们看的是总数，

00:19:44从规划阶段开始

00:19:46到获得一次性结果，共使用了 120 万 Token，

00:19:50并且花了一个小时 45 分钟才达到这个阶段。

00:19:52对于 Superpowers，它只花了大约

00:19:54额外的 5 万 Token 在执行上，耗时约 15 分钟。

00:19:59所以 Superpowers 的总时间和总 Token，

00:20:02从第一次提示到实际产品，

00:20:05总共耗时一小时，消耗 25 万 Token。

00:20:10是最快的。

00:20:14耗时约 15 分钟。

00:20:16这种差异有点惊人，

00:20:19GSD 显然是最慢且最沉重的，

00:20:23正如预期的那样，标准开箱即用的 Claude Code

00:20:27是最快的。

00:20:28所以让我们看看所有这些时间和 Token 的花费是否值得。

00:20:30我们现在看的是 GSD，

00:20:32它的背景相当单调，对吧？

00:20:37基本上所有的东西都是黑色的。

00:20:40非常简陋。

00:20:44我们使用了某种橙色的配色。

00:20:45这看起来并不糟糕，但也没到

00:20:48让人惊艳的地步。

00:20:50你会觉得：好吧，这是 AI 生成的初稿。

00:20:52一切看起来都非常标准。

00:20:54当我点击博客时，

00:20:55博客就在这里，带有一些示例文本。

00:20:58嗯，这个看起来也还行。

00:21:01现在让我们看看博客生成的部分，

00:21:04那个幕后的工作室页面。

00:21:06但当我点击它给我的链接时，我们得到了 404 错误。

00:21:11所以博客工作室生成器在第一轮尝试中

00:21:14甚至无法工作。

00:21:15所以我告诉了 GSD 问题所在。

00:21:16它现在正在解决。

00:21:18在它处理的时候，

00:21:19让我们来看看 Superpowers 给我们带来了什么。

00:21:21这是 Superpowers 的结果。

00:21:22前端设计看起来就像我们在

00:21:25视觉指南中看到的那样。

00:21:26再次强调，没什么特别的。

00:21:28Claude Code 通常不太擅长前端设计。

00:21:32除非你给它非常、非常好的指令，

00:21:35或者给它加载大量的技能。

00:21:37因此，因为我们把品味、前端设计

00:21:41以及一般的涉及工作留给了 AI 自行解读，

00:21:43我们得到了一个看起来就是 AI 做的东西。

00:21:45所以这还可以。

00:21:47作为一个基础还可以。

00:21:48这是博客的样子。

00:21:50它有图片，而且整个博客的设置都在那里。

00:21:56如果我进入工作室部分，

00:21:58这个在第一次尝试时就能工作。

00:22:01我可以看到生成器。

00:22:02如果我放入我最近一段视频的链接，

00:22:05它就会为我们创建一个草稿，

00:22:06抓取了正确的缩略图。

00:22:08然后它谈论的内容实际上是正确的。

00:22:09因为在那段视频中，我谈到了像

00:22:12Claude Code 内部的 Codec、Obsidian 和自动研究等内容。

00:22:16所以它完全做到了它所说的，

00:22:20这太棒了。

00:22:20现在来看看原生的 Claude Code。

00:22:24非常标准的东西，没什么疯狂的。

00:22:29你知道，如果我们诚实的话，

00:22:30前端设计方面有很大的不同吗？

00:22:33如果我们不给它提供出色的指令，那么在这一个、

00:22:36这一个和这一个之间，

00:22:39坦白说，真的没什么区别。

00:22:43你可以告诉我这三个中的任何一个

00:22:46创造了这三个中的任何一个，

00:22:47我都无法分辨出区别。

00:22:49所以让我们看看博客。

00:22:52它为我们准备了一些假文章，而且，

00:22:57看起来还行，很平淡，

00:23:00没什么特别的，但它能工作。

00:23:02现在让我们看看工作室部分，

00:23:05即博客生成器的部分，对这个是否有效。

00:23:08就像 GSD 一样，这个不起作用。

00:23:11给我的链接是 404 页面无法找到。

00:23:14所以就像 GSD 一样，

00:23:15我告诉基础版的 Claude Code 去修复这个问题。

00:23:18当它试图修复博客生成器时，

00:23:21让我们回去看看 GSD 在第二次尝试时做了什么。

00:23:24看来 GSD 能够搞定它了。

00:23:27让我们把 URL 粘贴到这里，

00:23:29看看它是否会生成草稿。

00:23:30好的，它返回了这个 Markdown 格式的草稿。

00:23:33我很喜欢这一点。

00:23:34我可以直接快速地在行内编辑东西。

00:23:39至于实际内容，它与应有的内容相符。

00:23:41所以它在那方面做得很好。

00:23:44然后我可以看到实际的预览，这很棒。

00:23:48说实话，我更喜欢 GSD 对此的实现，

00:23:51因为它有前置的行内编辑器，

00:23:54比我喜欢的 Superpowers 的实现更好。

00:23:55我们现在可以在我们的博客中看到它了。

00:23:58最后，我们回到了开箱即用的

00:24:01基准 Claude Code。

00:24:03它修复了错误。

00:24:04现在我们来看看博客生成器，

00:24:06和 superpowers 类似。

00:24:08一旦我提供了信息，它就自动生成了。

00:24:11它没给我任何编辑的机会

00:24:13或者像 GSD 那样先看草稿，

00:24:15但这里有一个低分辨率的缩略图，

00:24:18它抓取了所有正确的信息。

00:24:20这就是它在实际博客页面中的样子。

00:24:23那么我们可以从这一切中总结出什么？

00:24:24在这场面对面的竞争中，

00:24:27这三者中谁才是真正的赢家？

00:24:28好，让我们快速回顾一下。

00:24:30就完成任务所花费的总时间而言，

00:24:33原生的 Claude code 大约花了 20 分钟。

00:24:37Superpowers 大约花了一个小时，

00:24:39而 GSD 则耗时 105 分钟，也就是 1 小时 45 分。

00:24:43从 token 消耗来看，Claude code 约为 20 万。

00:24:48Superpowers 是 25 万。

00:24:51而 GSD 消耗了 120 万 token。

00:24:56这些是客观的数据统计。

00:24:59至于主观方面，

00:25:00比如我们如何评价它们实际创作的内容？

00:25:02它们做得怎么样？

00:25:04我们是否对其中某一个有非常强烈的倾向？

00:25:08答案可能是否定的。

00:25:11答案大概是，如果我把这些结果打乱，

00:25:14然后现在进行一场大揭秘，说：

00:25:16“哦不，这个其实是 superpowers 做的。”

00:25:19“而那个是原生 Claude code 做的。”

00:25:22你根本不会在意。

00:25:23你甚至根本分不出区别。

00:25:24所有这些中唯一的实际区别是，

00:25:26superpower 实际上能够在

00:25:27第一次尝试时就完成了它应该做的事情，

00:25:30无论你想给这种“一次成功”多高的评价。

00:25:35我的意思是，说实话，如果能一次成功，那太棒了。

00:25:36如果第二次尝试才成功，对我来说也可以接受。

00:25:40你现在可能也在想：

00:25:42“嗯，这个测试有缺陷。”

00:25:44“这个任务不够复杂，”

00:25:46“不足以让 superpowers 特别是 GSD”

00:25:49“能够脱颖而出。”

00:25:51这种论点的核心问题在于：

00:25:53“好吧，那么衡量的标准是什么？”

00:25:55“什么样的理论任务才算足够复杂，”

00:25:58“从而让你决定使用像 GSD”

00:26:00“或者像 superpowers 这样的工具，”

00:26:02“来证明多花这些时间是值得的，”

00:26:03“对很多人来说，时间比 token 更重要。”

00:26:06这很清楚吗？

00:26:07这很显而易见吗？

00:26:09我会辩称，不，并非如此。

00:26:11真的不是。

00:26:12然而，我们可以从理论上承认，

00:26:16是的，可能存在某些超级复杂的任务，

00:26:18在那种情况下使用它们是有意义的。

00:26:19问题在于如何定义并提前预知这一点。

00:26:21因为如果你对眼前的任务

00:26:26复杂程度判断失误，选错了工具，

00:26:29比如你选择了 GSD 或者 superpowers，

00:26:32相比 Claude code，你刚刚多浪费了 40 分钟，

00:26:36如果你走 GSD 路线，甚至多浪费了 80 分钟。

00:26:39这可是件大事。

00:26:41因为说实话，如果让我重做一次，

00:26:43你问我今天这三者中谁是赢家，

00:26:46那是 Claude code，而且优势巨大。

00:26:48为什么？

00:26:48甚至不是因为 token，而是因为时间。

00:26:50当然，如果我们非要挑刺的话，

00:26:53你可以说它是这几个人中表现最差的，但猜猜看？

00:26:56也许它是最差的，

00:26:57但我额外多出了 40 分钟来完善它。

00:26:59或者相比 GSD，我多了 80 分钟的富余时间。

00:27:02你认为哪一个会更好？

00:27:04是这个刚刚创建的 GSD 版本？

00:27:06还是我和 Claude code 协作，又打磨了 80 分钟的版本？

00:27:09或者是又打磨了 40 分钟的版本？

00:27:11结论应该很明显了，对吧？

00:27:15所以，在这一切结束后我的立场是什么？

00:27:20我的看法是，你得有一个充分的理由

00:27:25去使用这些编排层工具。

00:27:26如果我今天要用一个，我会选 superpowers。

00:27:31如果我正在做一个我不确定

00:27:33是否会太复杂的任务，对吧？

00:27:35就是那条没人知道

00:27:36具体在哪里的想象中的界限，

00:27:39而我觉得我们可能正在接近它，

00:27:40我会使用 superpowers。

00:27:41因为我知道它不会在 token 消耗上让我崩溃。

00:27:44我可以直接去干点别的，等它运行 60 分钟。

00:27:47相比之下，如果我用 GSD，

00:27:49我得一直守在键盘前，对吧？

00:27:52如果我想充分利用它，

00:27:53我就必须经历所有的规划环节。

00:27:55这会耗费很长时间，也会消耗大量 token。

00:27:58所以如果我判断错了，那感觉会非常糟糕，对吧？

00:28:01花那么多时间在 GSD 上真的很伤。

00:28:03拍这个视频的时候我就很痛苦，只是坐在那，

00:28:05为了一个其实并不值得的结果

00:28:07去处理所有这些任务。

00:28:08所以如果我真的认为某件事

00:28:11复杂到我需要 superpowers 的地步，

00:28:13那么好吧，我认为这还可以解释得通。

00:28:17但如果它真的没那么复杂，

00:28:19或者即使是一个复杂的任务，

00:28:21我们是否可以把它拆分

00:28:23成不同的功能，然后慢慢地添加上去？

00:28:26我说的“慢慢”，其实是指比其他选项

00:28:28快得多的方式，

00:28:29因为我只使用原生的 Claude code，

00:28:32它比这些其他选项快得多。

00:28:34另一件事是，当 GSD 问世时，

00:28:38我也在那时做了一个视频。

00:28:41当时我真的很喜欢 GSD。

00:28:42superpowers 也是一样。

00:28:44当这两个东西最初出现时，

00:28:46Claude code 还没达到今天的水平。

00:28:48我已经能听到有人在抱怨，

00:28:51“现在的 Claude code 变弱了。”

00:28:52我说的不是那个意思。

00:28:54我说的是 Claude code 处理问题的方式，

00:28:56以及它的一些脚手架

00:28:57和它自身框架运行的方式。

00:28:59有很多改进，比如……

00:29:00就说当你有庞大的计划

00:29:03并想要执行它时，它会问你：

00:29:04“嘿，你想要清空上下文并这样做吗？”

00:29:07以前根本没这回事。

00:29:08比起 GSD 刚出来的时候，

00:29:10Claude code 更容易受到上下文腐烂等问题的影响。

00:29:12当 GSD 刚推出时，我觉得：

00:29:14“天哪，这简直是救星。”

00:29:15“它处理上下文的方式正是它应有的样子。”

00:29:17而现在 Claude code 已经引入了很多这些功能，

00:29:19也就是说，基准 Claude code 与这些工具

00:29:22之间的差距已经显著缩小了。

00:29:25与此同时，

00:29:26现在的执行速度却拉开了巨大的差距。

00:29:30我们不能不讨论速度上的差异。

00:29:34这 20 分钟对比 60 分钟，

00:29:36以及 105 分钟，是所有差异中最大的。

00:29:38至少在我看来，

00:29:41这是你应该重点参考的指标。

00:29:44所以综上所述，少即是多。

00:29:47我认为对于 99% 的用例和 99% 的用户来说，

00:29:53直接使用基准 Claude code 是最明智的。

00:29:56它会更快。

00:29:57即使输出结果不一定更好，

00:29:59你也有更多的时间来弥补差距，

00:30:01并实际上超越这些其他的竞争者。

00:30:03如果你认为你正在做的项目

00:30:05非常复杂，并且想要一些额外的力量，

00:30:08那就用 superpowers，因为它相对轻量，

00:30:12而 GSD 感觉就像一个庞然大物。

00:30:16老实说，用起来感觉并不好。

00:30:18我要坦白说。

00:30:19使用 superpowers 要流畅得多。

00:30:21我只需要和它对话，它就会调用技能。

00:30:23我不需要像……好吧，

00:30:25现在我们要输入 /clear。

00:30:27好的，我在一个新环境里，这有点繁琐。

00:30:29我明白 GSD2 为什么会出来，对吧？

00:30:32GC 2.0 旨在缓解这些问题。

00:30:35但你猜怎么着？

00:30:36那也没用，

00:30:37因为你不能使用 Claude code 的 Max 订阅方案，

00:30:38这意味着我要支付荒谬的高价。

00:30:40所以，也就是那么回事吧。

00:30:45希望这能为你们

00:30:46在这一整件事上提供一些参考。

00:30:47我认为如果你坚持使用标准原生的 Claude code，

00:30:49你就会做得很好。

00:30:50把 superpowers 当作备用手段，以防万一。

00:30:53只需在项目级别准备好那些技能。

00:30:55坦率地说，很难说你需要 GSD，

00:30:58除非你正在做一些疯狂的事情，

00:31:00并且你就喜欢在每个阶段

00:31:02都被人牵着手引导。

00:31:03这就是我要说的全部内容。

00:31:06一如既往，请在评论区告诉我你的想法。

00:31:09我很想听听你们是如何使用 superpowers

00:31:11和 GSD 的，以及我在应用它们时难免犯下的错误。

00:31:15如果你想获得 Claude code 大师班课程，

00:31:18请务必关注一下。

00:31:19链接在我的简介和置顶评论里。

00:31:23除此之外，我们回头再见。

Key Takeaway

对于 99% 的开发任务，原生 Claude Code 凭借 20 分钟的极速交付和低 Token 成本成为最优选，其节省的 40 至 80 分钟时间足以通过后期协作手动打磨出超越 GSD 或 Superpowers 一次性生成质量的产品。

Highlights

原生 Claude Code 在开发效率上具有绝对优势，完成任务仅需 20 分钟，而 Superpowers 需 1 小时，GSD 则需 105 分钟。

GSD 在规划阶段消耗 60 万个 Token，由于其并行的四代理研究机制，总消耗高达 120 万个 Token，是 Claude Code 的 6 倍。

Superpowers 是唯一在第一次尝试时就成功构建出可运行的博客生成器且无 404 错误的工具。

GSD 强调状态管理和文档化，通过创建 roadmap.md 和 state.md 等多个 Markdown 文件来记录项目进度和需求。

Claude Code 通过版本迭代已经集成了清空上下文和执行大型计划等功能，显著缩小了与第三方编排层工具的代差。

Superpowers 提供的视觉伴侣功能允许用户在编码前从四个不同的 UI 设计模板（如 Warm Editorial）中进行实时预览和选择。

Timeline

三方测评标准与编排层定义

测试通过构建相同的 Web 应用来对比输出结果、Token 消耗和构建耗时。
GSD 和 Superpowers 属于运行在 Claude Code 之上的编排层，旨在改变复杂项目的处理方式。
这些工具利用子代理驱动开发模式来应对长对话中的上下文衰减问题。

测评的目标是创建一个包含落地页、博客展示页和博客生成器的 Chase AI 机构网站。GSD 和 Superpowers 虽然界面不同，但核心逻辑一致，即将大构思拆解为具体的原子任务，分配给拥有干净上下文窗口的子代理执行。这种架构设计的初衷是提高复杂逻辑的输出准确性。

测试驱动开发与文档状态管理的差异

Superpowers 遵循没有失败测试就不写生产代码的红-绿重构原则。
GSD 通过不断生成的 Markdown 文件维持项目的“北极星”导向。
两个工具之间的手感差异源于对测试深度与项目文档化程度的不同偏好。

Superpowers 的核心是极致的测试驱动开发（TDD），强制要求在编写功能代码前先创建失败的测试用例。GSD 则侧重于状态同步，通过需求、路线图等多个文档确保在频繁重置子代理内容时，系统始终知道当前位置和未来去向。两者的选择往往取决于用户对开发流程严谨度的要求。

项目需求细节与视觉伴侣体验

博客生成器需具备抓取 YouTube 链接并使用 Anthropic SDK 自动转稿的功能。
Superpowers 的视觉伴侣功能支持一次性展示四种不同美学风格的实时预览。
GSD 倾向于通过对话引导用户在规划初期做出关于品味和服务的具体决策。

网站要求包含获取潜在客户的表单以及一个隐藏的管理页面，用于处理 YouTube 或文章链接的自动化博客转换。在 UI 设计阶段，Superpowers 展示了明显的优势，它能启动开发服务器并提供如“Electric Lime”或“Warm Editorial”等风格选项供用户选择。这解决了 Claude Code 在没有明确指令时前端审美较差的痛点。

规划阶段的时间与 Token 成本分析

GSD 的规划阶段耗时 40 分钟，并伴随 4 个并行研究代理产生的巨额 Token 消耗。
Claude Code 的规划阶段仅需 10 分钟和 5 万个 Token。
Superpowers 在规划阶段的 Token 消耗约为 20 万个，处于中等水平。

GSD 投入了大量资源进行技术栈、功能、架构和潜在坑点的研究，单研究环节就产生了近 20 万个 Token 的消耗。相比之下，原生 Claude Code 虽然简单直接，但速度极快。对于这种已知的常见任务，GSD 的深度研究显得过于沉重，导致在进入实际代码编写前就产生了较高的时间和金钱支出。

执行效率与最终成品质量对比

GSD 在执行过程中需要频繁的人机交互，每个阶段都需要手动启动和确认。
Superpowers 仅需 15 分钟执行时间，且是唯一一次性跑通博客生成器的工具。
三者生成的前端设计质量在没有精细指令的前提下差异极小。

在执行阶段，GSD 表现得非常刻板，要求用户介入每一个子阶段的讨论。尽管 GSD 提供了更好的行内编辑器用于预览博客草稿，但其初始版本出现了 404 错误。Superpowers 表现最流畅，其子代理模式在无需人工干预的情况下完成了大部分配置。原生 Claude Code 虽然也出现了 404 错误，但其修复速度极快。

AI 开发工具的最优选择策略

原生 Claude Code 是本次测试的绝对赢家，优势在于时间效率。
Superpowers 适合作为处理潜在复杂任务时的轻量级备选方案。
由于 Claude Code 框架本身的快速迭代，编排层工具的必要性正在显著降低。

测评结论认为时间比 Token 成本更宝贵。选择原生 Claude Code 可以节省出超过一个小时的时间，这段时间足以让人工介入并显著提升应用质量。GSD 虽有潜力处理极度复杂的工程，但因其交互繁琐、成本昂贵且无法享受 Claude Code Max 订阅等限制，在大多数常规场景下并不实用。建议开发者坚持使用原生工具，仅在特定复杂场景下挂载 Superpowers 技能。

Community Posts

保持 Claude Code 会话上下文在 60% 以下可有效降低成本

makedream9 दिन पहले4090

Write about this video