00:00:00AI 编程框架不断涌现,每一个都声称自己是
00:00:04构建智能体(Agent)的最佳方式。
00:00:05但构建智能体的最佳路径并不完全取决于你选择的框架。
00:00:09还有一些人们经常忘记评估的因素,这导致他们在框架
00:00:14与项目不匹配时感到沮丧。
00:00:15但这并不是框架的问题,而是选型的问题。
00:00:18每个框架在它设计的应用场景下都表现出色,这里
00:00:22没有万能的方案。
00:00:23我们团队之前在频道里介绍过一些 AI 编程框架,但最近我们
00:00:28发现了一个最近势头非常猛的框架。
00:00:31我们之所以制作这个视频,并不是因为它又是另一个会让你
00:00:35抛弃其他框架的“最强框架”。
00:00:37而是因为在测试时,我们发现它确实与众不同,它适用于
00:00:41其他框架无法胜任的场景。
00:00:43我们在之前的视频中介绍过多个框架,比如 BMAD 和 Superpowers。
00:00:48选错框架意味着你要么在过度设计,要么就是准备不足。
00:00:51今天我们要聊的是这个叫 GSD 的框架,它是 Get Shit Done(把事搞定)的缩写,
00:00:56待会儿你就会明白为什么叫这个名字。
00:00:57看完整视频后,你会清楚在什么情况下该用哪个框架,首先从
00:01:00第一个 GSD 开始。
00:01:02当你还不确定具体要构建什么,且不想预先规划一切
00:01:06以防未来需求变动时,就可以使用 GSD。
00:01:09这并不代表你完全不知道要做什么。
00:01:11而是指你想做的产品在每一步都需要进行大量的实验。
00:01:15如果你想为实验性项目快速构建 MVP(最小可行性产品),
00:01:19这会是非常棒的选择。
00:01:20虽然 GSD 也会询问大致范围,但与 BMAD 方法不同,它
00:01:25并不会把你锁死。
00:01:26它利用初始范围,分步规划每一个实现步骤。
00:01:30这意味着你不会被后期阶段限制,因为系统尚未
00:01:34预先制定极其详尽的计划。
00:01:35所以,如果你正在构建一个前所未有的定制化方案,
00:01:39选择 GSD 会更好。
00:01:41假设你正在开发一个像 Cluely 这样的屏幕面试助手。
00:01:45你需要摸索很多东西,比如用户体验应该是怎样的,
00:01:50或者如何确保各种屏幕共享平台在共享期间不会检测到它。
00:01:54许多事情都需要实验,无法在规划前就确定下来。
00:01:59相比之下,BMAD 采取了截然相反的方法。
00:02:02它是一个循序渐进的框架,在开始实施任何操作之前,
00:02:06会为每个阶段创建详尽的文档。
00:02:07你必须在项目开始时就非常明确你要构建的内容,而且它
00:02:11不容易出错。
00:02:12它有一个专门的调研部门模块,BMAD 的创始人向其中
00:02:17灌输了大量关于业务分析师和设计思考者等角色的背景信息,
00:02:21确保能从各个角度对你想要的产品进行深思熟虑。
00:02:25但这都是预加载好的,以此为基础你会制定 PRD 和架构文档,
00:02:30然后根据这些文档得到分拆后的任务,实施团队
00:02:34只需照做即可。
00:02:35当我们发布关于 BMAD 系统的视频时,我们曾称赞其严密性。
00:02:39该系统的提示词构建得非常好,几乎不会让智能体
00:02:43偏离既定任务。
00:02:44但在长时间使用后,我们发现当你真的需要修改
00:02:48需求时,系统就会变得不稳定,因为即使是最好的
00:02:52模型在更改需求时也会遗漏微小的细节。
00:02:56另一个常见的抱怨是,在实际开始实施之前,
00:03:00规划一切所需的时间太长了,但那是由于它不应该
00:03:04被用于那类项目。
00:03:05你应该在需求完全确定,且希望构建出的系统没有任何
00:03:09漏洞时使用它,因为它生成的所有规格说明都是高度关联的。
00:03:14或者当你想要构建传统系统时,例如为客户定制 CRM 方案
00:03:19或是你自己的定制化社区平台。
00:03:21现在,Superpowers 基于 TDD(测试驱动开发),核心理念就是
00:03:25你清楚自己要构建什么。
00:03:26TDD 在那些无法承受边缘案例(Edge Case)代价的场景中非常重要,
00:03:30这里所说的代价不是指 Next.js 应用里一个简单的 Stripe 集成,
00:03:34而是像智能体平台这种,AI 智能体代表用户执行操作,
00:03:39一旦出错就无法撤回且代价高昂。
00:03:41在可用性方面,它和 GSD 类似,是根据项目大纲
00:03:46逐个功能进行规划的。
00:03:49但由于它是先生成测试,所以并没有给你太多尝试
00:03:53不同方案的空间,对于那些已经提前做好规划的项目来说也不够理想。
00:03:57但你也可以这样做:如果项目跨越了两个领域,
00:04:02你可以先用 GSD 实现一个主功能完成的版本,
00:04:06然后再将项目导入 Superpowers 继续开发应用的其余部分。
00:04:10我们有关于 Superpowers 和 BMAD 方法的单独视频,
00:04:15如果你想更深入地了解,链接就在下方的描述栏里。
00:04:19GSD 在设计时也考虑了防止“上下文腐烂”(Context Rot),通过使用子智能体,
00:04:23为隔离的任务启动独立进程,保持主智能体的上下文整洁,
00:04:28使其能够专注于核心任务而不会发生偏移。
00:04:31现在大多数 AI 编程助手都支持子智能体,所以你是否
00:04:35配合 Claude Code 使用并不重要。
00:04:37不过 Claude 最近也迎来了一次更新,新的 Opus 4.6 拥有 100 万
00:04:42上下文窗口。
00:04:43因此,我们在这个频道上教过的许多主动管理上下文的
00:04:46技巧现在看来没那么重要了。
00:04:49安装时,只需复制命令并粘贴到你正在操作的
00:04:53项目文件夹中。
00:04:54然后选择你想为哪个智能体安装。
00:04:57在我的案例中是 Claude,所以我选了它。
00:04:59接着你需要选择安装的范围。
00:05:02我更倾向于项目级别,因为每个项目可能使用不同的框架,
00:05:06这样可以将配置限制在为该项目选择的框架内。
00:05:10既然我们用 Next.js 开发,就把它安装在刚初始化的项目中。
00:05:15安装完成后,GSD 框架会以智能体、命令和钩子的形式
00:05:19显示在你的 .claude 文件夹中。
00:05:21如果你没用 Claude,它们会存储在项目根目录的 .agent 文件夹中。
00:05:26它包含多个针对特定任务的智能体,但与普通基于 Markdown 的
00:05:30提示词不同,一切都以 XML 格式组织,这是有意为之的。
00:05:34众所周知,Claude 模型在处理 XML 格式的指令时表现更好,
00:05:39因为它能更轻松地解析结构,这是针对你所使用的
00:05:43智能体进行的性能优化。
00:05:44在继续之前,先听听我们赞助商 Genspark 的介绍。
00:05:48目前大多数人都在同时使用多个 AI 订阅,分别支付
00:05:52ChatGPT、Claude 和各种媒体工具的费用。
00:05:55Genspark 是一个全能型 AI 工作空间,通过将一切
00:06:02整合到一个订阅中,仅用 11 个月就实现了 2 亿美元的 ARR(年度经常性收入)。
00:06:03它使用超级智能体系统为任何任务选择最佳模型。
00:06:07它能处理你的整个工作流,从制作 AI 幻灯片、自动化 AI 表格,
00:06:12到生成 AI 媒体,甚至利用 "call for me" 功能拨打现实世界的电话。
00:06:16你甚至可以将研究成果转化为 AI 播客,随时随地收听。
00:06:20此外,使用 Speakly 可以立即将 15 分钟的录音转化为 3000 字的完美文本。
00:06:26最疯狂的部分是什么?
00:06:27Genspark 在整个 2026 年提供无限次的 AI 聊天和图像功能。
00:06:31Nano Banana 2, GPT-Image, Flux, Seedream, Gemini 3.1 Pro, GPT 5.2, Claude Opus 4.6 等
00:06:40顶尖模型全部包含在内,无限量访问。
00:06:43点击置顶评论中的链接,开始使用 Genspark 构建吧。
00:06:46要开始使用 GSD,你需要运行这个新项目命令。
00:06:50运行该命令后,智能体将根据初始化提示词开始工作,
00:06:54首先会探索代码库。
00:06:56由于我已经初始化了 Next.js 应用,它检测到了已有代码,
00:07:01并询问是否应该先探索现有的代码库。
00:07:04我们让它跳过映射以节省时间。
00:07:06如果你是在现有项目上工作,最好让它先映射代码库,
00:07:11但因为这只是个空白模板,所以我跳过了。
00:07:14之后,它会让你告诉它你想做的应用想法。
00:07:18接着它会询问大量关于应用目标受众、功能、
00:07:22项目范围等问题。
00:07:24但 GSD 进行的问答环节与 Superpowers 有显著不同。
00:07:29Superpowers 会试图在这个阶段挖掘你的边缘案例。
00:07:32而 GSD 则不然,它更专注于理解要构建什么,而不是压力测试
00:07:38它可能会在哪里崩溃。
00:07:39一旦从会话中收集到足够的信息,它就会在 .planning 文件夹下
00:07:43创建 project.md,其中包含从问答中推导出的描述、
00:07:48超出范围项、上下文约束和关键决策。
00:07:50这里就是防止上下文腐烂在实践中的体现。
00:07:54它保持 project.md 刻意精简和聚焦,这样智能体就不会
00:07:59因埋没在文档中而偏离主要目标。
00:08:01它通过 Git 跟踪所有工作,但并不使用简单的 git commit。
00:08:05它在底层运行一个脚本,在提交前执行检查,确保一切
00:08:10符合标准后,再实际调用 Git 进行提交。
00:08:12规划完成后,GSD 进入调研阶段。
00:08:16它会启动多个智能体并行调研应用的不同方面,全部
00:08:20在后台运行。
00:08:21调研完成后,调研合成智能体(Synthesizer Agent)会开始工作。
00:08:24由于所有这些智能体都经过调整,能针对任务使用合适的模型,
00:08:29所以合成智能体使用的是 Sonnet 模型,而不是更重的 Opus。
00:08:32GSD 有一个完善的参考映射,根据子智能体承担的工作量
00:08:36为其分配正确的模型,从而避免浪费额外的算力。
00:08:39它会浓缩调研发现,并标注潜在问题,即那些
00:08:44可能阻碍长期工作的注意事项。
00:08:46调研合成后,需求阶段开始。
00:08:49它会针对 MVP 询问有针对性的问题,识别哪些功能对于
00:08:551.0 版本是真正必不可少的。
00:08:56因为 GSD 专注于快速交付,它确保 V1 版本只包含必要的内容。
00:09:01在和你确认 MVP 之后,它会生成路线图结构,
00:09:05你需要批准它,你的批准标志着项目初始化完成。
00:09:09另外,如果你喜欢我们的内容,请考虑点一下 Hype 按钮,
00:09:14这能帮助我们创作更多此类内容并触达更多观众。
00:09:17现在初始化阶段结束了,下一步就是实施计划。
00:09:22在上一阶段,它根据需求将项目分解成了 4 个阶段。
00:09:26它会提供两种工作方式:跳过讨论或继续讨论。
00:09:31该框架中的“讨论”是指与智能体的问答环节,通过讨论
00:09:35确保它正确理解了计划。
00:09:37我们选择了先讨论,以便尽可能明确需求,但如果
00:09:41你认为之前的问答环节已经足够让它构建应用,
00:09:45也可以选择跳过讨论。
00:09:47讨论环节结束后,它会在 .planning 文件夹下的 phases 文件夹里
00:09:52创建一个 context.md 文件。
00:09:54该文件包含我们讨论的所有细节,并将我们刚刚讨论过的
00:09:58阶段与智能体进行映射。
00:09:59秉承 GSD 的哲学,该文件也非常简短,以便
00:10:04Claude 能专注于真正重要的事情。
00:10:06接下来,开始第一阶段的规划。
00:10:08规划阶段首先基于刚刚创建的 context.md 文件进行调研,
00:10:13由专门的调研智能体配合 Sonnet 模型探索各个方面。
00:10:17但我们原以为它会使用 Context 7 或者正确查阅文档。
00:10:21相反,它在搜索关键词中使用了 2025 年进行网页搜索,
00:10:27这本不该发生。
00:10:28如果我们连接了 Context 7 MCP,调研过程
00:10:32会更加可控且有据可依。
00:10:33所以在使用时,请务必连接此类 MCP 以获得更好的知识依据。
00:10:37它创建了一个 research.md 文件并记录了所有调研结果,
00:10:42包括调研的置信度,这反映了其来源的可靠程度。
00:10:46调研之后,它制定了一个计划。
00:10:48这些计划详细列出了每个阶段的依赖项以及所有带有
00:10:52正确 ID 的需求。
00:10:53但关键点在这里,这就是 GSD 的不同之处,它并不是像
00:10:57其他工具那样只写一种计划,而是实际上从多个维度
00:11:02交叉验证计划,确认计划是否可行并符合目标。
00:11:06它使用专门的规划智能体和计划验证智能体,规划智能体负责
00:11:11创建计划,而验证者则不断检查并传回警告。
00:11:14所以它基本上是独立执行了对抗性规划(Adversarial Planning),
00:11:19无需我们手动控制。
00:11:20一旦计划最终确定并通过所有步骤,它就会提交并将计划
00:11:24分解为两个波次(Wave)。
00:11:25它实际上会根据需要分解成多个波次,并将独立的任务
00:11:30并行化,以便子智能体可以同时处理。
00:11:33它开始利用专门的智能体来执行刚创建的计划,
00:11:37实施项目波次。
00:11:38完成后,它会通过底层的 Playwright 测试来验证检查点,
00:11:43包括创建脚本、用后删除以保持文件夹整洁,
00:11:47以及在后台执行多个自动化任务。
00:11:49然后它向我们提供了构建内容的总结,并给出了
00:11:53如何自行验证的说明。
00:11:54第一次迭代构建的应用只是个占位符,展示了所有初始元素,
00:11:58让你看到应用的实际样貌。
00:12:01后续迭代将一次构建应用的一个方面,最终在周期结束时
00:12:05交付一个完整的应用。
00:12:06整个迭代消耗了 13.8 万个 Token,相对于 100 万 Token 的
00:12:12上下文窗口来说其实并不多。
00:12:13但如果是 20 万上下文窗口的智能体,它就会提示该进行压缩了。
00:12:18不过由于它依赖于阶段性文档,即使我们清除了上下文,
00:12:23智能体也会知道从哪里开始。
00:12:25当我们批准工作后,它运行了多次测试,并将波次 2 也标记为完成。
00:12:29之后,它再次启动 GSD 验证器,交叉检查实施情况
00:12:34是否符合最初的目标。
00:12:36验证通过后,它将第一阶段(包括验证环节)标记为完成,
00:12:41并提示我们进入应用的下一个阶段。
00:12:43当我们将应用跑完所有阶段后,之前的占位功能
00:12:47现在都已经全部可用并按预期工作了。
00:12:49当你开发具有多个功能的大型应用时,GSD 非常好用,但如果
00:12:54你构建的应用很简单,不需要这些繁重的规划,那它就大材小用了。
00:12:59对于简单的应用,单独使用 Claude 或其他智能体就足够了,
00:13:03不需要这种周密的规划。
00:13:04然而,如果你想要受控的执行和妥善的规划,同时又不想
00:13:08在这一阶段耗费太多精力,你绝对应该选择 GSD。
00:13:11这只是其中一个框架,但通常会有一些现有框架
00:13:16无法满足的用例,这时你需要构建自己的框架。
00:13:18为此,在实际构建之前你需要了解某些原则。
00:13:22我们在之前的视频中讨论过这些原则,它们能帮你构建更好的工作流。
00:13:26你可能会在结束画面看到那个视频,直接点击即可,
00:13:30不用再去搜索了。
00:13:31本期视频到这里就结束了。
00:13:33如果你想支持本频道并帮助我们继续制作此类视频,
00:13:37可以加入 AI Labs Pro。
00:13:38一如既往,感谢观看,我们下期再见。