00:00:00在过去的几个月里,我们介绍了许多 AI 编程框架,包括 BMAD、GSD、SpecKit 和 Superpowers,
00:00:08而且你们中的很多人实际上已经开始使用它们了。但 Anthropic 刚刚在他们自己的测试台上运行了实验,
00:00:14逐一移除组件并测量究竟什么是真正重要的。他们的结论是,其中大部分现在都是冗余负担。
00:00:17框架中的每个组件都代表了对模型自身无法完成的任务的假设,而对于 Opus 4.6 来说,
00:00:25这些假设已经过时了。我们梳理了整个过程,并规划出哪些仍然重要,哪些可以剔除,
00:00:32以及你现在的设置究竟应该是什么样子的。代理测试台在让代理在长周期任务中
00:00:37表现得更好方面发挥着重要作用。Anthropic 已经发布了一个代理测试台,我们在之前的视频中
00:00:43详细介绍过,解释了如何设置和使用它。我们在同样的背景下也介绍了其他框架,
00:00:50虽然它们的实现方式不同,但目的都是一样的。但当这些框架发布时,
00:00:55模型的能力还不如现在的 Opus 4.6。例如,像 GSD 这样的框架专注于上下文隔离,
00:01:01但这对于 Opus 4.6 来说已经不是问题了。不仅是因为它拥有百万级的上下文窗口,
00:01:06还有另一个我们稍后会讨论的原因。因此,许多以前实现的框架现在对于新模型的能力来说反而是一种负担。
00:01:11Anthropic 实际上运行了实验来测试测试台的不同方面,移除每一个部分并测量其影响。
00:01:17根据他们的发现,他们得出结论:一个代理测试台实际上只需要用于规划、生成和评估的代理。
00:01:24其余的只是在模型能力如此强大的今天,已经变成冗余负担的处理方式。
00:01:29核心理论是,代理测试台中的每个组件,无论你使用的是哪一个,都遵循同样的原则。
00:01:35每个组件都包含一个关于模型自身能做什么的假设。
00:01:38这些假设应该接受压力测试,因为它们可能是错误的,并且随着模型的改进而过时,这就是他们在文章中所做的。
00:01:46因此,随着模型的演进,你的测试台也应该随之演进,如果你还在使用几个月前的原则,那你就落后了。
00:01:54规划是每个框架中保持不变的第一步,但随着模型能力的增强,规划的方式必须改变。
00:02:01Anthropic 之前的长期运行测试台要求用户预先提供详细的规范。
00:02:06像 BeMad 和 SpecKit 这样的框架实际上是将任务切分成更小的碎片和微任务,以帮助 AI 代理轻松实现。
00:02:14这些不只是小任务,它们简直是详细的步骤,代理只需要不加思考地执行即可。
00:02:20这是因为当时模型能力不够,需要微观引导才能按照你想要的方式运行。
00:02:27但随着 Opus 4.5 和 4.6 的出现,情况发生了变化。
00:02:30当 Anthropic 测试这一点时,他们发现如果规划器尝试预先指定微观技术细节,单个错误就会级联到每一层实现,
00:02:43使得代理很难偏离原有计划并自行修复问题。这完全取决于计划写得有多好。
00:02:45因此,规划现在已经变成了高层级的概述,而不是详细的技术实现。
00:02:50现在的代理本身就聪明得多,你只需要告诉它们需要什么样的交付物即可。
00:02:55它们可以自己找到实现目标的路径。
00:02:57随着这种转变,像 BeMad 和 SpecKit 中的那种规划方法不再那么重要了。
00:03:02你可以将 BeMad 限制在 PRD 生成之前的规划阶段,无需再进入技术切分过程。
00:03:08正如我们之前提到的,使用 BeMad 生成 PRD 是有效的,因为它拥有比 Claude 自身更能理解产品要求的专业代理。
00:03:18这是因为这些代理加入了作者针对特定任务提供的外部上下文。
00:03:23或者,你可以使用 Superpowers 的提问环节,因为它实际上旨在识别边界情况,这可能比多级任务文档更有效。
00:03:32但过度详细规划的核心问题在于它限制了代理,没有给 AI 留下自行探索和解决问题的空间。
00:03:40Anthropic 还提供了一个由规划代理生成的示例计划,你可以用它来设置你自己的规划代理。
00:03:46它明确指出,计划应该着眼于大局,并推向你提供的任何应用创意的极限。
00:03:52核心理念是将项目保持在产品层面,而不是实现层面。
00:03:56这很重要,因为如果在项目计划中尝试规划实现细节,它会过于关注技术细节,可能无法交付完整产品真正需要的东西。
00:04:06现在你可能会认为 Claude 自带的计划模式已经通过提问并提供详细计划在做类似的规划了。
00:04:12但区别在于:即便 Claude 有规划代理,它仍然侧重于实现细节,而非真正的产品层面,这违背了 Anthropic 的发现。
00:04:22因此,一旦你设置好了这一点,你只需让 Claude 使用你创建的代理来规划应用,它就会生成一份完整的计划,并在进展中记录在你的文件夹里。
00:04:31该计划包括产品层面的完整功能分解,并且在每个阶段都包含展示用户视角的“用户故事”。
00:04:40这有助于 Claude 实现用户真正期望的正确工作流。
00:04:44但在继续之前,让我们听听赞助商 Minimax 的介绍。
00:04:47设置 AI 代理简直是场噩梦。API 密钥、服务器配置、Docker 设置,忙完这一切,你的助手在你关掉标签页的那一刻就忘光了。
00:04:56解决方案是 MaxClaw,触手可及的云端 AI。
00:04:59无需设置,没有烦恼,你可以部署属于你自己的 OpenClaw。
00:05:02只需点击部署,10 秒内即可上线。它能构建网站、编写代码、进行调研,并通过简单的文本提示自动化你的繁琐工作。
00:05:12MaxClaw 直接连接到 Telegram、Slack、Discord 等平台,让你通过简单聊天就能自动化工作流、浏览网页,甚至生成图像或视频。
00:05:21它是 Minimax Agent 的一部分,这是一个 AI 原生工作区,每个人都能成为代理设计师。
00:05:27它适用于 Mac 和 Windows,由 M 2.7 驱动,该模型在 SWE-bench 上的表现可媲美 Claude Opus 4.6。
00:05:33停止与复杂的设置搏斗,让 MaxClaw 来处理吧,点击置顶评论中的链接即可开始。
00:05:39编写代码的代理不应该是评估代码的那个。
00:05:42这是第二大常见问题,而且通常讨论得不多。
00:05:46自我评估是有问题的,因为如果你使用编写代码的同一个代理来评估它,它往往会表现得非常自信并赞美自己的工作,即便质量明显不达标。
00:05:56对于具有量化指标的任务(例如实现的 API 是否真的在运行),这可能比较容易管理。
00:06:03但对于没有明确可验证结果的任务,这个问题会变得更加突出。
00:06:08最大的例子就是 UI(用户界面)。
00:06:10什么是好的 UI 是主观的,AI 可能无法完全理解你的意图。
00:06:15它可能认为自己的实现做得很好,即便它不符合你的标准。
00:06:19这个问题已经被多个框架的创建者所认识到,他们实现了各自的评估机制来解决它。
00:06:26我们介绍过的所有框架,如 GSD、BMAD 和 Superpowers,都确保编写代码的代理不负责评估其质量。
00:06:34这种方法显著提高了代理评估的准确性和可靠性。
00:06:39因此,无论你是使用现有框架还是自己构建,你都需要确保评估者与执行者完全分离。
00:06:47在开始实现之前,生成代理和评估代理会协商一份“契约”,就工作的“完成”标准达成一致。
00:06:54这很有帮助,因为两个代理都清楚地知道要实现什么以及要验证什么。
00:06:58在高层级规划下,仍然需要可操作、可实现的步骤。
00:07:02但在使用测试台进行测试期间,他们尝试移除了冲刺契约。
00:07:06他们发现 Opus 4.5 在这种情况下效率较低,因为评估者仍然必须介入来发现问题。
00:07:12但对于 Opus 4.6,模型的能力已经提升了很多,契约已经不再必要了。
00:07:18生成代理已经有能力独立处理大部分工作。
00:07:22因此,对于像 Sonnet 或 Haiku 这样的小型模型,你仍然需要记录任务。
00:07:27将它们妥善分解为冲刺结构,并让每个代理就“完成”的标准达成一致。
00:07:32但对于能力更强的模型,你可以依靠 Opus 直接执行高层级计划,而无需这些额外步骤。
00:07:38现在我们说过,上下文隔离之所以重要是有原因的。
00:07:42这是因为小型模型会产生“上下文焦虑”,这是一种随着上下文窗口填满,模型在长任务中开始失去连贯性的现象。
00:07:51当这种情况发生时,它们会提前结束工作并声称已正确执行任务,即便事实并非如此。
00:07:57有效的解决方案是上下文重置,即在开始实现之前清空它们的上下文窗口。
00:08:02由于上下文已清空,它们可以依赖记录在外部的任务分解,这些分解在上下文重置后依然存在。
00:08:08但模型表现出的上下文焦虑非常严重,仅靠压缩是不够的。
00:08:13它们需要额外的措施来防止在较长任务中出现问题。
00:08:17然而,从 Opus 4.5 开始,模型不再表现出这种行为。
00:08:21这些代理可以在整个会话中持续运行,Claude 处理压缩的方式足以维持它们的运行。
00:08:28因此,上下文重置不再必要,像 BMAD 和 SpecKit 那种详细的任务分解也不再需要,仅靠高层级引导就足够了。
00:08:37生成代理是主要的执行者,负责逐个功能地构建应用。
00:08:42它接收计划中的规范并持续实现它们,同时与 Git 集成进行版本控制。
00:08:47生成代理与评估代理协同工作。
00:08:50构建完一个功能后,它会将其移交给测试,并接收反馈以改进其实现。
00:08:56它的工作流分为几个步骤:理解任务、执行任务以及完善实现。
00:09:02即使在实现阶段,工作也被分为涵盖不同方面的四个子阶段。
00:09:07它遵循设计方向,验证其工作,然后将其交给评估者。
00:09:11这形成了一个结构化的、循序渐进的模式,使代理能够独立且系统地实现整个应用。
00:09:18评估代理充当生成代理的对抗者。
00:09:21它的工作是确保应用被正确实现,不是进行通用的“寻找错误”测试,而是从“存在错误”的批判性视角切入。
00:09:30它可以使用 Playwright 等工具通过模拟用户交互来测试应用,根据预定义的标准识别错误,并将反馈发送回生成代理。
00:09:39通过阅读计划,评估者可以清楚地了解“完成”应该是什么样子,并在批准之前进行彻底检查。
00:09:46每个框架都有自己的验证器,但方法差异很大。
00:09:50BMAD 使用专业的代码审查和 QA 代理,它们会生成并运行测试,从多个角度评估代码。
00:09:57GSD 使用一个验证子代理,根据现有计划检查实现情况并生成文档报告。
00:10:04Superpowers 依赖于全新的子代理并强制执行严格的 TDD(测试驱动开发),即在编写测试用例之前不能编写任何代码。
00:10:10如果代理试图绕过这一点,它就会被阻止。
00:10:13SpecKit 将规范视为真相来源,并允许代理根据文档验证代码。
00:10:18但这些框架都没有提供达到 Anthropic 所追求的那种严谨程度的评分机制。
00:10:24因此,Anthropic 测试台中的评估者最接近 Ralph Loop 对 Claude 的严格执行实现,通过适当的分级评估机制确保代理交付真正需要的东西。
00:10:35另外,如果你喜欢我们的内容,请考虑点击“Hype”按钮,因为这有助于我们创作更多此类内容并触及更多观众。
00:10:43代理无法知道对你来说正确的输出是什么样子,特别是在实现不可量化的情况下。
00:10:49因此,你使用分级评估机制,以便它们知道在你眼中正确的输出是什么样的。
00:10:54当 Anthropic 为前端评估指标提供示例时,他们提到 AI 在大多数情况下倾向于收敛到相似的输出。
00:11:02他们为生成代理和评估代理设置了四项评分标准。
00:11:06第一项是设计质量,指示它检查字段是否连贯,还是仅仅是零散组件的堆砌。
00:11:12然后是原创性,这是主要标准之一,因为 AI 倾向于默认在大多数 UI 中使用紫白渐变模式。
00:11:19这违背了人类的设计方式,因为对人类来说,每个设计选择都是深思熟虑的,这使得网站不好看时很容易被识别出来。
00:11:27第三项是工艺,即排版、间距一致性和色彩和谐等细微之处,对比度应在技术上平衡,而不是仅仅为了看起来有创意。
00:11:37最后一项是功能性,因为在 UI 方面,每个组件都发挥着增强用户体验的视觉作用。
00:11:44Claude 在工艺和功能性方面已经表现良好,但其余部分是最常见的难点,提示词需要通过强调高质量设计来挖掘其最佳能力。
00:11:54因此,在你构建应用时,你可以为你想要的任意多个功能设置类似的准则,如代码架构、前端、UX 用户流等。
00:12:02让准则中提到的每个部分都有专门的评分,以便模型根据其表现的好坏来识别其重要性。
00:12:10这些文件在评估代理中被引用,因为评估者的工作就是评分,所以它需要知道应该遵循什么标准。
00:12:17了解了我们介绍的一切之后,你可能会想现在该怎么做。
00:12:21如果你想要一个能让设置更容易的框架,请选择 GSD,因为 GSD 默认使用规划、生成、评估的循环,但它的评估者只是将代码与现有计划匹配,并依赖用户验收测试。
00:12:35它使用的是通过或失败机制,而不是评分实现。因此,你可以吸取 Anthropic 框架的精华并将其与 GSD 结合,例如更改评估代理并结合评分准则,让代理知道正确的实现是什么。
00:12:49但如果你想使用 Anthropic 的框架并自行设置,你可以通过根据各自的角色创建代理,并使用代理团队让它们协同工作来实现。
00:12:58你可以使用一个代理团队成员作为生成者,另一个作为评估者。
00:13:03使用代理团队的原因是它们可以互相通信,而子代理则不能,子代理必须写入文档,这会产生额外的开销。
00:13:10因此,Claude 根据高层级计划创建任务,并同时创建两个代理,其中一个在实现,而另一个在使用带有浏览器的 Playwright MCP 运行测试,等待生成者的更新以便开始测试过程。
00:13:24评估者持续验证工作并与生成者沟通问题,它们协调工作以实现符合你标准的一整套应用。
00:13:33现在,本视频中使用的所有代理以及所有资源都可以在 AI Labs Pro 中获取,包括我们之前所有视频的资源,你可以下载并在你自己的项目中使用。
00:13:43如果你觉得我们的工作有价值并想支持频道,这是最好的方式。链接在描述中。
00:13:48视频到这里就结束了。如果你想支持本频道并帮助我们继续制作此类视频,可以点击下方的“超级感谢”按钮。
00:13:57一如既往,感谢观看,我们下期再见。