Anthropic 刚让你的 AI 代理框架变得一文不值

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareManagementInternet Technology

Transcript

00:00:00在过去的几个月里，我们介绍了许多 AI 编程框架，包括 BMAD、GSD、SpecKit 和 Superpowers，

00:00:08而且你们中的很多人实际上已经开始使用它们了。但 Anthropic 刚刚在他们自己的测试台上运行了实验，

00:00:14逐一移除组件并测量究竟什么是真正重要的。他们的结论是，其中大部分现在都是冗余负担。

00:00:17框架中的每个组件都代表了对模型自身无法完成的任务的假设，而对于 Opus 4.6 来说，

00:00:25这些假设已经过时了。我们梳理了整个过程，并规划出哪些仍然重要，哪些可以剔除，

00:00:32以及你现在的设置究竟应该是什么样子的。代理测试台在让代理在长周期任务中

00:00:37表现得更好方面发挥着重要作用。Anthropic 已经发布了一个代理测试台，我们在之前的视频中

00:00:43详细介绍过，解释了如何设置和使用它。我们在同样的背景下也介绍了其他框架，

00:00:50虽然它们的实现方式不同，但目的都是一样的。但当这些框架发布时，

00:00:55模型的能力还不如现在的 Opus 4.6。例如，像 GSD 这样的框架专注于上下文隔离，

00:01:01但这对于 Opus 4.6 来说已经不是问题了。不仅是因为它拥有百万级的上下文窗口，

00:01:06还有另一个我们稍后会讨论的原因。因此，许多以前实现的框架现在对于新模型的能力来说反而是一种负担。

00:01:11Anthropic 实际上运行了实验来测试测试台的不同方面，移除每一个部分并测量其影响。

00:01:17根据他们的发现，他们得出结论：一个代理测试台实际上只需要用于规划、生成和评估的代理。

00:01:24其余的只是在模型能力如此强大的今天，已经变成冗余负担的处理方式。

00:01:29核心理论是，代理测试台中的每个组件，无论你使用的是哪一个，都遵循同样的原则。

00:01:35每个组件都包含一个关于模型自身能做什么的假设。

00:01:38这些假设应该接受压力测试，因为它们可能是错误的，并且随着模型的改进而过时，这就是他们在文章中所做的。

00:01:46因此，随着模型的演进，你的测试台也应该随之演进，如果你还在使用几个月前的原则，那你就落后了。

00:01:54规划是每个框架中保持不变的第一步，但随着模型能力的增强，规划的方式必须改变。

00:02:01Anthropic 之前的长期运行测试台要求用户预先提供详细的规范。

00:02:06像 BeMad 和 SpecKit 这样的框架实际上是将任务切分成更小的碎片和微任务，以帮助 AI 代理轻松实现。

00:02:14这些不只是小任务，它们简直是详细的步骤，代理只需要不加思考地执行即可。

00:02:20这是因为当时模型能力不够，需要微观引导才能按照你想要的方式运行。

00:02:27但随着 Opus 4.5 和 4.6 的出现，情况发生了变化。

00:02:30当 Anthropic 测试这一点时，他们发现如果规划器尝试预先指定微观技术细节，单个错误就会级联到每一层实现，

00:02:43使得代理很难偏离原有计划并自行修复问题。这完全取决于计划写得有多好。

00:02:45因此，规划现在已经变成了高层级的概述，而不是详细的技术实现。

00:02:50现在的代理本身就聪明得多，你只需要告诉它们需要什么样的交付物即可。

00:02:55它们可以自己找到实现目标的路径。

00:02:57随着这种转变，像 BeMad 和 SpecKit 中的那种规划方法不再那么重要了。

00:03:02你可以将 BeMad 限制在 PRD 生成之前的规划阶段，无需再进入技术切分过程。

00:03:08正如我们之前提到的，使用 BeMad 生成 PRD 是有效的，因为它拥有比 Claude 自身更能理解产品要求的专业代理。

00:03:18这是因为这些代理加入了作者针对特定任务提供的外部上下文。

00:03:23或者，你可以使用 Superpowers 的提问环节，因为它实际上旨在识别边界情况，这可能比多级任务文档更有效。

00:03:32但过度详细规划的核心问题在于它限制了代理，没有给 AI 留下自行探索和解决问题的空间。

00:03:40Anthropic 还提供了一个由规划代理生成的示例计划，你可以用它来设置你自己的规划代理。

00:03:46它明确指出，计划应该着眼于大局，并推向你提供的任何应用创意的极限。

00:03:52核心理念是将项目保持在产品层面，而不是实现层面。

00:03:56这很重要，因为如果在项目计划中尝试规划实现细节，它会过于关注技术细节，可能无法交付完整产品真正需要的东西。

00:04:06现在你可能会认为 Claude 自带的计划模式已经通过提问并提供详细计划在做类似的规划了。

00:04:12但区别在于：即便 Claude 有规划代理，它仍然侧重于实现细节，而非真正的产品层面，这违背了 Anthropic 的发现。

00:04:22因此，一旦你设置好了这一点，你只需让 Claude 使用你创建的代理来规划应用，它就会生成一份完整的计划，并在进展中记录在你的文件夹里。

00:04:31该计划包括产品层面的完整功能分解，并且在每个阶段都包含展示用户视角的“用户故事”。

00:04:40这有助于 Claude 实现用户真正期望的正确工作流。

00:04:44但在继续之前，让我们听听赞助商 Minimax 的介绍。

00:04:47设置 AI 代理简直是场噩梦。API 密钥、服务器配置、Docker 设置，忙完这一切，你的助手在你关掉标签页的那一刻就忘光了。

00:04:56解决方案是 MaxClaw，触手可及的云端 AI。

00:04:59无需设置，没有烦恼，你可以部署属于你自己的 OpenClaw。

00:05:02只需点击部署，10 秒内即可上线。它能构建网站、编写代码、进行调研，并通过简单的文本提示自动化你的繁琐工作。

00:05:12MaxClaw 直接连接到 Telegram、Slack、Discord 等平台，让你通过简单聊天就能自动化工作流、浏览网页，甚至生成图像或视频。

00:05:21它是 Minimax Agent 的一部分，这是一个 AI 原生工作区，每个人都能成为代理设计师。

00:05:27它适用于 Mac 和 Windows，由 M 2.7 驱动，该模型在 SWE-bench 上的表现可媲美 Claude Opus 4.6。

00:05:33停止与复杂的设置搏斗，让 MaxClaw 来处理吧，点击置顶评论中的链接即可开始。

00:05:39编写代码的代理不应该是评估代码的那个。

00:05:42这是第二大常见问题，而且通常讨论得不多。

00:05:46自我评估是有问题的，因为如果你使用编写代码的同一个代理来评估它，它往往会表现得非常自信并赞美自己的工作，即便质量明显不达标。

00:05:56对于具有量化指标的任务（例如实现的 API 是否真的在运行），这可能比较容易管理。

00:06:03但对于没有明确可验证结果的任务，这个问题会变得更加突出。

00:06:08最大的例子就是 UI（用户界面）。

00:06:10什么是好的 UI 是主观的，AI 可能无法完全理解你的意图。

00:06:15它可能认为自己的实现做得很好，即便它不符合你的标准。

00:06:19这个问题已经被多个框架的创建者所认识到，他们实现了各自的评估机制来解决它。

00:06:26我们介绍过的所有框架，如 GSD、BMAD 和 Superpowers，都确保编写代码的代理不负责评估其质量。

00:06:34这种方法显著提高了代理评估的准确性和可靠性。

00:06:39因此，无论你是使用现有框架还是自己构建，你都需要确保评估者与执行者完全分离。

00:06:47在开始实现之前，生成代理和评估代理会协商一份“契约”，就工作的“完成”标准达成一致。

00:06:54这很有帮助，因为两个代理都清楚地知道要实现什么以及要验证什么。

00:06:58在高层级规划下，仍然需要可操作、可实现的步骤。

00:07:02但在使用测试台进行测试期间，他们尝试移除了冲刺契约。

00:07:06他们发现 Opus 4.5 在这种情况下效率较低，因为评估者仍然必须介入来发现问题。

00:07:12但对于 Opus 4.6，模型的能力已经提升了很多，契约已经不再必要了。

00:07:18生成代理已经有能力独立处理大部分工作。

00:07:22因此，对于像 Sonnet 或 Haiku 这样的小型模型，你仍然需要记录任务。

00:07:27将它们妥善分解为冲刺结构，并让每个代理就“完成”的标准达成一致。

00:07:32但对于能力更强的模型，你可以依靠 Opus 直接执行高层级计划，而无需这些额外步骤。

00:07:38现在我们说过，上下文隔离之所以重要是有原因的。

00:07:42这是因为小型模型会产生“上下文焦虑”，这是一种随着上下文窗口填满，模型在长任务中开始失去连贯性的现象。

00:07:51当这种情况发生时，它们会提前结束工作并声称已正确执行任务，即便事实并非如此。

00:07:57有效的解决方案是上下文重置，即在开始实现之前清空它们的上下文窗口。

00:08:02由于上下文已清空，它们可以依赖记录在外部的任务分解，这些分解在上下文重置后依然存在。

00:08:08但模型表现出的上下文焦虑非常严重，仅靠压缩是不够的。

00:08:13它们需要额外的措施来防止在较长任务中出现问题。

00:08:17然而，从 Opus 4.5 开始，模型不再表现出这种行为。

00:08:21这些代理可以在整个会话中持续运行，Claude 处理压缩的方式足以维持它们的运行。

00:08:28因此，上下文重置不再必要，像 BMAD 和 SpecKit 那种详细的任务分解也不再需要，仅靠高层级引导就足够了。

00:08:37生成代理是主要的执行者，负责逐个功能地构建应用。

00:08:42它接收计划中的规范并持续实现它们，同时与 Git 集成进行版本控制。

00:08:47生成代理与评估代理协同工作。

00:08:50构建完一个功能后，它会将其移交给测试，并接收反馈以改进其实现。

00:08:56它的工作流分为几个步骤：理解任务、执行任务以及完善实现。

00:09:02即使在实现阶段，工作也被分为涵盖不同方面的四个子阶段。

00:09:07它遵循设计方向，验证其工作，然后将其交给评估者。

00:09:11这形成了一个结构化的、循序渐进的模式，使代理能够独立且系统地实现整个应用。

00:09:18评估代理充当生成代理的对抗者。

00:09:21它的工作是确保应用被正确实现，不是进行通用的“寻找错误”测试，而是从“存在错误”的批判性视角切入。

00:09:30它可以使用 Playwright 等工具通过模拟用户交互来测试应用，根据预定义的标准识别错误，并将反馈发送回生成代理。

00:09:39通过阅读计划，评估者可以清楚地了解“完成”应该是什么样子，并在批准之前进行彻底检查。

00:09:46每个框架都有自己的验证器，但方法差异很大。

00:09:50BMAD 使用专业的代码审查和 QA 代理，它们会生成并运行测试，从多个角度评估代码。

00:09:57GSD 使用一个验证子代理，根据现有计划检查实现情况并生成文档报告。

00:10:04Superpowers 依赖于全新的子代理并强制执行严格的 TDD（测试驱动开发），即在编写测试用例之前不能编写任何代码。

00:10:10如果代理试图绕过这一点，它就会被阻止。

00:10:13SpecKit 将规范视为真相来源，并允许代理根据文档验证代码。

00:10:18但这些框架都没有提供达到 Anthropic 所追求的那种严谨程度的评分机制。

00:10:24因此，Anthropic 测试台中的评估者最接近 Ralph Loop 对 Claude 的严格执行实现，通过适当的分级评估机制确保代理交付真正需要的东西。

00:10:35另外，如果你喜欢我们的内容，请考虑点击“Hype”按钮，因为这有助于我们创作更多此类内容并触及更多观众。

00:10:43代理无法知道对你来说正确的输出是什么样子，特别是在实现不可量化的情况下。

00:10:49因此，你使用分级评估机制，以便它们知道在你眼中正确的输出是什么样的。

00:10:54当 Anthropic 为前端评估指标提供示例时，他们提到 AI 在大多数情况下倾向于收敛到相似的输出。

00:11:02他们为生成代理和评估代理设置了四项评分标准。

00:11:06第一项是设计质量，指示它检查字段是否连贯，还是仅仅是零散组件的堆砌。

00:11:12然后是原创性，这是主要标准之一，因为 AI 倾向于默认在大多数 UI 中使用紫白渐变模式。

00:11:19这违背了人类的设计方式，因为对人类来说，每个设计选择都是深思熟虑的，这使得网站不好看时很容易被识别出来。

00:11:27第三项是工艺，即排版、间距一致性和色彩和谐等细微之处，对比度应在技术上平衡，而不是仅仅为了看起来有创意。

00:11:37最后一项是功能性，因为在 UI 方面，每个组件都发挥着增强用户体验的视觉作用。

00:11:44Claude 在工艺和功能性方面已经表现良好，但其余部分是最常见的难点，提示词需要通过强调高质量设计来挖掘其最佳能力。

00:11:54因此，在你构建应用时，你可以为你想要的任意多个功能设置类似的准则，如代码架构、前端、UX 用户流等。

00:12:02让准则中提到的每个部分都有专门的评分，以便模型根据其表现的好坏来识别其重要性。

00:12:10这些文件在评估代理中被引用，因为评估者的工作就是评分，所以它需要知道应该遵循什么标准。

00:12:17了解了我们介绍的一切之后，你可能会想现在该怎么做。

00:12:21如果你想要一个能让设置更容易的框架，请选择 GSD，因为 GSD 默认使用规划、生成、评估的循环，但它的评估者只是将代码与现有计划匹配，并依赖用户验收测试。

00:12:35它使用的是通过或失败机制，而不是评分实现。因此，你可以吸取 Anthropic 框架的精华并将其与 GSD 结合，例如更改评估代理并结合评分准则，让代理知道正确的实现是什么。

00:12:49但如果你想使用 Anthropic 的框架并自行设置，你可以通过根据各自的角色创建代理，并使用代理团队让它们协同工作来实现。

00:12:58你可以使用一个代理团队成员作为生成者，另一个作为评估者。

00:13:03使用代理团队的原因是它们可以互相通信，而子代理则不能，子代理必须写入文档，这会产生额外的开销。

00:13:10因此，Claude 根据高层级计划创建任务，并同时创建两个代理，其中一个在实现，而另一个在使用带有浏览器的 Playwright MCP 运行测试，等待生成者的更新以便开始测试过程。

00:13:24评估者持续验证工作并与生成者沟通问题，它们协调工作以实现符合你标准的一整套应用。

00:13:33现在，本视频中使用的所有代理以及所有资源都可以在 AI Labs Pro 中获取，包括我们之前所有视频的资源，你可以下载并在你自己的项目中使用。

00:13:43如果你觉得我们的工作有价值并想支持频道，这是最好的方式。链接在描述中。

00:13:48视频到这里就结束了。如果你想支持本频道并帮助我们继续制作此类视频，可以点击下方的“超级感谢”按钮。

00:13:57一如既往，感谢观看，我们下期再见。

Key Takeaway

随着 Opus 4.6 能力的飞跃，开发者应弃用复杂的微观管理框架，转而采用由高层级产品规划、生成与独立分级评估组成的扁平化代理协作模式。

Highlights

Opus 4.6 的模型能力已使 BMAD、GSD 和 SpecKit 等框架中的上下文隔离和任务切分组件变得冗余。

过度详细的技术规划会限制 AI 代理的自主修复能力，导致单个错误在实现层产生级联反应。

有效的 AI 代理测试台仅需规划、生成和评估三个核心代理即可高效运行。

Opus 4.6 具备处理百万级上下文的能力，消除了小型模型中常见的上下文焦虑和强制重置需求。

评估代理必须与生成代理完全分离，以防止 AI 出现过度自信并盲目赞美自身低质量工作的现象。

在 UI 开发中，通过设计质量、原创性、工艺和功能性四项评分标准进行分级评估，可克服 AI 默认使用紫白渐变等平庸设计的倾向。

Timeline

陈旧框架假设的失效

现有 AI 编程框架中的多数组件在面对 Opus 4.6 时已成为冗余负担。
框架设计的初衷是弥补早期模型能力的缺陷，但这些假设现已过时。
Opus 4.6 的百万级上下文窗口解决了长周期任务中的信息丢失问题。

Anthropic 通过实验逐一移除测试台组件，发现大多数复杂功能不再提升性能。早期的框架如 GSD 专注于上下文隔离，但这在当前模型环境下已无必要。代理测试台现在的核心需求已简化为规划、生成和评估三个维度。

从微观引导转向高层级规划

详细的技术规范和步骤切分会限制代理解决问题的空间。
规划代理应专注于产品层面的功能分解，而非具体的技术实现细节。
用户故事的引入能帮助模型更好地理解并实现正确的工作流。

BeMad 和 SpecKit 等框架曾将任务粉碎成微小步骤，因为旧模型需要微观引导。实验证明，预设的技术细节若出现偏差，会导致代理无法自行修复级联错误。现在的最佳实践是提供大局观的计划，让聪明的代理自行寻找实现路径。

生成与评估的对抗性分离

编写代码的代理由于过度自信，无法客观评估自己的工作质量。
生成代理与评估代理应通过协商“契约”来明确任务完成的标准。
上下文重置在 Opus 4.6 中已不再是维持连贯性的必要手段。

自我评估会导致 AI 忽视 UI 或代码中的主观缺陷，因此必须确保评估者与执行者完全分离。虽然小型模型需要通过清空上下文来缓解“上下文焦虑”，但 Opus 4.5 及后续版本已能通过原生压缩机制维持长任务运行。评估代理应以“存在错误”的批判性视角介入，利用 Playwright 等工具进行模拟测试。

分级评估机制与视觉准则

分级评估机制能让代理识别出在不可量化任务中什么是正确的输出。
UI 评估应涵盖设计质量、原创性、工艺精细度和功能性四个维度。
具体的评分标准能强制 AI 突破默认的平庸设计模式。

AI 在前端开发中倾向于收敛到相似的平庸输出，例如频繁使用紫白渐变。通过设置包含排版、间距一致性和色彩和谐等细节的评分文件，评估代理可以引导生成代理交付更高水准的作品。这种基于准则的评分比简单的通过或失败机制更能挖掘模型潜力。

构建现代化代理团队的路径

开发者可以将 Anthropic 的评分准则整合进 GSD 等现有框架中。
使用代理团队成员相互通信比使用需要写入文档的子代理更具效率。
生成者与评估者的实时协作能够系统化地实现整套应用开发。

选择 GSD 框架可以获得更简便的设置流程，但需将其通过/失败机制升级为分级评分。利用能够互相通信的代理团队可以减少文档读写的额外开销。在实际操作中，一个代理负责实现功能，另一个代理同步使用浏览器工具运行测试，通过持续反馈循环确保产品符合高标准。

Community Posts

面向 Claude 4 时代的智能体重构：摒弃复杂分片，用代码实现 3-Agent 循环

makedreamhá 22 dias4360

Write about this video