我更新了 /grill-me 并解决了 Claude Code 问题

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00仅靠计划模式是不够的。像 Matt Pocock 的 Grill Me 这样的技能，或者更庞大的编排层，比如

00:00:06GSD 或 superpowers，都在试图解决同一个问题。把你脑中模糊的想法

00:00:11变成 Claude Code 真正能构建的东西。但无论你走哪条路

00:00:16或选择什么技能，它们都会遇到同一个问题。你依赖于单一的

00:00:21模型，它不仅要负责规划和构建，你还得依赖它来给自己评分。

00:00:26所以当你问 Claude：嘿，这是最佳方案吗？它会怎么说？嗯，

00:00:31无论你做了什么，它都会说这是最棒的。这就是个问题，因为如果你

00:00:35没有技术背景，你根本不知道 Claude 写的东西是否真的合理。

00:00:41但在本视频中，我将向你展示如何解决这个问题。我们将基于 Matt Pocock 的

00:00:45Grill Me 技能，并加上一个来自 Codex 的对抗性代码审查。但这不仅仅是

00:00:51你过去见过的 Codex 插件那样的代码审查。这种代码审查是

00:00:55迭代式的。Claude Code 和 Codex 将通过多轮对话进行交流

00:01:00直到两位领先的 AI 工具都认可你的计划。这样你就能确信

00:01:07Claude Code 提出的方案确实可行。有了这个技能，你将

00:01:12能够在每个项目开始时拥有两样东西：第一，一个你真正理解的计划。第二，

00:01:18一个由多个 AI 工具认可的计划。所以今天你要得到的是我提供的两个技能。

00:01:23这两个技能都是建立在 Matt Pocock 在他的 GitHub 仓库中提供的内容基础之上的。

00:01:28他有两个技能：Grill Me 和 Grill with Docs。我要给你的两个技能是 Grill Me Codex

00:01:35和 Grill with Docs Codex。这是怎么回事？Grill Me 和 Grill with Docs 本质上就是

00:01:41加强版的计划模式。就像 GSD 和 superpowers 一样，它更进一步。它提出的问题

00:01:48更深刻。它会让你更深入地洞察你到底想构建什么，因为无论你

00:01:53是否承认，你可能并不擅长表达自己的真实需求。如果你

00:01:57一开始就不能向 Claude Code 清晰地表达需求，AI 那边就会有

00:02:01很多的预设假设，从而导致后端产出平庸的产品。所以 Grill Me 和 Grill with

00:02:07Docs 通过深入规划阶段来确保你们达成共识，从而提供更好的输出。

00:02:12我的技能带来的第二阶段是：在你和 Claude

00:02:19Codex 达成共识之后，Codex 会介入说：嘿，这说得通。但这不对，修复那个。

00:02:24然后 Claude Code 和 Codex 再进行来回沟通。我认为这很重要，因为

00:02:28像 Grill Me、GSD 和 superpowers 这样的工具，它们发现了这里的鸿沟，也就是你

00:02:34和 Claude Code 之间的鸿沟，你有一个想法，可以表达出来，我们要来回

00:02:38沟通，达成共识，对吧？Grill Me，你知道，GM 很适合这个。

00:02:44问题在于，即使你和 Claude Codex 达成了一致，这就意味着我们自动

00:02:51走上了实现最优代码的旅程，也就是这就是应该构建的东西吗？也许是，也许

00:02:57不是，谁说得准呢？你可能说不准，你是专业的软件工程师吗？你可能是，

00:03:03但我猜观看这个视频的大多数观众并不属于那一类。

00:03:08Matt Pocock 的东西虽然好，但我的意思是，它是为真正的工程师准备的技能。

00:03:13你是真正的工程师吗？可能不是。也许你是。如果你不是，你会陷入无法

00:03:19评估 Claude Codex 所写代码的问题吗？即使你们达成了一致，

00:03:23它可能是垃圾，也可能是精品，谁知道呢？另一个问题是，你无法判断，

00:03:28Claude Codex 也无法判断，因为 Claude Codex——这连 Anthropic 自己都说过——

00:03:34非常友善，而且对它自己写的代码评价很高，对吧？你要求 Claude Codex 评判

00:03:40它写的东西，它会说：哦，太棒了，A+。所以，在这种情况下，它们是可靠的讲述者和

00:03:46评价者吗？不，它们不是。所以，如果你不知道发生了什么，我们又不能

00:03:50一定信任 Claude Codex，那我们该怎么办？好吧，那么我们这里就有了一个鸿沟，对吧？

00:03:56Claude Code 和所谓的最优代码之间存在鸿沟。所以，显而易见的解决方案是，

00:04:02好吧，让我们引入第三方，一个中立的第三方来看看我们的计划。Codex 登场了。

00:04:09这次 Codex 审查是我添加到 Pocock 技能中的，也是我今天打算给你的。

00:04:16所以，前半部分与 GrillMe 完全一样。来回提问，我们一起制定计划，

00:04:21一切都在这儿整理得整整齐齐。一旦计划确定了，嗯，

00:04:27然后 Codex 就会介入，看看 Claude Codex 提出了什么方案，并说：

00:04:32这看起来不错，这看起来很糟，你怎么看？Claude Code 也会看一眼说：

00:04:36噢，这有道理，让我们修补一下，这是我做的调整，再看一眼，Codex。然后它会

00:04:41经历一个循环，它最多进行五轮，你可以轻松修改这个设置，但它会

00:04:48进行五次来回沟通，这与标准的对抗性审查

00:04:52Codex 插件有点不同，因为它更具迭代性。其构想是，如果它们来回交流次数足够多，

00:04:57我们最终会到达一个地步——希望在五轮之内——它们都会点头说：

00:05:01嘿，赞同，准备好了，推进吧。所以总而言之，我今天给你的是

00:05:09为了填补这个鸿沟。Claude Code 和最优代码之间的鸿沟，也就是

00:05:16我们很难辨别的那些，因为我们不是专业软件工程师，而且 Claude Code

00:05:21不能在某种程度上被信任去完成它。所以这就是我们要讲的内容。现在我们都达成一致了。

00:05:28但在进入演示之前，先由今天视频的赞助商——我——说几句。如你所知，

00:05:33Chase AI Plus 是我的 Claude Code 大师课所在地。这是从零

00:05:37到 AI 开发的第一途径，特别是如果你没有技术背景。我们专注于真实用例。

00:05:42而且我最近也增加了 Claude OS 大师课。所以如果你说：嘿，我也想

00:05:49学习如何整合 Obsidian 并创建一个完整的指挥中心。这就是你要找的地方。

00:05:54你可以在置顶评论中找到链接。所以对于今天的演示，我们要往网站上添加一个新页面。

00:05:59这是我 AI 代理机构的网站。这个新页面将让用户

00:06:05访问一些独家技能。要进入这个页面，当他们点击时，他们必须

00:06:11添加他们的电子邮件。所以这有点门槛，我们捕获他们的电子邮件，然后他们就能获得

00:06:16可以下载的东西了。现在，这个电子邮件需要用我们现有的数据库来处理。

00:06:22所以我们不是凭空创造功能，它需要查看已经存在的代码库

00:06:27并使其协调一致。这是我给 Claude Code 运行 grill me codex 的提示：

00:06:32我想在网站上添加一个电子邮件捕获门，解锁 grill me codex Claude code 技能。

00:06:38如果访问者进入一个技能下载被遮罩层模糊的页面，

00:06:42他们输入邮箱解锁并保存。然后我给了它一些额外上下文。

00:06:49所以第一部分将是 grill me 技能。它和 Matt Pocock 的

00:06:56那个完全一样，也就是我们基于构建的那个。所以那部分是一样的。

00:07:00一旦我们走完所有的问题，codex 就会介入。所以在我查看过

00:07:03代码库之后，它现在问我第一个问题，说：这个门

00:07:07对于模糊效果来说有多真实？是装饰性的还是真正强制执行的？

00:07:11就像 grill me 一样，每当它问你问题并提供一些潜在答案时，

00:07:16它也会给出推荐方案和原因。所以对这个而言，它只是装饰性的。

00:07:21这是一个免费技能。目标只是捕获邮箱。所以我们只说，

00:07:25装饰性就行。文件反正也是免费的。接下来是问资源存放在哪里

00:07:30以及什么格式。同样，为了演示方便，我直接选推荐的

00:07:36选项。我不会展示其余的问题，因为这并不是一个

00:07:40grill me 视频。只要知道如果你以前没见过，这就是大体节奏。

00:07:44它会问你一系列问题，给出潜在答案和建议。

00:07:48非常类似于计划模式，只是计划模式的加强版。所以你可以看到，

00:07:51我们在 grill me 端完成了 10 个问题，然后过渡到了 codex

00:07:56部分。现在 codex 部分将为我们创建两个 markdown 文件。我们有 plan.md

00:08:02还有 plan review log。所以 plan.md 是我们将要创建的真相之源。

00:08:10这是我们最终交付的成果。而 plan review log.md，这就是

00:08:16cloud code 和 codex 将要交锋的地方。Codex 会看一眼原始的 plan.md，并

00:08:21看一眼 cloud code 创造的整个事物。正是在 plan review log 中，codex

00:08:28会说：嘿，这很烂。这不行，等等。这也为我们提供了它们整个循环的

00:08:33来回记录。而在 codex 和 cloud code 这一轮来回之后，

00:08:38我们将得到一个更新后的 plan.md。所以 plan.md 是最终交付物。所有东西都将

00:08:46基于此构建。plan review log 则是来回过程，是真正制造香肠的地方。另一个

00:08:52在这次对抗性审查中的注意事项是，虽然它是无头运行的，但我们仍然给 codex 会话 ID。

00:08:59所以对于 codex 而言，并不是说在第一轮到迭代二或迭代三时它是完全空白的。

00:09:05它始终有与 cloud code 的完整交流记录。所以我们

00:09:12可以看到在第一轮中，codex 发现了 11 个它认为的问题。我们也可以

00:09:18看到 cloud code 根据它接受并认为有效的发现更新了 plan.md。

00:09:25在第二轮中，它发现了四个额外问题。我们从 11 个减少到了四个。再次，

00:09:31计划得到了更新。而在第三轮，我们看到结论现在是已批准。正是在

00:09:35这一时刻，codex 和 cloud code 达成了一致。Codex 仍然标记了几个点，

00:09:40但只是三个低级别的修饰，所以它们不是阻碍因素。这一点在最后也重申了，

00:09:45即批准了五轮中的第三轮，告诉我们最终计划看起来如何，

00:09:50这两个举措带给了我们什么，特别是第二阶段，即 codex 和 cloud code 的第一轮和第二轮

00:09:56交锋。你知道，我们发现了真正的安全和正确性漏洞。

00:10:01有不受限的客户端技能 slug、大小写敏感的去重绕过、相对电子邮件链接、

00:10:06原始列表炸弹攻击向量以及表扫描速率限制。在第二轮中，它捕获了虚假

00:10:12修复。所以第一轮 codex 说：嘿，这是问题。Cloud code 试图修复它们。而在

00:10:18第二次迭代中，codex 说：这些不是真正的修复，对吧？所以它注意到双重选择

00:10:24已声明但未连接，super base JS 无法定位的表达式索引去重，

00:10:30以及仍然阻止解锁的响应前操作被移到了后面。所以只有三轮，

00:10:38但这比尝试执行 Cloud Code 最初想出的第一个计划

00:10:44然后经历整个故障排除过程要节省很多时间。最后，它还提出了一些开放

00:10:49项目，主要是 SQL 迁移之类的。但那也是 Cloud Code 在偷懒，因为它

00:10:54完全可以自己做这些。所以回到网站顶部，我们有免费技能。我点击它。现在它

00:10:58要求输入我的邮箱。好了。现在我有了这个技能，我可以下载到一个 .zip 文件中。

00:11:08显然在现实中，我真正想做什么？嗯，我可能希望文本和

00:11:12一切都与网站其余部分相匹配，但你可以看到它创造了我们想要的效果。

00:11:18本视频的重点不是具体的演示，只是为了展示该技能的操作。至于

00:11:23如何自己获取这些技能，我会把它们放在置顶评论中，方便你获取。

00:11:27但除此之外，这就是我所有的内容了。显然你需要知道的是，

00:11:31嘿，我们在使用 codex。所以你需要一个 OpenAI 账户。你需要下载 codex，

00:11:35这相对简单。没有理由需要超过 20 美元一个月的 OpenAI 计划

00:11:39就能从这上面获得很多收获。我们创建的这个系统也是你可以

00:11:45轻易地换成某种本地模型的方案。所以如果你说：嘿，我不想

00:11:50付给 OpenAI 每月 20 美元。我宁愿用类似 DeepSeek 或其他的，任何本地或更便宜的模型，

00:11:55这真的很容易。框架就在那儿。我会直接拿我创建的技能，

00:12:00放进 Claude Code 里说：嘿，我们可以把 codex 换成 [插入你尝试使用的模型] 吗？

00:12:07真的就这么简单。它非常、非常灵活。所以你可以用它

00:12:12做很多事情。而且我认为对于那些不把自己当作

00:12:16专家程序员，不能快速高效地查看 Cloud Code 所做的事情并说：

00:12:22这说得通，这不行，的人来说，它的框架很有意义。

00:12:26这不是很多人的专业领域，也不需要是。坦率地说，我们有工具可以代劳。

00:12:32所以一如既往，告诉我你的想法。确保看看 Chase AI Plus，如果你想亲手获取

00:12:35Claude Code 大师课的话，

00:12:37回见。

Key Takeaway

通过将 Matt Pocock 的 Grill Me 计划模式与迭代式 Codex 对抗性代码审查相结合，非专业开发者能确保 Claude Code 的输出符合最优工程标准。

Highlights

Claude Code 容易对自身生成的代码进行过度自信的评价，缺乏有效的自我纠错机制。
引入 Codex 插件进行对抗性代码审查，通过多轮迭代沟通确保项目计划的准确性与安全性。
对抗性审查流程通常在 3 到 5 轮迭代内达成协议，显著降低了后续排错的时间成本。
该框架通过 plan.md 作为最终交付文档，并使用 plan review log.md 记录 AI 模型间的冲突与修订过程。
该系统具有高度灵活性，支持将底层模型替换为 DeepSeek 或其他本地模型，无需绑定特定服务。

Timeline

AI 开发中的评估鸿沟与解决方案

单一模型既负责规划又负责评价，导致代码质量评估缺乏客观性。
Grill Me 技能通过深入的提问阶段，帮助用户更精准地定义开发需求。
AI 辅助开发中存在从需求表达、模型构建到代码验证的信任鸿沟。

仅依靠 Claude Code 规划和构建会导致平庸的产出，因为模型倾向于给自己构建的方案打高分。通过增加基于 Grill Me 的深入规划层，可以减少 AI 对模糊需求的预设假设，从而建立更清晰的开发共识。

Codex 对抗性审查的实施逻辑

Codex 作为中立第三方介入，对 Claude Code 的计划进行迭代式的对抗性审查。
系统维护两个关键文件：plan.md 作为最终方案，plan review log.md 记录沟通与修订轨迹。
对抗性审查在三轮迭代中识别并修复了如客户端技能 slug 漏洞、去重逻辑绕过等核心安全问题。

一旦计划初步定型，Codex 会介入并与 Claude Code 进行多轮对话。在每一轮中，Codex 识别潜在问题并要求修正，Claude Code 则根据反馈调整计划。这种迭代过程将传统的被动审查转变为主动的对抗式优化，确保最终产出的可靠性。

落地应用与模型扩展性

该对抗性审查框架能有效识别并修复复杂的安全与逻辑漏洞，节省大量手动排错时间。
框架设计高度解耦，支持将底层的 OpenAI Codex 替换为 DeepSeek 或其他开源本地模型。
该方案尤其适用于不具备专业软件工程背景、无法直接评估 Claude Code 代码质量的开发者。

通过实际演示电子邮件捕获功能的开发，展示了该系统如何自动将代码库与新需求协调一致。用户无需深度技术背景，即可利用此框架监控并指导 AI 完成高质量的开发任务。由于框架的灵活性，用户可以自由切换模型以优化成本或部署环境。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video