我更新了 /grill-me 并解决了 Claude Code 问题

CChase AI
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00仅靠计划模式是不够的。像 Matt Pocock 的 Grill Me 这样的技能,或者更庞大的编排层,比如
00:00:06GSD 或 superpowers,都在试图解决同一个问题。把你脑中模糊的想法
00:00:11变成 Claude Code 真正能构建的东西。但无论你走哪条路
00:00:16或选择什么技能,它们都会遇到同一个问题。你依赖于单一的
00:00:21模型,它不仅要负责规划和构建,你还得依赖它来给自己评分。
00:00:26所以当你问 Claude:嘿,这是最佳方案吗?它会怎么说?嗯,
00:00:31无论你做了什么,它都会说这是最棒的。这就是个问题,因为如果你
00:00:35没有技术背景,你根本不知道 Claude 写的东西是否真的合理。
00:00:41但在本视频中,我将向你展示如何解决这个问题。我们将基于 Matt Pocock 的
00:00:45Grill Me 技能,并加上一个来自 Codex 的对抗性代码审查。但这不仅仅是
00:00:51你过去见过的 Codex 插件那样的代码审查。这种代码审查是
00:00:55迭代式的。Claude Code 和 Codex 将通过多轮对话进行交流
00:01:00直到两位领先的 AI 工具都认可你的计划。这样你就能确信
00:01:07Claude Code 提出的方案确实可行。有了这个技能,你将
00:01:12能够在每个项目开始时拥有两样东西:第一,一个你真正理解的计划。第二,
00:01:18一个由多个 AI 工具认可的计划。所以今天你要得到的是我提供的两个技能。
00:01:23这两个技能都是建立在 Matt Pocock 在他的 GitHub 仓库中提供的内容基础之上的。
00:01:28他有两个技能:Grill Me 和 Grill with Docs。我要给你的两个技能是 Grill Me Codex
00:01:35和 Grill with Docs Codex。这是怎么回事?Grill Me 和 Grill with Docs 本质上就是
00:01:41加强版的计划模式。就像 GSD 和 superpowers 一样,它更进一步。它提出的问题
00:01:48更深刻。它会让你更深入地洞察你到底想构建什么,因为无论你
00:01:53是否承认,你可能并不擅长表达自己的真实需求。如果你
00:01:57一开始就不能向 Claude Code 清晰地表达需求,AI 那边就会有
00:02:01很多的预设假设,从而导致后端产出平庸的产品。所以 Grill Me 和 Grill with
00:02:07Docs 通过深入规划阶段来确保你们达成共识,从而提供更好的输出。
00:02:12我的技能带来的第二阶段是:在你和 Claude
00:02:19Codex 达成共识之后,Codex 会介入说:嘿,这说得通。但这不对,修复那个。
00:02:24然后 Claude Code 和 Codex 再进行来回沟通。我认为这很重要,因为
00:02:28像 Grill Me、GSD 和 superpowers 这样的工具,它们发现了这里的鸿沟,也就是你
00:02:34和 Claude Code 之间的鸿沟,你有一个想法,可以表达出来,我们要来回
00:02:38沟通,达成共识,对吧?Grill Me,你知道,GM 很适合这个。
00:02:44问题在于,即使你和 Claude Codex 达成了一致,这就意味着我们自动
00:02:51走上了实现最优代码的旅程,也就是这就是应该构建的东西吗?也许是,也许
00:02:57不是,谁说得准呢?你可能说不准,你是专业的软件工程师吗?你可能是,
00:03:03但我猜观看这个视频的大多数观众并不属于那一类。
00:03:08Matt Pocock 的东西虽然好,但我的意思是,它是为真正的工程师准备的技能。
00:03:13你是真正的工程师吗?可能不是。也许你是。如果你不是,你会陷入无法
00:03:19评估 Claude Codex 所写代码的问题吗?即使你们达成了一致,
00:03:23它可能是垃圾,也可能是精品,谁知道呢?另一个问题是,你无法判断,
00:03:28Claude Codex 也无法判断,因为 Claude Codex——这连 Anthropic 自己都说过——
00:03:34非常友善,而且对它自己写的代码评价很高,对吧?你要求 Claude Codex 评判
00:03:40它写的东西,它会说:哦,太棒了,A+。所以,在这种情况下,它们是可靠的讲述者和
00:03:46评价者吗?不,它们不是。所以,如果你不知道发生了什么,我们又不能
00:03:50一定信任 Claude Codex,那我们该怎么办?好吧,那么我们这里就有了一个鸿沟,对吧?
00:03:56Claude Code 和所谓的最优代码之间存在鸿沟。所以,显而易见的解决方案是,
00:04:02好吧,让我们引入第三方,一个中立的第三方来看看我们的计划。Codex 登场了。
00:04:09这次 Codex 审查是我添加到 Pocock 技能中的,也是我今天打算给你的。
00:04:16所以,前半部分与 GrillMe 完全一样。来回提问,我们一起制定计划,
00:04:21一切都在这儿整理得整整齐齐。一旦计划确定了,嗯,
00:04:27然后 Codex 就会介入,看看 Claude Codex 提出了什么方案,并说:
00:04:32这看起来不错,这看起来很糟,你怎么看?Claude Code 也会看一眼说:
00:04:36噢,这有道理,让我们修补一下,这是我做的调整,再看一眼,Codex。然后它会
00:04:41经历一个循环,它最多进行五轮,你可以轻松修改这个设置,但它会
00:04:48进行五次来回沟通,这与标准的对抗性审查
00:04:52Codex 插件有点不同,因为它更具迭代性。其构想是,如果它们来回交流次数足够多,
00:04:57我们最终会到达一个地步——希望在五轮之内——它们都会点头说:
00:05:01嘿,赞同,准备好了,推进吧。所以总而言之,我今天给你的是
00:05:09为了填补这个鸿沟。Claude Code 和最优代码之间的鸿沟,也就是
00:05:16我们很难辨别的那些,因为我们不是专业软件工程师,而且 Claude Code
00:05:21不能在某种程度上被信任去完成它。所以这就是我们要讲的内容。现在我们都达成一致了。
00:05:28但在进入演示之前,先由今天视频的赞助商——我——说几句。如你所知,
00:05:33Chase AI Plus 是我的 Claude Code 大师课所在地。这是从零
00:05:37到 AI 开发的第一途径,特别是如果你没有技术背景。我们专注于真实用例。
00:05:42而且我最近也增加了 Claude OS 大师课。所以如果你说:嘿,我也想
00:05:49学习如何整合 Obsidian 并创建一个完整的指挥中心。这就是你要找的地方。
00:05:54你可以在置顶评论中找到链接。所以对于今天的演示,我们要往网站上添加一个新页面。
00:05:59这是我 AI 代理机构的网站。这个新页面将让用户
00:06:05访问一些独家技能。要进入这个页面,当他们点击时,他们必须
00:06:11添加他们的电子邮件。所以这有点门槛,我们捕获他们的电子邮件,然后他们就能获得
00:06:16可以下载的东西了。现在,这个电子邮件需要用我们现有的数据库来处理。
00:06:22所以我们不是凭空创造功能,它需要查看已经存在的代码库
00:06:27并使其协调一致。这是我给 Claude Code 运行 grill me codex 的提示:
00:06:32我想在网站上添加一个电子邮件捕获门,解锁 grill me codex Claude code 技能。
00:06:38如果访问者进入一个技能下载被遮罩层模糊的页面,
00:06:42他们输入邮箱解锁并保存。然后我给了它一些额外上下文。
00:06:49所以第一部分将是 grill me 技能。它和 Matt Pocock 的
00:06:56那个完全一样,也就是我们基于构建的那个。所以那部分是一样的。
00:07:00一旦我们走完所有的问题,codex 就会介入。所以在我查看过
00:07:03代码库之后,它现在问我第一个问题,说:这个门
00:07:07对于模糊效果来说有多真实?是装饰性的还是真正强制执行的?
00:07:11就像 grill me 一样,每当它问你问题并提供一些潜在答案时,
00:07:16它也会给出推荐方案和原因。所以对这个而言,它只是装饰性的。
00:07:21这是一个免费技能。目标只是捕获邮箱。所以我们只说,
00:07:25装饰性就行。文件反正也是免费的。接下来是问资源存放在哪里
00:07:30以及什么格式。同样,为了演示方便,我直接选推荐的
00:07:36选项。我不会展示其余的问题,因为这并不是一个
00:07:40grill me 视频。只要知道如果你以前没见过,这就是大体节奏。
00:07:44它会问你一系列问题,给出潜在答案和建议。
00:07:48非常类似于计划模式,只是计划模式的加强版。所以你可以看到,
00:07:51我们在 grill me 端完成了 10 个问题,然后过渡到了 codex
00:07:56部分。现在 codex 部分将为我们创建两个 markdown 文件。我们有 plan.md
00:08:02还有 plan review log。所以 plan.md 是我们将要创建的真相之源。
00:08:10这是我们最终交付的成果。而 plan review log.md,这就是
00:08:16cloud code 和 codex 将要交锋的地方。Codex 会看一眼原始的 plan.md,并
00:08:21看一眼 cloud code 创造的整个事物。正是在 plan review log 中,codex
00:08:28会说:嘿,这很烂。这不行,等等。这也为我们提供了它们整个循环的
00:08:33来回记录。而在 codex 和 cloud code 这一轮来回之后,
00:08:38我们将得到一个更新后的 plan.md。所以 plan.md 是最终交付物。所有东西都将
00:08:46基于此构建。plan review log 则是来回过程,是真正制造香肠的地方。另一个
00:08:52在这次对抗性审查中的注意事项是,虽然它是无头运行的,但我们仍然给 codex 会话 ID。
00:08:59所以对于 codex 而言,并不是说在第一轮到迭代二或迭代三时它是完全空白的。
00:09:05它始终有与 cloud code 的完整交流记录。所以我们
00:09:12可以看到在第一轮中,codex 发现了 11 个它认为的问题。我们也可以
00:09:18看到 cloud code 根据它接受并认为有效的发现更新了 plan.md。
00:09:25在第二轮中,它发现了四个额外问题。我们从 11 个减少到了四个。再次,
00:09:31计划得到了更新。而在第三轮,我们看到结论现在是已批准。正是在
00:09:35这一时刻,codex 和 cloud code 达成了一致。Codex 仍然标记了几个点,
00:09:40但只是三个低级别的修饰,所以它们不是阻碍因素。这一点在最后也重申了,
00:09:45即批准了五轮中的第三轮,告诉我们最终计划看起来如何,
00:09:50这两个举措带给了我们什么,特别是第二阶段,即 codex 和 cloud code 的第一轮和第二轮
00:09:56交锋。你知道,我们发现了真正的安全和正确性漏洞。
00:10:01有不受限的客户端技能 slug、大小写敏感的去重绕过、相对电子邮件链接、
00:10:06原始列表炸弹攻击向量以及表扫描速率限制。在第二轮中,它捕获了虚假
00:10:12修复。所以第一轮 codex 说:嘿,这是问题。Cloud code 试图修复它们。而在
00:10:18第二次迭代中,codex 说:这些不是真正的修复,对吧?所以它注意到双重选择
00:10:24已声明但未连接,super base JS 无法定位的表达式索引去重,
00:10:30以及仍然阻止解锁的响应前操作被移到了后面。所以只有三轮,
00:10:38但这比尝试执行 Cloud Code 最初想出的第一个计划
00:10:44然后经历整个故障排除过程要节省很多时间。最后,它还提出了一些开放
00:10:49项目,主要是 SQL 迁移之类的。但那也是 Cloud Code 在偷懒,因为它
00:10:54完全可以自己做这些。所以回到网站顶部,我们有免费技能。我点击它。现在它
00:10:58要求输入我的邮箱。好了。现在我有了这个技能,我可以下载到一个 .zip 文件中。
00:11:08显然在现实中,我真正想做什么?嗯,我可能希望文本和
00:11:12一切都与网站其余部分相匹配,但你可以看到它创造了我们想要的效果。
00:11:18本视频的重点不是具体的演示,只是为了展示该技能的操作。至于
00:11:23如何自己获取这些技能,我会把它们放在置顶评论中,方便你获取。
00:11:27但除此之外,这就是我所有的内容了。显然你需要知道的是,
00:11:31嘿,我们在使用 codex。所以你需要一个 OpenAI 账户。你需要下载 codex,
00:11:35这相对简单。没有理由需要超过 20 美元一个月的 OpenAI 计划
00:11:39就能从这上面获得很多收获。我们创建的这个系统也是你可以
00:11:45轻易地换成某种本地模型的方案。所以如果你说:嘿,我不想
00:11:50付给 OpenAI 每月 20 美元。我宁愿用类似 DeepSeek 或其他的,任何本地或更便宜的模型,
00:11:55这真的很容易。框架就在那儿。我会直接拿我创建的技能,
00:12:00放进 Claude Code 里说:嘿,我们可以把 codex 换成 [插入你尝试使用的模型] 吗?
00:12:07真的就这么简单。它非常、非常灵活。所以你可以用它
00:12:12做很多事情。而且我认为对于那些不把自己当作
00:12:16专家程序员,不能快速高效地查看 Cloud Code 所做的事情并说:
00:12:22这说得通,这不行,的人来说,它的框架很有意义。
00:12:26这不是很多人的专业领域,也不需要是。坦率地说,我们有工具可以代劳。
00:12:32所以一如既往,告诉我你的想法。确保看看 Chase AI Plus,如果你想亲手获取
00:12:35Claude Code 大师课的话,
00:12:37回见。

Key Takeaway

通过将 Matt Pocock 的 Grill Me 计划模式与迭代式 Codex 对抗性代码审查相结合,非专业开发者能确保 Claude Code 的输出符合最优工程标准。

Highlights

  • Claude Code 容易对自身生成的代码进行过度自信的评价,缺乏有效的自我纠错机制。

  • 引入 Codex 插件进行对抗性代码审查,通过多轮迭代沟通确保项目计划的准确性与安全性。

  • 对抗性审查流程通常在 3 到 5 轮迭代内达成协议,显著降低了后续排错的时间成本。

  • 该框架通过 plan.md 作为最终交付文档,并使用 plan review log.md 记录 AI 模型间的冲突与修订过程。

  • 该系统具有高度灵活性,支持将底层模型替换为 DeepSeek 或其他本地模型,无需绑定特定服务。

Timeline

AI 开发中的评估鸿沟与解决方案

  • 单一模型既负责规划又负责评价,导致代码质量评估缺乏客观性。
  • Grill Me 技能通过深入的提问阶段,帮助用户更精准地定义开发需求。
  • AI 辅助开发中存在从需求表达、模型构建到代码验证的信任鸿沟。

仅依靠 Claude Code 规划和构建会导致平庸的产出,因为模型倾向于给自己构建的方案打高分。通过增加基于 Grill Me 的深入规划层,可以减少 AI 对模糊需求的预设假设,从而建立更清晰的开发共识。

Codex 对抗性审查的实施逻辑

  • Codex 作为中立第三方介入,对 Claude Code 的计划进行迭代式的对抗性审查。
  • 系统维护两个关键文件:plan.md 作为最终方案,plan review log.md 记录沟通与修订轨迹。
  • 对抗性审查在三轮迭代中识别并修复了如客户端技能 slug 漏洞、去重逻辑绕过等核心安全问题。

一旦计划初步定型,Codex 会介入并与 Claude Code 进行多轮对话。在每一轮中,Codex 识别潜在问题并要求修正,Claude Code 则根据反馈调整计划。这种迭代过程将传统的被动审查转变为主动的对抗式优化,确保最终产出的可靠性。

落地应用与模型扩展性

  • 该对抗性审查框架能有效识别并修复复杂的安全与逻辑漏洞,节省大量手动排错时间。
  • 框架设计高度解耦,支持将底层的 OpenAI Codex 替换为 DeepSeek 或其他开源本地模型。
  • 该方案尤其适用于不具备专业软件工程背景、无法直接评估 Claude Code 代码质量的开发者。

通过实际演示电子邮件捕获功能的开发,展示了该系统如何自动将代码库与新需求协调一致。用户无需深度技术背景,即可利用此框架监控并指导 AI 完成高质量的开发任务。由于框架的灵活性,用户可以自由切换模型以优化成本或部署环境。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video