Claude Code + Codex = AI 之神

CChase AI
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00所以我们现在可以在 Claude Code 中使用 Codex 了。
00:00:03这是 OpenAI 推出的产品。
00:00:04因此,Opus 4.6 的头号竞争对手
00:00:08现在已经可以在
00:00:09Anthropic 的生态系统中使用。
00:00:11这对于所有 Claude Code 的爱好者来说都是个好消息,
00:00:15尤其是如果你一直
00:00:18为使用率限制感到困扰,因为坦白说,
00:00:20在美元与额度或 Token 的转换比例上,
00:00:23Codex 的性价比要高得多。
00:00:26所以在这段视频中,我将向你展示如何设置它,
00:00:28我们将深入探讨 Codex 在
00:00:31Claude Code 框架下的实际功能。
00:00:33更重要的是,我们可以利用 Claude Code
00:00:38让 Opus 4.6 和 Codex 协同工作,对吧?
00:00:40我们如何让这两个模型相辅相成,
00:00:43从而达到 1 加 1 大于 2 的效果?
00:00:46在安装之前,让我们先快速概览一下
00:00:48Claude Code 插件带来的功能,
00:00:50因为其中有几点非常关键。
00:00:51我认为最重要的两点
00:00:54是代码审查,对吧?
00:00:56也就是让它能够检查
00:00:58Opus 编写的内容。
00:00:59这分为两个阶段。
00:01:01首先是标准的 Codex 审查,
00:01:03这只是一种中立的审查。
00:01:06它只是以只读的方式进行检查。
00:01:08第二种是对抗性审查(Adversarial Review),我非常喜欢。
00:01:12这基本上是告诉 Codex:
00:01:13“嘿,看看 Opus 或任何编程智能体
00:01:15所构建的内容,
00:01:17但要用非常挑剔的眼光来看待。”
00:01:20“假设他们搞砸了,
00:01:22然后找出我们可以改进的地方。”
00:01:25这是显著提升产出质量的绝佳方式,
00:01:28因为 Opus,以及
00:01:31很多 AI 模型普遍存在的一个问题,
00:01:33就是它们通常不擅长评估自己编写的代码。
00:01:36Anthropic 在上周发布的
00:01:38工程博客中也提到了这一点。
00:01:40所以像对抗性审查这样的功能,简直太棒了。
00:01:44除此之外,我们还可以使用 Codex Rescue,
00:01:46它允许 Codex 独立创作内容,
00:01:49就像你在 Claude Code 中使用 Opus 一样。
00:01:52再往后,就是一些关于状态的功能,
00:01:54比如查看特定任务的进度。
00:01:58现在让我们开始安装过程。
00:02:01安装过程非常简单。
00:02:02你只需要运行这条命令
00:02:04将其添加到市场中。
00:02:06我会把所有这些命令放在说明栏里。
00:02:08然后运行这条插件命令进行安装:
00:02:11codex@openai-codex。
00:02:13按照惯例,它会询问你安装位置。
00:02:14我会选择用户范围(user scope)。
00:02:16接着我们只需要重新加载插件
00:02:17让它运行起来。
00:02:18最后,我们要运行 codex:setup。
00:02:21如果你没注意到,这个项目也有一个 GitHub 仓库,
00:02:24里面详细列出了所有的安装命令。
00:02:27我也会把链接放在说明栏。
00:02:29使用率是与你的 ChatGPT 账户绑定的,
00:02:32据说即使是免费账户也可以。
00:02:34所以请明白,它会消耗
00:02:36你的 Codex 使用限额。
00:02:37它会询问是否要安装 Codex,选 yes。
00:02:39为此你需要登录,系统会跳转到浏览器
00:02:42引导你完成身份验证流程。
00:02:44在 Claude Code 中使用 Codex
00:02:47有两个非常明显的用例。
00:02:49第一个是解决 Claude Code 内部的
00:02:52使用限制问题。
00:02:53通常,如果你使用的是 Anthropic 的专业版
00:02:55或者是 5 倍上限版,额度会消耗得很快,
00:02:58尤其是考虑到上周我们在 CLI 中
00:03:00看到的一些 Bug。
00:03:02如果是这种情况,你可能想
00:03:03用 Opus 4.6 进行规划,而用 Codex 来执行。
00:03:07同样,操作非常简单。
00:03:09你只需要输入 codex rescue。
00:03:11然后在此输入提示词。
00:03:14你还可以指定很多参数。
00:03:16比如你在这里看到的各种标记(flags),
00:03:18包括投入程度(effort level)等等。
00:03:20请记住,Codex 模型本身非常稳健。
00:03:24而且它的费用
00:03:26远低于 Anthropic 的收费标准。
00:03:27但我认为更有趣的用例
00:03:28是我之前提到的,
00:03:29即对抗性审查。
00:03:30让我们来测试一下。
00:03:32我会让它检查
00:03:33我的 Twitter 互动与研究机器人。
00:03:37这是我用 Claude Code 构建的一个 Web 应用。
00:03:39它主要负责每隔 30 到 45 分钟
00:03:43扫描一次 AI 领域的推文。
00:03:45它包含一个质量过滤器。
00:03:47它有一套评分机制,
00:03:48基于多个不同的参数。
00:03:50它连接到了 Supabase
00:03:51以确保推文不会重复处理。
00:03:53它有一套评分系统并集成了 softmax 和 PIX。
00:03:56所有内容都会推送到 Telegram。
00:03:58我还内置了 AI 来辅助回复。
00:04:00所以里面的功能还是挺多的。
00:04:02在此之上,
00:04:03它还会追踪我所有的回复,
00:04:06这样我们就形成了一个反馈闭环。
00:04:07虽然不至于超级复杂,
00:04:10但这也不是随便一个简单的落地页。
00:04:13我们来看看 Codex 会给出什么反馈。
00:04:16当我们对这段代码进行对抗性审查时,它会怎么做?
00:04:20看看效果如何。
00:04:22我们会给它很大的发挥空间。
00:04:23我们要告诉 Codex:
00:04:24“查看这个代码库,告诉我你的想法。”
00:04:27它做的第一件事是告诉我们:
00:04:28“嘿,我们要估算审查规模,
00:04:30以确定最佳模式。”
00:04:32然后它会问:
00:04:33“你是想让它在后台运行,
00:04:34还是就在这里等待结果?”
00:04:35我们选择直接等待结果。
00:04:37它显示审查范围包括完整代码库,
00:04:39外加 9 个工作区变更、1 个修改后的文件,
00:04:42以及 8 个未追踪的文件。
00:04:43所以它知道
00:04:44它需要检查很多内容。
00:04:46在它运行的同时,
00:04:47我们来聊聊对抗性审查的具体工作原理。
00:04:49我们刚刚看到了前四个部分,对吧?
00:04:52它解析了参数。
00:04:54我们没有传递任何标记,
00:04:55所以它只是按默认设置运行。
00:04:57接着它估算了审查规模,
00:04:59确定了目标并收集了一些上下文。
00:05:01就是刚才那段关于
00:05:03未追踪变更
00:05:04以及需要花费一些时间的提示信息。
00:05:05在完成这前四个步骤后,
00:05:06它将构建对抗性提示词,
00:05:09它会特别关注
00:05:11七个攻击面。
00:05:13分别是:身份验证、数据丢失、回滚机制、
00:05:17竞态条件、依赖降级、
00:05:20版本偏差以及可观测性缺口,对吧?
00:05:23这七个方面都比较隐蔽,
00:05:26如果我们直接推送到生产环境
00:05:27而又没有处理好这些问题,
00:05:29后果会很严重。
00:05:30随后,它会将所有信息
00:05:31发回 OpenAI 服务器供 Codex 分析。
00:05:34然后它会返回结构化的 JSON 输出,
00:05:37结果看起来大概是这样的,对吧?
00:05:41它会根据发现的问题给出严重程度,
00:05:43分为:紧急、高、中、低,
00:05:46并提供建议和后续步骤。
00:05:48你只需要坐在 Claude Code 里
00:05:51等待响应即可。
00:05:52Codex 在我们的代码库中发现了四个问题,
00:05:54所有问题的严重程度都是“高”。
00:05:57我把这些内容贴到了 Excalidraw 上,
00:05:58方便我们逐一查看。
00:06:00对于每一个问题,它都给出了严重程度、
00:06:02所属区域、具体问题描述、涉及文件,
00:06:06以及需要检查的
00:06:08具体代码行。
00:06:09更重要的是,它说明了实际影响
00:06:12以及修复方案。
00:06:13第一点,它说我们的
00:06:15去重(deadup)逻辑有问题。
00:06:16第二点是关于 Telegram 轮询的处理方式。
00:06:19第三点是架构偏移(schema drift)。
00:06:21最后一点是实际的仪表盘构建。
00:06:24这些确实都是比较重要的内容,
00:06:27好在看起来
00:06:29修复起来并不算太难。
00:06:31但我感兴趣的是,
00:06:33好吧,这是 Codex 给我们的结果。
00:06:35如果让 Claude 对自己的代码库
00:06:40进行类似的对抗性审查,它会给出什么?
00:06:43因为通过正面交锋来观察
00:06:45Codex 与其他模型的不同之处,
00:06:46会非常有启发性。
00:06:48毕竟,万一它们给出的结果完全一样,
00:06:50那这段视频就白做了。
00:06:52所以我现在让 Opus 运行同样的
00:06:55对抗性代码审查。
00:06:56我让 Codex 生成了一个特定的提示词。
00:06:59基本上就是说:
00:07:00“嘿,我要你挑战现有的实现方式
00:07:02和设计选择。”
00:07:04“这里有一些我希望你评估的维度,”
00:07:05“以及要求的输出格式。”
00:07:07让我们看看结果。
00:07:09这是详细的结果分析。
00:07:11首先,它们确实有一个共同的发现。
00:07:13它们都认为 Telegram 的问题是个麻烦。
00:07:17这是它们两个都发现的唯一一个
00:07:20并指出该问题属于高危或严重级别。
00:07:23Codex 认为这只是高危级别,
00:07:24而 Opus 则认为它是严重级别。
00:07:26Opus 自身还发现了另外七个
00:07:30被评为高危或严重、而 Codex 没发现的问题。
00:07:32我们并不是说仅仅因为
00:07:36发现的问题更多,Opus 就
00:07:37一定比 Codex 更好。
00:07:39只是指出,它发现了七个
00:07:41Codex 漏掉的、我们可能想要查看的内容。
00:07:43当然另一方面,
00:07:45我们也发现了三个 Codex 检出而 Opus 漏掉的问题。
00:07:48那么,从整体来看,
00:07:49这一切意味着什么?
00:07:50这是否意味着 Opus 比 Codex 更好,
00:07:51因为它发现得更多?还是说 Codex 比 Opus 更好,
00:07:54因为它精准锁定了四个核心问题,
00:07:56而没有把我们引向奇怪的歧路?
00:07:58我认为你从中能得出什么结论,
00:07:59完全取决于你个人的看法。
00:08:01这可能恰恰说明,同时拥有这两个系统
00:08:04是有价值的。
00:08:05多一双眼睛看着,对吧?
00:08:06这总比一直让 Opus 审阅 Opus 自己要好。
00:08:09我认为,如果让同一个 AI 系统
00:08:10同时负责规划、
00:08:13生成和评估,
00:08:16在逻辑上是存在某种根本性缺陷的。
00:08:17如果我们能非常轻松地引入 Codex,
00:08:20特别是考虑到它的价格,
00:08:22即使只是用来做这类事情,
00:08:24比如进行对抗性评审,
00:08:25这绝对是 AI 编程中性价比极高的
00:08:28边际策略,毕竟,何乐而不为呢?
00:08:30如果你已经在使用 ChatGPT,
00:08:34如果你已经每月支付 20 美元的订阅费,
00:08:35而我现在能引入这个工具,让 Codex
00:08:37帮我审视任何内容,
00:08:38如此简单,这能有什么坏处呢?
00:08:43我不认为通过任何这类快速测试,
00:08:47我们就能得到任何定论,比如:
00:08:48“Codex 优于 Opus”。
00:08:50而且我觉得那种讨论
00:08:51在某种程度上偏离了重点。
00:08:52这只是我们工具箱里的又一个工具,
00:08:54现在我们可以利用它了。
00:08:55所以我觉得这很棒。
00:08:56现在我们也可以进行
00:08:58更具体的对抗性评审,
00:09:00因为之前的提示词非常开放且笼统,
00:09:03它能够以很多种不同的方式去解读,
00:09:06但仅仅基于 GitHub 上的示例,对吧?
00:09:08你可以非常具体地
00:09:09指定你想让 Codex 检查的内容。
00:09:11总的来说,我认为这是对
00:09:13Cloud Code 生态系统的一个极大补充。
00:09:14工具越多越好,
00:09:15特别是如果你属于以下情况:第一,
00:09:17已经在支付 ChatGPT 的费用;
00:09:19或者第二,正在使用 Anthropic Pro 方案,
00:09:22同时可能还在支付 ChatGPT 的费用,
00:09:23那么每月 100 美元可能有点贵,
00:09:25200 美元肯定就太贵了。
00:09:28这几乎为我们提供了一个
00:09:30介于 20 美元和 100 美元订阅之间的折中选择,
00:09:33因为 Codex 确实是一个性价比极高的选择。
00:09:36所以一定要去试一下,安装非常简单。
00:09:39请告诉我你的想法,
00:09:41一如既往,我们下回见。

Key Takeaway

在 Claude Code 中集成 Codex 可以通过对抗性审查显著提升代码质量,并利用 ChatGPT 现有订阅额度降低 AI 辅助编程的 Token 消耗成本。

Highlights

Claude Code 现已集成 OpenAI 的 Codex 模型,用户可以通过安装 codex@openai-codex 插件来调用该模型。

对抗性审查(Adversarial Review)功能专门针对身份验证、数据丢失、回滚机制、竞态条件、依赖降级、版本偏差和可观测性缺口这七个核心攻击面进行深度评估。

Codex 模型与 ChatGPT 订阅绑定,对于每月支付 20 美元的用户来说,其 Token 转换性价比远高于 Anthropic 的原生额度。

在一项推特机器人代码库的实测中,Codex 锁定了 4 个高危问题,而 Opus 4.6 虽然发现了 7 个额外问题,但也漏掉了 Codex 检出的 3 个特定漏洞。

通过 codex rescue 命令,用户可以让 Opus 4.6 负责高层的逻辑规划,而由 Codex 执行具体的代码编写任务,以规避 Anthropic 的使用频率限制。

Timeline

Claude Code 与 Codex 的协同效应

  • Codex 作为 OpenAI 的产品现已进入 Anthropic 的生态系统。
  • 对抗性审查功能强制 AI 以批判视角检查 Opus 编写的代码并找出潜在缺陷。
  • AI 模型通常不擅长自我评估其编写的代码,因此引入第三方模型进行审查至关重要。

引入 Codex 主要是为了解决两个问题:一是 Anthropic 模型的使用频率限制,二是提升代码审查的客观性。对抗性审查通过模拟挑剔的视角,专门寻找可能被开发者忽略的改进点。这种 1 加 1 大于 2 的组合利用了不同模型在评估逻辑上的差异性。

安装步骤与配置流程

  • 安装过程通过运行 codex@openai-codex 插件命令并选择用户范围来完成。
  • Codex 的使用额度直接与用户的 ChatGPT 账户绑定,支持免费账户登录验证。
  • 身份验证流程会自动跳转至浏览器完成,随后即可在 CLI 环境中调用。

安装流程设计得非常精简,用户只需在终端运行市场添加命令和插件安装命令。由于该系统依赖于 OpenAI 的身份验证,用户必须登录 ChatGPT 账户。这意味着用户在享受 Claude Code 框架的同时,消耗的是 OpenAI 端的配额,为开发者提供了灵活的资源分配方案。

核心用例:执行任务与对抗性审查

  • 使用 codex rescue 指令可以指定 Codex 独立完成具体的提示词任务。
  • 对抗性审查流程包含估算审查规模、解析参数、构建对抗性提示词等多个阶段。
  • 审查结果以结构化的 JSON 格式输出,涵盖严重程度、受影响文件及具体的修复建议。

针对一个包含 Telegram 集成、Supabase 连接和自动回复功能的推特机器人代码库,Codex 能够识别出诸如去重逻辑漏洞和架构偏移等高危问题。系统会将分析数据发送至 OpenAI 服务器,并返回包含“紧急、高、中、低”四个等级的详细报告。这种深度分析能够精准定位到具体的代码行数,并解释漏洞对生产环境的实际影响。

Opus 4.6 与 Codex 的性能对比与总结

  • Opus 和 Codex 在测试中仅共同发现了一个高危的 Telegram 轮询问题。
  • Opus 倾向于发现更多数量的问题,而 Codex 则侧重于核心逻辑的精准锁定。
  • 同时保留两个系统可以避免单一 AI 在规划、生成和评估环节中的逻辑闭环缺陷。

通过让 Opus 运行由 Codex 生成的对抗性提示词,对比发现两个模型在漏洞识别上互有重叠但也存在盲点。Opus 发现了 7 个 Codex 遗漏的问题,而 Codex 也锁定了 3 个 Opus 未察觉的故障。这种差异性证明了在 AI 编程中采用多模型交叉验证的价值,尤其是在 ChatGPT 订阅用户可以通过较低边际成本获得额外审查能力的情况下。

Community Posts

View all posts