Claude Code + Codex = AI 之神

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00所以我们现在可以在 Claude Code 中使用 Codex 了。

00:00:03这是 OpenAI 推出的产品。

00:00:04因此，Opus 4.6 的头号竞争对手

00:00:08现在已经可以在

00:00:09Anthropic 的生态系统中使用。

00:00:11这对于所有 Claude Code 的爱好者来说都是个好消息，

00:00:15尤其是如果你一直

00:00:18为使用率限制感到困扰，因为坦白说，

00:00:20在美元与额度或 Token 的转换比例上，

00:00:23Codex 的性价比要高得多。

00:00:26所以在这段视频中，我将向你展示如何设置它，

00:00:28我们将深入探讨 Codex 在

00:00:31Claude Code 框架下的实际功能。

00:00:33更重要的是，我们可以利用 Claude Code

00:00:38让 Opus 4.6 和 Codex 协同工作，对吧？

00:00:40我们如何让这两个模型相辅相成，

00:00:43从而达到 1 加 1 大于 2 的效果？

00:00:46在安装之前，让我们先快速概览一下

00:00:48Claude Code 插件带来的功能，

00:00:50因为其中有几点非常关键。

00:00:51我认为最重要的两点

00:00:54是代码审查，对吧？

00:00:56也就是让它能够检查

00:00:58Opus 编写的内容。

00:00:59这分为两个阶段。

00:01:01首先是标准的 Codex 审查，

00:01:03这只是一种中立的审查。

00:01:06它只是以只读的方式进行检查。

00:01:08第二种是对抗性审查（Adversarial Review），我非常喜欢。

00:01:12这基本上是告诉 Codex：

00:01:13“嘿，看看 Opus 或任何编程智能体

00:01:15所构建的内容，

00:01:17但要用非常挑剔的眼光来看待。”

00:01:20“假设他们搞砸了，

00:01:22然后找出我们可以改进的地方。”

00:01:25这是显著提升产出质量的绝佳方式，

00:01:28因为 Opus，以及

00:01:31很多 AI 模型普遍存在的一个问题，

00:01:33就是它们通常不擅长评估自己编写的代码。

00:01:36Anthropic 在上周发布的

00:01:38工程博客中也提到了这一点。

00:01:40所以像对抗性审查这样的功能，简直太棒了。

00:01:44除此之外，我们还可以使用 Codex Rescue，

00:01:46它允许 Codex 独立创作内容，

00:01:49就像你在 Claude Code 中使用 Opus 一样。

00:01:52再往后，就是一些关于状态的功能，

00:01:54比如查看特定任务的进度。

00:01:58现在让我们开始安装过程。

00:02:01安装过程非常简单。

00:02:02你只需要运行这条命令

00:02:04将其添加到市场中。

00:02:06我会把所有这些命令放在说明栏里。

00:02:08然后运行这条插件命令进行安装：

00:02:11codex@openai-codex。

00:02:13按照惯例，它会询问你安装位置。

00:02:14我会选择用户范围（user scope）。

00:02:16接着我们只需要重新加载插件

00:02:17让它运行起来。

00:02:18最后，我们要运行 codex:setup。

00:02:21如果你没注意到，这个项目也有一个 GitHub 仓库，

00:02:24里面详细列出了所有的安装命令。

00:02:27我也会把链接放在说明栏。

00:02:29使用率是与你的 ChatGPT 账户绑定的，

00:02:32据说即使是免费账户也可以。

00:02:34所以请明白，它会消耗

00:02:36你的 Codex 使用限额。

00:02:37它会询问是否要安装 Codex，选 yes。

00:02:39为此你需要登录，系统会跳转到浏览器

00:02:42引导你完成身份验证流程。

00:02:44在 Claude Code 中使用 Codex

00:02:47有两个非常明显的用例。

00:02:49第一个是解决 Claude Code 内部的

00:02:52使用限制问题。

00:02:53通常，如果你使用的是 Anthropic 的专业版

00:02:55或者是 5 倍上限版，额度会消耗得很快，

00:02:58尤其是考虑到上周我们在 CLI 中

00:03:00看到的一些 Bug。

00:03:02如果是这种情况，你可能想

00:03:03用 Opus 4.6 进行规划，而用 Codex 来执行。

00:03:07同样，操作非常简单。

00:03:09你只需要输入 codex rescue。

00:03:11然后在此输入提示词。

00:03:14你还可以指定很多参数。

00:03:16比如你在这里看到的各种标记（flags），

00:03:18包括投入程度（effort level）等等。

00:03:20请记住，Codex 模型本身非常稳健。

00:03:24而且它的费用

00:03:26远低于 Anthropic 的收费标准。

00:03:27但我认为更有趣的用例

00:03:28是我之前提到的，

00:03:29即对抗性审查。

00:03:30让我们来测试一下。

00:03:32我会让它检查

00:03:33我的 Twitter 互动与研究机器人。

00:03:37这是我用 Claude Code 构建的一个 Web 应用。

00:03:39它主要负责每隔 30 到 45 分钟

00:03:43扫描一次 AI 领域的推文。

00:03:45它包含一个质量过滤器。

00:03:47它有一套评分机制，

00:03:48基于多个不同的参数。

00:03:50它连接到了 Supabase

00:03:51以确保推文不会重复处理。

00:03:53它有一套评分系统并集成了 softmax 和 PIX。

00:03:56所有内容都会推送到 Telegram。

00:03:58我还内置了 AI 来辅助回复。

00:04:00所以里面的功能还是挺多的。

00:04:02在此之上，

00:04:03它还会追踪我所有的回复，

00:04:06这样我们就形成了一个反馈闭环。

00:04:07虽然不至于超级复杂，

00:04:10但这也不是随便一个简单的落地页。

00:04:13我们来看看 Codex 会给出什么反馈。

00:04:16当我们对这段代码进行对抗性审查时，它会怎么做？

00:04:20看看效果如何。

00:04:22我们会给它很大的发挥空间。

00:04:23我们要告诉 Codex：

00:04:24“查看这个代码库，告诉我你的想法。”

00:04:27它做的第一件事是告诉我们：

00:04:28“嘿，我们要估算审查规模，

00:04:30以确定最佳模式。”

00:04:32然后它会问：

00:04:33“你是想让它在后台运行，

00:04:34还是就在这里等待结果？”

00:04:35我们选择直接等待结果。

00:04:37它显示审查范围包括完整代码库，

00:04:39外加 9 个工作区变更、1 个修改后的文件，

00:04:42以及 8 个未追踪的文件。

00:04:43所以它知道

00:04:44它需要检查很多内容。

00:04:46在它运行的同时，

00:04:47我们来聊聊对抗性审查的具体工作原理。

00:04:49我们刚刚看到了前四个部分，对吧？

00:04:52它解析了参数。

00:04:54我们没有传递任何标记，

00:04:55所以它只是按默认设置运行。

00:04:57接着它估算了审查规模，

00:04:59确定了目标并收集了一些上下文。

00:05:01就是刚才那段关于

00:05:03未追踪变更

00:05:04以及需要花费一些时间的提示信息。

00:05:05在完成这前四个步骤后，

00:05:06它将构建对抗性提示词，

00:05:09它会特别关注

00:05:11七个攻击面。

00:05:13分别是：身份验证、数据丢失、回滚机制、

00:05:17竞态条件、依赖降级、

00:05:20版本偏差以及可观测性缺口，对吧？

00:05:23这七个方面都比较隐蔽，

00:05:26如果我们直接推送到生产环境

00:05:27而又没有处理好这些问题，

00:05:29后果会很严重。

00:05:30随后，它会将所有信息

00:05:31发回 OpenAI 服务器供 Codex 分析。

00:05:34然后它会返回结构化的 JSON 输出，

00:05:37结果看起来大概是这样的，对吧？

00:05:41它会根据发现的问题给出严重程度，

00:05:43分为：紧急、高、中、低，

00:05:46并提供建议和后续步骤。

00:05:48你只需要坐在 Claude Code 里

00:05:51等待响应即可。

00:05:52Codex 在我们的代码库中发现了四个问题，

00:05:54所有问题的严重程度都是“高”。

00:05:57我把这些内容贴到了 Excalidraw 上，

00:05:58方便我们逐一查看。

00:06:00对于每一个问题，它都给出了严重程度、

00:06:02所属区域、具体问题描述、涉及文件，

00:06:06以及需要检查的

00:06:08具体代码行。

00:06:09更重要的是，它说明了实际影响

00:06:12以及修复方案。

00:06:13第一点，它说我们的

00:06:15去重（deadup）逻辑有问题。

00:06:16第二点是关于 Telegram 轮询的处理方式。

00:06:19第三点是架构偏移（schema drift）。

00:06:21最后一点是实际的仪表盘构建。

00:06:24这些确实都是比较重要的内容，

00:06:27好在看起来

00:06:29修复起来并不算太难。

00:06:31但我感兴趣的是，

00:06:33好吧，这是 Codex 给我们的结果。

00:06:35如果让 Claude 对自己的代码库

00:06:40进行类似的对抗性审查，它会给出什么？

00:06:43因为通过正面交锋来观察

00:06:45Codex 与其他模型的不同之处，

00:06:46会非常有启发性。

00:06:48毕竟，万一它们给出的结果完全一样，

00:06:50那这段视频就白做了。

00:06:52所以我现在让 Opus 运行同样的

00:06:55对抗性代码审查。

00:06:56我让 Codex 生成了一个特定的提示词。

00:06:59基本上就是说：

00:07:00“嘿，我要你挑战现有的实现方式

00:07:02和设计选择。”

00:07:04“这里有一些我希望你评估的维度，”

00:07:05“以及要求的输出格式。”

00:07:07让我们看看结果。

00:07:09这是详细的结果分析。

00:07:11首先，它们确实有一个共同的发现。

00:07:13它们都认为 Telegram 的问题是个麻烦。

00:07:17这是它们两个都发现的唯一一个

00:07:20并指出该问题属于高危或严重级别。

00:07:23Codex 认为这只是高危级别，

00:07:24而 Opus 则认为它是严重级别。

00:07:26Opus 自身还发现了另外七个

00:07:30被评为高危或严重、而 Codex 没发现的问题。

00:07:32我们并不是说仅仅因为

00:07:36发现的问题更多，Opus 就

00:07:37一定比 Codex 更好。

00:07:39只是指出，它发现了七个

00:07:41Codex 漏掉的、我们可能想要查看的内容。

00:07:43当然另一方面，

00:07:45我们也发现了三个 Codex 检出而 Opus 漏掉的问题。

00:07:48那么，从整体来看，

00:07:49这一切意味着什么？

00:07:50这是否意味着 Opus 比 Codex 更好，

00:07:51因为它发现得更多？还是说 Codex 比 Opus 更好，

00:07:54因为它精准锁定了四个核心问题，

00:07:56而没有把我们引向奇怪的歧路？

00:07:58我认为你从中能得出什么结论，

00:07:59完全取决于你个人的看法。

00:08:01这可能恰恰说明，同时拥有这两个系统

00:08:04是有价值的。

00:08:05多一双眼睛看着，对吧？

00:08:06这总比一直让 Opus 审阅 Opus 自己要好。

00:08:09我认为，如果让同一个 AI 系统

00:08:10同时负责规划、

00:08:13生成和评估，

00:08:16在逻辑上是存在某种根本性缺陷的。

00:08:17如果我们能非常轻松地引入 Codex，

00:08:20特别是考虑到它的价格，

00:08:22即使只是用来做这类事情，

00:08:24比如进行对抗性评审，

00:08:25这绝对是 AI 编程中性价比极高的

00:08:28边际策略，毕竟，何乐而不为呢？

00:08:30如果你已经在使用 ChatGPT，

00:08:34如果你已经每月支付 20 美元的订阅费，

00:08:35而我现在能引入这个工具，让 Codex

00:08:37帮我审视任何内容，

00:08:38如此简单，这能有什么坏处呢？

00:08:43我不认为通过任何这类快速测试，

00:08:47我们就能得到任何定论，比如：

00:08:48“Codex 优于 Opus”。

00:08:50而且我觉得那种讨论

00:08:51在某种程度上偏离了重点。

00:08:52这只是我们工具箱里的又一个工具，

00:08:54现在我们可以利用它了。

00:08:55所以我觉得这很棒。

00:08:56现在我们也可以进行

00:08:58更具体的对抗性评审，

00:09:00因为之前的提示词非常开放且笼统，

00:09:03它能够以很多种不同的方式去解读，

00:09:06但仅仅基于 GitHub 上的示例，对吧？

00:09:08你可以非常具体地

00:09:09指定你想让 Codex 检查的内容。

00:09:11总的来说，我认为这是对

00:09:13Cloud Code 生态系统的一个极大补充。

00:09:14工具越多越好，

00:09:15特别是如果你属于以下情况：第一，

00:09:17已经在支付 ChatGPT 的费用；

00:09:19或者第二，正在使用 Anthropic Pro 方案，

00:09:22同时可能还在支付 ChatGPT 的费用，

00:09:23那么每月 100 美元可能有点贵，

00:09:25200 美元肯定就太贵了。

00:09:28这几乎为我们提供了一个

00:09:30介于 20 美元和 100 美元订阅之间的折中选择，

00:09:33因为 Codex 确实是一个性价比极高的选择。

00:09:36所以一定要去试一下，安装非常简单。

00:09:39请告诉我你的想法，

00:09:41一如既往，我们下回见。

Key Takeaway

在 Claude Code 中集成 Codex 可以通过对抗性审查显著提升代码质量，并利用 ChatGPT 现有订阅额度降低 AI 辅助编程的 Token 消耗成本。

Highlights

Claude Code 现已集成 OpenAI 的 Codex 模型，用户可以通过安装 codex@openai-codex 插件来调用该模型。
对抗性审查（Adversarial Review）功能专门针对身份验证、数据丢失、回滚机制、竞态条件、依赖降级、版本偏差和可观测性缺口这七个核心攻击面进行深度评估。
Codex 模型与 ChatGPT 订阅绑定，对于每月支付 20 美元的用户来说，其 Token 转换性价比远高于 Anthropic 的原生额度。
在一项推特机器人代码库的实测中，Codex 锁定了 4 个高危问题，而 Opus 4.6 虽然发现了 7 个额外问题，但也漏掉了 Codex 检出的 3 个特定漏洞。
通过 codex rescue 命令，用户可以让 Opus 4.6 负责高层的逻辑规划，而由 Codex 执行具体的代码编写任务，以规避 Anthropic 的使用频率限制。

Timeline

Claude Code 与 Codex 的协同效应

Codex 作为 OpenAI 的产品现已进入 Anthropic 的生态系统。
对抗性审查功能强制 AI 以批判视角检查 Opus 编写的代码并找出潜在缺陷。
AI 模型通常不擅长自我评估其编写的代码，因此引入第三方模型进行审查至关重要。

引入 Codex 主要是为了解决两个问题：一是 Anthropic 模型的使用频率限制，二是提升代码审查的客观性。对抗性审查通过模拟挑剔的视角，专门寻找可能被开发者忽略的改进点。这种 1 加 1 大于 2 的组合利用了不同模型在评估逻辑上的差异性。

安装步骤与配置流程

安装过程通过运行 codex@openai-codex 插件命令并选择用户范围来完成。
Codex 的使用额度直接与用户的 ChatGPT 账户绑定，支持免费账户登录验证。
身份验证流程会自动跳转至浏览器完成，随后即可在 CLI 环境中调用。

安装流程设计得非常精简，用户只需在终端运行市场添加命令和插件安装命令。由于该系统依赖于 OpenAI 的身份验证，用户必须登录 ChatGPT 账户。这意味着用户在享受 Claude Code 框架的同时，消耗的是 OpenAI 端的配额，为开发者提供了灵活的资源分配方案。

核心用例：执行任务与对抗性审查

使用 codex rescue 指令可以指定 Codex 独立完成具体的提示词任务。
对抗性审查流程包含估算审查规模、解析参数、构建对抗性提示词等多个阶段。
审查结果以结构化的 JSON 格式输出，涵盖严重程度、受影响文件及具体的修复建议。

针对一个包含 Telegram 集成、Supabase 连接和自动回复功能的推特机器人代码库，Codex 能够识别出诸如去重逻辑漏洞和架构偏移等高危问题。系统会将分析数据发送至 OpenAI 服务器，并返回包含“紧急、高、中、低”四个等级的详细报告。这种深度分析能够精准定位到具体的代码行数，并解释漏洞对生产环境的实际影响。

Opus 4.6 与 Codex 的性能对比与总结

Opus 和 Codex 在测试中仅共同发现了一个高危的 Telegram 轮询问题。
Opus 倾向于发现更多数量的问题，而 Codex 则侧重于核心逻辑的精准锁定。
同时保留两个系统可以避免单一 AI 在规划、生成和评估环节中的逻辑闭环缺陷。

通过让 Opus 运行由 Codex 生成的对抗性提示词，对比发现两个模型在漏洞识别上互有重叠但也存在盲点。Opus 发现了 7 个 Codex 遗漏的问题，而 Codex 也锁定了 3 个 Opus 未察觉的故障。这种差异性证明了在 AI 编程中采用多模型交叉验证的价值，尤其是在 ChatGPT 订阅用户可以通过较低边际成本获得额外审查能力的情况下。

Community Posts

Write about this video