OpenAI 正在赢下这场竞赛... (Opus 4.6 + Codex 5.3)

BBetter Stack
컴퓨터/소프트웨어경제 뉴스게임/e스포츠AI/미래기술

Transcript

00:00:00Anthropic 刚刚发布了 Claude Opus 4.6,它在 Terminal Bench 2.0 上的得分在所有模型中是最高的
00:00:06抱歉打断一下各位的编程时间
00:00:10但事实证明 GPT 5.3 codecs 版刚刚发布,它在 Terminal Bench 上的表现实际上超过了 Opus 4.6 逾 10%
00:00:16看来 Anthropic 的霸主地位真的只维持了几分钟。这两家公司之间的竞争确实进入了白热化阶段
00:00:23所以我非常好奇这些新模型有哪些新特性,并想看看最近哪一个用起来感觉最棒
00:00:29实际上最近我觉得 GPT 5.2 的手感更好
00:00:31因此我很想看看 Claude 能否夺回一些优势,还是说 OpenAI 已经通过 GPT 5.3 codecs 做好了万全准备
00:00:37首先带大家快速预览一下这些模型的新变化,毕竟我们都知道它们在基准测试上的表现肯定会优于旧版本
00:00:48测试结果我会在最后展示,但模型本身到底还发生了哪些实质性的改变呢?
00:00:52对于 Opus 来说
00:00:53他们声称它现在可以进行更周密的规划,更持久地执行智能体任务,并能在大型代码库中更可靠地运行
00:01:00同时具备更好的代码审查和调试能力,可以自行纠正错误
00:01:02实际上,这些正是我之前发现 Opus 与 GPT 5.2 相比最薄弱的环节。在我的体验中
00:01:08它通常写代码上手很快,但往往会出更多的小错
00:01:12而 GPT 5.2 虽然进入编码状态稍慢,但它更能理解整个代码库的上下文
00:01:17希望这些改进能提升 Opus 的表现,而且其新增的 100 万总容量
00:01:23上下文窗口可能也会有所帮助
00:01:24尽管官方提到这还处于测试阶段,且与其他供应商类似
00:01:27它也会收取额外费用,超过 20 万词元的提示词每百万输入词元收费 10 美元
00:01:33每百万输出词元收费 37.50 美元。接下来看 codecs 5.3
00:01:38OpenAI 表示,该模型将 GPT 5.2 codecs 的前沿编程性能与 GPT 5.2 的推理和专业知识
00:01:45能力合二为一,速度还提升了 25%
00:01:51这应该能让它胜任涉及研究、工具调用和复杂执行的长期运行任务
00:01:57看来他们确实在把这个模型推向全能化,兼具 GPT 5.2 的知识储备和更强的编程能力
00:02:03不过这些都只是营销说辞
00:02:05让我们通过一些实战测试来看看,我尝试的第一个测试是更新一个 Convex 代理包以支持 AI SDK v6
00:02:11我最近非常喜欢用 Convex 作为数据库,这个包本质上是帮助 AI SDK 与数据库建立连接
00:02:19所以性能表现非常出色,但问题是它还没升级到最新版本
00:02:23你可以从这里的 Vercel 文档中看到,从 v5 到 v6 的迁移并不简单
00:02:28他们做了很多破坏性更新,并更改了大量的类型定义
00:02:32所以我先在 Convex 中做了一个简单的聊天应用,它是可以配合那个代理包正常运行的
00:02:36但我把包升级到 v6 后,就出现了一堆构建和类型错误
00:02:40我直接让模型去修复它们。你可以看到我在 codecs 中使用的提示词
00:02:44我说我正在用 Convex 构建一个聊天应用,原本有个可运行的版本
00:02:46但升级到 v6 后需要修复类型和构建错误
00:02:50我把迁移指南发给了它作为上下文参考,并要求所有测试
00:02:55都必须通过,同时尽可能避免像 “as any” 这种 TypeScript 歪门邪道,我发现很多模型经常这么干
00:02:59所以我特意强调请不要这么做,因为现在 AI SDK 里的类型相当复杂
00:03:03既然我们已经在看 codecs 了,就来看看 5.3 codecs 的表现,它首先
00:03:09开始理解仓库结构,它识别出这是一个使用了 packages/agent 的单体仓库,然后找出了几个
00:03:15根本原因和需要升级的包,并列出了它将如何完成这项任务的具体计划,之后
00:03:22它就开始编写代码,不时进行更改并运行构建,持续致力于
00:03:27修复所有这些类型错误。总的来说,它竟然在完全没有人工干预的情况下运行了大约 40 分钟
00:03:32这让我印象非常深刻,你可以看到它实际上增加了 545 行代码,删除了 111 行。而在 Claude Code 方面
00:03:39我给了它完全相同的项目和提示词,同样,它也运行了大约 40
00:03:44分钟,当我尝试启动它时确实出现了一些构建错误
00:03:48所以我不得不又发了一条提示词,才让 Opus 给我一个可以正常运行的版本
00:03:53但总的来说,其体验与我们在 codecs 中看到的非常相似
00:03:56不过有一点我必须说,我真的很喜欢 codecs 的界面。比起终端 UI,我更倾向于这种。抱歉啦
00:04:02无论如何,我可以确认,在 5.3 codecs 用了一个提示词、Opus 4.6 用了两个提示词后
00:04:06它们都成功地将代理包升级到了 AI SDK 的新版本,没有类型错误
00:04:11没有构建错误,且所有测试都通过了。但它们的处理方式有所不同
00:04:16这里左边是 codecs,右边是 Opus 所做的更改
00:04:19你可以看到,与 codecs 相比,Opus 对项目进行的改动更多一些
00:04:23它们对一些功能的处理方式实际上有点差别
00:04:25codecs 做得非常好的一点是它加入了这个工具审批请求逻辑
00:04:30这是 AI SDK v6 中的新功能。我在 Opus 中似乎没看到任何关于这点的体现
00:04:35它似乎直接忽略了,并没有真正把这部分加入代码中
00:04:40但我认为 codecs 做得很糟糕的一点是,如果看 UI 消息部分,它竟然添加了
00:04:46一个完全属于它自己的函数,用于将 UI 消息转换为模型消息
00:04:50如果你不知道的话,AI SDK 其实自带了一个函数来处理这个,它绝对应该直接用那个
00:04:57你可以看到侧边对比,Opus 在这一点上做对了
00:05:00它直接使用了 AI SDK 自带的 convertToModelMessages 函数
00:05:04这意味着未来如果他们升级这个包
00:05:07我就不必担心要修改自己手写的版本,因为我应该直接使用包里提供的那个
00:05:14所以这对我来说有点烦人,在我审查代码时算是个小警示
00:05:19但为了听听第二意见
00:05:20我把代码发回给 5.3 codecs,让它和我一起进行审查,你可以看到它列出了
00:05:26每种方法的优缺点
00:05:29但在最后它给出了结论,5.3 codecs 实际上更喜欢 Opus 的聊天版本,因为它有更好的迁移
00:05:36架构。如果要挑一个更好的代码库来安全上线
00:05:39它会选择 Opus 的版本,然后把 codecs 版本的审批和拒绝处理逻辑拉过去
00:05:43也就是我们之前看到的那个额外的工具审批请求函数
00:05:46它说只需从 codecs 版本中提取那个功能并添加到 Opus 版本中,我们就拥有了更好的迁移方案
00:05:51所以,至少很高兴看到 5.3 codecs 没有偏心,它并没有直接选自己
00:05:55但我必须承认,两者处理迁移的方式非常相似,我可能只需通过提示词引导它们
00:06:01去正确的方向。不过,一次测试还不够
00:06:03所以接下来的测试没那么严肃,我问它们能否给我做一个《企鹅俱乐部》的克隆版
00:06:08使用 Three.js。我不先说哪个是哪个,但这是我们得到的第一个版本
00:06:13你可以看到这里有“创建你的企鹅”,上面的角色形象会随之改变
00:06:17我可以戴上一些帽子。这里有派对帽、螺旋桨帽、皇冠
00:06:21我选这个螺旋桨帽,然后点击开始游戏。如果你玩过《企鹅俱乐部》
00:06:26我会说它在模仿城镇中心方面做得还行,虽然披萨店没在这里
00:06:32通常这儿会有个迪斯科中心,而且你现在还进不去这些建筑
00:06:35你可以看到这些建筑还没有实体碰撞
00:06:37但它做得很好的一点是,打开地图我们可以去不同的区域
00:06:41比如滑雪村。如果我点击并在周围移动
00:06:44我觉得我的企鹅看起来还不错,毕竟在 Three.js 里我没提供任何素材
00:06:49这全是靠它自己的训练生成的。我们甚至可以去玩雪橇赛车游戏
00:06:54那是我在《企鹅俱乐部》里最喜欢的游戏。我承认肯定漏掉了一些东西
00:06:59但作为第一次尝试,表现相当不错,它只用一条提示词就完成了这一切
00:07:04我甚至可以确认这个版本还尝试做了一个矿车冲浪游戏
00:07:07那也是我的最爱,但这个版本似乎有点坏了
00:07:11你只能左右移动,现在我觉得我掉到地图下面了。天色也变暗了
00:07:15这是另一个模型给我的版本,我想让你们在评论区留言
00:07:18你觉得哪个模型做得更好,以及你能否猜出哪个模型做了哪个版本?
00:07:22在这个测试结束时我会告诉你们。你看在这个版本中
00:07:25我们有同样的颜色选择器,那是提示词里要求的
00:07:27我们也有帽子和配饰。这次我选皇冠,然后点击开始探索
00:07:31这个版本的企鹅稍微胖一点。我觉得它看起来更逗,但同样,我没给任何素材
00:07:36这纯粹是用 Three.js 从零开始写的
00:07:38它有同样的问题,就是你可以穿墙而过
00:07:41但我们有地图,也有所有不同的区域
00:07:44所以如果我去滑雪村
00:07:46我也能玩游戏,这里可以玩雪橇赛车
00:07:50说实话,这和刚才那个版本的雪橇赛车非常相似
00:07:53你可以看到远处的树木正在向我们靠近
00:07:56我们有三条命,生命计数器确实有用
00:07:58但在这个版本里似乎没法跳跃
00:08:01不过这个模型也给了我一个矿车冲浪游戏的版本
00:08:04但同样,这个也有点奇怪
00:08:06虽然我觉得它功能更全一点,因为你能看清东西还能跳,但是
00:08:11我不知道我到底在哪冲浪。没有轨道之类的东西,总的来说,它不是
00:08:17我记忆中的那个矿车冲浪游戏。不过总的来说
00:08:19我总是对这些模型能凭一条提示词做出的东西感到惊讶,尤其是配合 Three.js。如果你想知道谁是谁
00:08:25第一个是 Opus 4.6,第二个是 codecs 5.3。我个人更喜欢第一个
00:08:30所以我认为 Opus 4.6 在《企鹅俱乐部》测试中胜出。现在进行最后一项测试
00:08:34我想看看它们在 UI 设计方面的表现,现在的模型在这方面越来越强了
00:08:38我给它们同样的提示词,让它们为一个“仅限 AI”的社交媒体网站建立落地页
00:08:42类似于 Bolt.new,页面风格要尖酸刻薄,强调未来感和仅限 AI 使用,并且全部写在一个 HTML 文件里
00:08:49这就是我得到的回复,我必须承认,codecs 的表现让我非常惊艳
00:08:55左边是 5.3 codecs,右边是 Opus 4.6。我真的很喜欢 codecs
00:09:00处理这个网站的方式
00:09:01它采用了新野兽主义风格,比其他一些那种“氛围感”十足的网站更有趣一点
00:09:06我认为这里的 Opus 4.6 虽然设计得不错,但看起来就像一个典型的“氛围感”应用。它做得很好
00:09:13我承认,但是
00:09:14它用这种紫色渐变,一切都散发着一种“氛围感”代码的味道,而我认为 5.3 codecs
00:09:20的版本看起来更像是有人工干预或者引导过它的方向一样
00:09:25尽管我给它们的提示词完全一样
00:09:27唯一我觉得 Opus 4.6 做得更好的一点是页面实际上功能更多一点
00:09:32你可以看到下面有趋势标签,还有规则、本周热门模型
00:09:36热门子版块以及热门信息流,而 5.3 codecs 的版本就比较空
00:09:41基本上只有一个趋势标签,仅此而已
00:09:44所以我很想看看它们在 Design Arena 上的评分,因为它们刚发布
00:09:47还没排名,但目前 GLM 4.7 是领跑者
00:09:51我想看看 5.3 codecs 或 Opus 4.6 能否夺冠。总的来说
00:09:55这两个模型都非常强大,很难说哪一个会是最终的胜者
00:09:59我个人可能会倾向于 5.3 codecs
00:10:03单纯是因为我喜欢 codecs 应用,以及我以往使用 OpenAI 模型提示词的整体体验。如果我们要
00:10:09对比基准测试的话,正如开头所说,codecs 在 Terminal Bench 2.0 上有巨大的优势
00:10:15这实际上是一个惊人的飞跃,而且这基本上是目前唯一可以比较的基准,因为我觉得
00:10:21Anthropic 还没准备好应对 OpenAI 发布这个模型,而且烦人的是他们在博文中不使用相同的基准测试
00:10:28我查了 Artificial Analysis,目前他们只对 Opus 4.6 的编程能力进行了测试,而且还是非推理版本
00:10:35不过令人印象深刻的是,4.6 的非推理版本表现竟然和 4.5 的推理版本一样好
00:10:42Opus。我目前的个人感觉是,Opus 从 4.5 到 4.6 的提升比 codecs 从 5.2 到 5.3 的提升更微小一些
00:10:49但我还是得在现实世界中多用用它们,看看感觉如何
00:10:53这两个发布版本最后还有一些额外功能
00:10:55其中最酷的一个是两款模型显然都提升了网络安全能力,OpenAI 表示 GPT
00:11:015.3 codecs 是他们归类为具有高网络安全能力的第一个模型,也是第一个直接训练用于识别
00:11:09软件漏洞的模型。Anthropic 在那篇长博文中也表达了类似的意思。codecs 的一个功能我非常期待
00:11:16是它在工作时可以被引导。他们说,你不需要等待最终输出
00:11:21而是可以实时互动,提问、讨论方法并引导它走向解决方案
00:11:27我觉得这种方法更好,因为我总是在纠结是该让模型先写完,还是该
00:11:32在我想要更改时打断它、停止它的动作
00:11:35我觉得特别是现在任务运行时间可能会很长
00:11:40这将带来更好的用户体验。我们可以在它工作时与之交谈
00:11:44最后,Claude 也有一些新功能。第一个是 Claude Code
00:11:48你现在可以使用智能体团队协同工作,也就是子智能体。Richard 本周早些时候专门做了一个视频
00:11:55感兴趣的话可以去看看。此外还有一些酷炫的 API 功能,比如 Claude 现在内置了压缩(compaction)功能
00:12:01这样你就可以用它来总结上下文,并执行运行时间更长的任务
00:12:06还有一个新的自适应思维模式
00:12:08本质上就是让模型根据上下文线索自行判断应该在多大程度上使用其扩展思维
00:12:13好了,编程模型确实已经取得了长足的进步
00:12:16你可能不知道,Claude Code 发布至今甚至还不到一年
00:12:20在评论区告诉我你对这些模型的看法,别忘了订阅,我们下期再见
00:12:31(轻快的音乐)

Key Takeaway

OpenAI 的 GPT 5.3 codecs 与 Anthropic 的 Claude Opus 4.6 在编程与自动化任务领域展开了白热化竞争,前者在基准测试和逻辑审批上领先,而后者在代码库理解和 UI 视觉还原上表现更佳。

Highlights

Anthropic 发布 Claude Opus 4.6,在代码规划、智能体任务执行和大型代码库处理方面有显著提升。

OpenAI 推出 GPT 5.3 codecs,在 Terminal Bench 2.0 基准测试中超越 Opus 4.6 逾 10%。

Opus 4.6 在处理 TypeScript 类型转换时更倾向于使用库自带函数,而 GPT 5.3 codecs 在工具审批逻辑上更具前瞻性。

在 Three.js 游戏开发测试中,Opus 4.6 生成的《企鹅俱乐部》克隆版在视觉和功能完整性上略胜一筹。

GPT 5.3 codecs 是首个被归类为具有高网络安全能力且专门训练用于识别软件漏洞的模型。

新版本引入了实时交互引导功能(OpenAI)和自适应思维模式及上下文压缩功能(Anthropic)。

Timeline

新模型发布与基准测试对比

视频开篇介绍了 Anthropic 发布 Claude Opus 4.6 后,OpenAI 随即推出 GPT 5.3 codecs 版本进行反击。作者指出 GPT 5.3 在 Terminal Bench 2.0 上的表现超过了 Opus 4.6 约 10%,显示出 OpenAI 在编程领域的强势地位。这一阶段的竞争已进入白热化,两家公司在几分钟内就完成了性能排位的更替。作者表达了对这些新特性以及模型实际手感的浓厚兴趣。他计划通过后续的实战测试来验证基准测试数据是否能转化为真实的生产力优势。

Opus 4.6 与 GPT 5.3 核心改进解析

作者详细拆解了两个模型的官方更新说明,Opus 4.6 重点提升了智能体任务的持久执行力和错误自纠能力。它现在支持高达 100 万词元的上下文窗口,旨在解决以往版本在处理大型代码库时出现的小瑕疵。GPT 5.3 codecs 则融合了 5.2 版本的专业知识与更强的前沿编程性能,速度提升了 25%。OpenAI 试图通过此模型打造一个兼具知识深度和复杂执行能力的工具。作者提到,这些营销说辞虽然诱人,但实际表现仍需通过具体的代码迁移和开发任务来检验。

实战测试:Convex 代理包升级任务

在第一个实战测试中,作者要求模型将一个 Convex 代理包升级到 AI SDK v6,这涉及大量的破坏性更新。GPT 5.3 codecs 在无人工干预的情况下运行了 40 分钟,成功处理了 500 多行代码,并准确识别了单体仓库结构。Opus 4.6 虽然需要第二次提示才完成,但在代码质量上表现卓越,正确使用了 SDK 自带的转换函数。有趣的是,GPT 5.3 codecs 编写了额外的工具审批逻辑,这是新版 SDK 的关键特性。尽管 codecs 在某些细节上不如 Opus 优雅,但其自动化处理复杂迁移的能力令人印象深刻。

代码审查与多维度性能对比

为了获取“第二意见”,作者让 GPT 5.3 codecs 对两个版本的代码进行互相审计。结果令人意外,GPT 5.3 承认 Opus 的迁移架构在安全性上更胜一筹,建议将自己的审批逻辑合并到 Opus 的版本中。这证明了当前顶级模型在自我反思和公正评价代码方案方面已具备很高水平。作者指出,两个模型在处理此类任务时的思路非常接近,最终质量往往取决于用户的提示词引导。这种深度的代码对比揭示了两者在“全能型”与“精准度”之间的细微权衡。这种客观的自我评价机制对于开发者进行技术决策具有极高的参考价值。

Three.js 游戏开发测试:企鹅俱乐部

这一章节进行了更具趣味性的测试,即使用一条提示词和 Three.js 开发《企鹅俱乐部》克隆版。Opus 4.6 生成的版本在角色自定义、地图区域完整性以及雪橇赛车游戏的逻辑上表现更好。GPT 5.3 生成的版本虽然更具幽默感(企鹅形象更胖),但在游戏交互和场景明亮感上略逊。两者都存在碰撞检测失效的问题,允许玩家穿墙而过,这是单提示词生成的常见限制。最终作者判定 Opus 4.6 在这种综合了视觉生成与逻辑构建的测试中胜出。这说明在处理创意编程和前端场景时,Anthropic 的模型依然保有微弱的艺术感优势。

UI 设计竞技场与落地页对比

作者针对 UI 设计能力进行了最后测试,要求为“仅限 AI”的社交媒体制作落地页。GPT 5.3 codecs 采用了新野兽主义风格,打破了常规的“氛围感”设计,显得更有创意。相比之下,Opus 4.6 的设计虽然功能点(如趋势标签、热门模型)更多,但视觉风格较为传统且千篇一律。作者认为 codecs 的设计更像是有人类设计师参与指导的作品,视觉冲击力更强。尽管目前在 Design Arena 排名中 GLM 4.7 仍处于领先,但这两个新模型的潜力巨大。作者个人更倾向于使用 codecs,不仅因为其界面友好,也因为其与 OpenAI 生态的协同体验。

未来展望与网络安全新功能

视频最后讨论了这两个模型在网络安全和协作方面的新进展。GPT 5.3 被定义为具备识别软件漏洞能力的高级安全模型,且支持在任务执行过程中进行实时互动引导。Anthropic 则推出了 Claude Code,支持多智能体团队协同以及内置的上下文压缩功能。这些新特性的加入意味着 AI 不再只是被动执行命令,而是成为了能够实时交流、具备防御意识的编程伙伴。作者总结道,编程模型在不到一年的时间里取得了跨越式进步。他鼓励观众关注后续的长期使用体验,并参与讨论哪种模型更适合实际工作流。

Community Posts

View all posts