00:00:00Anthropic 刚刚发布了 Claude Opus 4.6,它在 Terminal Bench 2.0 上的得分在所有模型中是最高的
00:00:06抱歉打断一下各位的编程时间
00:00:10但事实证明 GPT 5.3 codecs 版刚刚发布,它在 Terminal Bench 上的表现实际上超过了 Opus 4.6 逾 10%
00:00:16看来 Anthropic 的霸主地位真的只维持了几分钟。这两家公司之间的竞争确实进入了白热化阶段
00:00:23所以我非常好奇这些新模型有哪些新特性,并想看看最近哪一个用起来感觉最棒
00:00:29实际上最近我觉得 GPT 5.2 的手感更好
00:00:31因此我很想看看 Claude 能否夺回一些优势,还是说 OpenAI 已经通过 GPT 5.3 codecs 做好了万全准备
00:00:37首先带大家快速预览一下这些模型的新变化,毕竟我们都知道它们在基准测试上的表现肯定会优于旧版本
00:00:48测试结果我会在最后展示,但模型本身到底还发生了哪些实质性的改变呢?
00:00:52对于 Opus 来说
00:00:53他们声称它现在可以进行更周密的规划,更持久地执行智能体任务,并能在大型代码库中更可靠地运行
00:01:00同时具备更好的代码审查和调试能力,可以自行纠正错误
00:01:02实际上,这些正是我之前发现 Opus 与 GPT 5.2 相比最薄弱的环节。在我的体验中
00:01:08它通常写代码上手很快,但往往会出更多的小错
00:01:12而 GPT 5.2 虽然进入编码状态稍慢,但它更能理解整个代码库的上下文
00:01:17希望这些改进能提升 Opus 的表现,而且其新增的 100 万总容量
00:01:23上下文窗口可能也会有所帮助
00:01:24尽管官方提到这还处于测试阶段,且与其他供应商类似
00:01:27它也会收取额外费用,超过 20 万词元的提示词每百万输入词元收费 10 美元
00:01:33每百万输出词元收费 37.50 美元。接下来看 codecs 5.3
00:01:38OpenAI 表示,该模型将 GPT 5.2 codecs 的前沿编程性能与 GPT 5.2 的推理和专业知识
00:01:45能力合二为一,速度还提升了 25%
00:01:51这应该能让它胜任涉及研究、工具调用和复杂执行的长期运行任务
00:01:57看来他们确实在把这个模型推向全能化,兼具 GPT 5.2 的知识储备和更强的编程能力
00:02:03不过这些都只是营销说辞
00:02:05让我们通过一些实战测试来看看,我尝试的第一个测试是更新一个 Convex 代理包以支持 AI SDK v6
00:02:11我最近非常喜欢用 Convex 作为数据库,这个包本质上是帮助 AI SDK 与数据库建立连接
00:02:19所以性能表现非常出色,但问题是它还没升级到最新版本
00:02:23你可以从这里的 Vercel 文档中看到,从 v5 到 v6 的迁移并不简单
00:02:28他们做了很多破坏性更新,并更改了大量的类型定义
00:02:32所以我先在 Convex 中做了一个简单的聊天应用,它是可以配合那个代理包正常运行的
00:02:36但我把包升级到 v6 后,就出现了一堆构建和类型错误
00:02:40我直接让模型去修复它们。你可以看到我在 codecs 中使用的提示词
00:02:44我说我正在用 Convex 构建一个聊天应用,原本有个可运行的版本
00:02:46但升级到 v6 后需要修复类型和构建错误
00:02:50我把迁移指南发给了它作为上下文参考,并要求所有测试
00:02:55都必须通过,同时尽可能避免像 “as any” 这种 TypeScript 歪门邪道,我发现很多模型经常这么干
00:02:59所以我特意强调请不要这么做,因为现在 AI SDK 里的类型相当复杂
00:03:03既然我们已经在看 codecs 了,就来看看 5.3 codecs 的表现,它首先
00:03:09开始理解仓库结构,它识别出这是一个使用了 packages/agent 的单体仓库,然后找出了几个
00:03:15根本原因和需要升级的包,并列出了它将如何完成这项任务的具体计划,之后
00:03:22它就开始编写代码,不时进行更改并运行构建,持续致力于
00:03:27修复所有这些类型错误。总的来说,它竟然在完全没有人工干预的情况下运行了大约 40 分钟
00:03:32这让我印象非常深刻,你可以看到它实际上增加了 545 行代码,删除了 111 行。而在 Claude Code 方面
00:03:39我给了它完全相同的项目和提示词,同样,它也运行了大约 40
00:03:44分钟,当我尝试启动它时确实出现了一些构建错误
00:03:48所以我不得不又发了一条提示词,才让 Opus 给我一个可以正常运行的版本
00:03:53但总的来说,其体验与我们在 codecs 中看到的非常相似
00:03:56不过有一点我必须说,我真的很喜欢 codecs 的界面。比起终端 UI,我更倾向于这种。抱歉啦
00:04:02无论如何,我可以确认,在 5.3 codecs 用了一个提示词、Opus 4.6 用了两个提示词后
00:04:06它们都成功地将代理包升级到了 AI SDK 的新版本,没有类型错误
00:04:11没有构建错误,且所有测试都通过了。但它们的处理方式有所不同
00:04:16这里左边是 codecs,右边是 Opus 所做的更改
00:04:19你可以看到,与 codecs 相比,Opus 对项目进行的改动更多一些
00:04:23它们对一些功能的处理方式实际上有点差别
00:04:25codecs 做得非常好的一点是它加入了这个工具审批请求逻辑
00:04:30这是 AI SDK v6 中的新功能。我在 Opus 中似乎没看到任何关于这点的体现
00:04:35它似乎直接忽略了,并没有真正把这部分加入代码中
00:04:40但我认为 codecs 做得很糟糕的一点是,如果看 UI 消息部分,它竟然添加了
00:04:46一个完全属于它自己的函数,用于将 UI 消息转换为模型消息
00:04:50如果你不知道的话,AI SDK 其实自带了一个函数来处理这个,它绝对应该直接用那个
00:04:57你可以看到侧边对比,Opus 在这一点上做对了
00:05:00它直接使用了 AI SDK 自带的 convertToModelMessages 函数
00:05:04这意味着未来如果他们升级这个包
00:05:07我就不必担心要修改自己手写的版本,因为我应该直接使用包里提供的那个
00:05:14所以这对我来说有点烦人,在我审查代码时算是个小警示
00:05:19但为了听听第二意见
00:05:20我把代码发回给 5.3 codecs,让它和我一起进行审查,你可以看到它列出了
00:05:26每种方法的优缺点
00:05:29但在最后它给出了结论,5.3 codecs 实际上更喜欢 Opus 的聊天版本,因为它有更好的迁移
00:05:36架构。如果要挑一个更好的代码库来安全上线
00:05:39它会选择 Opus 的版本,然后把 codecs 版本的审批和拒绝处理逻辑拉过去
00:05:43也就是我们之前看到的那个额外的工具审批请求函数
00:05:46它说只需从 codecs 版本中提取那个功能并添加到 Opus 版本中,我们就拥有了更好的迁移方案
00:05:51所以,至少很高兴看到 5.3 codecs 没有偏心,它并没有直接选自己
00:05:55但我必须承认,两者处理迁移的方式非常相似,我可能只需通过提示词引导它们
00:06:01去正确的方向。不过,一次测试还不够
00:06:03所以接下来的测试没那么严肃,我问它们能否给我做一个《企鹅俱乐部》的克隆版
00:06:08使用 Three.js。我不先说哪个是哪个,但这是我们得到的第一个版本
00:06:13你可以看到这里有“创建你的企鹅”,上面的角色形象会随之改变
00:06:17我可以戴上一些帽子。这里有派对帽、螺旋桨帽、皇冠
00:06:21我选这个螺旋桨帽,然后点击开始游戏。如果你玩过《企鹅俱乐部》
00:06:26我会说它在模仿城镇中心方面做得还行,虽然披萨店没在这里
00:06:32通常这儿会有个迪斯科中心,而且你现在还进不去这些建筑
00:06:35你可以看到这些建筑还没有实体碰撞
00:06:37但它做得很好的一点是,打开地图我们可以去不同的区域
00:06:41比如滑雪村。如果我点击并在周围移动
00:06:44我觉得我的企鹅看起来还不错,毕竟在 Three.js 里我没提供任何素材
00:06:49这全是靠它自己的训练生成的。我们甚至可以去玩雪橇赛车游戏
00:06:54那是我在《企鹅俱乐部》里最喜欢的游戏。我承认肯定漏掉了一些东西
00:06:59但作为第一次尝试,表现相当不错,它只用一条提示词就完成了这一切
00:07:04我甚至可以确认这个版本还尝试做了一个矿车冲浪游戏
00:07:07那也是我的最爱,但这个版本似乎有点坏了
00:07:11你只能左右移动,现在我觉得我掉到地图下面了。天色也变暗了
00:07:15这是另一个模型给我的版本,我想让你们在评论区留言
00:07:18你觉得哪个模型做得更好,以及你能否猜出哪个模型做了哪个版本?
00:07:22在这个测试结束时我会告诉你们。你看在这个版本中
00:07:25我们有同样的颜色选择器,那是提示词里要求的
00:07:27我们也有帽子和配饰。这次我选皇冠,然后点击开始探索
00:07:31这个版本的企鹅稍微胖一点。我觉得它看起来更逗,但同样,我没给任何素材
00:07:36这纯粹是用 Three.js 从零开始写的
00:07:38它有同样的问题,就是你可以穿墙而过
00:07:41但我们有地图,也有所有不同的区域
00:07:44所以如果我去滑雪村
00:07:46我也能玩游戏,这里可以玩雪橇赛车
00:07:50说实话,这和刚才那个版本的雪橇赛车非常相似
00:07:53你可以看到远处的树木正在向我们靠近
00:07:56我们有三条命,生命计数器确实有用
00:07:58但在这个版本里似乎没法跳跃
00:08:01不过这个模型也给了我一个矿车冲浪游戏的版本
00:08:04但同样,这个也有点奇怪
00:08:06虽然我觉得它功能更全一点,因为你能看清东西还能跳,但是
00:08:11我不知道我到底在哪冲浪。没有轨道之类的东西,总的来说,它不是
00:08:17我记忆中的那个矿车冲浪游戏。不过总的来说
00:08:19我总是对这些模型能凭一条提示词做出的东西感到惊讶,尤其是配合 Three.js。如果你想知道谁是谁
00:08:25第一个是 Opus 4.6,第二个是 codecs 5.3。我个人更喜欢第一个
00:08:30所以我认为 Opus 4.6 在《企鹅俱乐部》测试中胜出。现在进行最后一项测试
00:08:34我想看看它们在 UI 设计方面的表现,现在的模型在这方面越来越强了
00:08:38我给它们同样的提示词,让它们为一个“仅限 AI”的社交媒体网站建立落地页
00:08:42类似于 Bolt.new,页面风格要尖酸刻薄,强调未来感和仅限 AI 使用,并且全部写在一个 HTML 文件里
00:08:49这就是我得到的回复,我必须承认,codecs 的表现让我非常惊艳
00:08:55左边是 5.3 codecs,右边是 Opus 4.6。我真的很喜欢 codecs
00:09:00处理这个网站的方式
00:09:01它采用了新野兽主义风格,比其他一些那种“氛围感”十足的网站更有趣一点
00:09:06我认为这里的 Opus 4.6 虽然设计得不错,但看起来就像一个典型的“氛围感”应用。它做得很好
00:09:13我承认,但是
00:09:14它用这种紫色渐变,一切都散发着一种“氛围感”代码的味道,而我认为 5.3 codecs
00:09:20的版本看起来更像是有人工干预或者引导过它的方向一样
00:09:25尽管我给它们的提示词完全一样
00:09:27唯一我觉得 Opus 4.6 做得更好的一点是页面实际上功能更多一点
00:09:32你可以看到下面有趋势标签,还有规则、本周热门模型
00:09:36热门子版块以及热门信息流,而 5.3 codecs 的版本就比较空
00:09:41基本上只有一个趋势标签,仅此而已
00:09:44所以我很想看看它们在 Design Arena 上的评分,因为它们刚发布
00:09:47还没排名,但目前 GLM 4.7 是领跑者
00:09:51我想看看 5.3 codecs 或 Opus 4.6 能否夺冠。总的来说
00:09:55这两个模型都非常强大,很难说哪一个会是最终的胜者
00:09:59我个人可能会倾向于 5.3 codecs
00:10:03单纯是因为我喜欢 codecs 应用,以及我以往使用 OpenAI 模型提示词的整体体验。如果我们要
00:10:09对比基准测试的话,正如开头所说,codecs 在 Terminal Bench 2.0 上有巨大的优势
00:10:15这实际上是一个惊人的飞跃,而且这基本上是目前唯一可以比较的基准,因为我觉得
00:10:21Anthropic 还没准备好应对 OpenAI 发布这个模型,而且烦人的是他们在博文中不使用相同的基准测试
00:10:28我查了 Artificial Analysis,目前他们只对 Opus 4.6 的编程能力进行了测试,而且还是非推理版本
00:10:35不过令人印象深刻的是,4.6 的非推理版本表现竟然和 4.5 的推理版本一样好
00:10:42Opus。我目前的个人感觉是,Opus 从 4.5 到 4.6 的提升比 codecs 从 5.2 到 5.3 的提升更微小一些
00:10:49但我还是得在现实世界中多用用它们,看看感觉如何
00:10:53这两个发布版本最后还有一些额外功能
00:10:55其中最酷的一个是两款模型显然都提升了网络安全能力,OpenAI 表示 GPT
00:11:015.3 codecs 是他们归类为具有高网络安全能力的第一个模型,也是第一个直接训练用于识别
00:11:09软件漏洞的模型。Anthropic 在那篇长博文中也表达了类似的意思。codecs 的一个功能我非常期待
00:11:16是它在工作时可以被引导。他们说,你不需要等待最终输出
00:11:21而是可以实时互动,提问、讨论方法并引导它走向解决方案
00:11:27我觉得这种方法更好,因为我总是在纠结是该让模型先写完,还是该
00:11:32在我想要更改时打断它、停止它的动作
00:11:35我觉得特别是现在任务运行时间可能会很长
00:11:40这将带来更好的用户体验。我们可以在它工作时与之交谈
00:11:44最后,Claude 也有一些新功能。第一个是 Claude Code
00:11:48你现在可以使用智能体团队协同工作,也就是子智能体。Richard 本周早些时候专门做了一个视频
00:11:55感兴趣的话可以去看看。此外还有一些酷炫的 API 功能,比如 Claude 现在内置了压缩(compaction)功能
00:12:01这样你就可以用它来总结上下文,并执行运行时间更长的任务
00:12:06还有一个新的自适应思维模式
00:12:08本质上就是让模型根据上下文线索自行判断应该在多大程度上使用其扩展思维
00:12:13好了,编程模型确实已经取得了长足的进步
00:12:16你可能不知道,Claude Code 发布至今甚至还不到一年
00:12:20在评论区告诉我你对这些模型的看法,别忘了订阅,我们下期再见
00:12:31(轻快的音乐)