00:00:00你可以重置“距离上次更新天数”的计数器了,因为又出现了一个新的最强模型。
00:00:03这次是 GPT 5.4,我一直在测试它,所以我会告诉你你需要了解的信息,
00:00:07并在 5 分 40 秒内分析它的优缺点。
00:00:11以下是核心要点。
00:00:17GPT 5.4 在知识工作和网络搜索方面表现更好,具备原生计算机操作能力,
00:00:22还有一个我稍后会解释的工具搜索新功能,它可以在响应中途进行引导,
00:00:26拥有新的快速模式,并配备了 100 万 token 的上下文窗口。
00:00:305.4 的目标似乎是将 Codex 5.3 的编程能力与 GPT 5.2 的知识、
00:00:34网络搜索和专业工作技能相结合,使 5.4 成为全能的“全能型”
00:00:40模型。
00:00:41根据 Artificial Analysis 的第三方基准测试,他们确实实现了
00:00:45那个目标。
00:00:46它被评为最佳编程模型、最佳智能体模型,并且在最强智能模型方面
00:00:49与 Gemini 平分秋色。
00:00:51如果我们关注我认为最有趣的要点,那就是他们的
00:00:55原生计算机操作能力。
00:00:56OpenAI 显然将其设计为首个内置计算机操作能力的通用模型,
00:01:00因此它应该擅长编写代码,通过 Playwright 等库操作计算机,
00:01:04并能根据屏幕截图发出鼠标和键盘指令。
00:01:08他们发布了一个实验性的 Playwright 技能,所以我试了一下。
00:01:12在 Codex 中使用 5.4 及其高级推理能力,我给它一个提示,要求创建一个伦敦塔桥的
00:01:16交互式 3D 体验。
00:01:18我还使用了这项新技能以及图像生成技能,这样它就能生成自己的
00:01:22资产来用作纹理。
00:01:24现在的体验本身与 Codex 5.3 非常相似,而 5.3 在此之前
00:01:29一直是我最喜欢的模型。
00:01:30在执行任务约 20 分钟后,它开始使用
00:01:33新的 Playwright 技能,那个体验非常棒。
00:01:37它会打开浏览器,点击、导航场景,识别任何需要修复的视觉问题,
00:01:41比如这个背景没有融入场景,然后它会跳回到
00:01:45代码中进行修复,如此反复,整个过程感觉非常流畅自然。
00:01:50这个项目的第一次迭代实际上花了大约 30 分钟完成,全部来自
00:01:54那一个提示。之后我发送了一些后续指令,要求添加更多细节
00:01:58和一些修复,比如船只横着放以及道路与其他纹理重叠的问题,
00:02:03它再次在每个提示下工作了约 30 分钟,打开
00:02:07Chrome 浏览器,验证并进行更改,在大约一个半小时内
00:02:11通过 3 个提示给了我最终版本。虽然它绝不完美,但对于
00:02:16完全脱手的开发来说,我认为还不赖。对我来说,这个模型对于
00:02:20那些已经喜欢 5.3 Codex 的人来说绝对是一个无脑升级的选择。
00:02:24不过我觉得挺好笑的是,在使用两小时后,它提示我说
00:02:27如果我切换到那个新的快速模式,本可以节省一小时的时间。
00:02:31这实际上是同一个模型,智力和体验完全一样,它只是
00:02:35提供高达 1.5 倍的 token 速度,因为它是按两倍用量计费的,所以它本质上
00:02:41只是一个优先级别,根本不是不同的模型。
00:02:44这次发布中我发现特别有趣的另一个点是“工具搜索”。
00:02:48这解决了预先将所有工具定义加载到系统提示词中的问题,
00:02:52因为如果你有太多的工具和过多的 MCP 服务器,最终会浪费 token
00:02:56并导致上下文臃肿,从而影响输出质量。
00:03:00现在,GPT 5.4 的提示词中只包含可用工具的轻量级列表,而模型实际上
00:03:05具备工具搜索能力,因此当模型需要某个工具时,它可以直接查找
00:03:09该工具的定义,并在需要时将其附加到对话中。
00:03:13OpenAI 表示这最多可减少 47% 的 token 使用量,他们在一项
00:03:18包含 36 个 MCP 服务器的基准测试中展示了这一点,且准确率保持不变。
00:03:22除了我们刚才看到的这些新功能外,这个模型的重心真的在于改进
00:03:26工具,包括改进模型如何使用它们以及何时选择使用它们,
00:03:30这在基准测试中得到了回报。但老实说,除了“新模型比旧模型更好”
00:03:34这一点外,并没有太多可报告的。
00:03:38我认为可以将这个模型的优点总结为:它更聪明,运行时间更长,
00:03:42对工具的使用更好,这意味着它可以完成比上一个模型更难的任务。
00:03:47是的,大家听好了,这个模型比上个版本更好,但现在让我们谈谈
00:03:51它的一些缺点。
00:03:52对我来说最明显的一点是速度。
00:03:54虽然我确实喜欢模型思考得更久一些,但有时感觉 GPT 5.4
00:03:59思考得太久了,或者也许是它在实际思考过程中很慢。我绝对
00:04:04不是唯一有这种感觉的人。
00:04:05Artificial Analysis 的结果确实显示,GPT 5.4 返回一个
00:04:09token 所需的时间是最长的,且差距相当大,同样的情况
00:04:14也出现在返回前 500 个 token 的时间上。
00:04:15我不确定这目前是模型问题还是供应商问题,所以也许这会
00:04:19随着时间的推移而改善,但或许一个更悲观的观点是,它故意变慢,
00:04:24好让你去使用新的快速模式。
00:04:26另一个缺点是对于使用 API 的用户来说价格上涨了。
00:04:29基础模型实际上是每百万输入 token 2.50 美元,每百万输出 token 15 美元,
00:04:34但 Pro 模型可是相当昂贵。
00:04:37它的收费标准是每百万输入 token 30 美元,每百万输出 token 180 美元,甚至
00:04:43更糟的是,如果你想利用那个新的 100 万 token 上下文窗口,任何
00:04:47超过 272,000 token 的输入都将按正常费率的两倍计费。
00:04:52所以目前我会建议精简你的上下文。
00:04:55最后的缺点是 UI 设计,虽然这一点有点主观,但我要求
00:04:59Opus 4.6 和 GPT 5.4 设计一个咖啡馆网站,我认为我更喜欢 Opus 的设计,尽管
00:05:05两者都没有让我感到惊艳。
00:05:07我觉得我在 GPT 5.4 和其他一些 GPT 模型上最纠结的一点
00:05:11是它们似乎都有非常相似的 UI。
00:05:14它似乎很喜欢这种磨砂卡片风格的 UI,当然还非常喜欢渐变色。
00:05:19显然这只是我做的一个测试,但在 Design Arena 上,这个模型的排名
00:05:23也不高,所以这只是 OpenAI 目前还不太擅长的地方。
00:05:27不过总的来说,我会说我会把它当做主力模型,因为我是 Codex 的粉丝,但我很好奇
00:05:32你们的想法。
00:05:33你们首选的模型是什么?
00:05:34请在下方评论区告诉我,顺便点个订阅,一如既往,我们
00:05:37下期再见。