最强新模型登场 (GPT-5.4)

BBetter Stack
Computing/SoftwareSmall Business/StartupsBusiness NewsInternet Technology

Transcript

00:00:00你可以重置“距离上次更新天数”的计数器了,因为又出现了一个新的最强模型。
00:00:03这次是 GPT 5.4,我一直在测试它,所以我会告诉你你需要了解的信息,
00:00:07并在 5 分 40 秒内分析它的优缺点。
00:00:11以下是核心要点。
00:00:17GPT 5.4 在知识工作和网络搜索方面表现更好,具备原生计算机操作能力,
00:00:22还有一个我稍后会解释的工具搜索新功能,它可以在响应中途进行引导,
00:00:26拥有新的快速模式,并配备了 100 万 token 的上下文窗口。
00:00:305.4 的目标似乎是将 Codex 5.3 的编程能力与 GPT 5.2 的知识、
00:00:34网络搜索和专业工作技能相结合,使 5.4 成为全能的“全能型”
00:00:40模型。
00:00:41根据 Artificial Analysis 的第三方基准测试,他们确实实现了
00:00:45那个目标。
00:00:46它被评为最佳编程模型、最佳智能体模型,并且在最强智能模型方面
00:00:49与 Gemini 平分秋色。
00:00:51如果我们关注我认为最有趣的要点,那就是他们的
00:00:55原生计算机操作能力。
00:00:56OpenAI 显然将其设计为首个内置计算机操作能力的通用模型,
00:01:00因此它应该擅长编写代码,通过 Playwright 等库操作计算机,
00:01:04并能根据屏幕截图发出鼠标和键盘指令。
00:01:08他们发布了一个实验性的 Playwright 技能,所以我试了一下。
00:01:12在 Codex 中使用 5.4 及其高级推理能力,我给它一个提示,要求创建一个伦敦塔桥的
00:01:16交互式 3D 体验。
00:01:18我还使用了这项新技能以及图像生成技能,这样它就能生成自己的
00:01:22资产来用作纹理。
00:01:24现在的体验本身与 Codex 5.3 非常相似,而 5.3 在此之前
00:01:29一直是我最喜欢的模型。
00:01:30在执行任务约 20 分钟后,它开始使用
00:01:33新的 Playwright 技能,那个体验非常棒。
00:01:37它会打开浏览器,点击、导航场景,识别任何需要修复的视觉问题,
00:01:41比如这个背景没有融入场景,然后它会跳回到
00:01:45代码中进行修复,如此反复,整个过程感觉非常流畅自然。
00:01:50这个项目的第一次迭代实际上花了大约 30 分钟完成,全部来自
00:01:54那一个提示。之后我发送了一些后续指令,要求添加更多细节
00:01:58和一些修复,比如船只横着放以及道路与其他纹理重叠的问题,
00:02:03它再次在每个提示下工作了约 30 分钟,打开
00:02:07Chrome 浏览器,验证并进行更改,在大约一个半小时内
00:02:11通过 3 个提示给了我最终版本。虽然它绝不完美,但对于
00:02:16完全脱手的开发来说,我认为还不赖。对我来说,这个模型对于
00:02:20那些已经喜欢 5.3 Codex 的人来说绝对是一个无脑升级的选择。
00:02:24不过我觉得挺好笑的是,在使用两小时后,它提示我说
00:02:27如果我切换到那个新的快速模式,本可以节省一小时的时间。
00:02:31这实际上是同一个模型,智力和体验完全一样,它只是
00:02:35提供高达 1.5 倍的 token 速度,因为它是按两倍用量计费的,所以它本质上
00:02:41只是一个优先级别,根本不是不同的模型。
00:02:44这次发布中我发现特别有趣的另一个点是“工具搜索”。
00:02:48这解决了预先将所有工具定义加载到系统提示词中的问题,
00:02:52因为如果你有太多的工具和过多的 MCP 服务器,最终会浪费 token
00:02:56并导致上下文臃肿,从而影响输出质量。
00:03:00现在,GPT 5.4 的提示词中只包含可用工具的轻量级列表,而模型实际上
00:03:05具备工具搜索能力,因此当模型需要某个工具时,它可以直接查找
00:03:09该工具的定义,并在需要时将其附加到对话中。
00:03:13OpenAI 表示这最多可减少 47% 的 token 使用量,他们在一项
00:03:18包含 36 个 MCP 服务器的基准测试中展示了这一点,且准确率保持不变。
00:03:22除了我们刚才看到的这些新功能外,这个模型的重心真的在于改进
00:03:26工具,包括改进模型如何使用它们以及何时选择使用它们,
00:03:30这在基准测试中得到了回报。但老实说,除了“新模型比旧模型更好”
00:03:34这一点外,并没有太多可报告的。
00:03:38我认为可以将这个模型的优点总结为:它更聪明,运行时间更长,
00:03:42对工具的使用更好,这意味着它可以完成比上一个模型更难的任务。
00:03:47是的,大家听好了,这个模型比上个版本更好,但现在让我们谈谈
00:03:51它的一些缺点。
00:03:52对我来说最明显的一点是速度。
00:03:54虽然我确实喜欢模型思考得更久一些,但有时感觉 GPT 5.4
00:03:59思考得太久了,或者也许是它在实际思考过程中很慢。我绝对
00:04:04不是唯一有这种感觉的人。
00:04:05Artificial Analysis 的结果确实显示,GPT 5.4 返回一个
00:04:09token 所需的时间是最长的,且差距相当大,同样的情况
00:04:14也出现在返回前 500 个 token 的时间上。
00:04:15我不确定这目前是模型问题还是供应商问题,所以也许这会
00:04:19随着时间的推移而改善,但或许一个更悲观的观点是,它故意变慢,
00:04:24好让你去使用新的快速模式。
00:04:26另一个缺点是对于使用 API 的用户来说价格上涨了。
00:04:29基础模型实际上是每百万输入 token 2.50 美元,每百万输出 token 15 美元,
00:04:34但 Pro 模型可是相当昂贵。
00:04:37它的收费标准是每百万输入 token 30 美元,每百万输出 token 180 美元,甚至
00:04:43更糟的是,如果你想利用那个新的 100 万 token 上下文窗口,任何
00:04:47超过 272,000 token 的输入都将按正常费率的两倍计费。
00:04:52所以目前我会建议精简你的上下文。
00:04:55最后的缺点是 UI 设计,虽然这一点有点主观,但我要求
00:04:59Opus 4.6 和 GPT 5.4 设计一个咖啡馆网站,我认为我更喜欢 Opus 的设计,尽管
00:05:05两者都没有让我感到惊艳。
00:05:07我觉得我在 GPT 5.4 和其他一些 GPT 模型上最纠结的一点
00:05:11是它们似乎都有非常相似的 UI。
00:05:14它似乎很喜欢这种磨砂卡片风格的 UI,当然还非常喜欢渐变色。
00:05:19显然这只是我做的一个测试,但在 Design Arena 上,这个模型的排名
00:05:23也不高,所以这只是 OpenAI 目前还不太擅长的地方。
00:05:27不过总的来说,我会说我会把它当做主力模型,因为我是 Codex 的粉丝,但我很好奇
00:05:32你们的想法。
00:05:33你们首选的模型是什么?
00:05:34请在下方评论区告诉我,顺便点个订阅,一如既往,我们
00:05:37下期再见。

Key Takeaway

GPT 5.4 是一款通过原生计算机操作和工具搜索功能实现效率飞跃的全能型 AI 模型,但在成本控制和响应延迟方面仍面临挑战。

Highlights

GPT 5.4 实现了全能型定位,融合了 Codex 的编程能力与 GPT 系列的知识与搜索优势。

引入原生计算机操作能力,可通过 Playwright 库控制浏览器、鼠标和键盘,实现脱手开发。

创新推出“工具搜索”功能,仅加载轻量级工具列表,最高可减少 47% 的 token 消耗。

配备 100 万 token 的超长上下文窗口,并提供 1.5 倍速的“快速模式”以应对高需求任务。

在第三方基准测试中被评为最佳编程与智能体模型,综合智能与 Gemini 持平。

API 成本显著上升,尤其是 Pro 模型及超过 27.2 万 token 后的双倍计费机制。

模型在响应速度(TTFT)上表现较慢,且 UI 设计风格被指缺乏新意及美感。

Timeline

GPT 5.4 核心功能概述与定位

视频开篇介绍了新一代最强模型 GPT 5.4 的震撼登场,强调其在知识工作、网络搜索及原生计算机操作方面的卓越表现。该模型的核心目标是将 Codex 5.3 的编程专长与 GPT 5.2 的专业技能相结合,打造出一个真正的“全能型”AI 工具。根据第三方机构 Artificial Analysis 的基准测试,它在编程和智能体能力上均位居榜首。在综合智能水平上,它已经能够与 Google 的 Gemini 模型平分秋色。这一阶段的更新标志着 AI 从简单的文本生成向复杂任务执行者的重大转变。

原生计算机操作能力深度实测

演示者展示了 GPT 5.4 利用内置的 Playwright 技能进行自动化的 3D 场景开发,通过单一提示词在 30 分钟内创建了伦敦塔桥的交互体验。模型不仅能编写代码,还能自主生成图像素材作为纹理,并驱动浏览器进行视觉验证与修复。在长达一个半小时的测试中,模型通过自动化的鼠标点击和导航识别并解决了多项视觉 Bug。虽然过程并非完美,但这种“脱手”的开发模式证明了其在实际工程中的巨大潜力。此外,视频还提到了提供 1.5 倍 token 速度的“快速模式”,虽然智力相同,但通过增加计费来提供优先处理权限。

工具搜索机制与性能优化

本段重点解析了 GPT 5.4 的“工具搜索”创新,该技术有效解决了因加载过多工具定义而导致的上下文臃肿问题。模型不再预先载入所有 MCP 服务器定义,而是根据实际需求在回复过程中动态查找并附加工具定义。这一优化使得 token 使用量最高可降低 47%,且在处理包含 36 个服务器的大型任务时依然保持高度准确。开发者认为这是提升模型运行效率的关键,使其能够处理比以往版本更复杂、跨度更长的任务。总体而言,GPT 5.4 在工具链的调用逻辑和选择准确度上有了质的飞跃。

响应速度与高昂定价的挑战

尽管功能强大,但 GPT 5.4 在性能表现上存在明显的短板,尤其是响应延迟问题。数据显示其返回首个 token 的时间在所有模型中最长,这让用户在使用时感到明显的迟钝感。在成本方面,API 用户面临着巨大的财务压力,基础模型的输出费率已达每百万 token 15 美元。对于追求高性能的 Pro 模型,输出费用更是飙升至 180 美元,且针对超长上下文有严苛的双倍计费规则。视频建议开发者在利用 100 万 token 窗口时必须极度精简内容,以避免产生难以承受的账单。

UI 设计局限性与总结展望

在视频的最后部分,博主对比了 GPT 5.4 与 Opus 4.6 在网页设计方面的表现,认为 OpenAI 在审美上略逊一筹。GPT 5.4 生成的 UI 界面过度依赖磨砂卡片风格和渐变色,导致其在 Design Arena 的设计排名中并不理想。尽管存在 UI 审美和速度上的不足,博主仍因其强大的 Codex 基因而决定将其作为主力模型。他鼓励观众分享自己首选的 AI 模型,并在评论区展开讨论。最后,视频以订阅邀请和对未来 AI 发展的期待圆满结束。

Community Posts

View all posts