最强新模型登场 (GPT-5.4)

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareSmall Business/StartupsBusiness NewsInternet Technology

Transcript

00:00:00你可以重置“距离上次更新天数”的计数器了，因为又出现了一个新的最强模型。

00:00:03这次是 GPT 5.4，我一直在测试它，所以我会告诉你你需要了解的信息，

00:00:07并在 5 分 40 秒内分析它的优缺点。

00:00:11以下是核心要点。

00:00:17GPT 5.4 在知识工作和网络搜索方面表现更好，具备原生计算机操作能力，

00:00:22还有一个我稍后会解释的工具搜索新功能，它可以在响应中途进行引导，

00:00:26拥有新的快速模式，并配备了 100 万 token 的上下文窗口。

00:00:305.4 的目标似乎是将 Codex 5.3 的编程能力与 GPT 5.2 的知识、

00:00:34网络搜索和专业工作技能相结合，使 5.4 成为全能的“全能型”

00:00:40模型。

00:00:41根据 Artificial Analysis 的第三方基准测试，他们确实实现了

00:00:45那个目标。

00:00:46它被评为最佳编程模型、最佳智能体模型，并且在最强智能模型方面

00:00:49与 Gemini 平分秋色。

00:00:51如果我们关注我认为最有趣的要点，那就是他们的

00:00:55原生计算机操作能力。

00:00:56OpenAI 显然将其设计为首个内置计算机操作能力的通用模型，

00:01:00因此它应该擅长编写代码，通过 Playwright 等库操作计算机，

00:01:04并能根据屏幕截图发出鼠标和键盘指令。

00:01:08他们发布了一个实验性的 Playwright 技能，所以我试了一下。

00:01:12在 Codex 中使用 5.4 及其高级推理能力，我给它一个提示，要求创建一个伦敦塔桥的

00:01:16交互式 3D 体验。

00:01:18我还使用了这项新技能以及图像生成技能，这样它就能生成自己的

00:01:22资产来用作纹理。

00:01:24现在的体验本身与 Codex 5.3 非常相似，而 5.3 在此之前

00:01:29一直是我最喜欢的模型。

00:01:30在执行任务约 20 分钟后，它开始使用

00:01:33新的 Playwright 技能，那个体验非常棒。

00:01:37它会打开浏览器，点击、导航场景，识别任何需要修复的视觉问题，

00:01:41比如这个背景没有融入场景，然后它会跳回到

00:01:45代码中进行修复，如此反复，整个过程感觉非常流畅自然。

00:01:50这个项目的第一次迭代实际上花了大约 30 分钟完成，全部来自

00:01:54那一个提示。之后我发送了一些后续指令，要求添加更多细节

00:01:58和一些修复，比如船只横着放以及道路与其他纹理重叠的问题，

00:02:03它再次在每个提示下工作了约 30 分钟，打开

00:02:07Chrome 浏览器，验证并进行更改，在大约一个半小时内

00:02:11通过 3 个提示给了我最终版本。虽然它绝不完美，但对于

00:02:16完全脱手的开发来说，我认为还不赖。对我来说，这个模型对于

00:02:20那些已经喜欢 5.3 Codex 的人来说绝对是一个无脑升级的选择。

00:02:24不过我觉得挺好笑的是，在使用两小时后，它提示我说

00:02:27如果我切换到那个新的快速模式，本可以节省一小时的时间。

00:02:31这实际上是同一个模型，智力和体验完全一样，它只是

00:02:35提供高达 1.5 倍的 token 速度，因为它是按两倍用量计费的，所以它本质上

00:02:41只是一个优先级别，根本不是不同的模型。

00:02:44这次发布中我发现特别有趣的另一个点是“工具搜索”。

00:02:48这解决了预先将所有工具定义加载到系统提示词中的问题，

00:02:52因为如果你有太多的工具和过多的 MCP 服务器，最终会浪费 token

00:02:56并导致上下文臃肿，从而影响输出质量。

00:03:00现在，GPT 5.4 的提示词中只包含可用工具的轻量级列表，而模型实际上

00:03:05具备工具搜索能力，因此当模型需要某个工具时，它可以直接查找

00:03:09该工具的定义，并在需要时将其附加到对话中。

00:03:13OpenAI 表示这最多可减少 47% 的 token 使用量，他们在一项

00:03:18包含 36 个 MCP 服务器的基准测试中展示了这一点，且准确率保持不变。

00:03:22除了我们刚才看到的这些新功能外，这个模型的重心真的在于改进

00:03:26工具，包括改进模型如何使用它们以及何时选择使用它们，

00:03:30这在基准测试中得到了回报。但老实说，除了“新模型比旧模型更好”

00:03:34这一点外，并没有太多可报告的。

00:03:38我认为可以将这个模型的优点总结为：它更聪明，运行时间更长，

00:03:42对工具的使用更好，这意味着它可以完成比上一个模型更难的任务。

00:03:47是的，大家听好了，这个模型比上个版本更好，但现在让我们谈谈

00:03:51它的一些缺点。

00:03:52对我来说最明显的一点是速度。

00:03:54虽然我确实喜欢模型思考得更久一些，但有时感觉 GPT 5.4

00:03:59思考得太久了，或者也许是它在实际思考过程中很慢。我绝对

00:04:04不是唯一有这种感觉的人。

00:04:05Artificial Analysis 的结果确实显示，GPT 5.4 返回一个

00:04:09token 所需的时间是最长的，且差距相当大，同样的情况

00:04:14也出现在返回前 500 个 token 的时间上。

00:04:15我不确定这目前是模型问题还是供应商问题，所以也许这会

00:04:19随着时间的推移而改善，但或许一个更悲观的观点是，它故意变慢，

00:04:24好让你去使用新的快速模式。

00:04:26另一个缺点是对于使用 API 的用户来说价格上涨了。

00:04:29基础模型实际上是每百万输入 token 2.50 美元，每百万输出 token 15 美元，

00:04:34但 Pro 模型可是相当昂贵。

00:04:37它的收费标准是每百万输入 token 30 美元，每百万输出 token 180 美元，甚至

00:04:43更糟的是，如果你想利用那个新的 100 万 token 上下文窗口，任何

00:04:47超过 272,000 token 的输入都将按正常费率的两倍计费。

00:04:52所以目前我会建议精简你的上下文。

00:04:55最后的缺点是 UI 设计，虽然这一点有点主观，但我要求

00:04:59Opus 4.6 和 GPT 5.4 设计一个咖啡馆网站，我认为我更喜欢 Opus 的设计，尽管

00:05:05两者都没有让我感到惊艳。

00:05:07我觉得我在 GPT 5.4 和其他一些 GPT 模型上最纠结的一点

00:05:11是它们似乎都有非常相似的 UI。

00:05:14它似乎很喜欢这种磨砂卡片风格的 UI，当然还非常喜欢渐变色。

00:05:19显然这只是我做的一个测试，但在 Design Arena 上，这个模型的排名

00:05:23也不高，所以这只是 OpenAI 目前还不太擅长的地方。

00:05:27不过总的来说，我会说我会把它当做主力模型，因为我是 Codex 的粉丝，但我很好奇

00:05:32你们的想法。

00:05:33你们首选的模型是什么？

00:05:34请在下方评论区告诉我，顺便点个订阅，一如既往，我们

00:05:37下期再见。

Key Takeaway

GPT 5.4 是一款通过原生计算机操作和工具搜索功能实现效率飞跃的全能型 AI 模型，但在成本控制和响应延迟方面仍面临挑战。

Highlights

GPT 5.4 实现了全能型定位，融合了 Codex 的编程能力与 GPT 系列的知识与搜索优势。
引入原生计算机操作能力，可通过 Playwright 库控制浏览器、鼠标和键盘，实现脱手开发。
创新推出“工具搜索”功能，仅加载轻量级工具列表，最高可减少 47% 的 token 消耗。
配备 100 万 token 的超长上下文窗口，并提供 1.5 倍速的“快速模式”以应对高需求任务。
在第三方基准测试中被评为最佳编程与智能体模型，综合智能与 Gemini 持平。
API 成本显著上升，尤其是 Pro 模型及超过 27.2 万 token 后的双倍计费机制。
模型在响应速度（TTFT）上表现较慢，且 UI 设计风格被指缺乏新意及美感。

Timeline

GPT 5.4 核心功能概述与定位

视频开篇介绍了新一代最强模型 GPT 5.4 的震撼登场，强调其在知识工作、网络搜索及原生计算机操作方面的卓越表现。该模型的核心目标是将 Codex 5.3 的编程专长与 GPT 5.2 的专业技能相结合，打造出一个真正的“全能型”AI 工具。根据第三方机构 Artificial Analysis 的基准测试，它在编程和智能体能力上均位居榜首。在综合智能水平上，它已经能够与 Google 的 Gemini 模型平分秋色。这一阶段的更新标志着 AI 从简单的文本生成向复杂任务执行者的重大转变。

原生计算机操作能力深度实测

演示者展示了 GPT 5.4 利用内置的 Playwright 技能进行自动化的 3D 场景开发，通过单一提示词在 30 分钟内创建了伦敦塔桥的交互体验。模型不仅能编写代码，还能自主生成图像素材作为纹理，并驱动浏览器进行视觉验证与修复。在长达一个半小时的测试中，模型通过自动化的鼠标点击和导航识别并解决了多项视觉 Bug。虽然过程并非完美，但这种“脱手”的开发模式证明了其在实际工程中的巨大潜力。此外，视频还提到了提供 1.5 倍 token 速度的“快速模式”，虽然智力相同，但通过增加计费来提供优先处理权限。

工具搜索机制与性能优化

本段重点解析了 GPT 5.4 的“工具搜索”创新，该技术有效解决了因加载过多工具定义而导致的上下文臃肿问题。模型不再预先载入所有 MCP 服务器定义，而是根据实际需求在回复过程中动态查找并附加工具定义。这一优化使得 token 使用量最高可降低 47%，且在处理包含 36 个服务器的大型任务时依然保持高度准确。开发者认为这是提升模型运行效率的关键，使其能够处理比以往版本更复杂、跨度更长的任务。总体而言，GPT 5.4 在工具链的调用逻辑和选择准确度上有了质的飞跃。

响应速度与高昂定价的挑战

尽管功能强大，但 GPT 5.4 在性能表现上存在明显的短板，尤其是响应延迟问题。数据显示其返回首个 token 的时间在所有模型中最长，这让用户在使用时感到明显的迟钝感。在成本方面，API 用户面临着巨大的财务压力，基础模型的输出费率已达每百万 token 15 美元。对于追求高性能的 Pro 模型，输出费用更是飙升至 180 美元，且针对超长上下文有严苛的双倍计费规则。视频建议开发者在利用 100 万 token 窗口时必须极度精简内容，以避免产生难以承受的账单。

UI 设计局限性与总结展望

在视频的最后部分，博主对比了 GPT 5.4 与 Opus 4.6 在网页设计方面的表现，认为 OpenAI 在审美上略逊一筹。GPT 5.4 生成的 UI 界面过度依赖磨砂卡片风格和渐变色，导致其在 Design Arena 的设计排名中并不理想。尽管存在 UI 审美和速度上的不足，博主仍因其强大的 Codex 基因而决定将其作为主力模型。他鼓励观众分享自己首选的 AI 模型，并在评论区展开讨论。最后，视频以订阅邀请和对未来 AI 发展的期待圆满结束。

Community Posts

Write about this video