我测试了 GLM 5.2、Opus 4.8 和 GPT 5.5

中文العربية Deutsch English Español Français हिन्दी 한국어 Português Русский

Computing/SoftwareVideo & Computer GamesInternet Technology

Transcript

00:00:00GLM 5.2 本周刚刚发布，它是我们见过的

00:00:04最强大的开源模型。在某些基准测试中，如图所示，该模型甚至表现出超越了

00:00:10Anthropic 的 Opus 4.8 和 OpenAI 的 5.5 等巨头。但这些基准测试可信吗？该模型

00:00:18与 Opus 4.8 和 GPT 5.5 相比表现如何？这正是我们在

00:00:25今天的视频中要回答的问题，我将通过这三个大模型进行多项测试，看看

00:00:31它在现实世界中的实际表现。最重要的是，我们将深入研究

00:00:35一个我认为非常重要的基准测试，并剖析我们所说的

00:00:40GLM 5.2 在某些情况下优于 Opus 和 GPT 5.5 到底是什么意思。我们是指

00:00:47它更高效、成本更低，还是在所有这些方面都表现得更好？

00:00:51能够同时兼顾所有这些方面？废话不多说，我们直接开始吧。

00:00:56在进入正面测试之前，让我们先看看目前已有的对比这三款模型的基准测试。

00:00:59三个模型的基准测试。我想重点关注的是 DeepSuite。DeepSuite 是

00:01:04一个相对较新的基准测试，旨在改进诸如 Terminal

00:01:08Bench 和 Terminal Bench Pro 之类的测试。我不打算深入探讨这个基准测试，您可以

00:01:12查看他们的网站或 GitHub 仓库以获取更多详细信息。但它专注于

00:01:17长时间运行的智能体任务，特别是涵盖 TypeScript、Go、Python、JavaScript

00:01:23和 Rust 的 113 个任务，并使用隔离环境和基于程序的验证器。在这里的图表中，我们可以看到

00:01:29左侧的正确率得分，以及每个任务的平均成本。

00:01:34我们希望得分更高且成本更低。最有效的区域是在右上角。

00:01:39在那里我们以最低的成本获得了最高的得分。我们可以看到，GLM 5.2

00:01:44Max 版本的正确率为 44%，每个任务成本为 3.92 美元。如果与 Opus 4.8 和 GPT 5.5 进行比较，我们可以看到

00:01:55它们的表现要好得多。在 Max 版本下，Opus 4.8 的正确率为 59%，5.5 的正确率为 67%。显然，

00:02:04在 Extra High 和 Max 版本下，成本非常昂贵。对于 GPT 5.5，成本是 7.23 美元。Opus 是 13 美元，

00:02:12而 GLM 是 3.92 美元。所以便宜得多。但是，当我们查看不同的努力水平

00:02:19对于 5.5 和 Opus，例如在 Medium 级别下，Opus 4.8 的得分

00:02:25将高于 GLM 5.2，而且成本更低。即 49% 的正确率对应 3.44 美元，而 GLM 为 44% 对应 3.92 美元。这

00:02:36差距很显著，5.5 的正确率为 54%，成本为 2.75 美元，对比 GLM 的 44% 和 3.92 美元。所以首先，在这个基准测试中，

00:02:47如果按面值计算，4.8 和 5.5 比 GLM 5.2 高出一个档次。这并不奇怪。这些

00:02:55是顶尖的前沿模型。它们不是开源的。如果我们真的加大力度，

00:03:01它们在这些长程任务上会把 GLM 5.2 甩在身后，这是意料之中的。

00:03:07你可能没料到的是，它可以以更低的成本做得更好，

00:03:11这其实是个问题。我只是想说明这一点，因为我知道目前关于 GLM 5.2

00:03:16是开源模型这一点有很多讨论和炒作。而且，你知道，

00:03:21这立刻暗示了，哦，它超级超级便宜。我们可以用它做很多好事。

00:03:25嗯，我的意思是，从数据来看，它很不错，但在这个基准测试中，它并不如 4.8 和 5.5。请记住，

00:03:33这些 4.8 和 5.5 的数字是基于 API 成本的。如果我使用 Max 计划，它比这个便宜 10 倍。

00:03:40如果我只是使用 OpenAI 的 100 美元或 200 美元月度计划，情况也是一样的。所以

00:03:46这也是需要考虑的事情。我只是想给那些说 GLM 便宜得多的人泼泼冷水，

00:03:50因为事实并非如此。即使它是开源的，

00:03:56GLM 5.2，这个获得这些数据的开源模型，其实并没有完全开源。比如，你

00:04:01不能直接把它下载到你的电脑上。它在某种意义上是开源的，因为你可以看到代码，

00:04:05可以看到权重。但它并不是那种你可以直接通过 Ollama 获取，

00:04:09可以在个人电脑上运行的开源。不，你不能。这接近

00:04:14一万亿个参数。运行它需要大量的硬件支持。所以不要搞混了，因为我知道

00:04:20有一部分人会这样认为，但这只是为了铺垫背景。再说一遍，

00:04:24这是基于 DeepSuite 的测试。这些任务是非常高强度的。而

00:04:30今天我们将进行一些不同类型的测试，它们级别较低，

00:04:35可能更能反映普通用户日常运行的任务。所以请牢记这一点。

00:04:39为了让我们达成共识，这是我们所看到的关于

00:04:44token 成本的分析。记住，Opus 4.8 和 5.5 之所以更便宜，是因为它们在完成任务时使用了更少的

00:04:50token。归根结底它们更高效，但那是按每个 token 的基础计算的。

00:04:55请记住，对于输入和输出，这是按每百万个 token 计算的，GLM 5.2 的输入成本为 1.40 美元，

00:05:01输出为 4.40 美元。而 Opus 4.8 的价格是它的 5.7 倍。GPT 的 5.5 版本则是 6.8 倍

00:05:10昂贵。因此，按每个 token 的成本计算，它便宜得多。但请记住，我们关心的是任务的结果，

00:05:16而不是单纯的 token 一对一比较。现在在我们进行实际测试之前，

00:05:21先听听今天赞助商的一段话，也就是我本人。我刚刚发布了我的 Cloud Code 大师班，就在

00:05:26Chase AI Plus 里，这是从零基础成为 AI 开发者的第一途径，尤其是如果你没有

00:05:30技术背景。我每周都会更新这个课程，它还包括了关于编码和

00:05:35创建你自己的智能体操作系统的大师班。所以如果这是你想了解的更多内容，而且你

00:05:40不知道从哪里开始，Chase AI Plus 就是你的不二之选。置顶评论中有链接。

00:05:46接下来是我们要运行的测试方式。我们将给每一个模型相同的

00:05:49提示词和规划模式。它会给我们一个计划。我们可能会进行一些来回沟通，

00:05:53这取决于我们对它提出的计划的评价。之后，我们会让它执行。

00:05:58执行完成后，我将应用我极其主观的评分标准来评估最终结果，并告诉你

00:06:03我最喜欢哪一个。如果你不喜欢我的评分标准或我的决定，请务必

00:06:08在评论中留言。我一定会删除你的评论。现在，左边，我们有

00:06:14在 Codex 中运行 Extra High 设置的 GPT 5.5。中间是运行 Extra High 设置的 GLM 5.2，

00:06:21通过 OpenRouter 路由。右边，我们有运行 High 设置的 Opus 4.8

00:06:26的 Cloud Code。为什么要选择这些特定的努力级别？因为这就是大多数人在

00:06:32现实生活中使用它们的方式。而且很可能你不是在用 Max 计划，就是在用某种

00:06:37OpenAI 计划，你可能不会在 Medium 级别运行。老实说。所以我认为这

00:06:42更好地反映了普通用户每天实际使用这些模型的方式。

00:06:47对于我们的第一个提示，我们将让它在浏览器中构建一个可玩的 3D 赛车游戏。

00:06:51重要的是，我们要让提示保持模糊。我是在说，你有完全的自由去

00:06:56网上选择你认为最适合实现这一目标的栈和库。所以

00:07:02让我们继续运行，看看会发生什么。所有的三个模型都在规划模式下运行。

00:07:08再次强调，让提示变得模糊的初衷是我们想看到这些模型之间尽可能多的

00:07:12分歧。如果我给了它确切的路线图，告诉它每一步该怎么做，

00:07:18那我们就真的无法观察到这些模型是如何思考的，以及它们是如何处理

00:07:23那种更加混乱的问题。13 分钟后，Opus 4.8 成为第一个完成赛车游戏制作的。

00:07:29让我们看看它做了什么。这里我们看到的模型多边形比较少。它确实有

00:07:37一些声音效果。运行得很流畅。看起来我们也可以在这里漂移。

00:07:44好吧，草地实际上干扰了物理引擎的工作方式。总的来说，很平滑，但你

00:07:54知道，相对来说比较枯燥，对吧？这是一个非常基础的赛道。没什么特别的，没有增加

00:07:59任何 AI 之类的东西。所以我很好奇其他模型在复杂性方面的表现如何，

00:08:04如果这些模型做出来的东西都是这种平淡无奇的版本，我之后的做法是，

00:08:09我们会给它另一个提示，增加点难度。接下来是

00:08:13GLM 5.2。它比 Claude Code 多用了五分钟左右。作为参考，GPT 5.5 仍然在

00:08:20工作中，对此我不感到惊讶。它通常会慢一点。在 token 比较方面，

00:08:26Claude Code 用了大约 10 万个 Token 来完成创建，而 GLM 5.2 则用了超过 100 万个。

00:08:33Open Router 查看这次运行的情况，总花费为 1.21 美元。为了创建这个游戏，使用了 135 万

00:08:41个 token。所以立刻，我们有了一个很有趣的赛道。

00:08:48操作非常不稳定，与我们用 Claude Code 做出来的相比。我相对于

00:08:53赛道本身移动得非常快。非常快。我正飞速地穿过它。而且我们也没有

00:09:00真正区分出赛道和场地本身。在某些情况下，就像你刚才看到的那样，我几乎可以穿过

00:09:09赛道，但其实并没有完全穿过。

00:09:15而且车本身比我们在 Claude Code 里看到的细节少一些。我是说，

00:09:23它确实有一个赛道，有一个计时器。在实际游戏体验方面，有点卡顿，

00:09:30不像 Opus 那样流畅。而且又是那种低多边形的情况。所以

00:09:36我很想看看如果告诉它真正去创造一个看起来更好的东西会怎样。

00:09:40而且这个赛道本身并没有多大的意义。现在我们来看看

00:09:44GPT 5.5 创建了什么。它称之为铸造厂赛道，夜班计时赛，三圈

00:09:50通过钢结构。所以我想，这比我们在前两次看到的

00:09:54通用赛道要好。所以让我们开始吧。让我们走。好吧，我实际上不知道我应该

00:10:04去哪里。哦，我想这就是赛道。轮子看起来很有趣。它们是

00:10:10向错误的方向旋转。所以这就是一点。好吧，它确实有一些非常烦人的噪音。

00:10:21我无法忽视轮子横着转或者不管你怎么形容这种状态。

00:10:28赛道本身还行，你可以移动。是的，你可以通过赛道，它会让你减速。但并不

00:10:35清楚这是否是一条铺好的赛道，像我们用 Opus 构建的那样。其余的就跟，

00:10:41你知道，场地一样。所以图形很奇怪，说实话。考虑到

00:10:48它花费的时间是 Opus 的两倍，这很奇怪。是的，真的很奇怪。再说一遍，

00:10:55为什么轮子会这样？我不知道。它又选择了低多边形模式。

00:11:00而且它就是非常暗，毫无理由地暗。所以我感觉

00:11:06这比 GLM 5.2 更有功能性，但也没有好到哪里去。你还要考虑

00:11:12这是在 5.5 的 Extra High 设置上运行的。现在关于 5.5 的 token 使用量，

00:11:17它大致相当于我们看到的 Claude Code。它使用了 7% 的五小时窗口。所以几乎

00:11:22什么都没用。总体排名，我会把 Opus 4.8 明确排在 GLM 5.2 和 5.5 之前。我认为

00:11:28后面两者比较糟糕，但我们还要再给它们一次机会，因为

00:11:32我们要让它们重新看看代码，再进行一次处理。我们也想它们

00:11:36在图形方面做得好得多。我不想看低多边形的东西。我想让这

00:11:40看起来像个 3A 级大作，或者尽可能接近。让我们看看给它们

00:11:46第二次尝试会发生什么。Opus 和 GLM 完成了第二次处理，5.5 也在收尾。所以

00:11:50让我们先看看 Opus 4.8。立刻，我们看到了一辆好得多的车。这真的是一个巨大的

00:11:58改进。我们还看到了完全不同的光照。

00:12:04你可以看到阳光反射在地面上，一切看起来平滑得多。我是说，

00:12:10树木本身依然是低多边形的，但光照尤其是车

00:12:15是一个重大的进步。它仍然保持着那种平滑的游戏体验。我是说，除了

00:12:20路上有树的事实，但树本身也有阴影。而对于一次额外

00:12:26的处理，花费了 10 分钟和大约 5 万个 token，还不错。现在我们看 GLM。到目前为止，

00:12:32它花费了另外 120 万个左右的 token 来进行这个更新，我们的总支出达到了 1.83 美元。

00:12:38让我们开始吧。看起来它确实尝试添加了一些不同的光照。车看起来

00:12:46稍微好一点，但光照本身很奇怪。它只是非常刺眼。赛道

00:12:52本身没有太大的变化。你知道，依然到处都是草地。而且

00:12:57操作依然非常不稳定，对吧？我相对于赛道跑得非常快。这与我之前的

00:13:04问题一样，比如有些赛道我可以穿过，有些不能。所以我的意思是，

00:13:10车的图形看起来更好了，但我认为光照和眩光非常分散注意力。

00:13:15这可能比我们之前的版本有所降级。这是 5.5 的第二次处理。现在

00:13:21车看起来好一点了，但看看其他一切，这基本上是一样的。好吧，

00:13:29轮子更好。我们修复了轮子问题。它们实际上在按轮子应有的方式转动，

00:13:34但依然有烦人的噪音。而且再一次，路径和

00:13:42草地之间没有真正的区别。所以它感觉像是第一次尝试的翻版，带

00:13:49了一辆稍好的车。但是，你知道，当我们告诉它追求 3A 级美学时，我不会说它

00:13:55达标了。再一次，我感觉从大局上看，当我们看这三个模型时，GLM 和 5.5 绝对落后

00:14:02于 Opus。对于我们的下一个测试，我们将让它为我们构建一个网站。我们使用的

00:14:07提示是这个。我们想要一个 AI 驱动的智能眼镜产品的虚拟落地页。

00:14:12想想类似 Meta Ray-Bans 的东西。再一次，我们给了这些模型完全的自由，

00:14:16包括栈和设计。我们告诉它选择认为最好的，安装我们需要的东西，

00:14:20并查阅落地页的最佳实践。我们告诉它，嘿，去找

00:14:25图片和产品拍摄效果。不要仅仅依赖自己创建 HTML。而且重要的是，

00:14:31我们说，把它做成获奖网站的样子。我们不希望它看起来像 AI 垃圾。我们要真正的

00:14:35视觉层次、有意图的排版，以及合理的动态。所以是智能眼镜的

00:14:42落地页，我们想要获奖级别的样式。看看它们会做成什么样。

00:14:46GLM 使用了大约 100 万个 token，而 Opus 和 5.5

00:14:53大约使用了 10 万个左右。首先是 Opus 构建的版本，非常深的背景。

00:14:58它有一些它创建的眼镜，文本在这里被切断了，这真是不幸。

00:15:04当我们向下滚动时，这看起来也很奇怪，因为我们可以看到滚动文本

00:15:12似乎悬在它上面。但当我鼠标移动上去，你可以看到它移动，颜色发生变化，

00:15:18这有点酷。当我向下滚动时，一切都有某种滚动的加载动画。

00:15:24但总之，眼镜本身看起来还可以，用了 HTML。

00:15:31所以，你到底从中学到了什么？它甚至没有找到一些可以使用的眼镜

00:15:35图片。而且它有，你知道，这里是你如何预订以及如何购买的方式。所以

00:15:41还可以。再一次，我们没给它太多的指示，但告诉它要走那种奖项

00:15:45类风格。我不认为它达到了那个档次。现在让我们看看 GLM 给我们做的。

00:15:51我完全不知道这儿在发生什么。实际上，这几乎没加载出来。

00:15:59它展示了一些眼镜，但这网站简直就是一场灾难。它甚至没有

00:16:04真正完成。它几乎就像随意堆在一起。是的，提示并不是非常

00:16:13详细，但基于我给它的，它应该能做得比这更好。这简直太

00:16:19糟糕了。我不知道它实际想完成什么。最后，我们有 GPT 5.5。这是

00:16:25有点意思。我认为它看起来挺酷的，虽然眼镜

00:16:30在一定程度上覆盖了文本。我们有大量的死空间，你可以说这是

00:16:34一种设计选择。我们有实际上会移动的横幅，你可能记得

00:16:39Opus 版本也有横幅，但它不会移动。然后当我们向下滚动时，你还会注意到

00:16:44光标是彩色的。当我们向下滚动时，看起来它创建了一些 HTML

00:16:50类型的资产。这很奇怪，对吧？我们确实告诉它，你可以去网上寻找你所需要的

00:16:55如果你想的话。但总的来说，可能是三个当中最好的一个。但是，你知道，我不会说我对这当中的任何一个

00:17:04感到满意，这说明当你进行任何视觉设计或 UI 类型的任务时，你需要

00:17:09多么强硬的把控，即使是这些最先进的模型也在挣扎，

00:17:14我完全不知道这到底是什么鬼。这简直是一团糟。总而言之，Opus 还

00:17:21行。5.5 是当中最好的，而 GLM 简直彻底失败。就像我们在

00:17:26游戏版本中所做的那样，我们将给它们第二次机会，看看它们能否清理掉出错的地方。

00:17:30此外，我们要要求它们进行集成，再次与我们之前要求构建的游戏类似，

00:17:36增加一些 Three.js 元素，我们真的很想看到它如何进一步推动其在动态、

00:17:42图形等方面能力。新的提示如下：将你刚才构建的智能眼镜落地页

00:17:46作为沉浸式 3D 体验重新构建，使用 Three.js。

00:17:51我们想要一个实际的交互式 3D 场景。再一次，我们给了它完全的自由去

00:17:56按它认为合适的方式执行。这是我们在 Opus 4.8 上得到的结果。你可以看到现在它添加了

00:18:02一些 Three.js，这些眼镜在移动。但除此之外，我们还有一些最初的问题，

00:18:08对吧，文本被切断，它在这里被覆盖。而其余部分看起来就像是

00:18:13明显的 AI 产物。顺便说一句，第二次运行的 token 成本

00:18:21在所有模型上与第一次运行基本相当。接下来，

00:18:27我们看 GLM 5.2。这次它实际上创建了一个有意义的网站。我们有这些眼镜，

00:18:32虽然它做的眼镜看起来有点怪，比如你只有，

00:18:36没有眼镜会真正看起来像那样，而且文本也在这里被切断了。但我们有一个横幅，

00:18:42当我滚动到它上面时它会滚动，当我移动上去它会停止。我会说总的来说，

00:18:48就网站布局而言，我可能会给它比 Opus 更高的评价。现在，我不认为

00:18:55它们当中任何一个特别好。我们给了它们自由发挥的范围。但是

00:18:59我还是会把它放在这种设置之上。尽管就英雄区域本身而言，

00:19:05我确实更喜欢 Opus 4.8。现在，GPT 5.5，我认为是这里的赢家。我认为它整体上看起来

00:19:10从主观的设计角度来看更好。而且我认为它在这里添加的 Three.js 动态效果

00:19:18挺酷的。我认为在它创建的上下文中这是有意义的。就像我们有

00:19:22顶部所有的空白空间，眼镜可以在那里展示。至于

00:19:27网站的其余部分，我认为看起来还好。它依然看起来非常，所谓的，

00:19:32AI 垃圾，在某种意义上 AI 绝对创造了这个，但它看起来不差。从顶部

00:19:37到底部，我确实更喜欢 5.5 给我们的版本，超过所有其他的。当我们全面审视

00:19:42这件事，引入这些更复杂的基准测试，比如 DeepSuite，再加上

00:19:48我们今天所做的，我认为这就是我们所预期的。我不认为 GLM 在任何意义上

00:19:56表现得极其糟糕，但它绝对感觉比 GPT 5.5 或 4.8 低一个档次，或者在

00:20:03一些场景下，比如 Opus 在第一部分比所有模型都好。在

00:20:07GPT 比所有模型都好的第二部分，GLM 始终处于底部。它没有

00:20:12比任何一个差很多，但它绝不是更好。而且它也使用了无穷无尽的 token。

00:20:17所以当我们审视像这样的东西时，比如 DeepSuite 分数，

00:20:21就是说，GLM 处于底部，实际上在成本和性能方面都不如 5.5 和 4.8。

00:20:27这在逻辑上说得通。我认为这就是我们所看到的。所以

00:20:35大局上，GLM 是一个伟大的开源模型吗？绝对是。但它是否运行进了一些

00:20:41开源模型通常有的问题，即它们不够强大？是的。此外，如果你是

00:20:47开源极客，请理解这不是你可以在你的 PC 上运行的东西，对吧？它需要

00:20:52大量的硬件。我认为谈话中丢失的是我们在

00:20:57开始时讨论过的内容，那就是成本对于 GLM 5.2 来说已经是个问题了。即使这样

00:21:05还没考虑在 Anthropic Max 计划或 OpenAI

00:21:12Max 计划上得到的巨额补贴。所以你要考虑到这一点，这就没什么可争论的了。

00:21:16真的没有争议。那么，我会建议普通人使用 GLM 5.2 吗？不，

00:21:24不太会。我想如果是在进行一些低水平任务，而且你是那种纯粹在比较

00:21:29API 价格的人，也许吧。但是，你知道，我认为很难争论说

00:21:38当下一周 Sonnet 5 发布时我们又该怎么办？比如，

00:21:42你只是打算从一个跳到另一个吗？有一些话要说，关于就是

00:21:46坚守同一个模型，尤其是当我们谈论更多像企业团队级的东西时，

00:21:50那 API 成本确实会累积。因为再一次，对于普通的单一用户，他们将会

00:21:55使用其中一种受补贴的计划，而不是直接支付 API 费用，我看不出有什么理由使用

00:22:01GLM 5.2。所以这就是我今天要留给大家的内容。希望我澄清了

00:22:05关于 GLM 的整个争论，以及你所看到的所有炒作。和往常一样，让我知道你

00:22:09在评论中是怎么想的。如果你想亲身体验，一定要看看 Chase AI Plus

00:22:13和 Cloud Code 大师班，我们再见。

Key Takeaway

尽管GLM 5.2作为开源模型引起关注，但在实际的编程与设计任务测试中，GPT 5.5和Opus 4.8无论在正确率、视觉质量还是token使用效率上均明显领先。

Highlights

在DeepSuite基准测试中，GPT 5.5和Opus 4.8的正确率分别为67%和59%，而GLM 5.2为44%。
Opus 4.8在处理复杂编程任务时，所需的token数量明显少于GLM 5.2，且在任务执行的成本和效率上表现更优。
GLM 5.2在浏览器构建游戏任务中，生成代码的token消耗超过100万个，而Opus 4.8仅用10万个左右即可完成。
GPT 5.5在落地页设计任务中，视觉层次与交互效果优于其他两款模型，且其生成的HTML资产更具可用性。
GLM 5.2并非可以在个人电脑上本地运行的开源模型，其参数量接近一万亿，需要强大的硬件资源支持。

Timeline

DeepSuite基准测试分析

DeepSuite基准测试显示GPT 5.5正确率为67%，Opus 4.8为59%，GLM 5.2为44%。
Opus 4.8和GPT 5.5在执行复杂任务时比GLM 5.2更高效，消耗的token更少。
GLM 5.2虽然开源但并未达到完全本地运行的程度，因其接近一万亿参数规模。

DeepSuite测试涵盖113个涵盖多种主流编程语言的任务。尽管GLM 5.2在某些条件下宣称具有优势，但数据表明，在面对长程任务时，顶级前沿模型在正确率和token效率上表现更好。此外，由于GLM 5.2参数规模巨大，普通用户无法直接在个人设备上运行。

3D赛车游戏开发性能测试

Opus 4.8最先完成赛车游戏制作，生成效果流畅且具备基本物理反馈。
GLM 5.2在创建游戏时使用了超过135万个token，成本为1.21美元，且物理操作不稳定。
GPT 5.5创建的游戏在功能上表现尚可，但在图形细节和纹理处理上存在明显缺陷。

通过构建3D赛车游戏对比三个模型的能力。Opus 4.8在首次运行中表现最稳定，而GLM 5.2的token消耗量极大，且游戏体验出现物体穿透等问题。第二次处理后，虽然各模型图形有所改进，但Opus 4.8仍保持了更高的审美和运行平滑度。

落地页UI设计对比测试

GPT 5.5在落地页构建中提供了最佳的视觉动态和排版控制。
GLM 5.2在UI任务中表现欠佳，生成的网页布局混乱且难以加载。
对于普通用户而言，使用受补贴的API计划运行顶级模型比使用GLM 5.2更具性价比。

测试要求模型构建AI智能眼镜的虚拟落地页。GPT 5.5成功整合了Three.js交互动态并保持了合理的视觉层次，而GLM 5.2生成的页面几乎无法正常浏览。结论指出，考虑企业级成本和性能平衡，在当前环境下GPT 5.5或Opus 4.8是更优选择。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video