我测试了 GLM 5.2、Opus 4.8 和 GPT 5.5

CChase AI
Computing/SoftwareVideo & Computer GamesInternet Technology

Transcript

00:00:00GLM 5.2 本周刚刚发布,它是我们见过的
00:00:04最强大的开源模型。在某些基准测试中,如图所示,该模型甚至表现出超越了
00:00:10Anthropic 的 Opus 4.8 和 OpenAI 的 5.5 等巨头。但这些基准测试可信吗?该模型
00:00:18与 Opus 4.8 和 GPT 5.5 相比表现如何?这正是我们在
00:00:25今天的视频中要回答的问题,我将通过这三个大模型进行多项测试,看看
00:00:31它在现实世界中的实际表现。最重要的是,我们将深入研究
00:00:35一个我认为非常重要的基准测试,并剖析我们所说的
00:00:40GLM 5.2 在某些情况下优于 Opus 和 GPT 5.5 到底是什么意思。我们是指
00:00:47它更高效、成本更低,还是在所有这些方面都表现得更好?
00:00:51能够同时兼顾所有这些方面?废话不多说,我们直接开始吧。
00:00:56在进入正面测试之前,让我们先看看目前已有的对比这三款模型的基准测试。
00:00:59三个模型的基准测试。我想重点关注的是 DeepSuite。DeepSuite 是
00:01:04一个相对较新的基准测试,旨在改进诸如 Terminal
00:01:08Bench 和 Terminal Bench Pro 之类的测试。我不打算深入探讨这个基准测试,您可以
00:01:12查看他们的网站或 GitHub 仓库以获取更多详细信息。但它专注于
00:01:17长时间运行的智能体任务,特别是涵盖 TypeScript、Go、Python、JavaScript
00:01:23和 Rust 的 113 个任务,并使用隔离环境和基于程序的验证器。在这里的图表中,我们可以看到
00:01:29左侧的正确率得分,以及每个任务的平均成本。
00:01:34我们希望得分更高且成本更低。最有效的区域是在右上角。
00:01:39在那里我们以最低的成本获得了最高的得分。我们可以看到,GLM 5.2
00:01:44Max 版本的正确率为 44%,每个任务成本为 3.92 美元。如果与 Opus 4.8 和 GPT 5.5 进行比较,我们可以看到
00:01:55它们的表现要好得多。在 Max 版本下,Opus 4.8 的正确率为 59%,5.5 的正确率为 67%。显然,
00:02:04在 Extra High 和 Max 版本下,成本非常昂贵。对于 GPT 5.5,成本是 7.23 美元。Opus 是 13 美元,
00:02:12而 GLM 是 3.92 美元。所以便宜得多。但是,当我们查看不同的努力水平
00:02:19对于 5.5 和 Opus,例如在 Medium 级别下,Opus 4.8 的得分
00:02:25将高于 GLM 5.2,而且成本更低。即 49% 的正确率对应 3.44 美元,而 GLM 为 44% 对应 3.92 美元。这
00:02:36差距很显著,5.5 的正确率为 54%,成本为 2.75 美元,对比 GLM 的 44% 和 3.92 美元。所以首先,在这个基准测试中,
00:02:47如果按面值计算,4.8 和 5.5 比 GLM 5.2 高出一个档次。这并不奇怪。这些
00:02:55是顶尖的前沿模型。它们不是开源的。如果我们真的加大力度,
00:03:01它们在这些长程任务上会把 GLM 5.2 甩在身后,这是意料之中的。
00:03:07你可能没料到的是,它可以以更低的成本做得更好,
00:03:11这其实是个问题。我只是想说明这一点,因为我知道目前关于 GLM 5.2
00:03:16是开源模型这一点有很多讨论和炒作。而且,你知道,
00:03:21这立刻暗示了,哦,它超级超级便宜。我们可以用它做很多好事。
00:03:25嗯,我的意思是,从数据来看,它很不错,但在这个基准测试中,它并不如 4.8 和 5.5。请记住,
00:03:33这些 4.8 和 5.5 的数字是基于 API 成本的。如果我使用 Max 计划,它比这个便宜 10 倍。
00:03:40如果我只是使用 OpenAI 的 100 美元或 200 美元月度计划,情况也是一样的。所以
00:03:46这也是需要考虑的事情。我只是想给那些说 GLM 便宜得多的人泼泼冷水,
00:03:50因为事实并非如此。即使它是开源的,
00:03:56GLM 5.2,这个获得这些数据的开源模型,其实并没有完全开源。比如,你
00:04:01不能直接把它下载到你的电脑上。它在某种意义上是开源的,因为你可以看到代码,
00:04:05可以看到权重。但它并不是那种你可以直接通过 Ollama 获取,
00:04:09可以在个人电脑上运行的开源。不,你不能。这接近
00:04:14一万亿个参数。运行它需要大量的硬件支持。所以不要搞混了,因为我知道
00:04:20有一部分人会这样认为,但这只是为了铺垫背景。再说一遍,
00:04:24这是基于 DeepSuite 的测试。这些任务是非常高强度的。而
00:04:30今天我们将进行一些不同类型的测试,它们级别较低,
00:04:35可能更能反映普通用户日常运行的任务。所以请牢记这一点。
00:04:39为了让我们达成共识,这是我们所看到的关于
00:04:44token 成本的分析。记住,Opus 4.8 和 5.5 之所以更便宜,是因为它们在完成任务时使用了更少的
00:04:50token。归根结底它们更高效,但那是按每个 token 的基础计算的。
00:04:55请记住,对于输入和输出,这是按每百万个 token 计算的,GLM 5.2 的输入成本为 1.40 美元,
00:05:01输出为 4.40 美元。而 Opus 4.8 的价格是它的 5.7 倍。GPT 的 5.5 版本则是 6.8 倍
00:05:10昂贵。因此,按每个 token 的成本计算,它便宜得多。但请记住,我们关心的是任务的结果,
00:05:16而不是单纯的 token 一对一比较。现在在我们进行实际测试之前,
00:05:21先听听今天赞助商的一段话,也就是我本人。我刚刚发布了我的 Cloud Code 大师班,就在
00:05:26Chase AI Plus 里,这是从零基础成为 AI 开发者的第一途径,尤其是如果你没有
00:05:30技术背景。我每周都会更新这个课程,它还包括了关于编码和
00:05:35创建你自己的智能体操作系统的大师班。所以如果这是你想了解的更多内容,而且你
00:05:40不知道从哪里开始,Chase AI Plus 就是你的不二之选。置顶评论中有链接。
00:05:46接下来是我们要运行的测试方式。我们将给每一个模型相同的
00:05:49提示词和规划模式。它会给我们一个计划。我们可能会进行一些来回沟通,
00:05:53这取决于我们对它提出的计划的评价。之后,我们会让它执行。
00:05:58执行完成后,我将应用我极其主观的评分标准来评估最终结果,并告诉你
00:06:03我最喜欢哪一个。如果你不喜欢我的评分标准或我的决定,请务必
00:06:08在评论中留言。我一定会删除你的评论。现在,左边,我们有
00:06:14在 Codex 中运行 Extra High 设置的 GPT 5.5。中间是运行 Extra High 设置的 GLM 5.2,
00:06:21通过 OpenRouter 路由。右边,我们有运行 High 设置的 Opus 4.8
00:06:26的 Cloud Code。为什么要选择这些特定的努力级别?因为这就是大多数人在
00:06:32现实生活中使用它们的方式。而且很可能你不是在用 Max 计划,就是在用某种
00:06:37OpenAI 计划,你可能不会在 Medium 级别运行。老实说。所以我认为这
00:06:42更好地反映了普通用户每天实际使用这些模型的方式。
00:06:47对于我们的第一个提示,我们将让它在浏览器中构建一个可玩的 3D 赛车游戏。
00:06:51重要的是,我们要让提示保持模糊。我是在说,你有完全的自由去
00:06:56网上选择你认为最适合实现这一目标的栈和库。所以
00:07:02让我们继续运行,看看会发生什么。所有的三个模型都在规划模式下运行。
00:07:08再次强调,让提示变得模糊的初衷是我们想看到这些模型之间尽可能多的
00:07:12分歧。如果我给了它确切的路线图,告诉它每一步该怎么做,
00:07:18那我们就真的无法观察到这些模型是如何思考的,以及它们是如何处理
00:07:23那种更加混乱的问题。13 分钟后,Opus 4.8 成为第一个完成赛车游戏制作的。
00:07:29让我们看看它做了什么。这里我们看到的模型多边形比较少。它确实有
00:07:37一些声音效果。运行得很流畅。看起来我们也可以在这里漂移。
00:07:44好吧,草地实际上干扰了物理引擎的工作方式。总的来说,很平滑,但你
00:07:54知道,相对来说比较枯燥,对吧?这是一个非常基础的赛道。没什么特别的,没有增加
00:07:59任何 AI 之类的东西。所以我很好奇其他模型在复杂性方面的表现如何,
00:08:04如果这些模型做出来的东西都是这种平淡无奇的版本,我之后的做法是,
00:08:09我们会给它另一个提示,增加点难度。接下来是
00:08:13GLM 5.2。它比 Claude Code 多用了五分钟左右。作为参考,GPT 5.5 仍然在
00:08:20工作中,对此我不感到惊讶。它通常会慢一点。在 token 比较方面,
00:08:26Claude Code 用了大约 10 万个 Token 来完成创建,而 GLM 5.2 则用了超过 100 万个。
00:08:33Open Router 查看这次运行的情况,总花费为 1.21 美元。为了创建这个游戏,使用了 135 万
00:08:41个 token。所以立刻,我们有了一个很有趣的赛道。
00:08:48操作非常不稳定,与我们用 Claude Code 做出来的相比。我相对于
00:08:53赛道本身移动得非常快。非常快。我正飞速地穿过它。而且我们也没有
00:09:00真正区分出赛道和场地本身。在某些情况下,就像你刚才看到的那样,我几乎可以穿过
00:09:09赛道,但其实并没有完全穿过。
00:09:15而且车本身比我们在 Claude Code 里看到的细节少一些。我是说,
00:09:23它确实有一个赛道,有一个计时器。在实际游戏体验方面,有点卡顿,
00:09:30不像 Opus 那样流畅。而且又是那种低多边形的情况。所以
00:09:36我很想看看如果告诉它真正去创造一个看起来更好的东西会怎样。
00:09:40而且这个赛道本身并没有多大的意义。现在我们来看看
00:09:44GPT 5.5 创建了什么。它称之为铸造厂赛道,夜班计时赛,三圈
00:09:50通过钢结构。所以我想,这比我们在前两次看到的
00:09:54通用赛道要好。所以让我们开始吧。让我们走。好吧,我实际上不知道我应该
00:10:04去哪里。哦,我想这就是赛道。轮子看起来很有趣。它们是
00:10:10向错误的方向旋转。所以这就是一点。好吧,它确实有一些非常烦人的噪音。
00:10:21我无法忽视轮子横着转或者不管你怎么形容这种状态。
00:10:28赛道本身还行,你可以移动。是的,你可以通过赛道,它会让你减速。但并不
00:10:35清楚这是否是一条铺好的赛道,像我们用 Opus 构建的那样。其余的就跟,
00:10:41你知道,场地一样。所以图形很奇怪,说实话。考虑到
00:10:48它花费的时间是 Opus 的两倍,这很奇怪。是的,真的很奇怪。再说一遍,
00:10:55为什么轮子会这样?我不知道。它又选择了低多边形模式。
00:11:00而且它就是非常暗,毫无理由地暗。所以我感觉
00:11:06这比 GLM 5.2 更有功能性,但也没有好到哪里去。你还要考虑
00:11:12这是在 5.5 的 Extra High 设置上运行的。现在关于 5.5 的 token 使用量,
00:11:17它大致相当于我们看到的 Claude Code。它使用了 7% 的五小时窗口。所以几乎
00:11:22什么都没用。总体排名,我会把 Opus 4.8 明确排在 GLM 5.2 和 5.5 之前。我认为
00:11:28后面两者比较糟糕,但我们还要再给它们一次机会,因为
00:11:32我们要让它们重新看看代码,再进行一次处理。我们也想它们
00:11:36在图形方面做得好得多。我不想看低多边形的东西。我想让这
00:11:40看起来像个 3A 级大作,或者尽可能接近。让我们看看给它们
00:11:46第二次尝试会发生什么。Opus 和 GLM 完成了第二次处理,5.5 也在收尾。所以
00:11:50让我们先看看 Opus 4.8。立刻,我们看到了一辆好得多的车。这真的是一个巨大的
00:11:58改进。我们还看到了完全不同的光照。
00:12:04你可以看到阳光反射在地面上,一切看起来平滑得多。我是说,
00:12:10树木本身依然是低多边形的,但光照尤其是车
00:12:15是一个重大的进步。它仍然保持着那种平滑的游戏体验。我是说,除了
00:12:20路上有树的事实,但树本身也有阴影。而对于一次额外
00:12:26的处理,花费了 10 分钟和大约 5 万个 token,还不错。现在我们看 GLM。到目前为止,
00:12:32它花费了另外 120 万个左右的 token 来进行这个更新,我们的总支出达到了 1.83 美元。
00:12:38让我们开始吧。看起来它确实尝试添加了一些不同的光照。车看起来
00:12:46稍微好一点,但光照本身很奇怪。它只是非常刺眼。赛道
00:12:52本身没有太大的变化。你知道,依然到处都是草地。而且
00:12:57操作依然非常不稳定,对吧?我相对于赛道跑得非常快。这与我之前的
00:13:04问题一样,比如有些赛道我可以穿过,有些不能。所以我的意思是,
00:13:10车的图形看起来更好了,但我认为光照和眩光非常分散注意力。
00:13:15这可能比我们之前的版本有所降级。这是 5.5 的第二次处理。现在
00:13:21车看起来好一点了,但看看其他一切,这基本上是一样的。好吧,
00:13:29轮子更好。我们修复了轮子问题。它们实际上在按轮子应有的方式转动,
00:13:34但依然有烦人的噪音。而且再一次,路径和
00:13:42草地之间没有真正的区别。所以它感觉像是第一次尝试的翻版,带
00:13:49了一辆稍好的车。但是,你知道,当我们告诉它追求 3A 级美学时,我不会说它
00:13:55达标了。再一次,我感觉从大局上看,当我们看这三个模型时,GLM 和 5.5 绝对落后
00:14:02于 Opus。对于我们的下一个测试,我们将让它为我们构建一个网站。我们使用的
00:14:07提示是这个。我们想要一个 AI 驱动的智能眼镜产品的虚拟落地页。
00:14:12想想类似 Meta Ray-Bans 的东西。再一次,我们给了这些模型完全的自由,
00:14:16包括栈和设计。我们告诉它选择认为最好的,安装我们需要的东西,
00:14:20并查阅落地页的最佳实践。我们告诉它,嘿,去找
00:14:25图片和产品拍摄效果。不要仅仅依赖自己创建 HTML。而且重要的是,
00:14:31我们说,把它做成获奖网站的样子。我们不希望它看起来像 AI 垃圾。我们要真正的
00:14:35视觉层次、有意图的排版,以及合理的动态。所以是智能眼镜的
00:14:42落地页,我们想要获奖级别的样式。看看它们会做成什么样。
00:14:46GLM 使用了大约 100 万个 token,而 Opus 和 5.5
00:14:53大约使用了 10 万个左右。首先是 Opus 构建的版本,非常深的背景。
00:14:58它有一些它创建的眼镜,文本在这里被切断了,这真是不幸。
00:15:04当我们向下滚动时,这看起来也很奇怪,因为我们可以看到滚动文本
00:15:12似乎悬在它上面。但当我鼠标移动上去,你可以看到它移动,颜色发生变化,
00:15:18这有点酷。当我向下滚动时,一切都有某种滚动的加载动画。
00:15:24但总之,眼镜本身看起来还可以,用了 HTML。
00:15:31所以,你到底从中学到了什么?它甚至没有找到一些可以使用的眼镜
00:15:35图片。而且它有,你知道,这里是你如何预订以及如何购买的方式。所以
00:15:41还可以。再一次,我们没给它太多的指示,但告诉它要走那种奖项
00:15:45类风格。我不认为它达到了那个档次。现在让我们看看 GLM 给我们做的。
00:15:51我完全不知道这儿在发生什么。实际上,这几乎没加载出来。
00:15:59它展示了一些眼镜,但这网站简直就是一场灾难。它甚至没有
00:16:04真正完成。它几乎就像随意堆在一起。是的,提示并不是非常
00:16:13详细,但基于我给它的,它应该能做得比这更好。这简直太
00:16:19糟糕了。我不知道它实际想完成什么。最后,我们有 GPT 5.5。这是
00:16:25有点意思。我认为它看起来挺酷的,虽然眼镜
00:16:30在一定程度上覆盖了文本。我们有大量的死空间,你可以说这是
00:16:34一种设计选择。我们有实际上会移动的横幅,你可能记得
00:16:39Opus 版本也有横幅,但它不会移动。然后当我们向下滚动时,你还会注意到
00:16:44光标是彩色的。当我们向下滚动时,看起来它创建了一些 HTML
00:16:50类型的资产。这很奇怪,对吧?我们确实告诉它,你可以去网上寻找你所需要的
00:16:55如果你想的话。但总的来说,可能是三个当中最好的一个。但是,你知道,我不会说我对这当中的任何一个
00:17:04感到满意,这说明当你进行任何视觉设计或 UI 类型的任务时,你需要
00:17:09多么强硬的把控,即使是这些最先进的模型也在挣扎,
00:17:14我完全不知道这到底是什么鬼。这简直是一团糟。总而言之,Opus 还
00:17:21行。5.5 是当中最好的,而 GLM 简直彻底失败。就像我们在
00:17:26游戏版本中所做的那样,我们将给它们第二次机会,看看它们能否清理掉出错的地方。
00:17:30此外,我们要要求它们进行集成,再次与我们之前要求构建的游戏类似,
00:17:36增加一些 Three.js 元素,我们真的很想看到它如何进一步推动其在动态、
00:17:42图形等方面能力。新的提示如下:将你刚才构建的智能眼镜落地页
00:17:46作为沉浸式 3D 体验重新构建,使用 Three.js。
00:17:51我们想要一个实际的交互式 3D 场景。再一次,我们给了它完全的自由去
00:17:56按它认为合适的方式执行。这是我们在 Opus 4.8 上得到的结果。你可以看到现在它添加了
00:18:02一些 Three.js,这些眼镜在移动。但除此之外,我们还有一些最初的问题,
00:18:08对吧,文本被切断,它在这里被覆盖。而其余部分看起来就像是
00:18:13明显的 AI 产物。顺便说一句,第二次运行的 token 成本
00:18:21在所有模型上与第一次运行基本相当。接下来,
00:18:27我们看 GLM 5.2。这次它实际上创建了一个有意义的网站。我们有这些眼镜,
00:18:32虽然它做的眼镜看起来有点怪,比如你只有,
00:18:36没有眼镜会真正看起来像那样,而且文本也在这里被切断了。但我们有一个横幅,
00:18:42当我滚动到它上面时它会滚动,当我移动上去它会停止。我会说总的来说,
00:18:48就网站布局而言,我可能会给它比 Opus 更高的评价。现在,我不认为
00:18:55它们当中任何一个特别好。我们给了它们自由发挥的范围。但是
00:18:59我还是会把它放在这种设置之上。尽管就英雄区域本身而言,
00:19:05我确实更喜欢 Opus 4.8。现在,GPT 5.5,我认为是这里的赢家。我认为它整体上看起来
00:19:10从主观的设计角度来看更好。而且我认为它在这里添加的 Three.js 动态效果
00:19:18挺酷的。我认为在它创建的上下文中这是有意义的。就像我们有
00:19:22顶部所有的空白空间,眼镜可以在那里展示。至于
00:19:27网站的其余部分,我认为看起来还好。它依然看起来非常,所谓的,
00:19:32AI 垃圾,在某种意义上 AI 绝对创造了这个,但它看起来不差。从顶部
00:19:37到底部,我确实更喜欢 5.5 给我们的版本,超过所有其他的。当我们全面审视
00:19:42这件事,引入这些更复杂的基准测试,比如 DeepSuite,再加上
00:19:48我们今天所做的,我认为这就是我们所预期的。我不认为 GLM 在任何意义上
00:19:56表现得极其糟糕,但它绝对感觉比 GPT 5.5 或 4.8 低一个档次,或者在
00:20:03一些场景下,比如 Opus 在第一部分比所有模型都好。在
00:20:07GPT 比所有模型都好的第二部分,GLM 始终处于底部。它没有
00:20:12比任何一个差很多,但它绝不是更好。而且它也使用了无穷无尽的 token。
00:20:17所以当我们审视像这样的东西时,比如 DeepSuite 分数,
00:20:21就是说,GLM 处于底部,实际上在成本和性能方面都不如 5.5 和 4.8。
00:20:27这在逻辑上说得通。我认为这就是我们所看到的。所以
00:20:35大局上,GLM 是一个伟大的开源模型吗?绝对是。但它是否运行进了一些
00:20:41开源模型通常有的问题,即它们不够强大?是的。此外,如果你是
00:20:47开源极客,请理解这不是你可以在你的 PC 上运行的东西,对吧?它需要
00:20:52大量的硬件。我认为谈话中丢失的是我们在
00:20:57开始时讨论过的内容,那就是成本对于 GLM 5.2 来说已经是个问题了。即使这样
00:21:05还没考虑在 Anthropic Max 计划或 OpenAI
00:21:12Max 计划上得到的巨额补贴。所以你要考虑到这一点,这就没什么可争论的了。
00:21:16真的没有争议。那么,我会建议普通人使用 GLM 5.2 吗?不,
00:21:24不太会。我想如果是在进行一些低水平任务,而且你是那种纯粹在比较
00:21:29API 价格的人,也许吧。但是,你知道,我认为很难争论说
00:21:38当下一周 Sonnet 5 发布时我们又该怎么办?比如,
00:21:42你只是打算从一个跳到另一个吗?有一些话要说,关于就是
00:21:46坚守同一个模型,尤其是当我们谈论更多像企业团队级的东西时,
00:21:50那 API 成本确实会累积。因为再一次,对于普通的单一用户,他们将会
00:21:55使用其中一种受补贴的计划,而不是直接支付 API 费用,我看不出有什么理由使用
00:22:01GLM 5.2。所以这就是我今天要留给大家的内容。希望我澄清了
00:22:05关于 GLM 的整个争论,以及你所看到的所有炒作。和往常一样,让我知道你
00:22:09在评论中是怎么想的。如果你想亲身体验,一定要看看 Chase AI Plus
00:22:13和 Cloud Code 大师班,我们再见。

Key Takeaway

尽管GLM 5.2作为开源模型引起关注,但在实际的编程与设计任务测试中,GPT 5.5和Opus 4.8无论在正确率、视觉质量还是token使用效率上均明显领先。

Highlights

  • 在DeepSuite基准测试中,GPT 5.5和Opus 4.8的正确率分别为67%和59%,而GLM 5.2为44%。

  • Opus 4.8在处理复杂编程任务时,所需的token数量明显少于GLM 5.2,且在任务执行的成本和效率上表现更优。

  • GLM 5.2在浏览器构建游戏任务中,生成代码的token消耗超过100万个,而Opus 4.8仅用10万个左右即可完成。

  • GPT 5.5在落地页设计任务中,视觉层次与交互效果优于其他两款模型,且其生成的HTML资产更具可用性。

  • GLM 5.2并非可以在个人电脑上本地运行的开源模型,其参数量接近一万亿,需要强大的硬件资源支持。

Timeline

DeepSuite基准测试分析

  • DeepSuite基准测试显示GPT 5.5正确率为67%,Opus 4.8为59%,GLM 5.2为44%。
  • Opus 4.8和GPT 5.5在执行复杂任务时比GLM 5.2更高效,消耗的token更少。
  • GLM 5.2虽然开源但并未达到完全本地运行的程度,因其接近一万亿参数规模。

DeepSuite测试涵盖113个涵盖多种主流编程语言的任务。尽管GLM 5.2在某些条件下宣称具有优势,但数据表明,在面对长程任务时,顶级前沿模型在正确率和token效率上表现更好。此外,由于GLM 5.2参数规模巨大,普通用户无法直接在个人设备上运行。

3D赛车游戏开发性能测试

  • Opus 4.8最先完成赛车游戏制作,生成效果流畅且具备基本物理反馈。
  • GLM 5.2在创建游戏时使用了超过135万个token,成本为1.21美元,且物理操作不稳定。
  • GPT 5.5创建的游戏在功能上表现尚可,但在图形细节和纹理处理上存在明显缺陷。

通过构建3D赛车游戏对比三个模型的能力。Opus 4.8在首次运行中表现最稳定,而GLM 5.2的token消耗量极大,且游戏体验出现物体穿透等问题。第二次处理后,虽然各模型图形有所改进,但Opus 4.8仍保持了更高的审美和运行平滑度。

落地页UI设计对比测试

  • GPT 5.5在落地页构建中提供了最佳的视觉动态和排版控制。
  • GLM 5.2在UI任务中表现欠佳,生成的网页布局混乱且难以加载。
  • 对于普通用户而言,使用受补贴的API计划运行顶级模型比使用GLM 5.2更具性价比。

测试要求模型构建AI智能眼镜的虚拟落地页。GPT 5.5成功整合了Three.js交互动态并保持了合理的视觉层次,而GLM 5.2生成的页面几乎无法正常浏览。结论指出,考虑企业级成本和性能平衡,在当前环境下GPT 5.5或Opus 4.8是更优选择。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video