GLM 5.2 是我最爱的新模型...

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00目前世界上最强的开源模型并不是出自 OpenAI 公司，

00:00:04而是来自中国实验室，它就是智谱 AI 推出的 GLM 5.2。这个模型非常令人惊艳，

00:00:10在某些基准测试中能够媲美 GPT 5.5，甚至在某些类别中超越了 Claude，

00:00:15同时还是采用 MIT 许可证的开源模型。让我们来看看它。GLM 5.2 是一个总参数量 7440 亿的模型，

00:00:26激活参数为 400 亿，其规模与前代产品 GLM 5.1 实际上是一样的，

00:00:31正因如此，它在智能指标上实现的飞跃才显得如此令人印象深刻。

00:00:35来自 Artificial Analysis 的这一指标是多项基准测试的综合得分，包括推理、编码、

00:00:40科学等各个方面。GLM 5.2 的得分是 51 分，比上一版本提升了 11 分，

00:00:45以相当大的优势成为顶尖的开源模型。你可以看到 Qwen 3.7 排在后面，其次是 Minimax M3，

00:00:51再接着是 Kimi K 2.6。这实际上让它达到了与 Gemini 3.5 Flash 和 GPT 5.4 相同的水平，

00:00:57考虑到它的表现，这非常疯狂。在这一指标包含的某些基准测试（如 GPT Eval）中，

00:01:03它甚至超过了 GPT 5.5。如果专门关注编码能力，它在编码指数上依然非常出色，

00:01:09得分与 Gemini 3.1 Pro 持平，实际上还击败了 Sonnet 4.6，与

00:01:14顶尖的前沿模型相差无几。它也比我们最新的模型 Kimi K 2.7 Code 领先不少，我知道

00:01:19很多人，包括我自己，都是 Kimi 模型的忠实粉丝。我一直觉得 Kimi 模型

00:01:23用起来感觉非常好。在编码指数之外，另一个大家近期很看重的基准测试

00:01:27是 DeepSWE，看看那里，它在 Medium Effort 分项中竟然超过了 Opus 4.7，

00:01:33这真的是超级令人印象深刻。不过值得注意的是，并不是每一个模型都

00:01:38经过了测试，所用的框架实际上是 Claude Code，只要做一点 API

00:01:42的小技巧，将调用指向智谱 AI 而不是 Anthropic 即可。我喜欢的最后一组基准测试是 Design Arenas，

00:01:47事情在这里变得有趣起来。GLM 5.2 刚刚在 Design Arena 的

00:01:53单轮 HTML 网页设计排行榜上夺得总成绩第一，成为首个击败 Claude 系列模型

00:01:58（包括 Fable 5）的模型。这似乎是该模型的一个重点优化方向，因为

00:02:02Design Arena 的进一步调查显示，GLM 5.2 拥有一套强大的专家模板，可以避免常见的

00:02:08AI 设计的反模式，所以你会看到更少的紫色渐变，而且它似乎也能很好地

00:02:12配合 Chart.js、Three.js 和 Tailwind 等常用库。它确实有一个小小的权衡，

00:02:18就是速度稍微慢了一点，但稍后我会再回来讨论。它在 Design Arena 上也不是到处都是第一，

00:02:22在游戏开发、数据可视化和 3D 设计方面排第二，UI 组件方面排第四，但这

00:02:28依然非常了不起。我想在几个演示应用上试一下，第一个实际上是

00:02:32重新创作 Linear。但 GLM 5.2 的一个恼人之处，也是一个小缺点，

00:02:37是它只接受文本模态，所以你不能上传截图并说“重新创建这个”。

00:02:42所以我实际上把截图发给了 Claude，让它给我一个用于重新创建这个界面的提示词，

00:02:46然后把那个提示词给了 GLM 5.2。尽管如此，我得到的反馈结果在

00:02:51左边这里是真实的 Linear 网页，右边这里是我们用 GLM

00:02:55重新创作的版本。你可以看到它抓住了整体元素，对于截图，它实际上只是

00:02:59重现了 UI，我觉得这非常酷。当我们向下滚动时，你可以看到它总体上把握住了

00:03:04Linear 网站的感觉，我确实认为这看起来非常好，所以它确实有很强的 UI 设计

00:03:09技能。显然它并不完美，因为它无法接受截图，所以它算是根据我刚才展示给你的那个

00:03:14文本提示词来重现，但这网页看起来真的很不错。为了比较，

00:03:19左边是我用完全相同的提示词从 Claude Opus 4.8 那里得到的，右边这个是

00:03:23Kimi K 2.7 Code，同样地，它们都很好地完成了仅凭提示词来重新创作网站的工作，

00:03:29我其实觉得我最喜欢 Kimi K 2.7 的版本。它有一种整体上

00:03:34最好的感觉，在我看来它看起来最完整。接下来，我想最好是

00:03:38给这些模型一个它们可能没见过的全新网站，因为 Linear 可能在

00:03:42很多模型的训练数据里。所以我只是说：设计并构建一个精美的单页网站，

00:03:46为一个叫“North Star”的虚构产品，这是一款 AI 驱动的个人规划应用。你可以看到

00:03:50下面还有一些设计方向，比如我们需要一个 Hero 区、一些社会证明、定价

00:03:56板块等所有常规内容。在下面，设计风格是干净、高级的 SaaS 美学，

00:04:00柔和的渐变、强有力的排版、圆角卡片等等。这是我从两个模型那里得到的

00:04:06结果，我会最后告诉你们哪个是哪个。但你可以看到，当我们向下滚动时，我觉得

00:04:10看起来真的很不错，做得相当到位。这是一个非常标准的初创公司网站，有

00:04:15正常的定价板块等等。右边这个也一样。我可能稍微更喜欢这种风格一点，

00:04:20但你可以看到它采用了那种“紫色渐变 AI 风”。我觉得

00:04:25这个网站有些地方看起来更简洁、更完整，但这完全是主观意见。

00:04:29如果你有最喜欢的一个，请在下面的评论区告诉我，别忘了订阅。

00:04:33左边这个实际上是 GLM 5.2，右边这个是 Claude Opus 4.8。

00:04:39为了完整起见，这是 Kimi K 2.7 Code 给出的结果，我确实认为这一个落入了那种

00:04:43带有紫色渐变的 AI 外观和感觉，和 Claude 的那个有点像，只是

00:04:48动画更少，精细度也更低。我还想快速看下如果我不给 GLM 5.2

00:04:53设计方向会怎样，所以我只给了它提示词的开头部分。我不认为

00:04:56输出看起来很差，但我不太确定我是否同意 Design Arena 所说的它没有

00:05:01那种常见的 AI 风。这真的把紫色渐变用到极致了。接下来的测试，我

00:05:05想试试它们在单次提示下制作 Three.js 应用的效果。我简单地说：构建一个 Three.js 游戏，

00:05:10让我能驾驶 F1 赛车绕银石赛道。你可以看到这个模型开始工作了，大约花了

00:05:1510 分钟。向下滚动到底部，用了 4 万个 Token，花费 32

00:05:20美分。这就是 GLM 5.2 给我们的输出，你可以看到上面写着 Silverstone F1 和启动

00:05:25引擎。顺便说一下，刘易斯·汉密尔顿刚刚为法拉利夺冠了，这太棒了。我很高兴看到我们这有

00:05:30一台红色的法拉利，尽管我们的速度肯定比我希望的要慢，

00:05:35而且我注意到如果我按 A 键，车似乎往右转，D 键往左转，所以控制是

00:05:40反转的，但方向键却不是。它的速度肯定不是我希望法拉利

00:05:45在银石赛道上跑出的速度，但作为初次尝试来说，其实

00:05:51还算不错。看起来倒车反而更快，也许我倒着绕赛道会好点。我用

00:05:55Kimi K 2.7 Code 做了同样的测试，但并没有在单次

00:05:59提示中得到一个可运行的示例。在下面某处，我有几个控制台错误在持续循环，所以我

00:06:04不得不告诉它我有错误，后来它在第二次提示中修复了这些，你可以看到

00:06:08这一个实际上用了更多的 Token，达到了 11 万，花费 81 美分。我得到的结果

00:06:14可玩性更低，速度似乎快了一点，但转弯半径太可怕了。我

00:06:19想我从来没见过 F1 车手这样转弯的，而且我们还可以直接穿过

00:06:23几栋建筑。很酷的是它标出了银石赛道弯道的名字，但没有跑道，

00:06:27看起来只有防撞柱。最后一个是 Claude Opus 4.8，这一个可玩性稍微高一些，

00:06:33除了我认为银石赛道中间不应该长着树木之外。上次我查的时候，

00:06:37那里确实没有树。总的来说，这是一个相当不错的游戏。我们有一些相机

00:06:42控制，如果我是 F1 车手，我的车轮大概不会喜欢它们，但它处理起来

00:06:47不过这条赛道本身也是我见过最让人困惑的赛道之一

00:06:52这里有很多重叠的部分，我甚至不知道该往哪边走

00:06:57但我认为 Opus 4.8 给出了单次提示下最好的演示。最后一个我做的测试

00:07:02更为复杂，是从零构建一个个人财务管理 dashboard 的前端和后端，

00:07:07包含这里列出的一些功能。这个测试的目标是

00:07:11看它从头开始会选择什么技术栈，以及它能否在一次提示下将前端和后端连接起来

00:07:16并且不出任何错误。这是 GLM 5.2 的尝试，我不得不说，这是一个

00:07:22看起来很基础的仪表板，没什么花哨的，但我给出的提示词本身也没有太多复杂的要求。

00:07:26一切似乎都在正常运行，我已经向数据库添加了东西，

00:07:32支付了我的 Fable 5 订阅费。所有页面都可以点击，当我点击它们时，数据

00:07:37会在页面间传输。我已经测试过了，所以它在单次提示下做得非常好。

00:07:41我也一直好奇它选择了什么技术栈。这个使用了 Next.js

00:07:46应用，并且使用了 Prisma 作为数据库，我们可以在这里看到，同时还有一个开发用

00:07:50数据库。我可能更希望它使用 Drizzle 和 TanStack，但我没法

00:07:55抱怨什么，我没给它任何方向。这是 Kimi K 2.7 Code 给出的，可以看到它

00:07:59几乎是同一个应用，只是我觉得没那么精致。它们的训练数据中

00:08:04肯定有看起来完全一样的模板。同样，我不能对这个模型

00:08:09抱怨太多，但它缺少了一些按钮等额外功能，无法实现

00:08:13转账。我有添加账户和添加交易的功能，它们可以用，但我得说，

00:08:18它的整体 UI 和用户体验稍微差一点，因为顶部没有那些

00:08:23可点击的信息。它选择的默认栈我也认为稍微差一些，用了 React

00:08:28配合正常的 Vite 设置和 React Router，这我没意见。但后端它选了

00:08:33Express，查看数据库文件，它只是用了 Node SQLite 来写入，

00:08:39把 Schema 写在文本里，我觉得如果我未来要扩展的话，这可扩展性会差一点。

00:08:43如果我完全是“Vibe Coding”（凭感觉编程）且对技术栈一窍不通，我可能会选 GLM 5.2。但如果我

00:08:48使用 Kimi K 2.7 Code，我可能会给它指令去使用 Drizzle、Next.js

00:08:53和其他各种东西，所以这取决于你喜欢什么。说到主观选择，

00:08:58这是 Claude Opus 4.8 给我的结果，它确实走了完全不同的风格，

00:09:03和我们之前见到的都不一样，但这是 Claude 目前似乎比较喜欢的

00:09:07那种文字风格，这绝对是他们放入训练数据或是在引导它所偏好的，

00:09:11所有的东西运行得都很好，我觉得看起来确实非常棒。我可能会提示它

00:09:16换不同的字体和配色方案，但整体基础非常好。它

00:09:20没有为这个做单独的页面，只是做了单独的区块，所以这可能算是个缺点，但依然，

00:09:25这归结于提示词。所有功能和类似的东西都能运行。来看看

00:09:29Opus 给我的实际代码，我其实觉得 GLM 5.2 可能赢了这次测试。Opus

00:09:34做的是用了普通的 React 应用，它甚至懒得用 React Router，因为

00:09:38全在那个单页里。它也选了 Express 作为后端，但它

00:09:43根本没做任何与数据库的连接，所有数据都是内存存储，我们

00:09:48可以看到这里它给数据填充了种子，全是基于一个 JavaScript 对象运行的。这大概

00:09:53不是我以后想要扩展应用时想要的，但这归结于提示词。我认为

00:09:58这是我在过去几天测试这个模型时的关键体会。我想对于很多

00:10:02任务，你可以悄悄地用 GLM 5.2 替换 Sonnet 或 Opus 来处理简单任务，我

00:10:07大概根本注意不到。它是一个非常有能力的模型，如果你给它正确的引导，就能得到

00:10:12非常好的结果。这是首批让我感觉不用“与它搏斗”的开源模型之一，

00:10:16也是我使用时没有产生“我知道 Claude 能做得更好或更快”这种感觉的开源模型之一。

00:10:21最后要提到的是 Token、成本和

00:10:25速度。GLM 5.2 的缺点之一可能是相比起它同类中的

00:10:31其他模型，它更消耗 Token。每个任务平均用了 4.3 万个 Token，比 Kimi K 2.6、

00:10:37Minimax 和 DeepSeek 都多。但好消息是它其实并不算太贵，具体取决于

00:10:41供应商。每百万输入 Token 大约 1.4 美元，每百万输出 Token 4.4 美元。在

00:10:47Artificial Analysis 的基准测试中，它每个任务成本大约 50 美分。你可以看到这是一个

00:10:52在成本与智能指标权衡中非常好的点位。忽略这里的 Gemini 标签，其实是这个蓝色

00:10:57圆点。可以看到图表很拥挤，但这张图真正显示的是：在

00:11:02同样的智能水平上，GLM 5.2 是最便宜的模型。尽管我会说，如果你能接受智能水平稍微降低，

00:11:07我确实认为 Minimax 和特别是 DeepSeek V4 在那个价格点上也非常不错。在速度方面，

00:11:12GLM 5.2 其实一点也不差。它在智能水平相近的开源模型中表现优于大多数，

00:11:17比如 DeepSeek V4、Kimi 2.7 Code 和 Minimax。它比 Gemini 3.1 Pro 这种

00:11:24智能水平相当的前沿模型稍慢，但那是前沿模型，我也希望看到 Google

00:11:28能把 Gemini 3.5 Pro 加进这个列表，快发布吧！说到速度，Design Arena

00:11:33似乎得到了有点不一样的结果，他们认为 GLM 5.2 在用户对

00:11:38设计的偏好上得分最高，但它同时也是顶尖模型中最慢的。不过也

00:11:42值得指出的是，那些顶尖模型都是前沿模型，而不是开源的。总的来说，

00:11:47真的感觉我们正处于一个阶段，开源模型落后了大概四到六个月，所以

00:11:51也许太乐观一点说，我们明年就能看到像 Fable 级别的模型了。它们自己

00:11:56实际上也承诺在 Q1 前做到。我讨厌在任何事情上同意下面这位，但他确实

00:12:01指出了一个好观点：也许在基准测试上它们能追上 Fable，但实际的可用性确实感觉

00:12:06有点不同，而这正是 Anthropic 非常擅长的。能看到他真的

00:12:10给它们赞美是很难得的，但我确实不得不同意这种观点，即在实际使用

00:12:14这些模型时感觉还是有点不同。但我认为 GLM 5.2 是首批打破了

00:12:19那个周期给我的模型。我觉得如果你一年前告诉我，这些开源模型会

00:12:23好到这种程度，我绝对会感到震惊，而且可能不会相信。我其实

00:12:27不是什么末日生存主义者，但鉴于最近的 Fable 禁令，我只想把 GLM 5.2 下载下来并存

00:12:31在 SSD 里以备后用。在下面的评论区告诉我你对这个模型的想法，

00:12:36也告诉我你最喜欢的开源模型是什么。别忘了订阅，

00:12:40一如既往，下期视频见。

Key Takeaway

GLM 5.2作为首个打破开源模型与前沿模型性能差距的开源产品，在保持高性价比的同时，不仅在编码能力上媲美Gemini 3.1 Pro，更在网页UI设计领域展现出领先于Claude系列模型的表现。

Highlights

智谱AI推出的GLM 5.2是总参数量7440亿、激活参数40亿的开源模型，采用MIT许可证。
GLM 5.2在Artificial Analysis综合评分中达到51分，与Gemini 3.5 Flash和GPT 5.4处于同一梯队。
该模型在Design Arena单轮HTML网页设计排行榜中位列第一，超越Claude系列模型。
GLM 5.2在编码基准测试中得分与Gemini 3.1 Pro持平，且在部分测试中优于Sonnet 4.6。
GLM 5.2每百万输入Token约为1.4美元，每百万输出Token约为4.4美元，是同等智能水平下成本最低的模型。
尽管具备高性能，该模型仅支持文本模态，无法直接识别或处理截图。

Timeline

模型基本参数与性能评估

GLM 5.2拥有7440亿总参数量，激活参数为40亿。
模型在Artificial Analysis综合基准测试中得分51分，较前代提升11分。
该模型在编码指数测试中表现突出，得分与Gemini 3.1 Pro持平。

GLM 5.2展现了显著的智能指标飞跃，其规模与前代保持一致，但通过优化实现了性能突破。在多项基准测试中，它已达到与Gemini 3.5 Flash和GPT 5.4同等的水平，且在部分特定测试中超越了GPT 5.5。其采用MIT开源许可证，为开发者提供了极具竞争力的工具选项。

UI设计与网页创作表现

GLM 5.2在Design Arena单轮HTML网页设计榜单中夺得总成绩第一。
该模型能够有效避开紫色渐变等常见AI设计反模式，并兼容Chart.js等库。
模型仅支持文本输入，无法直接处理网页截图，需先将截图转换为提示词。

在网页设计领域，GLM 5.2首次击败了Claude系列模型。通过演示Linear网站重构实验发现，尽管不支持图像模态输入，但在接收文本描述后，其生成的UI布局与代码质量极高。其设计风格趋向简洁，减少了传统AI生成的冗余感，但在复杂设计任务中，速度表现稍逊于前沿模型。

编程任务与复杂应用测试

单次提示下，GLM 5.2成功从零构建了包含前端和后端的个人财务管理仪表板。
构建游戏时，该模型能生成可运行的Three.js代码，尽管存在控制逻辑偏差。
与Claude Opus 4.8相比，GLM 5.2在全栈应用构建中提供了更具扩展性的默认技术栈。

在从零构建应用的压力测试中，GLM 5.2选择了Next.js和Prisma作为技术栈，且在一次性提示下实现了数据库连接与页面数据传输。相比之下，Claude Opus在相同测试中往往更倾向于内存存储或单页应用方案。虽然模型在构建Three.js游戏时出现过控制指令反转，但其单次交付的完整度依然处于行业顶尖水平。

成本效率与行业地位

在相同智能水平下，GLM 5.2是当前市面上成本最低的模型。
模型每个任务平均消耗4.3万个Token，成本约0.5美元。
GLM 5.2被视为首个能够让用户在处理简单任务时不再感到需要切换至Claude的模型。

综合考量成本、速度与智能程度，GLM 5.2目前处于极佳的平衡点。尽管相较同类产品Token消耗稍高，但其每百万Token的价格优势使其成为高性价比的首选。随着开源生态的快速迭代，GLM 5.2缩小了与前沿模型间的差距，甚至在特定领域提供了可直接投入使用的替代方案。

Community Posts

Write about this video