Transcript
00:00:00目前世界上最强的开源模型并不是出自 OpenAI 公司,
00:00:04而是来自中国实验室,它就是智谱 AI 推出的 GLM 5.2。这个模型非常令人惊艳,
00:00:10在某些基准测试中能够媲美 GPT 5.5,甚至在某些类别中超越了 Claude,
00:00:15同时还是采用 MIT 许可证的开源模型。让我们来看看它。GLM 5.2 是一个总参数量 7440 亿的模型,
00:00:26激活参数为 400 亿,其规模与前代产品 GLM 5.1 实际上是一样的,
00:00:31正因如此,它在智能指标上实现的飞跃才显得如此令人印象深刻。
00:00:35来自 Artificial Analysis 的这一指标是多项基准测试的综合得分,包括推理、编码、
00:00:40科学等各个方面。GLM 5.2 的得分是 51 分,比上一版本提升了 11 分,
00:00:45以相当大的优势成为顶尖的开源模型。你可以看到 Qwen 3.7 排在后面,其次是 Minimax M3,
00:00:51再接着是 Kimi K 2.6。这实际上让它达到了与 Gemini 3.5 Flash 和 GPT 5.4 相同的水平,
00:00:57考虑到它的表现,这非常疯狂。在这一指标包含的某些基准测试(如 GPT Eval)中,
00:01:03它甚至超过了 GPT 5.5。如果专门关注编码能力,它在编码指数上依然非常出色,
00:01:09得分与 Gemini 3.1 Pro 持平,实际上还击败了 Sonnet 4.6,与
00:01:14顶尖的前沿模型相差无几。它也比我们最新的模型 Kimi K 2.7 Code 领先不少,我知道
00:01:19很多人,包括我自己,都是 Kimi 模型的忠实粉丝。我一直觉得 Kimi 模型
00:01:23用起来感觉非常好。在编码指数之外,另一个大家近期很看重的基准测试
00:01:27是 DeepSWE,看看那里,它在 Medium Effort 分项中竟然超过了 Opus 4.7,
00:01:33这真的是超级令人印象深刻。不过值得注意的是,并不是每一个模型都
00:01:38经过了测试,所用的框架实际上是 Claude Code,只要做一点 API
00:01:42的小技巧,将调用指向智谱 AI 而不是 Anthropic 即可。我喜欢的最后一组基准测试是 Design Arenas,
00:01:47事情在这里变得有趣起来。GLM 5.2 刚刚在 Design Arena 的
00:01:53单轮 HTML 网页设计排行榜上夺得总成绩第一,成为首个击败 Claude 系列模型
00:01:58(包括 Fable 5)的模型。这似乎是该模型的一个重点优化方向,因为
00:02:02Design Arena 的进一步调查显示,GLM 5.2 拥有一套强大的专家模板,可以避免常见的
00:02:08AI 设计的反模式,所以你会看到更少的紫色渐变,而且它似乎也能很好地
00:02:12配合 Chart.js、Three.js 和 Tailwind 等常用库。它确实有一个小小的权衡,
00:02:18就是速度稍微慢了一点,但稍后我会再回来讨论。它在 Design Arena 上也不是到处都是第一,
00:02:22在游戏开发、数据可视化和 3D 设计方面排第二,UI 组件方面排第四,但这
00:02:28依然非常了不起。我想在几个演示应用上试一下,第一个实际上是
00:02:32重新创作 Linear。但 GLM 5.2 的一个恼人之处,也是一个小缺点,
00:02:37是它只接受文本模态,所以你不能上传截图并说“重新创建这个”。
00:02:42所以我实际上把截图发给了 Claude,让它给我一个用于重新创建这个界面的提示词,
00:02:46然后把那个提示词给了 GLM 5.2。尽管如此,我得到的反馈结果在
00:02:51左边这里是真实的 Linear 网页,右边这里是我们用 GLM
00:02:55重新创作的版本。你可以看到它抓住了整体元素,对于截图,它实际上只是
00:02:59重现了 UI,我觉得这非常酷。当我们向下滚动时,你可以看到它总体上把握住了
00:03:04Linear 网站的感觉,我确实认为这看起来非常好,所以它确实有很强的 UI 设计
00:03:09技能。显然它并不完美,因为它无法接受截图,所以它算是根据我刚才展示给你的那个
00:03:14文本提示词来重现,但这网页看起来真的很不错。为了比较,
00:03:19左边是我用完全相同的提示词从 Claude Opus 4.8 那里得到的,右边这个是
00:03:23Kimi K 2.7 Code,同样地,它们都很好地完成了仅凭提示词来重新创作网站的工作,
00:03:29我其实觉得我最喜欢 Kimi K 2.7 的版本。它有一种整体上
00:03:34最好的感觉,在我看来它看起来最完整。接下来,我想最好是
00:03:38给这些模型一个它们可能没见过的全新网站,因为 Linear 可能在
00:03:42很多模型的训练数据里。所以我只是说:设计并构建一个精美的单页网站,
00:03:46为一个叫“North Star”的虚构产品,这是一款 AI 驱动的个人规划应用。你可以看到
00:03:50下面还有一些设计方向,比如我们需要一个 Hero 区、一些社会证明、定价
00:03:56板块等所有常规内容。在下面,设计风格是干净、高级的 SaaS 美学,
00:04:00柔和的渐变、强有力的排版、圆角卡片等等。这是我从两个模型那里得到的
00:04:06结果,我会最后告诉你们哪个是哪个。但你可以看到,当我们向下滚动时,我觉得
00:04:10看起来真的很不错,做得相当到位。这是一个非常标准的初创公司网站,有
00:04:15正常的定价板块等等。右边这个也一样。我可能稍微更喜欢这种风格一点,
00:04:20但你可以看到它采用了那种“紫色渐变 AI 风”。我觉得
00:04:25这个网站有些地方看起来更简洁、更完整,但这完全是主观意见。
00:04:29如果你有最喜欢的一个,请在下面的评论区告诉我,别忘了订阅。
00:04:33左边这个实际上是 GLM 5.2,右边这个是 Claude Opus 4.8。
00:04:39为了完整起见,这是 Kimi K 2.7 Code 给出的结果,我确实认为这一个落入了那种
00:04:43带有紫色渐变的 AI 外观和感觉,和 Claude 的那个有点像,只是
00:04:48动画更少,精细度也更低。我还想快速看下如果我不给 GLM 5.2
00:04:53设计方向会怎样,所以我只给了它提示词的开头部分。我不认为
00:04:56输出看起来很差,但我不太确定我是否同意 Design Arena 所说的它没有
00:05:01那种常见的 AI 风。这真的把紫色渐变用到极致了。接下来的测试,我
00:05:05想试试它们在单次提示下制作 Three.js 应用的效果。我简单地说:构建一个 Three.js 游戏,
00:05:10让我能驾驶 F1 赛车绕银石赛道。你可以看到这个模型开始工作了,大约花了
00:05:1510 分钟。向下滚动到底部,用了 4 万个 Token,花费 32
00:05:20美分。这就是 GLM 5.2 给我们的输出,你可以看到上面写着 Silverstone F1 和启动
00:05:25引擎。顺便说一下,刘易斯·汉密尔顿刚刚为法拉利夺冠了,这太棒了。我很高兴看到我们这有
00:05:30一台红色的法拉利,尽管我们的速度肯定比我希望的要慢,
00:05:35而且我注意到如果我按 A 键,车似乎往右转,D 键往左转,所以控制是
00:05:40反转的,但方向键却不是。它的速度肯定不是我希望法拉利
00:05:45在银石赛道上跑出的速度,但作为初次尝试来说,其实
00:05:51还算不错。看起来倒车反而更快,也许我倒着绕赛道会好点。我用
00:05:55Kimi K 2.7 Code 做了同样的测试,但并没有在单次
00:05:59提示中得到一个可运行的示例。在下面某处,我有几个控制台错误在持续循环,所以我
00:06:04不得不告诉它我有错误,后来它在第二次提示中修复了这些,你可以看到
00:06:08这一个实际上用了更多的 Token,达到了 11 万,花费 81 美分。我得到的结果
00:06:14可玩性更低,速度似乎快了一点,但转弯半径太可怕了。我
00:06:19想我从来没见过 F1 车手这样转弯的,而且我们还可以直接穿过
00:06:23几栋建筑。很酷的是它标出了银石赛道弯道的名字,但没有跑道,
00:06:27看起来只有防撞柱。最后一个是 Claude Opus 4.8,这一个可玩性稍微高一些,
00:06:33除了我认为银石赛道中间不应该长着树木之外。上次我查的时候,
00:06:37那里确实没有树。总的来说,这是一个相当不错的游戏。我们有一些相机
00:06:42控制,如果我是 F1 车手,我的车轮大概不会喜欢它们,但它处理起来
00:06:47不过这条赛道本身也是我见过最让人困惑的赛道之一
00:06:52这里有很多重叠的部分,我甚至不知道该往哪边走
00:06:57但我认为 Opus 4.8 给出了单次提示下最好的演示。最后一个我做的测试
00:07:02更为复杂,是从零构建一个个人财务管理 dashboard 的前端和后端,
00:07:07包含这里列出的一些功能。这个测试的目标是
00:07:11看它从头开始会选择什么技术栈,以及它能否在一次提示下将前端和后端连接起来
00:07:16并且不出任何错误。这是 GLM 5.2 的尝试,我不得不说,这是一个
00:07:22看起来很基础的仪表板,没什么花哨的,但我给出的提示词本身也没有太多复杂的要求。
00:07:26一切似乎都在正常运行,我已经向数据库添加了东西,
00:07:32支付了我的 Fable 5 订阅费。所有页面都可以点击,当我点击它们时,数据
00:07:37会在页面间传输。我已经测试过了,所以它在单次提示下做得非常好。
00:07:41我也一直好奇它选择了什么技术栈。这个使用了 Next.js
00:07:46应用,并且使用了 Prisma 作为数据库,我们可以在这里看到,同时还有一个开发用
00:07:50数据库。我可能更希望它使用 Drizzle 和 TanStack,但我没法
00:07:55抱怨什么,我没给它任何方向。这是 Kimi K 2.7 Code 给出的,可以看到它
00:07:59几乎是同一个应用,只是我觉得没那么精致。它们的训练数据中
00:08:04肯定有看起来完全一样的模板。同样,我不能对这个模型
00:08:09抱怨太多,但它缺少了一些按钮等额外功能,无法实现
00:08:13转账。我有添加账户和添加交易的功能,它们可以用,但我得说,
00:08:18它的整体 UI 和用户体验稍微差一点,因为顶部没有那些
00:08:23可点击的信息。它选择的默认栈我也认为稍微差一些,用了 React
00:08:28配合正常的 Vite 设置和 React Router,这我没意见。但后端它选了
00:08:33Express,查看数据库文件,它只是用了 Node SQLite 来写入,
00:08:39把 Schema 写在文本里,我觉得如果我未来要扩展的话,这可扩展性会差一点。
00:08:43如果我完全是“Vibe Coding”(凭感觉编程)且对技术栈一窍不通,我可能会选 GLM 5.2。但如果我
00:08:48使用 Kimi K 2.7 Code,我可能会给它指令去使用 Drizzle、Next.js
00:08:53和其他各种东西,所以这取决于你喜欢什么。说到主观选择,
00:08:58这是 Claude Opus 4.8 给我的结果,它确实走了完全不同的风格,
00:09:03和我们之前见到的都不一样,但这是 Claude 目前似乎比较喜欢的
00:09:07那种文字风格,这绝对是他们放入训练数据或是在引导它所偏好的,
00:09:11所有的东西运行得都很好,我觉得看起来确实非常棒。我可能会提示它
00:09:16换不同的字体和配色方案,但整体基础非常好。它
00:09:20没有为这个做单独的页面,只是做了单独的区块,所以这可能算是个缺点,但依然,
00:09:25这归结于提示词。所有功能和类似的东西都能运行。来看看
00:09:29Opus 给我的实际代码,我其实觉得 GLM 5.2 可能赢了这次测试。Opus
00:09:34做的是用了普通的 React 应用,它甚至懒得用 React Router,因为
00:09:38全在那个单页里。它也选了 Express 作为后端,但它
00:09:43根本没做任何与数据库的连接,所有数据都是内存存储,我们
00:09:48可以看到这里它给数据填充了种子,全是基于一个 JavaScript 对象运行的。这大概
00:09:53不是我以后想要扩展应用时想要的,但这归结于提示词。我认为
00:09:58这是我在过去几天测试这个模型时的关键体会。我想对于很多
00:10:02任务,你可以悄悄地用 GLM 5.2 替换 Sonnet 或 Opus 来处理简单任务,我
00:10:07大概根本注意不到。它是一个非常有能力的模型,如果你给它正确的引导,就能得到
00:10:12非常好的结果。这是首批让我感觉不用“与它搏斗”的开源模型之一,
00:10:16也是我使用时没有产生“我知道 Claude 能做得更好或更快”这种感觉的开源模型之一。
00:10:21最后要提到的是 Token、成本和
00:10:25速度。GLM 5.2 的缺点之一可能是相比起它同类中的
00:10:31其他模型,它更消耗 Token。每个任务平均用了 4.3 万个 Token,比 Kimi K 2.6、
00:10:37Minimax 和 DeepSeek 都多。但好消息是它其实并不算太贵,具体取决于
00:10:41供应商。每百万输入 Token 大约 1.4 美元,每百万输出 Token 4.4 美元。在
00:10:47Artificial Analysis 的基准测试中,它每个任务成本大约 50 美分。你可以看到这是一个
00:10:52在成本与智能指标权衡中非常好的点位。忽略这里的 Gemini 标签,其实是这个蓝色
00:10:57圆点。可以看到图表很拥挤,但这张图真正显示的是:在
00:11:02同样的智能水平上,GLM 5.2 是最便宜的模型。尽管我会说,如果你能接受智能水平稍微降低,
00:11:07我确实认为 Minimax 和特别是 DeepSeek V4 在那个价格点上也非常不错。在速度方面,
00:11:12GLM 5.2 其实一点也不差。它在智能水平相近的开源模型中表现优于大多数,
00:11:17比如 DeepSeek V4、Kimi 2.7 Code 和 Minimax。它比 Gemini 3.1 Pro 这种
00:11:24智能水平相当的前沿模型稍慢,但那是前沿模型,我也希望看到 Google
00:11:28能把 Gemini 3.5 Pro 加进这个列表,快发布吧!说到速度,Design Arena
00:11:33似乎得到了有点不一样的结果,他们认为 GLM 5.2 在用户对
00:11:38设计的偏好上得分最高,但它同时也是顶尖模型中最慢的。不过也
00:11:42值得指出的是,那些顶尖模型都是前沿模型,而不是开源的。总的来说,
00:11:47真的感觉我们正处于一个阶段,开源模型落后了大概四到六个月,所以
00:11:51也许太乐观一点说,我们明年就能看到像 Fable 级别的模型了。它们自己
00:11:56实际上也承诺在 Q1 前做到。我讨厌在任何事情上同意下面这位,但他确实
00:12:01指出了一个好观点:也许在基准测试上它们能追上 Fable,但实际的可用性确实感觉
00:12:06有点不同,而这正是 Anthropic 非常擅长的。能看到他真的
00:12:10给它们赞美是很难得的,但我确实不得不同意这种观点,即在实际使用
00:12:14这些模型时感觉还是有点不同。但我认为 GLM 5.2 是首批打破了
00:12:19那个周期给我的模型。我觉得如果你一年前告诉我,这些开源模型会
00:12:23好到这种程度,我绝对会感到震惊,而且可能不会相信。我其实
00:12:27不是什么末日生存主义者,但鉴于最近的 Fable 禁令,我只想把 GLM 5.2 下载下来并存
00:12:31在 SSD 里以备后用。在下面的评论区告诉我你对这个模型的想法,
00:12:36也告诉我你最喜欢的开源模型是什么。别忘了订阅,
00:12:40一如既往,下期视频见。