00:00:00ZAI 刚刚发布了 GLM 4.7,一年只需 29 美元,对于一个声称在 SWE 基准上达到 73% 的模型来说便宜得离谱,与 Sonnet 4.5 不相上下。
00:00:11这个时机并非巧合。他们即将上市,需要展示在西方市场的吸引力。
00:00:15他们甚至在 Reddit 上进行了直播问答,我从未见过中国 AI 实验室这样做。
00:00:19但 4.6 存在真实的问题。4.7 真的修复了吗?
00:00:23大家好,如果你是新来的,欢迎来到 AI 实验室,欢迎收看本期《拆穿》节目。在这个系列中,我们会实际测试 AI 工具和 AI 模型,剥离营销炒作,展示它们的真实能力和诚实的测试结果。
00:00:35新模型主要是通过后训练改进,而不是架构改变。
00:00:40它针对 Claude Code 进行了大量优化,ZAI 团队明确表示这是他们的首要框架。
00:00:46目前,它的表现确实超过了许多顶级模型,包括 GPT-5,特别是在编码基准上。
00:00:52在他们所有的编码计划中,还增加了这些新的 MCP 工具,这些工具并未直接集成。
00:00:58它们是独立的 MCP 服务器。目前他们列出了三个。
00:01:02要让它们都正常工作,你只需要一个 API 密钥。这就是为什么它们包含在计划中,但与模型分开。
00:01:07至于使用限制,基本上和 4.6 时期的一样。
00:01:11但如果你不知道之前的限制,我其实生成了一份报告。
00:01:15有趣的是,我首先尝试用 Gemini 3 生成它,但不知道为什么它无法给出正确的计划对比。
00:01:22我又用了 Claude,它很好地研究了这些信息。
00:01:24基本上,你需要知道的是,对于入门级计划,在 Claude Code 中你可以获得 10 到 40 次提示,而在 GLM 编码中,只需 3 美元你就能获得 120 次提示,差异巨大。
00:01:34随着等级提高,这个差距还在扩大。200 美元的计划在 Claude 的 5 小时内能给你 800 次提示,而 GLM 只需 30 美元就能给你 2400 次。
00:01:44所有这些费率在第一个月都是折扣价,之后翻倍。
00:01:48但如果你选择年度计划,会便宜得多。
00:01:50另一个重要的基准是人类最后的考试。
00:01:53对于不了解的人来说,这是一个未饱和的基准,大多数较新的模型在这上面得分仍然很低,因为它确实很难。
00:02:00为了实际测试 UI,我们有这个提示,它并不真正关注架构。
00:02:05它主要关注模型应该实现的设计逻辑,同时也提供了一些设计选项。
00:02:11然后我们可以看到,基于我提议的公司,在这个例子中是一个 AI 驱动的代码审查平台,它会产生什么。
00:02:18我们也订阅了 MAX 计划,有两种方式可以将其与 Claude Code 连接。
00:02:22在这两种情况下,你都需要更改 settings.json,但一个位于你项目的根目录,这会改变全局设置。
00:02:29如果你在项目内部做这个,那就只是改变该项目的设置。
00:02:33我们这样做是为了能与 Sonnet 4.5 进行比较。
00:02:36这是 Sonnet 4.5 想出来的。
00:02:38这个提示实际上相当不错,我们一直用它来识别这些模型中哪个能建立 UI,以及它们在这方面的创意如何。
00:02:45它是简单的原生 JavaScript,所以我们现在不看架构,只看设计。
00:02:49这是 GLM 4.7 想出来的。
00:02:52在设计方面,它相当不错,但这里确实出了个错,它没有考虑到长度,这就是为什么工件有点破裂。
00:02:59除了那个,设计是扎实的,但我根本不喜欢这些表情符号。
00:03:02Sonnet 没有使用任何表情符号,这很好,也符合设计语言。
00:03:06为了实际测试这两个,我有这个预制的 Next.js 项目,它已经初始化了需要构建可扩展的、后端就绪的 UI 的上下文。
00:03:15这部分很重要,因为当我评估 GLM 出人意料地表现更好的原因时,它将回到这一点。
00:03:22Framer Motion 和 ShadCN 组件已经预安装好,用于构建 UI。
00:03:27他们都被要求为一个类似 Netflix 的流媒体平台构建主浏览器页面。
00:03:32他们已经被指定要实际构建什么以及页面上需要什么。
00:03:35说到 GLM 模型与 Claude Code 的可用性,GLM 4.6 的一个问题是代码生成极其缓慢。
00:03:43在这里,根据我的经验,这个问题还没有解决。它仍然极其缓慢。
00:03:48但有一个改变。在 GLM 4.6 中,模型实际上没有思考,意思是它在 Claude Code 中没有思考。
00:03:54你在这里得到的详细成绩单清楚地显示了思考过程,但这在 4.6 中没有显示。
00:03:59你可以清楚地看到,在 4.7 模型中它确实会思考,所以这已经修复了。
00:04:04除此之外,还有一些怪癖你需要了解。GLM 4.7 不是那么自主的。
00:04:09我在测试中发现了这一点。如你所见,这个 GLM 文件夹已经有一个 UI 基准文件夹,需要在其中实现应用,但它选择了忽略它。
00:04:18虽然这清楚地写在了上下文中,但它继续自己创建了另一个 Next.js 应用。
00:04:22它甚至没有初始化它,只是开始写代码。有时候它的行为真的很愚蠢。
00:04:27但在我纠正它并将其引向正确的方向后,在实现方面,这是 Claude 创建的。
00:04:32再次说,作为更高级的模型,它在 UI 上相当不错。
00:04:35这是 GLM 4.7 创建的。Claude 显然创建了更好的 UI,因为在我们看来,它在设计上仍然更好。
00:04:42对于这个价格来说,那还是可以的。但在我查看代码并深入研究后,由于他们被告知这应该是后端就绪的,并且现在需要使用模拟数据,GLM 模型实际上通过将所有模拟数据放在一个文件中实现了更好的架构。
00:04:56然后当我们需要交换它时,我们只需改变那个文件,因为导入在那里被连接了,而不是 Claude 实现的方式,其中每个其他组件都有自己的导入。
00:05:05当我们实际实现后端时,我们必须逐个改变所有这些文件。
00:05:09就基本架构和代码质量而言,GLM 做得相当不错,这让我感到惊讶,因为在我的测试中 4.6 没有这么好。
00:05:17前面的计划确实没有被我必须引导它的程度和它犯的许多错误所证明,但这个计划绝对是一个巨大的飞跃。
00:05:24这些基准肯定被我所做的测试所证明。
00:05:27我还查看了代码中的一些其他小东西,GLM 4.7 确实是一个不错的模型。
00:05:32考虑到这些意外的结果,我们诚恳地建议每个人都获得每年 29 美元的计划。
00:05:38如果你已经有了 20 美元的 Claude 计划,这基本上相比之下什么都不是。
00:05:42话说回来,它仍然不是你会用于完全自主编码的模型。
00:05:46虽然 Claude 在这里确实搞砸了架构,但它已经足够好,以至于以后可以改进和改善它。
00:05:52但考虑到 GLM 仍然存在的小怪癖,我们认为完全依赖它不是个好主意。
00:05:57这就把我们带到了这个视频的结尾。
00:05:58如果你想支持这个频道并帮助我们继续制作这样的视频,你可以使用下面的超级感谢按钮。
00:06:05一如既往,感谢观看,我们下一期再见。