GLM 4.7 对编程开发来说太疯狂了...

AAI LABS
컴퓨터/소프트웨어창업/스타트업재택/원격 근무AI/미래기술

Transcript

00:00:00ZAI 刚刚发布了 GLM 4.7,一年只需 29 美元,对于一个声称在 SWE 基准上达到 73% 的模型来说便宜得离谱,与 Sonnet 4.5 不相上下。
00:00:11这个时机并非巧合。他们即将上市,需要展示在西方市场的吸引力。
00:00:15他们甚至在 Reddit 上进行了直播问答,我从未见过中国 AI 实验室这样做。
00:00:19但 4.6 存在真实的问题。4.7 真的修复了吗?
00:00:23大家好,如果你是新来的,欢迎来到 AI 实验室,欢迎收看本期《拆穿》节目。在这个系列中,我们会实际测试 AI 工具和 AI 模型,剥离营销炒作,展示它们的真实能力和诚实的测试结果。
00:00:35新模型主要是通过后训练改进,而不是架构改变。
00:00:40它针对 Claude Code 进行了大量优化,ZAI 团队明确表示这是他们的首要框架。
00:00:46目前,它的表现确实超过了许多顶级模型,包括 GPT-5,特别是在编码基准上。
00:00:52在他们所有的编码计划中,还增加了这些新的 MCP 工具,这些工具并未直接集成。
00:00:58它们是独立的 MCP 服务器。目前他们列出了三个。
00:01:02要让它们都正常工作,你只需要一个 API 密钥。这就是为什么它们包含在计划中,但与模型分开。
00:01:07至于使用限制,基本上和 4.6 时期的一样。
00:01:11但如果你不知道之前的限制,我其实生成了一份报告。
00:01:15有趣的是,我首先尝试用 Gemini 3 生成它,但不知道为什么它无法给出正确的计划对比。
00:01:22我又用了 Claude,它很好地研究了这些信息。
00:01:24基本上,你需要知道的是,对于入门级计划,在 Claude Code 中你可以获得 10 到 40 次提示,而在 GLM 编码中,只需 3 美元你就能获得 120 次提示,差异巨大。
00:01:34随着等级提高,这个差距还在扩大。200 美元的计划在 Claude 的 5 小时内能给你 800 次提示,而 GLM 只需 30 美元就能给你 2400 次。
00:01:44所有这些费率在第一个月都是折扣价,之后翻倍。
00:01:48但如果你选择年度计划,会便宜得多。
00:01:50另一个重要的基准是人类最后的考试。
00:01:53对于不了解的人来说,这是一个未饱和的基准,大多数较新的模型在这上面得分仍然很低,因为它确实很难。
00:02:00为了实际测试 UI,我们有这个提示,它并不真正关注架构。
00:02:05它主要关注模型应该实现的设计逻辑,同时也提供了一些设计选项。
00:02:11然后我们可以看到,基于我提议的公司,在这个例子中是一个 AI 驱动的代码审查平台,它会产生什么。
00:02:18我们也订阅了 MAX 计划,有两种方式可以将其与 Claude Code 连接。
00:02:22在这两种情况下,你都需要更改 settings.json,但一个位于你项目的根目录,这会改变全局设置。
00:02:29如果你在项目内部做这个,那就只是改变该项目的设置。
00:02:33我们这样做是为了能与 Sonnet 4.5 进行比较。
00:02:36这是 Sonnet 4.5 想出来的。
00:02:38这个提示实际上相当不错,我们一直用它来识别这些模型中哪个能建立 UI,以及它们在这方面的创意如何。
00:02:45它是简单的原生 JavaScript,所以我们现在不看架构,只看设计。
00:02:49这是 GLM 4.7 想出来的。
00:02:52在设计方面,它相当不错,但这里确实出了个错,它没有考虑到长度,这就是为什么工件有点破裂。
00:02:59除了那个,设计是扎实的,但我根本不喜欢这些表情符号。
00:03:02Sonnet 没有使用任何表情符号,这很好,也符合设计语言。
00:03:06为了实际测试这两个,我有这个预制的 Next.js 项目,它已经初始化了需要构建可扩展的、后端就绪的 UI 的上下文。
00:03:15这部分很重要,因为当我评估 GLM 出人意料地表现更好的原因时,它将回到这一点。
00:03:22Framer Motion 和 ShadCN 组件已经预安装好,用于构建 UI。
00:03:27他们都被要求为一个类似 Netflix 的流媒体平台构建主浏览器页面。
00:03:32他们已经被指定要实际构建什么以及页面上需要什么。
00:03:35说到 GLM 模型与 Claude Code 的可用性,GLM 4.6 的一个问题是代码生成极其缓慢。
00:03:43在这里,根据我的经验,这个问题还没有解决。它仍然极其缓慢。
00:03:48但有一个改变。在 GLM 4.6 中,模型实际上没有思考,意思是它在 Claude Code 中没有思考。
00:03:54你在这里得到的详细成绩单清楚地显示了思考过程,但这在 4.6 中没有显示。
00:03:59你可以清楚地看到,在 4.7 模型中它确实会思考,所以这已经修复了。
00:04:04除此之外,还有一些怪癖你需要了解。GLM 4.7 不是那么自主的。
00:04:09我在测试中发现了这一点。如你所见,这个 GLM 文件夹已经有一个 UI 基准文件夹,需要在其中实现应用,但它选择了忽略它。
00:04:18虽然这清楚地写在了上下文中,但它继续自己创建了另一个 Next.js 应用。
00:04:22它甚至没有初始化它,只是开始写代码。有时候它的行为真的很愚蠢。
00:04:27但在我纠正它并将其引向正确的方向后,在实现方面,这是 Claude 创建的。
00:04:32再次说,作为更高级的模型,它在 UI 上相当不错。
00:04:35这是 GLM 4.7 创建的。Claude 显然创建了更好的 UI,因为在我们看来,它在设计上仍然更好。
00:04:42对于这个价格来说,那还是可以的。但在我查看代码并深入研究后,由于他们被告知这应该是后端就绪的,并且现在需要使用模拟数据,GLM 模型实际上通过将所有模拟数据放在一个文件中实现了更好的架构。
00:04:56然后当我们需要交换它时,我们只需改变那个文件,因为导入在那里被连接了,而不是 Claude 实现的方式,其中每个其他组件都有自己的导入。
00:05:05当我们实际实现后端时,我们必须逐个改变所有这些文件。
00:05:09就基本架构和代码质量而言,GLM 做得相当不错,这让我感到惊讶,因为在我的测试中 4.6 没有这么好。
00:05:17前面的计划确实没有被我必须引导它的程度和它犯的许多错误所证明,但这个计划绝对是一个巨大的飞跃。
00:05:24这些基准肯定被我所做的测试所证明。
00:05:27我还查看了代码中的一些其他小东西,GLM 4.7 确实是一个不错的模型。
00:05:32考虑到这些意外的结果,我们诚恳地建议每个人都获得每年 29 美元的计划。
00:05:38如果你已经有了 20 美元的 Claude 计划,这基本上相比之下什么都不是。
00:05:42话说回来,它仍然不是你会用于完全自主编码的模型。
00:05:46虽然 Claude 在这里确实搞砸了架构,但它已经足够好,以至于以后可以改进和改善它。
00:05:52但考虑到 GLM 仍然存在的小怪癖,我们认为完全依赖它不是个好主意。
00:05:57这就把我们带到了这个视频的结尾。
00:05:58如果你想支持这个频道并帮助我们继续制作这样的视频,你可以使用下面的超级感谢按钮。
00:06:05一如既往,感谢观看,我们下一期再见。

Key Takeaway

GLM 4.7通过显著的性能改进和极具竞争力的定价(年仅需29美元)成为编程开发的强有力选择,虽然在完全自主编码方面仍有局限。

Highlights

GLM 4.7年费仅需29美元,性能与Sonnet 4.5相当,SWE基准达到73%

新模型通过后训练改进实现功能提升,针对Claude Code进行了大量优化

GLM 4.7在代码生成中加入思考过程,修复了4.6版本的缺陷,但速度仍然较慢

相比Claude的设计,GLM 4.7在架构设计上更加合理,将模拟数据集中管理便于后续修改

GLM 4.7在编码计划中提供MCP工具,入门级3美元获得120次提示,远超Claude的10-40次

虽然GLM 4.7有显著进步,但仍存在自主性不足和偶发性错误等问题,不适合完全自主编码

Timeline

GLM 4.7发布背景与市场定位

视频开头介绍了ZAI刚刚发布的GLM 4.7模型,年费仅需29美元,对于声称在SWE基准上达到73%的模型来说价格极其便宜。视频制作者指出这个时机非巧合,因为ZAI即将上市需要展示在西方市场的吸引力,甚至在Reddit上进行了直播问答,这是中国AI实验室少见的做法。视频主要目的是通过实际测试来验证GLM 4.7是否真正解决了4.6版本存在的问题,而不是仅依赖营销宣传。这个话题对开发者和企业用户具有重要意义,因为涉及到成本效益和模型可靠性的选择。

GLM 4.7的技术改进与功能特点

GLM 4.7主要通过后训练改进而非架构变化来提升性能,针对Claude Code框架进行了大量优化。新模型新增了MCP工具支持,包含三个独立的MCP服务器,仅需一个API密钥即可使用。相比之前版本,定价计划有重大调整:入门级3美元可获得120次提示,而Claude Code同级别仅提供10-40次提示。高级计划差异更大,GLM的30美元年费可提供2400次提示,而Claude的200美元计划仅能在5小时内提供800次提示。所有费率首月为折扣价,之后翻倍,但年度计划会更便宜。这些指标表明GLM 4.7在成本效益上对开发者具有显著优势。

人类最后考试基准与UI设计测试

视频介绍了人类最后考试(Human Eval)作为重要的性能基准,这是一个未饱和的基准测试,大多数较新模型得分仍然很低。为了实际测试模型,制作者使用了一个关于AI驱动代码审查平台设计的提示词,重点考察模型的设计逻辑实现能力。将GLM 4.7与Sonnet 4.5在UI生成上进行了对比测试。Sonnet 4.5生成的设计更加简洁,不使用任何表情符号,符合专业的设计语言。GLM 4.7的设计整体不错但存在缺陷,没有考虑长度限制导致部分代码破损,并使用了过多表情符号。这个测试环节展示了两个模型在创意设计和实现细节上的差异。

Next.js项目实际编码对比测试

为了进行深入的编码能力测试,制作者使用了一个预制的Next.js项目,已经初始化了必要的上下文和依赖库(Framer Motion和ShadCN组件)。两个模型都被要求为Netflix风格的流媒体平台构建主浏览器页面。GLM 4.6存在的关键问题是代码生成极其缓慢且模型不会进行思考。在GLM 4.7中,虽然速度问题依然存在,但模型现在能够显示清晰的思考过程,这是一个重要改进。制作者还发现GLM 4.7存在自主性不足的问题:当项目中已有明确的UI目录结构指示时,模型仍然选择忽略这些指导,自行创建新的Next.js应用。这种行为表明模型在理解上下文和遵循指导方面仍有不足。

架构设计与代码质量对比

在实际的代码实现方面,Claude生成的UI设计更加精美,符合高级模型的预期表现。然而在架构设计上,GLM 4.7意外地表现更好:它将所有模拟数据集中在一个文件中管理,当需要改变数据来源时只需修改这一个文件。相比之下,Claude的实现方式是让每个组件都有各自的导入,这意味着实现后端时必须逐个修改所有文件。GLM 4.7虽然在测试过程中需要多次人工纠正和引导,但整体架构和代码质量相比4.6版本有巨大飞跃。制作者表示这个结果令人惊讶,因为4.6版本没有这么好的表现,GLM 4.7的改进程度绝对显著,证实了基准测试的准确性。

总体评价与使用建议

综合全面测试结果,制作者诚恳建议每个人都考虑购买GLM 4.7年费29美元的计划,相比20美元的Claude计划,性能提升与成本差异非常划算。然而,制作者也明确指出GLM 4.7仍然不是用于完全自主编码的理想选择,因为它存在需要人工引导和纠正的问题。虽然Claude在这次测试中架构设计有缺陷,但其设计质量足够好以至于可以在后续改进。考虑到GLM 4.7仍存在的自主性问题和偶发性错误,完全依赖它进行编码不是明智之举。综合考虑成本、性能和可靠性,GLM 4.7是一个值得尝试的工具,但开发者应该保持清醒认识,做好人工审查和纠正的准备。

Community Posts

View all posts