这款模型竟然几乎能与 Opus 媲美?

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00MiniMax 刚刚发布了 M2.5,这款编程模型的表现几乎超越了 Claude Opus 4.6,但成本仅为其十分之一。
00:00:07它就在前几天发布,提供开放权重,拥有 2300 亿参数,专为智能体(Agent)工作流打造。
00:00:14如果你正在构建 AI 智能体、AI 助手(Co-pilot)或自动化工具,它将在一夜之间改变你的成本结构。
00:00:19更离谱的不只是它的基准测试成绩,还有它的价格。
00:00:23我们经常会发布新视频,请务必记得订阅。
00:00:31MiniMax M2.5 是一款混合专家模型(MoE),总参数达 2300 亿,但运行时只有 100 亿活跃参数。
00:00:39所以你可以获得超大模型的性能,而无需每次都为全部参数买单。
00:00:43它专为现实世界的开发工作流设计,支持 Python、Java、Rust、多文件重构、工具调用循环,甚至是 Word 和 Excel 自动化。
00:00:53它有两个版本:标准版(Standard)速度为每秒 50 个 token,闪电版(Lightning)速度为每秒 100 个 token。
00:01:01它支持多语言,并在 Hugging Face 上完全开源了权重。
00:01:05这意味着你可以微调它、在本地运行并避免平台锁定,这正是智能体开发的精彩之处。
00:01:12我用相同的提示词让 Opus 和 MiniMax 分别构建一个全栈看板(Kanban board)。
00:01:18没给太复杂的任务,只是想测试一下它们构建应用的能力并进行对比。
00:01:23具体的提示词我放在了视频描述里供大家参考,我们先来看看 Opus 的版本,它花了大约 4 分钟运行。
00:01:31结果不出所料,我不需要第二次提示,这就是它的最终产出。
00:01:37整体非常流畅,运行良好,作为初始版本,UI 看起来也很不错。
00:01:44拖放功能正常,任务编辑也符合预期。我很喜欢这个带有对应文件夹的小标签,它会随拖动而改变,是个不错的加分项。
00:01:55总的来说,Opus 做得非常出色,这也符合我之前的预期。
00:02:00接下来看 MiniMax。它花了大约 8 分钟才完成,可能是因为我把它接入了 Cursor 而不是在官网运行,但我更喜欢在 Cursor 里用。
00:02:10虽然花的时间更长,但成本只有十分之一,所以这完全可以接受。
00:02:14总的来说,只用一次提示词它就做得很好。UI 虽略逊于 Opus,但功能是一样的。
00:02:22我可以创建任务,将它们拖放到正确的列中,这些基础功能都没问题。
00:02:27唯一的遗憾是它没有像 Opus 那样在每个卡片上添加那个我很喜欢的标签。
00:02:33另一点没做好的是编辑框描述的功能。
00:02:38如果我编辑描述,你会发现这里没有任何变化。
00:02:42所以我可能需要运行第二次提示来让它修复这个问题。
00:02:48但这依然没问题,毕竟成本只有十分之一。
00:02:51现在来谈谈开发者真正关心的:M2.5 使用强化学习来进行任务拆解。
00:02:58它能更好地分解问题,从而减少 20% 的工具调用并降低 5% 的 token 浪费。
00:03:06做过智能体的人都知道,工具调用是成本最高且最容易出错的地方。
00:03:13它还能处理多文件编辑、运行-调试-修复循环等任务,在工具切换时表现非常稳健。
00:03:21在搜索基准测试中,它比之前的 M2.1 减少了 20% 的搜索轮次。
00:03:27它还支持缓存,这意味着重复查询的成本会随时间而降低。
00:03:32你可以直接将其接入 Ollama、本地集群、GitHub 自动化或 CI 流水线。
00:03:37再来看看跑分,对比一下 Opus。
00:03:40在 SWE-bench Verified 上,M2.5 的得分超过了 80%。
00:03:45Claude Opus 4.6 略高一点,同样在 80% 出头。差距非常小。
00:03:52在 Multi-SWE-bench 上,它的得分超过 51%,领先于其他开源模型。
00:03:58而在 DROID 测试中,它实际上以 0.2% 的优势击败了 Opus。具体取决于你参考哪项指标。
00:04:05关于速度,它比前代模型快了 37%。虽然刚才演示花了 8 分钟,但别忘了背景。
00:04:11Opus 4.6 平均速度稍快,但在正确配置下,两者的速度其实旗鼓相当。
00:04:18这对你意味着什么?可能有几个方面。
00:04:20更少的重试次数、更干净的 CI 运行、更低的 token 损耗以及更多被合并的 PR。
00:04:26在智能体任务表现上,它已经进入了 GPT-5 或 Gemini 3 Pro 的梯队,
00:04:32但它是开放权重的。现在让我们来聊聊最核心的改变——
00:04:37即便它运行慢一点,那就是价格。
00:04:40M2.5 标准版的价格是每百万输入 token 0.15 美元,每百万输出 1.20 美元。
00:04:47闪电版是标准版的两倍:每百万输入 0.30 美元,输出 2.40 美元。
00:04:53以每秒 100 token 的速度运行闪电版一小时,成本大约是一美元。
00:04:56如果运行标准版(就像我刚才做的那样),每小时大约只需 30 美分。
00:05:00对比一下 Claude Opus 4.6,差别巨大。
00:05:04Opus 每百万输入 5 美元,输出 25 美元。
00:05:09在单个软件工程(SWE)任务上,得益于高效率和更少的工具调用,它的成本仅为 Opus 的 10% 左右。
00:05:15目前还有免费的 API 层级。虽然我这次是付费使用的,
00:05:20但他们确实提供了免费选项。这才是经济效益真正发生转变的地方。
00:05:24那么,你应该从 Opus 4.6 换过来吗?从性能上看,它们几乎不相上下。
00:05:30虽然我用标准版时慢了一点,但两者的表现基本一致。
00:05:34任务完成时间和推理深度都非常接近。
00:05:39但从成本来看,它便宜得惊人。所以你可以自己权衡。
00:05:43正如我之前提到的,它还减少了 20% 的工具调用,避免了 token 浪费。
00:05:47灵活性方面,它是开放权重的,你可以部署在本地,也可以进行微调。
00:05:52不过 Opus 在最顶级的尖端智能表现上可能仍保有一点优势。
00:05:57毕竟它仍是我们目前使用的顶级模型。
00:06:00这件事之所以重要,是因为现在你可以规模化运行智能体,而无需承受巨大的价格负担。
00:06:05由于 M2.5 在高级智能体基准测试中有 59% 的胜率,你可以构建自主的代码库机器人、
00:06:12运行持久化的编程智能体、自动化企业工作流等等。它不完美,
00:06:17但就我们所见,它已经非常出色了。极低的价格能让你放手实验并进行全面测试。
00:06:22而且 MiniMax 的更新速度极快,以周为单位进行迭代。
00:06:27Ollama 和 GitHub 的集成也已经在快速推进中。
00:06:32MiniMax M2.5 以平民价格提供了 Opus 级别的编程性能,且具备开放权重。这种组合非常罕见。
00:06:38谁知道 2026 年还会发生什么呢?你现在可以在 MiniMax 官网免费测试,或者在 Ollama 上运行,也可以像我一样购买 API。
00:06:43它会成为开发者智能体的新一代默认模型吗?让我们拭目以待。
00:06:48下个视频再见。

Key Takeaway

MiniMax M2.5 以极低的成本和开源灵活性,提供了足以媲美顶级模型 Claude Opus 的编程与智能体处理能力。

Highlights

MiniMax 发布了拥有 2300 亿参数的 M2.5 混合专家模型(MoE),其编程性能直逼 Claude Opus 4.6。

该模型专为 AI 智能体(Agent)和自动化工作流设计,支持多文件重构及复杂工具调用。

成本优势极其显著,其 API 价格仅为 Claude Opus 的十分之一左右,极大地降低了开发门槛。

M2.5 在 SWE-bench 等核心编程基准测试中表现卓越,甚至在部分指标上小幅超越 Opus。

模型完全开源权重并支持多语言,允许开发者在本地部署或接入 Ollama 等工具以避免平台锁定。

通过强化学习优化了任务拆解能力,减少了 20% 的工具调用次数和 5% 的 token 浪费。

Timeline

M2.5 模型发布与核心优势

视频开篇介绍了 MiniMax 最新发布的 M2.5 编程模型,强调其性能在多个维度上已经超越了 Claude Opus 4.6。该模型拥有高达 2300 亿的参数量,是专门为 AI 智能体和自动化工具量身定制的。对于正在构建 AI 助手的开发者来说,这款模型的出现将会在一夜之间彻底改变原有的成本结构。主讲人指出其最具吸引力的不仅是基准测试的高分,更是其远低于同类竞价的价格体系。这标志着高性能编程模型正走向平民化和规模化应用的新阶段。

技术架构与功能特性

这一章节深入探讨了 M2.5 的混合专家模型(MoE)架构,虽然总参数量巨大,但运行时的活跃参数仅为 100 亿。这种设计确保了模型在拥有超大规模性能的同时,不会产生过高的计算开销。模型支持 Python、Java、Rust 等主流编程语言,并能处理 Word 和 Excel 自动化等现实世界的复杂开发任务。它提供标准版和闪电版两个版本,分别对应每秒 50 和 100 个 token 的生成速度。由于在 Hugging Face 上完全开源了权重,开发者可以自由进行微调或本地运行,有效避免了对特定平台的依赖。

实测对比:构建全栈看板应用

主讲人通过一个具体的全栈看板(Kanban board)构建任务,将 M2.5 与业界顶尖的 Claude Opus 进行了直观对比。Opus 展现了极高的效率,仅用 4 分钟便产出了 UI 精美、功能完备的应用,其交互细节处理得非常到位。相比之下,接入 Cursor 的 M2.5 虽然花费了约 8 分钟,且在 UI 细节和个别编辑功能上略有瑕疵,但其核心功能完全达标。考虑到 M2.5 的运行成本仅为 Opus 的十分之一,这种细微的性能差距在巨大的经济效益面前显得微不足道。测试结果证明 M2.5 完全有能力处理复杂的应用逻辑,只需简单的二次提示即可修复小瑕疵。

智能体优化与基准测试表现

本段重点分析了 M2.5 在开发者核心关切点上的优化,特别是通过强化学习实现的预测性任务拆解。该技术使模型在工具调用时更加精准,不仅减少了 20% 的调用次数,还显著降低了 token 的浪费和搜索轮次。在权威的 SWE-bench Verified 测试中,M2.5 的得分超过 80%,与 Opus 的差距极小,甚至在 DROID 测试中略胜一筹。主讲人强调,这意味着更少的重试次数、更干净的持续集成(CI)运行以及更高质量的代码合并请求(PR)。其智能体表现已稳步踏入 GPT-5 或 Gemini 3 Pro 这一梯队的门槛,展现了强大的竞争力。

成本核算与开发者决策建议

最后一部分详细拆解了模型的定价细节,标准版百万输入 token 仅需 0.15 美元,性价比极其夸张。即便运行最快的闪电版,一小时的连续运行成本也仅约一美元,而 Claude Opus 的价格则是其十倍以上。主讲人探讨了开发者是否应该切换模型,认为虽然 Opus 在顶尖智能表现上仍有微弱优势,但 M2.5 提供的开源灵活性和低成本是不可替代的。极低的价格让开发者能够毫无心理负担地进行大规模实验、构建自主代码机器人或自动化企业流程。随着 MiniMax 保持每周迭代的高频率,M2.5 很有可能成为未来开发者智能体的新一代默认模型。

Community Posts

View all posts