这款模型竟然几乎能与 Opus 媲美？

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00MiniMax 刚刚发布了 M2.5，这款编程模型的表现几乎超越了 Claude Opus 4.6，但成本仅为其十分之一。

00:00:07它就在前几天发布，提供开放权重，拥有 2300 亿参数，专为智能体（Agent）工作流打造。

00:00:14如果你正在构建 AI 智能体、AI 助手（Co-pilot）或自动化工具，它将在一夜之间改变你的成本结构。

00:00:19更离谱的不只是它的基准测试成绩，还有它的价格。

00:00:23我们经常会发布新视频，请务必记得订阅。

00:00:31MiniMax M2.5 是一款混合专家模型（MoE），总参数达 2300 亿，但运行时只有 100 亿活跃参数。

00:00:39所以你可以获得超大模型的性能，而无需每次都为全部参数买单。

00:00:43它专为现实世界的开发工作流设计，支持 Python、Java、Rust、多文件重构、工具调用循环，甚至是 Word 和 Excel 自动化。

00:00:53它有两个版本：标准版（Standard）速度为每秒 50 个 token，闪电版（Lightning）速度为每秒 100 个 token。

00:01:01它支持多语言，并在 Hugging Face 上完全开源了权重。

00:01:05这意味着你可以微调它、在本地运行并避免平台锁定，这正是智能体开发的精彩之处。

00:01:12我用相同的提示词让 Opus 和 MiniMax 分别构建一个全栈看板（Kanban board）。

00:01:18没给太复杂的任务，只是想测试一下它们构建应用的能力并进行对比。

00:01:23具体的提示词我放在了视频描述里供大家参考，我们先来看看 Opus 的版本，它花了大约 4 分钟运行。

00:01:31结果不出所料，我不需要第二次提示，这就是它的最终产出。

00:01:37整体非常流畅，运行良好，作为初始版本，UI 看起来也很不错。

00:01:44拖放功能正常，任务编辑也符合预期。我很喜欢这个带有对应文件夹的小标签，它会随拖动而改变，是个不错的加分项。

00:01:55总的来说，Opus 做得非常出色，这也符合我之前的预期。

00:02:00接下来看 MiniMax。它花了大约 8 分钟才完成，可能是因为我把它接入了 Cursor 而不是在官网运行，但我更喜欢在 Cursor 里用。

00:02:10虽然花的时间更长，但成本只有十分之一，所以这完全可以接受。

00:02:14总的来说，只用一次提示词它就做得很好。UI 虽略逊于 Opus，但功能是一样的。

00:02:22我可以创建任务，将它们拖放到正确的列中，这些基础功能都没问题。

00:02:27唯一的遗憾是它没有像 Opus 那样在每个卡片上添加那个我很喜欢的标签。

00:02:33另一点没做好的是编辑框描述的功能。

00:02:38如果我编辑描述，你会发现这里没有任何变化。

00:02:42所以我可能需要运行第二次提示来让它修复这个问题。

00:02:48但这依然没问题，毕竟成本只有十分之一。

00:02:51现在来谈谈开发者真正关心的：M2.5 使用强化学习来进行任务拆解。

00:02:58它能更好地分解问题，从而减少 20% 的工具调用并降低 5% 的 token 浪费。

00:03:06做过智能体的人都知道，工具调用是成本最高且最容易出错的地方。

00:03:13它还能处理多文件编辑、运行-调试-修复循环等任务，在工具切换时表现非常稳健。

00:03:21在搜索基准测试中，它比之前的 M2.1 减少了 20% 的搜索轮次。

00:03:27它还支持缓存，这意味着重复查询的成本会随时间而降低。

00:03:32你可以直接将其接入 Ollama、本地集群、GitHub 自动化或 CI 流水线。

00:03:37再来看看跑分，对比一下 Opus。

00:03:40在 SWE-bench Verified 上，M2.5 的得分超过了 80%。

00:03:45Claude Opus 4.6 略高一点，同样在 80% 出头。差距非常小。

00:03:52在 Multi-SWE-bench 上，它的得分超过 51%，领先于其他开源模型。

00:03:58而在 DROID 测试中，它实际上以 0.2% 的优势击败了 Opus。具体取决于你参考哪项指标。

00:04:05关于速度，它比前代模型快了 37%。虽然刚才演示花了 8 分钟，但别忘了背景。

00:04:11Opus 4.6 平均速度稍快，但在正确配置下，两者的速度其实旗鼓相当。

00:04:18这对你意味着什么？可能有几个方面。

00:04:20更少的重试次数、更干净的 CI 运行、更低的 token 损耗以及更多被合并的 PR。

00:04:26在智能体任务表现上，它已经进入了 GPT-5 或 Gemini 3 Pro 的梯队，

00:04:32但它是开放权重的。现在让我们来聊聊最核心的改变——

00:04:37即便它运行慢一点，那就是价格。

00:04:40M2.5 标准版的价格是每百万输入 token 0.15 美元，每百万输出 1.20 美元。

00:04:47闪电版是标准版的两倍：每百万输入 0.30 美元，输出 2.40 美元。

00:04:53以每秒 100 token 的速度运行闪电版一小时，成本大约是一美元。

00:04:56如果运行标准版（就像我刚才做的那样），每小时大约只需 30 美分。

00:05:00对比一下 Claude Opus 4.6，差别巨大。

00:05:04Opus 每百万输入 5 美元，输出 25 美元。

00:05:09在单个软件工程（SWE）任务上，得益于高效率和更少的工具调用，它的成本仅为 Opus 的 10% 左右。

00:05:15目前还有免费的 API 层级。虽然我这次是付费使用的，

00:05:20但他们确实提供了免费选项。这才是经济效益真正发生转变的地方。

00:05:24那么，你应该从 Opus 4.6 换过来吗？从性能上看，它们几乎不相上下。

00:05:30虽然我用标准版时慢了一点，但两者的表现基本一致。

00:05:34任务完成时间和推理深度都非常接近。

00:05:39但从成本来看，它便宜得惊人。所以你可以自己权衡。

00:05:43正如我之前提到的，它还减少了 20% 的工具调用，避免了 token 浪费。

00:05:47灵活性方面，它是开放权重的，你可以部署在本地，也可以进行微调。

00:05:52不过 Opus 在最顶级的尖端智能表现上可能仍保有一点优势。

00:05:57毕竟它仍是我们目前使用的顶级模型。

00:06:00这件事之所以重要，是因为现在你可以规模化运行智能体，而无需承受巨大的价格负担。

00:06:05由于 M2.5 在高级智能体基准测试中有 59% 的胜率，你可以构建自主的代码库机器人、

00:06:12运行持久化的编程智能体、自动化企业工作流等等。它不完美，

00:06:17但就我们所见，它已经非常出色了。极低的价格能让你放手实验并进行全面测试。

00:06:22而且 MiniMax 的更新速度极快，以周为单位进行迭代。

00:06:27Ollama 和 GitHub 的集成也已经在快速推进中。

00:06:32MiniMax M2.5 以平民价格提供了 Opus 级别的编程性能，且具备开放权重。这种组合非常罕见。

00:06:38谁知道 2026 年还会发生什么呢？你现在可以在 MiniMax 官网免费测试，或者在 Ollama 上运行，也可以像我一样购买 API。

00:06:43它会成为开发者智能体的新一代默认模型吗？让我们拭目以待。

00:06:48下个视频再见。

Key Takeaway

MiniMax M2.5 以极低的成本和开源灵活性，提供了足以媲美顶级模型 Claude Opus 的编程与智能体处理能力。

Highlights

MiniMax 发布了拥有 2300 亿参数的 M2.5 混合专家模型（MoE），其编程性能直逼 Claude Opus 4.6。

该模型专为 AI 智能体（Agent）和自动化工作流设计，支持多文件重构及复杂工具调用。

成本优势极其显著，其 API 价格仅为 Claude Opus 的十分之一左右，极大地降低了开发门槛。

M2.5 在 SWE-bench 等核心编程基准测试中表现卓越，甚至在部分指标上小幅超越 Opus。

模型完全开源权重并支持多语言，允许开发者在本地部署或接入 Ollama 等工具以避免平台锁定。

通过强化学习优化了任务拆解能力，减少了 20% 的工具调用次数和 5% 的 token 浪费。

Timeline

M2.5 模型发布与核心优势

视频开篇介绍了 MiniMax 最新发布的 M2.5 编程模型，强调其性能在多个维度上已经超越了 Claude Opus 4.6。该模型拥有高达 2300 亿的参数量，是专门为 AI 智能体和自动化工具量身定制的。对于正在构建 AI 助手的开发者来说，这款模型的出现将会在一夜之间彻底改变原有的成本结构。主讲人指出其最具吸引力的不仅是基准测试的高分，更是其远低于同类竞价的价格体系。这标志着高性能编程模型正走向平民化和规模化应用的新阶段。

技术架构与功能特性

这一章节深入探讨了 M2.5 的混合专家模型（MoE）架构，虽然总参数量巨大，但运行时的活跃参数仅为 100 亿。这种设计确保了模型在拥有超大规模性能的同时，不会产生过高的计算开销。模型支持 Python、Java、Rust 等主流编程语言，并能处理 Word 和 Excel 自动化等现实世界的复杂开发任务。它提供标准版和闪电版两个版本，分别对应每秒 50 和 100 个 token 的生成速度。由于在 Hugging Face 上完全开源了权重，开发者可以自由进行微调或本地运行，有效避免了对特定平台的依赖。

实测对比：构建全栈看板应用

主讲人通过一个具体的全栈看板（Kanban board）构建任务，将 M2.5 与业界顶尖的 Claude Opus 进行了直观对比。Opus 展现了极高的效率，仅用 4 分钟便产出了 UI 精美、功能完备的应用，其交互细节处理得非常到位。相比之下，接入 Cursor 的 M2.5 虽然花费了约 8 分钟，且在 UI 细节和个别编辑功能上略有瑕疵，但其核心功能完全达标。考虑到 M2.5 的运行成本仅为 Opus 的十分之一，这种细微的性能差距在巨大的经济效益面前显得微不足道。测试结果证明 M2.5 完全有能力处理复杂的应用逻辑，只需简单的二次提示即可修复小瑕疵。

智能体优化与基准测试表现

本段重点分析了 M2.5 在开发者核心关切点上的优化，特别是通过强化学习实现的预测性任务拆解。该技术使模型在工具调用时更加精准，不仅减少了 20% 的调用次数，还显著降低了 token 的浪费和搜索轮次。在权威的 SWE-bench Verified 测试中，M2.5 的得分超过 80%，与 Opus 的差距极小，甚至在 DROID 测试中略胜一筹。主讲人强调，这意味着更少的重试次数、更干净的持续集成（CI）运行以及更高质量的代码合并请求（PR）。其智能体表现已稳步踏入 GPT-5 或 Gemini 3 Pro 这一梯队的门槛，展现了强大的竞争力。

成本核算与开发者决策建议

最后一部分详细拆解了模型的定价细节，标准版百万输入 token 仅需 0.15 美元，性价比极其夸张。即便运行最快的闪电版，一小时的连续运行成本也仅约一美元，而 Claude Opus 的价格则是其十倍以上。主讲人探讨了开发者是否应该切换模型，认为虽然 Opus 在顶尖智能表现上仍有微弱优势，但 M2.5 提供的开源灵活性和低成本是不可替代的。极低的价格让开发者能够毫无心理负担地进行大规模实验、构建自主代码机器人或自动化企业流程。随着 MiniMax 保持每周迭代的高频率，M2.5 很有可能成为未来开发者智能体的新一代默认模型。

Community Posts

Minimax M2.5 vs Claude Opus 4.6：降低 90% 编程 AI 成本的企业级策略

makedream2026년 3월 2일7250

Write about this video