这是世界上最快的AI模型吗？!! (小米 MiMo V2.5 Pro UltraSpeed)

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

컴퓨터/소프트웨어게임/e스포츠가전제품/카메라

Transcript

00:00:00天哪，ShowMe，就是那家做手机的中国公司，刚刚发布了一个人工智能模型

00:00:05它可能是世界上最快的模型。它叫 ShowMe Mimo V2.5 Ultra Speed，真的

00:00:13令人震撼。在今天的视频中，我们将一探这个模型，看看它是如何工作的，而且我实际上

00:00:18已经获得了这个模型的抢先体验权限，所以我们也会用一些有趣的例子来测试它

00:00:24看看它到底有多快。这会非常有趣，让我们开始吧。

00:00:30在深入了解这个模型的内部机理之前，让我们看看我们究竟面对的是多大的差异

00:00:39对于像 GPT 5.5 或 Claude 4 Opus 这样的前沿模型，你通常要忍受

00:00:46漫长的推理延迟，每秒大约只能产生 50 或 60 个 token。这不算差，但确实

00:00:54有点慢。但是 ShowMe 的新款 Mimo Ultra Speed 模型每秒能达到 1000 个 token 以上

00:01:00更疯狂的是，这个模型本身的规模也非常庞大。这是一个 1 万亿参数的

00:01:07混合专家模型。所以你可能会想，好吧，他们肯定是用某种超级

00:01:13先进的定制硬件配置来实现的。其实不然。ShowMe 与他们的

00:01:19系统合作伙伴 Tile RT 合作，他们仅仅通过一台带有八个

00:01:25通用 GPU 的标准服务器就实现了这一点。但如果这不是答案，那么问题来了，你如何强迫一个万亿

00:01:31参数的模型在标准硬件上以微秒级的速度吐出文本呢？好吧，他们提出

00:01:39了一种他们称之为极端模型系统协同设计的方法。他们从三个

00:01:44不同的角度同时攻击延迟瓶颈。首先，他们优化了内存带宽。在文本生成阶段

00:01:50将一万亿个参数通过 GPU 内存会造成巨大的交通堵塞。为了解决这个问题，

00:01:57ShowMe 使用了 MXFP4 量化。但是由于 4 位压缩通常会让 AI

00:02:04准确率下降，他们使用了量化感知训练 (QAT)，并将核心路由层保持在更高的

00:02:12精度。这减轻了内存压力，同时保持了模型几乎与

00:02:18未压缩版本完全相同的智能水平。第二，他们彻底改变了模型预测单词的方式。标准的

00:02:25推测解码的工作方式是让一个微小的草稿模型预判几个单词，然后庞大的主

00:02:32模型来校验计算结果。但 ShowMe 在这里做了一些不同的事情，他们称之为 D-Flash。它不再是

00:02:39一次预测一个 token，而是在并行的前向传播中一次预测整个隐式 token 块。并且

00:02:46通过测试，他们发现当你将其用于编程任务时，主模型实际上保留了

00:02:52D-Flash 猜测的每 8 个 token 中的 6.3 个。所以这本质上是让模型一次采取

00:02:58巨大的 8 token 飞跃，而不是小步前进。第三，他们使用了专门的

00:03:04引擎，它解决了一个非常令人头疼的硬件瓶颈。当你每秒推送一千个 token 时，

00:03:11标准 GPU 实际上跟不上指令逻辑。通常，GPU 启动一个数学

00:03:17运算，完成它，清空内存，然后等待启动下一个。即使这些

00:03:23暂停只持续微秒级，它们也会彻底破坏你的运行势头。为了解决这个问题，TileRT 构建了一个持久化的

00:03:30引擎内核，它驻留在 GPU 内部，从不离开。他们使用了一种名为 warp specialization 的技巧，

00:03:37为硬件的不同部分分配永久角色。当一个部分在移动数据时，

00:03:42另一个在运行数学运算，第三个同时处理通信。所以

00:03:48流水线实际上从未停止移动。这非常有趣，因为我刚刚做了一个关于 diffusion

00:03:55gemma 的视频，它也非常快，但它以一种非常不同的方式解决了同样的问题。所以如果你感兴趣的话

00:04:00可以去看看那个视频。朋友们，这就是 ShowMe 达到每秒 1000 个 token 的方式，

00:04:07据称如此。但现在让我们亲自测试一下，看看这个承诺是否属实。首先，

00:04:14我决定拿 LeetCode 的一道难题让模型运行一下。它速度快得惊人。

00:04:20这有多疯狂？而且，正如我们在这里看到的，它峰值达到了每秒 3451 个 token，这简直太疯狂了。

00:04:29现在，有可能这道 LeetCode 题目属于模型的训练数据。

00:04:34所以尽管看起来很惊人，但这可能不是一个公平的比较。让我们进行一些更复杂的测试。

00:04:41接下来，我让它构建一个简单的个人理财仪表盘 UI，包含在单个 HTML 文件中，不使用

00:04:48外部库，也不要太花哨。在这个测试中，我们现在可以看到它到底有多么

00:04:54高效。推理部分的平均速度约为每秒 700 个 token，输出操作约为每秒 1000 个

00:05:02token。它只用了 65 秒就完成了任务。

00:05:09我觉得结果相当不错。虽然有些按钮无法正常工作，有些

00:05:14操作是坏的，但整体设计非常棒。我的意思是，一分钟的任务做到这样已经很不错了。

00:05:21然后我决定挑战模型去构建一些更复杂的东西。我提示它

00:05:26构建一个可汗学院风格的数学讲解网页，展示 10 个流行的数学概念，看看

00:05:34我们实际上能制作出多么复杂的网站。这就是事情开始变得棘手的地方。

00:05:40我试了两次，两次都在两三分钟后，模型直接停止了

00:05:45生成并完全冻结了。所以我认为，在这个任务上，我触及了模型的上下文限制，或者

00:05:51也许 ShowMe 设置了某种速率限制。所以我决定简化任务，要求它

00:05:58只设计一个包含 5 个数学概念的网页。这次它终于成功了。它设法

00:06:04在 75 秒内完成了任务。输出结果相当不错。前三个数学

00:06:10概念组件确实功能正常，但超过这个点之后的一切都是坏的、无功能的或空白的。

00:06:17所以我不知道这里到底发生了什么。也许模型在推理阶段丢失了一些上下文，

00:06:23但尽管如此，我认为这还是一个很好的结果，特别是考虑到我们

00:06:29在推理阶段平均速度达到了每秒 500 个 token。对于最后一个测试，我决定

00:06:34做一些更有趣的事。我只是简单地用一句话提示它构建一个地铁跑酷

00:06:41克隆版，使用 Three.js，它实际上在 50 秒内成功构建了一个功能齐全的地铁跑酷

00:06:49克隆版。这真是太疯狂了。我得说，虽然它功能正常，正如你们在此处所见，它

00:06:55没有包含任何障碍物或金币之类的东西。所以它有点无聊。于是我随后决定

00:07:01给它一个后续提示来修复这些小问题。在经过两轮处理后，它成功地

00:07:07添加了一些金币和障碍物。老实说，当我测试它时，这是一个完美的演示。

00:07:14功能都具备了。一切都在工作。它甚至在每一轮之后都在保存我的最高分。

00:07:20所以这个特别的演示以非常积极的方式让我感到惊讶。我确信现在我们所有人

00:07:26也可以用其他模型构建地铁跑酷克隆版。但事实是我能得到一个工作原型，

00:07:32它并不完全糟糕，而且真的玩起来很有趣，所有这些只用了 50 秒和

00:07:39一些后续提示，这非常令人印象深刻。正如我们在测试中所看到的，模型设法

00:07:45达到了每秒超过 3000 个 token 的纪录速度。所以这确实是目前

00:07:52我见过的绝对最快的模型。至于输出结果，我的意思是，当然，有些是坏的，有些

00:07:58是半成品。当然这无法与 Claude Opus 或 GPT 5.5 相比。但我相信 ShowMe 的模型绝对会随着时间

00:08:06不断改进。所以看看他们未来会做出什么是非常有趣的。

00:08:12好了，朋友们。这就是 ShowMe Mimo V2.5 Ultra Speed 简要介绍。你怎么看待

00:08:18这个模型？你感到印象深刻？失望？还是无所谓？请在下面的评论区告诉我们。

00:08:24朋友们，如果你喜欢这类技术解析，请通过点击视频下方那个

00:08:29点赞按钮告诉我。也别忘了订阅我们的频道。

00:08:33以上就是 BetterStack 的 Andrus，我们下个视频再见。

Key Takeaway

ShowMe Mimo V2.5 Ultra Speed通过极致的模型系统协同设计，成功在标准硬件上实现了超过每秒1000个token的超高速推理。

Highlights

ShowMe Mimo V2.5 Ultra Speed模型参数量达1万亿，且在单台配备8个通用GPU的标准服务器上运行。
该模型通过MXFP4量化、D-Flash并行解码以及持久化引擎内核实现了超过每秒1000个token的推理速度。
在处理编程任务时，D-Flash推测解码技术能够实现一次生成8个token的并行飞跃，主模型对其中6.3个token保持准确。
LeetCode难题测试中，模型推理速度峰值达到了每秒3451个token。
在50秒内成功构建出功能齐全的《地铁跑酷》克隆版网页游戏。

Timeline

模型架构与速度瓶颈的突破

该模型是1万亿参数的混合专家模型，推理速度超过每秒1000个token。
通过MXFP4量化感知训练(QAT)，在保持高智能水平的同时大幅减轻了内存带宽压力。
D-Flash解码技术通过并行前向传播一次生成8个token的块，取代了传统逐token生成的模式。
TileRT构建的持久化引擎内核通过Warp Specialization技巧，实现了数据移动、数学运算和通信的并行流水线处理。

传统前沿模型通常受限于每秒50到60个token的推理速度。ShowMe通过优化内存、改进预测算法以及重构GPU执行逻辑，解决了在标准服务器硬件上运行超大规模模型的难题。尤其是通过减少GPU在任务间的空闲等待时间，保证了数据处理的连续性。

编程与网页构建任务性能测试

LeetCode难题测试中模型展现了每秒3451个token的极高峰值速度。
个人理财仪表盘UI生成测试显示，推理与输出阶段平均速度保持在700至1000 token/秒。
复杂网页构建任务触及了模型的上下文或速率限制，表现出功能缺失或冻结现象。

针对实际编程任务的测试显示了极高的生成效率，尽管在处理过于庞大的任务时出现稳定性问题，但模型在65秒内即可完成UI设计。部分代码组件出现功能异常，反映出模型在高压推理下的逻辑连贯性仍有优化空间。

功能原型开发与实战评价

模型在50秒内生成了具备基础功能与得分记录机制的《地铁跑酷》克隆版。
通过后续提示词可以有效补充游戏逻辑，实现金币与障碍物等复杂元素。
Mimo V2.5 Ultra Speed目前虽在输出准确性上逊色于GPT 5.5，但在推理速度上处于行业领先地位。

游戏开发测试证明了模型处理交互式原型任务的潜力。尽管生成结果并非完美，但其速度优势使其能够快速迭代原型，且在经过简单修正后即可运行完整功能，显示出模型在辅助开发场景中的实际应用价值。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video