这是世界上最快的AI模型吗?!! (小米 MiMo V2.5 Pro UltraSpeed)

BBetter Stack
컴퓨터/소프트웨어게임/e스포츠가전제품/카메라

Transcript

00:00:00天哪,ShowMe,就是那家做手机的中国公司,刚刚发布了一个人工智能模型
00:00:05它可能是世界上最快的模型。它叫 ShowMe Mimo V2.5 Ultra Speed,真的
00:00:13令人震撼。在今天的视频中,我们将一探这个模型,看看它是如何工作的,而且我实际上
00:00:18已经获得了这个模型的抢先体验权限,所以我们也会用一些有趣的例子来测试它
00:00:24看看它到底有多快。这会非常有趣,让我们开始吧。
00:00:30在深入了解这个模型的内部机理之前,让我们看看我们究竟面对的是多大的差异
00:00:39对于像 GPT 5.5 或 Claude 4 Opus 这样的前沿模型,你通常要忍受
00:00:46漫长的推理延迟,每秒大约只能产生 50 或 60 个 token。这不算差,但确实
00:00:54有点慢。但是 ShowMe 的新款 Mimo Ultra Speed 模型每秒能达到 1000 个 token 以上
00:01:00更疯狂的是,这个模型本身的规模也非常庞大。这是一个 1 万亿参数的
00:01:07混合专家模型。所以你可能会想,好吧,他们肯定是用某种超级
00:01:13先进的定制硬件配置来实现的。其实不然。ShowMe 与他们的
00:01:19系统合作伙伴 Tile RT 合作,他们仅仅通过一台带有八个
00:01:25通用 GPU 的标准服务器就实现了这一点。但如果这不是答案,那么问题来了,你如何强迫一个万亿
00:01:31参数的模型在标准硬件上以微秒级的速度吐出文本呢?好吧,他们提出
00:01:39了一种他们称之为极端模型系统协同设计的方法。他们从三个
00:01:44不同的角度同时攻击延迟瓶颈。首先,他们优化了内存带宽。在文本生成阶段
00:01:50将一万亿个参数通过 GPU 内存会造成巨大的交通堵塞。为了解决这个问题,
00:01:57ShowMe 使用了 MXFP4 量化。但是由于 4 位压缩通常会让 AI
00:02:04准确率下降,他们使用了量化感知训练 (QAT),并将核心路由层保持在更高的
00:02:12精度。这减轻了内存压力,同时保持了模型几乎与
00:02:18未压缩版本完全相同的智能水平。第二,他们彻底改变了模型预测单词的方式。标准的
00:02:25推测解码的工作方式是让一个微小的草稿模型预判几个单词,然后庞大的主
00:02:32模型来校验计算结果。但 ShowMe 在这里做了一些不同的事情,他们称之为 D-Flash。它不再是
00:02:39一次预测一个 token,而是在并行的前向传播中一次预测整个隐式 token 块。并且
00:02:46通过测试,他们发现当你将其用于编程任务时,主模型实际上保留了
00:02:52D-Flash 猜测的每 8 个 token 中的 6.3 个。所以这本质上是让模型一次采取
00:02:58巨大的 8 token 飞跃,而不是小步前进。第三,他们使用了专门的
00:03:04引擎,它解决了一个非常令人头疼的硬件瓶颈。当你每秒推送一千个 token 时,
00:03:11标准 GPU 实际上跟不上指令逻辑。通常,GPU 启动一个数学
00:03:17运算,完成它,清空内存,然后等待启动下一个。即使这些
00:03:23暂停只持续微秒级,它们也会彻底破坏你的运行势头。为了解决这个问题,TileRT 构建了一个持久化的
00:03:30引擎内核,它驻留在 GPU 内部,从不离开。他们使用了一种名为 warp specialization 的技巧,
00:03:37为硬件的不同部分分配永久角色。当一个部分在移动数据时,
00:03:42另一个在运行数学运算,第三个同时处理通信。所以
00:03:48流水线实际上从未停止移动。这非常有趣,因为我刚刚做了一个关于 diffusion
00:03:55gemma 的视频,它也非常快,但它以一种非常不同的方式解决了同样的问题。所以如果你感兴趣的话
00:04:00可以去看看那个视频。朋友们,这就是 ShowMe 达到每秒 1000 个 token 的方式,
00:04:07据称如此。但现在让我们亲自测试一下,看看这个承诺是否属实。首先,
00:04:14我决定拿 LeetCode 的一道难题让模型运行一下。它速度快得惊人。
00:04:20这有多疯狂?而且,正如我们在这里看到的,它峰值达到了每秒 3451 个 token,这简直太疯狂了。
00:04:29现在,有可能这道 LeetCode 题目属于模型的训练数据。
00:04:34所以尽管看起来很惊人,但这可能不是一个公平的比较。让我们进行一些更复杂的测试。
00:04:41接下来,我让它构建一个简单的个人理财仪表盘 UI,包含在单个 HTML 文件中,不使用
00:04:48外部库,也不要太花哨。在这个测试中,我们现在可以看到它到底有多么
00:04:54高效。推理部分的平均速度约为每秒 700 个 token,输出操作约为每秒 1000 个
00:05:02token。它只用了 65 秒就完成了任务。
00:05:09我觉得结果相当不错。虽然有些按钮无法正常工作,有些
00:05:14操作是坏的,但整体设计非常棒。我的意思是,一分钟的任务做到这样已经很不错了。
00:05:21然后我决定挑战模型去构建一些更复杂的东西。我提示它
00:05:26构建一个可汗学院风格的数学讲解网页,展示 10 个流行的数学概念,看看
00:05:34我们实际上能制作出多么复杂的网站。这就是事情开始变得棘手的地方。
00:05:40我试了两次,两次都在两三分钟后,模型直接停止了
00:05:45生成并完全冻结了。所以我认为,在这个任务上,我触及了模型的上下文限制,或者
00:05:51也许 ShowMe 设置了某种速率限制。所以我决定简化任务,要求它
00:05:58只设计一个包含 5 个数学概念的网页。这次它终于成功了。它设法
00:06:04在 75 秒内完成了任务。输出结果相当不错。前三个数学
00:06:10概念组件确实功能正常,但超过这个点之后的一切都是坏的、无功能的或空白的。
00:06:17所以我不知道这里到底发生了什么。也许模型在推理阶段丢失了一些上下文,
00:06:23但尽管如此,我认为这还是一个很好的结果,特别是考虑到我们
00:06:29在推理阶段平均速度达到了每秒 500 个 token。对于最后一个测试,我决定
00:06:34做一些更有趣的事。我只是简单地用一句话提示它构建一个地铁跑酷
00:06:41克隆版,使用 Three.js,它实际上在 50 秒内成功构建了一个功能齐全的地铁跑酷
00:06:49克隆版。这真是太疯狂了。我得说,虽然它功能正常,正如你们在此处所见,它
00:06:55没有包含任何障碍物或金币之类的东西。所以它有点无聊。于是我随后决定
00:07:01给它一个后续提示来修复这些小问题。在经过两轮处理后,它成功地
00:07:07添加了一些金币和障碍物。老实说,当我测试它时,这是一个完美的演示。
00:07:14功能都具备了。一切都在工作。它甚至在每一轮之后都在保存我的最高分。
00:07:20所以这个特别的演示以非常积极的方式让我感到惊讶。我确信现在我们所有人
00:07:26也可以用其他模型构建地铁跑酷克隆版。但事实是我能得到一个工作原型,
00:07:32它并不完全糟糕,而且真的玩起来很有趣,所有这些只用了 50 秒和
00:07:39一些后续提示,这非常令人印象深刻。正如我们在测试中所看到的,模型设法
00:07:45达到了每秒超过 3000 个 token 的纪录速度。所以这确实是目前
00:07:52我见过的绝对最快的模型。至于输出结果,我的意思是,当然,有些是坏的,有些
00:07:58是半成品。当然这无法与 Claude Opus 或 GPT 5.5 相比。但我相信 ShowMe 的模型绝对会随着时间
00:08:06不断改进。所以看看他们未来会做出什么是非常有趣的。
00:08:12好了,朋友们。这就是 ShowMe Mimo V2.5 Ultra Speed 简要介绍。你怎么看待
00:08:18这个模型?你感到印象深刻?失望?还是无所谓?请在下面的评论区告诉我们。
00:08:24朋友们,如果你喜欢这类技术解析,请通过点击视频下方那个
00:08:29点赞按钮告诉我。也别忘了订阅我们的频道。
00:08:33以上就是 BetterStack 的 Andrus,我们下个视频再见。

Key Takeaway

ShowMe Mimo V2.5 Ultra Speed通过极致的模型系统协同设计,成功在标准硬件上实现了超过每秒1000个token的超高速推理。

Highlights

  • ShowMe Mimo V2.5 Ultra Speed模型参数量达1万亿,且在单台配备8个通用GPU的标准服务器上运行。

  • 该模型通过MXFP4量化、D-Flash并行解码以及持久化引擎内核实现了超过每秒1000个token的推理速度。

  • 在处理编程任务时,D-Flash推测解码技术能够实现一次生成8个token的并行飞跃,主模型对其中6.3个token保持准确。

  • LeetCode难题测试中,模型推理速度峰值达到了每秒3451个token。

  • 在50秒内成功构建出功能齐全的《地铁跑酷》克隆版网页游戏。

Timeline

模型架构与速度瓶颈的突破

  • 该模型是1万亿参数的混合专家模型,推理速度超过每秒1000个token。
  • 通过MXFP4量化感知训练(QAT),在保持高智能水平的同时大幅减轻了内存带宽压力。
  • D-Flash解码技术通过并行前向传播一次生成8个token的块,取代了传统逐token生成的模式。
  • TileRT构建的持久化引擎内核通过Warp Specialization技巧,实现了数据移动、数学运算和通信的并行流水线处理。

传统前沿模型通常受限于每秒50到60个token的推理速度。ShowMe通过优化内存、改进预测算法以及重构GPU执行逻辑,解决了在标准服务器硬件上运行超大规模模型的难题。尤其是通过减少GPU在任务间的空闲等待时间,保证了数据处理的连续性。

编程与网页构建任务性能测试

  • LeetCode难题测试中模型展现了每秒3451个token的极高峰值速度。
  • 个人理财仪表盘UI生成测试显示,推理与输出阶段平均速度保持在700至1000 token/秒。
  • 复杂网页构建任务触及了模型的上下文或速率限制,表现出功能缺失或冻结现象。

针对实际编程任务的测试显示了极高的生成效率,尽管在处理过于庞大的任务时出现稳定性问题,但模型在65秒内即可完成UI设计。部分代码组件出现功能异常,反映出模型在高压推理下的逻辑连贯性仍有优化空间。

功能原型开发与实战评价

  • 模型在50秒内生成了具备基础功能与得分记录机制的《地铁跑酷》克隆版。
  • 通过后续提示词可以有效补充游戏逻辑,实现金币与障碍物等复杂元素。
  • Mimo V2.5 Ultra Speed目前虽在输出准确性上逊色于GPT 5.5,但在推理速度上处于行业领先地位。

游戏开发测试证明了模型处理交互式原型任务的潜力。尽管生成结果并非完美,但其速度优势使其能够快速迭代原型,且在经过简单修正后即可运行完整功能,显示出模型在辅助开发场景中的实际应用价值。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video