世界最速のAIモデルはこれ?! (Xiaomi MiMo V2.5 Pro UltraSpeed)

BBetter Stack
컴퓨터/소프트웨어게임/e스포츠가전제품/카메라

Transcript

00:00:00すごいですね。スマホを作っている中国のShowMe社が、AIモデルを開発しました。
00:00:05おそらく世界最速のAIモデルかもしれません。名前は「ShowMe Mimo V2.5 Ultra Speed」。本当に
00:00:13驚くべき性能です。今日の動画では、このモデルを詳しく見ていき、仕組みを解説します。実は
00:00:18このモデルの早期アクセス権を入手できたので、興味深い例を使って実際にテストし、
00:00:24どれほど速いのかを検証します。とても面白い内容ですので、早速始めていきましょう。
00:00:30このモデルの内部構造を見る前に、私たちが現在直面している圧倒的な差を確認しましょう。
00:00:39GPT-5.5やClaude 4 Opusといった最先端モデルでは、多くの場合、
00:00:46大規模な推論の遅延に悩まされ、1秒間にせいぜい50〜60トークン程度しか生成できません。悪くはありませんが、
00:00:54少し遅いと言えます。しかし、ShowMeの新しいMimo Ultra Speedモデルは、1秒間に1000トークン以上を記録し、
00:01:00さらに驚くべきは、このモデルが非常に巨大だという点です。1兆パラメータの
00:01:07Mixture of Experts(混合エキスパート)モデルなのです。そこで、何か特別な
00:01:13高度なカスタムハードウェアを使っているのではないかと思うかもしれませんが、実はそうではありません。ShowMeは
00:01:19システムパートナーであるTileRTと協力し、標準的なサーバー1台と8基の
00:01:25汎用GPUを使ってこれを実現しました。では、一体どうやって1兆パラメータのモデルを
00:01:31標準的なハードウェア上でマイクロ秒単位の速さでテキスト出力させているのでしょうか?彼らは
00:01:39「極限モデルシステム共設計(extreme model system co-design)」という手法を生み出しました。レイテンシのボトルネックを
00:01:443つの側面から同時に攻撃したのです。まず、メモリ帯域幅を最適化しました。テキスト生成中に
00:01:50GPUメモリを1兆パラメータが通過すると、大規模な交通渋滞が発生します。これを解決するため、
00:01:57ShowMeはMXFP4量子化を使用しました。しかし、4ビット圧縮は通常AIの
00:02:04精度を低下させる可能性があるため、量子化認識学習(QAT)を用い、コアとなるルーティング層は
00:02:12高い精度のまま維持しました。これにより、メモリの圧迫を軽減しつつ、モデルの知能は
00:02:18非圧縮版とほぼ同等に保たれました。次に、モデルが単語を予測する方法を根本的に変えました。標準的な
00:02:25投機的デコーディングは、小さなドラフトモデルが数単語先を推測し、巨大なメインモデルが
00:02:32その計算をチェックするという仕組みですが、ShowMeは「D-Flash」と呼ばれる異なるアプローチをとりました。1つずつ推測するのではなく、
00:02:39隠れトークンのブロック全体を、一度の並列フォワードパスで予測するのです。テストの結果、
00:02:46コーディングタスクで使用すると、メインモデルはD-Flashが推測した8トークンのうち、
00:02:52平均6.3トークンを維持することが分かりました。つまり、少しずつ進むのではなく、
00:02:588トークン単位の大きな飛躍を可能にしているのです。3つ目に、面倒なハードウェアのボトルネックを
00:03:04解消するための特殊なエンジンを使用しました。1秒間に1000トークンを生成する際、
00:03:11標準的なGPUでは命令ロジックが追いつきません。通常、GPUは数学演算を起動して、
00:03:17終了したらメモリをクリアし、次を待機します。このわずかな停止時間が
00:03:23生成の勢いを完全に止めてしまうのです。これを解決するため、TileRTは
00:03:30GPU内に常駐する永続的なエンジンカーネルを構築しました。「ワープ専門化(warp specialization)」という手法で、
00:03:37ハードウェアの各部に永続的な役割を割り当てました。あるセクションがデータ移動をしている間に、
00:03:42別のセクションが計算を行い、さらに別のセクションが通信を処理します。これらを完全に同時進行させることで、
00:03:48処理パイプラインが止まることはありません。以前「Diffusion Gemma」に関する動画も投稿しましたが、
00:03:55あちらも非常に高速で、全く異なるアプローチをとっていました。興味があればそちらもぜひご覧ください。
00:04:00以上が、ShowMeが1秒あたり1000トークンという速度を実現したとされる理由です。
00:04:07それでは実際にテストして、この約束が守られているか確認しましょう。最初のテストとして、
00:04:14LeetCodeの難問の一つを実行してみたところ、驚くほど高速でした。
00:04:20どうですか、凄まじいでしょう?ご覧の通り、最高で1秒間に3451トークンに達しており、狂気じみた速度です。
00:04:29ただ、この問題が学習データに含まれていた可能性もあります。
00:04:34ですから、これだけで判断するのは公平ではありません。もう少し高度なタスクに移りましょう。
00:04:41次に、シンプルな個人向けファイナンスダッシュボードを、外部ライブラリを使わず、HTML1ファイルで
00:04:48構築するよう依頼しました。このテストで、いかに異常なほどの
00:04:54パフォーマンスなのかが分かりました。推論部分で平均約700トークン/秒、出力操作で約1000トークン/
00:05:02秒を記録しました。タスクの完了までにかかった時間はわずか65秒です。
00:05:09結果はかなり良好だと思います。一部ボタンが動かなかったり、
00:05:14アクションが壊れている箇所もありますが、デザイン全体としては非常に良いものです。1分程度の作業にしては素晴らしいです。
00:05:21さらに難易度を上げました。Khan Academy風の数学解説ウェブページを、
00:05:26人気のある10の数学概念を網羅して構築するよう指示し、どれほど複雑なウェブサイトが作れるか検証します。
00:05:34ここで少し問題が発生しました。
00:05:40このテストを2度試しましたが、どちらも2〜3分後に
00:05:45生成が停止し、完全にフリーズしてしまいました。モデルのコンテキスト制限に達したか、
00:05:51あるいはShowMe側でレート制限がかかっている可能性があります。そこで、タスクを簡略化し、
00:05:58数学概念を5つにして再度指示したところ、ようやく成功しました。75秒で
00:06:04タスクを完了しました。出力はかなり綺麗です。最初の3つの数学概念ウィジェットは
00:06:10実際に機能していますが、それ以降は壊れているか、何も表示されません。
00:06:17何が起きたのかは不明ですが、推論中にコンテキストの一部を忘れてしまったのかもしれません。
00:06:23それでも、推論中に平均500トークン/秒を維持していたことを考えると、かなり良い結果でしょう。
00:06:29最後のテストとして、もう少し面白いことを試しました。
00:06:34「Three.jsを使ってサブウェイサーファーのクローンを作って」という簡単なプロンプトを入力しました。
00:06:41なんと、わずか50秒で完全に機能するクローンを構築してしまいました。
00:06:49クレイジーですね。ただ、ご覧の通り障害物やコインなどがなく、少し退屈でした。
00:06:55そこで修正のためのフォローアッププロンプトを投げました。
00:07:012回の修正指示の後、コインや障害物を追加することに成功しました。
00:07:07正直、テストしてみると完璧なデモでした。
00:07:14機能はすべて揃っており、ハイスコアの保存まで完璧に動作していました。
00:07:20このデモには非常に驚かされました。今なら他のモデルでもサブウェイサーファーのクローンは作れるでしょうが、
00:07:26動くプロトタイプを、
00:07:32それも実際に遊べるクオリティのものを、フォローアップ含めてわずか50秒ほどで作れるのは驚異的です。
00:07:39テストで見た通り、1秒間に3000トークン以上という記録的な速度に到達しました。
00:07:45間違いなく私が今まで見た中で最速のモデルです。
00:07:52出力に関しては、確かに壊れているものや未完成なものもあります。Claude OpusやGPT-5.5には及びません。
00:07:58しかし、ShowMeのモデルは今後確実に改善されていくはずです。
00:08:06将来的にどのようなものが出てくるのか、非常に興味深いです。
00:08:12というわけで、ShowMe Mimo V2.5 Ultra Speedの紹介でした。皆さんは
00:08:18どう思いましたか?感銘を受けましたか?それとも期待外れ?ぜひコメント欄で教えてください。
00:08:24皆さま、このような技術的な解説動画が好きなら、ぜひ
00:08:29下の高評価ボタンを押して教えてください。チャンネル登録もお忘れなく。
00:08:33BetterStackのAndrusでした。また次の動画でお会いしましょう。

Key Takeaway

ShowMe Mimo V2.5 Ultra Speedは、極限モデルシステム共設計とTileRTの永続的エンジンカーネルを活用し、標準的なサーバー環境で毎秒1000トークンを超える推論速度を実現した。

Highlights

  • ShowMe Mimo V2.5 Ultra Speedは、1秒間に1000トークン以上の生成速度を記録する1兆パラメータのMixture of Expertsモデルである。

  • メモリ帯域幅を最適化するMXFP4量子化と、精度の低下を防ぐ量子化認識学習(QAT)を組み合わせてメモリ圧迫を軽減している。

  • D-Flashアプローチにより、一度の並列フォワードパスで隠れトークンのブロック全体を予測し、一度に8トークン単位の推論を行う。

  • TileRTが構築した永続的なエンジンカーネルにより、データ移動、計算、通信をGPU内で同時進行させるワープ専門化を実現した。

  • プロトタイプ作成テストにおいて、サブウェイサーファーのクローンを50秒で構築し、ハイスコア保存機能まで実装した。

Timeline

モデルの概要と基本性能

  • ShowMe Mimo V2.5 Ultra Speedは、標準的なサーバー1台と8基の汎用GPUで動作する1兆パラメータの混合エキスパートモデルである。
  • 従来の主要モデルが毎秒50~60トークンの生成にとどまる中、本モデルは毎秒1000トークン以上の生成速度を達成した。

一般的な大規模言語モデルが直面する推論遅延の壁を打破するため、特殊なカスタムハードウェアではなく汎用的な環境で最適化を行っている。巨大なパラメータ数を持ちながら、マイクロ秒単位の高速テキスト出力を実現した点が特徴。

高速化を実現する3つの最適化手法

  • MXFP4量子化と量子化認識学習(QAT)の併用により、モデル知能を維持したままメモリ帯域幅のボトルネックを解消した。
  • D-Flashという手法でトークンのブロック単位を並列予測することで、逐次推論の制限を突破した。
  • TileRTによるGPU内の永続的エンジンカーネルとワープ専門化が、演算とデータ移動のパイプライン停止を排除している。

メモリ消費を抑えるために4ビット圧縮を用いつつコア層の精度を維持し、さらに推論効率を最大化している。ハードウェアの各セクションに役割を割り振ることで、命令ロジックの待機時間をなくし、計算の連続性を確保した。

実機パフォーマンスの検証

  • LeetCodeの難問では最大3451トークン/秒という極めて高い推論速度を記録した。
  • 複雑なWebページ構築やゲーム開発などのタスクにおいて、50秒から75秒程度でプロトタイプを完成させた。
  • 生成物の精度には改善の余地があるものの、プロトタイプ構築の速度においては既存の最先端モデルを大きく凌駕している。

実用的なコーディングやアプリ構築タスクを通じて、生成の速度と整合性を検証した。サブウェイサーファーのクローン作成では、機能要件を満たしたデモを短時間で出力したが、一方で複雑な指示では推論の途中でフリーズするなどの制限も確認された。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video