00:00:00先週、Googleが「Genie 3」を発表しました。これは無限の世界を生成するフラッグシップモデルで、
00:00:05実際のビデオゲームのように環境をシミュレートし、インタラクションが可能です。
00:00:10これを受けて、ゲーム業界の終焉が始まるのではないかという懸念から、
00:00:16ビデオゲーム関連の株価が軒並み暴落しました。
00:00:20しかし、さらに興味深いことが起こりました。
00:00:22中国のテック企業Robiantが、Genieに対抗するオープンソースのモデルをリリースしたのです。
00:00:28そのグラフィックは、Googleのものよりも優れているように見えます。
00:00:32そして今、従来のビデオゲームをこの新しいゲーム技術に置き換える
00:00:37最初の企業になるための競争が、一気に加速しています。
00:00:43世間はこの「無限世界モデル」のブームに沸いていますが、あえて言わせてください。
00:00:49これは中身のない、ただの誇大広告に過ぎないかもしれません。
00:00:54なぜ私がそう言い切れるのか?
00:00:55今日の動画では、その理由についてお話しします。
00:01:02Genie 3がリリースされるやいなや、私は自分で試そうとサイトに急ぎました。
00:01:07しかし「Explore」ボタンをクリックした途端、無情にも404エラーが表示されたのです。
00:01:14その理由は、私がカナダに住んでいるからでした。
00:01:16当面の間、Googleはこの最先端の技術を
00:01:20アメリカ在住者にしか開放していないようです。
00:01:23そこで、VPNをオンにしてアメリカから再試行してみました。
00:01:27ところが今度は、この革新的なソフトウェアにアクセスするには
00:01:33「Ultraプラン」のメンバーである必要があると拒絶されてしまいました。
00:01:37Ultraプランがいくらなのかというと、まあ、控えめに言っても
00:01:41期待外れかもしれないAIツールを試すためだけに払うには、高すぎる金額です。
00:01:46しかし、ここで疑問が生じます。なぜGenie 3を試すのはこれほどハードルが高いのでしょうか?
00:01:51この答えは、今回の話において非常に重要になります。
00:01:56これについては後ほど説明します。
00:01:57私がGenie 3を試せず、資金も足りずに途方に暮れていた頃、幸運なことに、
00:02:04地球の裏側では中国のRobiantという会社が動いていました。ここはアント・グループの
00:02:09子会社のようで、アリババの関連会社でもあります。Qwenと同じ系列ですね。
00:02:15彼らが独自の無限世界モデル「Lingbot World」を、
00:02:20驚くべきことにオープンソースで発表したのです。
00:02:25つまり、実際にテストしてその実力を確かめることができるというわけです。
00:02:29デモ映像を見る限り、それは圧倒的に素晴らしいものでした。
00:02:32しかし、プロジェクトページを詳しく調べると、またしても大きな失望が待っていました。
00:02:38ページには矢印キーで空間を自由に歩き回れる例がたくさん載っていますが、
00:02:43実際には、このフルキャラクターコントロールが可能なバージョンは
00:02:48まだ開発中だったのです。
00:02:51彼らはGenie 3と同等の「Lingbot Fast」をリリースする予定だそうですが、
00:02:56いつになるかはまだ分かっていません。
00:02:57現在アクセスできるのは、140億パラメータのベースモデルです。これによって
00:03:03「高精度で制御可能、かつ論理的に一貫したシミュレーション」が可能とのことですが、
00:03:08現時点でこのモデルができることは、基本的に動画の生成だけです。
00:03:14そう、ただの動画です。
00:03:16これのどこが「コントロール」なのかと困惑しました。
00:03:20カメラ位置の値を入力するオプションはあるので、ある意味でカメラワークを
00:03:25制御することは可能です。矢印キーでの操作の代わりにはなりますが、
00:03:31それは事前に記録しておく必要があります。
00:03:35カメラワークを制御できる他のAI動画生成ツールと、
00:03:40一体何が違うのでしょうか?
00:03:41決定的な違いはここにあります。
00:03:44通常のAI動画生成では、モデルは常に次のフレームを予測しようとします。
00:03:50ネット上のミーム動画でよく見られるように、動画が長くなるにつれて
00:03:55おかしなことになるのは、モデルがフレームの外で何が起きているかという
00:04:00情報を保持していないからです。
00:04:04カメラが対象から外れ、再び戻ってきたときにその物体が消えているのは、
00:04:09その場しのぎでシーンが生成されているためです。
00:04:13ここでLingbot Worldの140億パラメータを持つ「幾何学的頭脳」が本領を発揮します。
00:04:19単に次のピクセルを推測する標準的な生成AIとは異なり、Lingbot Worldは
00:04:24カメラの内部データと6自由度のポーズを使用して、全ピクセルを3D空間の特定点に紐付けます。
00:04:33研究者が「対象の永続性」と呼ぶものを生み出します。これはカメラレンズと環境の
00:04:39数学的関係を理解しているからです。
00:04:42つまり、特定の座標に特定の物体が存在することを記憶しているのです。
00:04:47この構造的な整合性を保つために、このモデルはこれほど巨大で計算負荷が高いのです。
00:04:52どれほど負荷が高いか?
00:04:53驚かないでくださいよ。
00:04:55私はLingbot WorldをRTX 1590を1枚搭載したインスタンスで動かそうとし、
00:05:02提供されたサンプルデモを実行しましたが、即座にクラッシュしました。
00:05:071590が1枚でこの負荷に耐えられると考えたのは、甘すぎました。
00:05:13次に2枚刺しで試しましたが、やはりクラッシュ。
00:05:184枚で試しても、結果は同じでした。
00:05:23ついにRTX 1590を8枚積んだコンテナを立ち上げて実行しましたが、
00:05:31それでもクラッシュしたのです。
00:05:32理由はこうです。この無限世界モデルを長時間稼働させると、
00:05:38モデルが保持すべきシーンのメモリ量が肥大化し続け、
00:05:44最終的にRAMが不足して、メモリ不足エラー(OOM)が発生するのです。
00:05:50最終的に8GPUの構成で、サンプルサイズをデフォルトの70から
00:05:5520に下げることで、ようやくデモを動かすことができました。
00:05:59正直なところ、サンプル数70と20の差はそれほど気になりませんでした。
00:06:03しかし、この無限世界モデルを動かすことがいかに異常な
00:06:09計算コストを要するかを物語っています。
00:06:10Genie 3に戻ると、GoogleがアクセスをUltraメンバーに限定しているのは、
00:06:16このシステムを動かす膨大なGPUコストを回収する必要があるからです。
00:06:21また、デモ時間が数秒しかないのも、ある時点でメモリが限界を迎え、
00:06:27システム全体が崩壊してしまうからに他なりません。
00:06:32家庭用ハードウェアでこのようなモデルを動かすのがどれほど非現実的かというと、
00:06:37RTX 1590は1枚で最大5,000ドルもします。
00:06:43これを、最低限必要となる8枚揃えることを考えてみてください。
00:06:48口にするだけでも馬鹿げていると感じます。
00:06:518枚で4万ドルです。しかも、価格が高騰している他のパーツや
00:06:57大量のRAMの費用は含まれていません。
00:07:01コストの問題、Genieの最大60秒という実行時間制限、そしてメモリの肥大化。
00:07:06これらこそが、無限世界モデルが現時点ではまだ「夢物語」であり、
00:07:12現在のアーキテクチャでは家庭用ハードで実現不可能である理由です。
00:07:24これらのツールの開発者自身も、こうした問題を認めています。
00:07:28「推論コストが高いため、現在はエンタープライズ級のGPUが必要であり、
00:07:34家庭用ハードウェアではアクセスできません」と。
00:07:37さらに、「シミュレーションに長期的な安定性が欠けている」とも述べています。
00:07:39「時間が経つにつれてシーンの構造的整合性が失われる、
00:07:44環境ドリフトが発生することが多い」とのことです。
00:07:46その通りですね。
00:07:48少なくともLingbotのチームは、この点についてオープンです。
00:07:51一方、Googleはどう言っているでしょうか。
00:07:53「数時間の対話ではなく、数分間の継続的なインタラクションをサポートします」
00:07:59率直には認めていませんが、その理由が何かはもう明白ですよね。
00:08:04だからこそ、従来のビデオゲームがすぐに消えることはないと断言します。
00:08:09現時点ではまだパイプドリームに過ぎず、将来的に計算上の問題が
00:08:15解決されて初めて、検討の余地が出てくるでしょう。
00:08:20今はまだ、そんな段階ではありません。
00:08:23「Lingbot Fast」が登場したらぜひ試してみたいとは思っています。
00:08:27ですが、それまではこの技術が主流になるとは思えません。
00:08:32もしLingbot Worldを自分で試してみたいなら、アドバイスがあります。
00:08:37私のような失敗はしないでください。
00:08:38RTX 1590を8枚も積み上げないでください。RunPodのようなプラットフォームでは、
00:08:451時間あたり7ドルも消費してしまいます。
00:08:48代わりにH200のコンテナを1つ立ち上げてください。これなら1時間3.5ドルで済みます。
00:08:55「nproc/node」フラグを1に設定し、サンプル数を50か20に下げれば、
00:09:01うまく動作するはずです。
00:09:02また、Caelan Humphries氏が作成した4ビット量子化バージョンを使えば、
00:09:08画質を維持しつつGPUメモリの消費を大幅に抑えられます。
00:09:15これならRTX 1590の1枚差しでも動く可能性があります。
00:09:19試した方は、結果をぜひ教えてください。
00:09:21私はH200のコンテナでデモを動かしましたが、
00:09:28基本的にはデモページと同じ結果が得られました。
00:09:30次に、バイキングがロキと戦っているAI画像を生成し、コマンドに入力しました。
00:09:37その結果がこちらです。
00:09:39動画全体を通して環境や城の整合性は保たれていますが、
00:09:44奇妙なノイズが発生しているのが分かると思います。
00:09:48正直、これをどう評価すべきか悩むところです。
00:09:52標準的なComfyUIのパイプラインを使えば、もっとマシな動画が作れる気がします。
00:09:59ちなみに、重いコストをかけずにSoraのような動画ジェネレーターを作る方法は、
00:10:04以前アップした動画で解説しているのでチェックしてみてください。
00:10:09というわけで、Genie 3やブーム、そしてゲームの未来についての私の見解でした。
00:10:16Genieのようなモデルの仕組みを知る手がかりをくれた、
00:10:20Lingbotチームのオープンソース化には感謝しています。
00:10:25以上、あくまで私の個人的な意見です。
00:10:27皆さんは、この無限世界モデルについてどう思いますか?
00:10:30興味があるので、ぜひ下のコメント欄で教えてください。
00:10:36この動画が役に立ったと思ったら、高評価ボタンをお願いします。
00:10:41このような動画をまた見たい方は、ぜひチャンネル登録も忘れずに。
00:10:45Better StackのAndrisでした。また次の動画でお会いしましょう。
00:11:00(アップビートな音楽)