Googleの最新AI「Genie 3」の熱狂を冷静に分析する

BBetter Stack
컴퓨터/소프트웨어게임/e스포츠주식 투자가전제품/카메라

Transcript

00:00:00先週、Googleが「Genie 3」を発表しました。これは無限の世界を生成するフラッグシップモデルで、
00:00:05実際のビデオゲームのように環境をシミュレートし、インタラクションが可能です。
00:00:10これを受けて、ゲーム業界の終焉が始まるのではないかという懸念から、
00:00:16ビデオゲーム関連の株価が軒並み暴落しました。
00:00:20しかし、さらに興味深いことが起こりました。
00:00:22中国のテック企業Robiantが、Genieに対抗するオープンソースのモデルをリリースしたのです。
00:00:28そのグラフィックは、Googleのものよりも優れているように見えます。
00:00:32そして今、従来のビデオゲームをこの新しいゲーム技術に置き換える
00:00:37最初の企業になるための競争が、一気に加速しています。
00:00:43世間はこの「無限世界モデル」のブームに沸いていますが、あえて言わせてください。
00:00:49これは中身のない、ただの誇大広告に過ぎないかもしれません。
00:00:54なぜ私がそう言い切れるのか?
00:00:55今日の動画では、その理由についてお話しします。
00:01:02Genie 3がリリースされるやいなや、私は自分で試そうとサイトに急ぎました。
00:01:07しかし「Explore」ボタンをクリックした途端、無情にも404エラーが表示されたのです。
00:01:14その理由は、私がカナダに住んでいるからでした。
00:01:16当面の間、Googleはこの最先端の技術を
00:01:20アメリカ在住者にしか開放していないようです。
00:01:23そこで、VPNをオンにしてアメリカから再試行してみました。
00:01:27ところが今度は、この革新的なソフトウェアにアクセスするには
00:01:33「Ultraプラン」のメンバーである必要があると拒絶されてしまいました。
00:01:37Ultraプランがいくらなのかというと、まあ、控えめに言っても
00:01:41期待外れかもしれないAIツールを試すためだけに払うには、高すぎる金額です。
00:01:46しかし、ここで疑問が生じます。なぜGenie 3を試すのはこれほどハードルが高いのでしょうか?
00:01:51この答えは、今回の話において非常に重要になります。
00:01:56これについては後ほど説明します。
00:01:57私がGenie 3を試せず、資金も足りずに途方に暮れていた頃、幸運なことに、
00:02:04地球の裏側では中国のRobiantという会社が動いていました。ここはアント・グループの
00:02:09子会社のようで、アリババの関連会社でもあります。Qwenと同じ系列ですね。
00:02:15彼らが独自の無限世界モデル「Lingbot World」を、
00:02:20驚くべきことにオープンソースで発表したのです。
00:02:25つまり、実際にテストしてその実力を確かめることができるというわけです。
00:02:29デモ映像を見る限り、それは圧倒的に素晴らしいものでした。
00:02:32しかし、プロジェクトページを詳しく調べると、またしても大きな失望が待っていました。
00:02:38ページには矢印キーで空間を自由に歩き回れる例がたくさん載っていますが、
00:02:43実際には、このフルキャラクターコントロールが可能なバージョンは
00:02:48まだ開発中だったのです。
00:02:51彼らはGenie 3と同等の「Lingbot Fast」をリリースする予定だそうですが、
00:02:56いつになるかはまだ分かっていません。
00:02:57現在アクセスできるのは、140億パラメータのベースモデルです。これによって
00:03:03「高精度で制御可能、かつ論理的に一貫したシミュレーション」が可能とのことですが、
00:03:08現時点でこのモデルができることは、基本的に動画の生成だけです。
00:03:14そう、ただの動画です。
00:03:16これのどこが「コントロール」なのかと困惑しました。
00:03:20カメラ位置の値を入力するオプションはあるので、ある意味でカメラワークを
00:03:25制御することは可能です。矢印キーでの操作の代わりにはなりますが、
00:03:31それは事前に記録しておく必要があります。
00:03:35カメラワークを制御できる他のAI動画生成ツールと、
00:03:40一体何が違うのでしょうか?
00:03:41決定的な違いはここにあります。
00:03:44通常のAI動画生成では、モデルは常に次のフレームを予測しようとします。
00:03:50ネット上のミーム動画でよく見られるように、動画が長くなるにつれて
00:03:55おかしなことになるのは、モデルがフレームの外で何が起きているかという
00:04:00情報を保持していないからです。
00:04:04カメラが対象から外れ、再び戻ってきたときにその物体が消えているのは、
00:04:09その場しのぎでシーンが生成されているためです。
00:04:13ここでLingbot Worldの140億パラメータを持つ「幾何学的頭脳」が本領を発揮します。
00:04:19単に次のピクセルを推測する標準的な生成AIとは異なり、Lingbot Worldは
00:04:24カメラの内部データと6自由度のポーズを使用して、全ピクセルを3D空間の特定点に紐付けます。
00:04:33研究者が「対象の永続性」と呼ぶものを生み出します。これはカメラレンズと環境の
00:04:39数学的関係を理解しているからです。
00:04:42つまり、特定の座標に特定の物体が存在することを記憶しているのです。
00:04:47この構造的な整合性を保つために、このモデルはこれほど巨大で計算負荷が高いのです。
00:04:52どれほど負荷が高いか?
00:04:53驚かないでくださいよ。
00:04:55私はLingbot WorldをRTX 1590を1枚搭載したインスタンスで動かそうとし、
00:05:02提供されたサンプルデモを実行しましたが、即座にクラッシュしました。
00:05:071590が1枚でこの負荷に耐えられると考えたのは、甘すぎました。
00:05:13次に2枚刺しで試しましたが、やはりクラッシュ。
00:05:184枚で試しても、結果は同じでした。
00:05:23ついにRTX 1590を8枚積んだコンテナを立ち上げて実行しましたが、
00:05:31それでもクラッシュしたのです。
00:05:32理由はこうです。この無限世界モデルを長時間稼働させると、
00:05:38モデルが保持すべきシーンのメモリ量が肥大化し続け、
00:05:44最終的にRAMが不足して、メモリ不足エラー(OOM)が発生するのです。
00:05:50最終的に8GPUの構成で、サンプルサイズをデフォルトの70から
00:05:5520に下げることで、ようやくデモを動かすことができました。
00:05:59正直なところ、サンプル数70と20の差はそれほど気になりませんでした。
00:06:03しかし、この無限世界モデルを動かすことがいかに異常な
00:06:09計算コストを要するかを物語っています。
00:06:10Genie 3に戻ると、GoogleがアクセスをUltraメンバーに限定しているのは、
00:06:16このシステムを動かす膨大なGPUコストを回収する必要があるからです。
00:06:21また、デモ時間が数秒しかないのも、ある時点でメモリが限界を迎え、
00:06:27システム全体が崩壊してしまうからに他なりません。
00:06:32家庭用ハードウェアでこのようなモデルを動かすのがどれほど非現実的かというと、
00:06:37RTX 1590は1枚で最大5,000ドルもします。
00:06:43これを、最低限必要となる8枚揃えることを考えてみてください。
00:06:48口にするだけでも馬鹿げていると感じます。
00:06:518枚で4万ドルです。しかも、価格が高騰している他のパーツや
00:06:57大量のRAMの費用は含まれていません。
00:07:01コストの問題、Genieの最大60秒という実行時間制限、そしてメモリの肥大化。
00:07:06これらこそが、無限世界モデルが現時点ではまだ「夢物語」であり、
00:07:12現在のアーキテクチャでは家庭用ハードで実現不可能である理由です。
00:07:24これらのツールの開発者自身も、こうした問題を認めています。
00:07:28「推論コストが高いため、現在はエンタープライズ級のGPUが必要であり、
00:07:34家庭用ハードウェアではアクセスできません」と。
00:07:37さらに、「シミュレーションに長期的な安定性が欠けている」とも述べています。
00:07:39「時間が経つにつれてシーンの構造的整合性が失われる、
00:07:44環境ドリフトが発生することが多い」とのことです。
00:07:46その通りですね。
00:07:48少なくともLingbotのチームは、この点についてオープンです。
00:07:51一方、Googleはどう言っているでしょうか。
00:07:53「数時間の対話ではなく、数分間の継続的なインタラクションをサポートします」
00:07:59率直には認めていませんが、その理由が何かはもう明白ですよね。
00:08:04だからこそ、従来のビデオゲームがすぐに消えることはないと断言します。
00:08:09現時点ではまだパイプドリームに過ぎず、将来的に計算上の問題が
00:08:15解決されて初めて、検討の余地が出てくるでしょう。
00:08:20今はまだ、そんな段階ではありません。
00:08:23「Lingbot Fast」が登場したらぜひ試してみたいとは思っています。
00:08:27ですが、それまではこの技術が主流になるとは思えません。
00:08:32もしLingbot Worldを自分で試してみたいなら、アドバイスがあります。
00:08:37私のような失敗はしないでください。
00:08:38RTX 1590を8枚も積み上げないでください。RunPodのようなプラットフォームでは、
00:08:451時間あたり7ドルも消費してしまいます。
00:08:48代わりにH200のコンテナを1つ立ち上げてください。これなら1時間3.5ドルで済みます。
00:08:55「nproc/node」フラグを1に設定し、サンプル数を50か20に下げれば、
00:09:01うまく動作するはずです。
00:09:02また、Caelan Humphries氏が作成した4ビット量子化バージョンを使えば、
00:09:08画質を維持しつつGPUメモリの消費を大幅に抑えられます。
00:09:15これならRTX 1590の1枚差しでも動く可能性があります。
00:09:19試した方は、結果をぜひ教えてください。
00:09:21私はH200のコンテナでデモを動かしましたが、
00:09:28基本的にはデモページと同じ結果が得られました。
00:09:30次に、バイキングがロキと戦っているAI画像を生成し、コマンドに入力しました。
00:09:37その結果がこちらです。
00:09:39動画全体を通して環境や城の整合性は保たれていますが、
00:09:44奇妙なノイズが発生しているのが分かると思います。
00:09:48正直、これをどう評価すべきか悩むところです。
00:09:52標準的なComfyUIのパイプラインを使えば、もっとマシな動画が作れる気がします。
00:09:59ちなみに、重いコストをかけずにSoraのような動画ジェネレーターを作る方法は、
00:10:04以前アップした動画で解説しているのでチェックしてみてください。
00:10:09というわけで、Genie 3やブーム、そしてゲームの未来についての私の見解でした。
00:10:16Genieのようなモデルの仕組みを知る手がかりをくれた、
00:10:20Lingbotチームのオープンソース化には感謝しています。
00:10:25以上、あくまで私の個人的な意見です。
00:10:27皆さんは、この無限世界モデルについてどう思いますか?
00:10:30興味があるので、ぜひ下のコメント欄で教えてください。
00:10:36この動画が役に立ったと思ったら、高評価ボタンをお願いします。
00:10:41このような動画をまた見たい方は、ぜひチャンネル登録も忘れずに。
00:10:45Better StackのAndrisでした。また次の動画でお会いしましょう。
00:11:00(アップビートな音楽)

Key Takeaway

最新のAI無限世界モデルは驚異的な技術ですが、膨大な計算コストとメモリ消費、長期的な安定性の欠如により、現時点では家庭用ゲームを置き換える段階にはありません。

Highlights

Googleの「Genie 3」発表によるゲーム業界への衝撃と株価暴落の背景

中国Robiant社によるオープンソースモデル「Lingbot World」の登場

「無限世界モデル」が抱える膨大なGPUコストとメモリ不足(OOM)の技術的課題

従来の動画生成とは異なる、3D空間の整合性を保つ「対象の永続性」の仕組み

家庭用ハードウェアでの実行は現時点で非現実的であり、ゲームの代替はまだ先であるという結論

Timeline

Genie 3の発表と市場の反応

Googleが無限の世界を生成するフラッグシップモデル「Genie 3」を発表し、ゲーム業界に激震が走りました。このAIは実際のゲームのように環境をシミュレートし、自由なインタラクションが可能なため、ゲーム業界の終焉を予感させるとして関連株価が軒並み暴落しました。しかし、中国のRobiant社が対抗してオープンソースのモデルをリリースするなど、技術開発の競争は急速に激化しています。話者はこの「無限世界モデル」のブームを冷静に見つめ、中身のない誇大広告である可能性を示唆しています。このセクションは、現在の過熱した市場の期待と、その後に続く批判的な分析の対比を象徴しています。

Genie 3アクセスの壁と中国Robiantの台頭

話者はGenie 3を試そうと試みましたが、カナダからのアクセス制限や「Ultraプラン」の高額な課金壁に直面し、利用の困難さを指摘しています。なぜこれほどまでに利用ハードルが高いのかという疑問が、のちの計算コストの話に繋がる重要な伏線となっています。一方で、中国のアント・グループの子会社Robiantが、独自のモデル「Lingbot World」をオープンソースで発表しました。デモ映像は圧倒的でしたが、実際にはフルキャラクターコントロールが可能なバージョンはまだ開発中という現状がありました。このセクションでは、技術の独占とオープンソース化の対立構造が浮き彫りになっています。

Lingbot Worldの技術的革新と幾何学的頭脳

現在利用可能なLingbot Worldの140億パラメータモデルは、単なる動画生成とは一線を画す「幾何学的頭脳」を持っています。通常のAI動画生成が次のフレームを予測するだけなのに対し、このモデルはカメラの内部データを用いて全ピクセルを3D空間に紐付けています。これにより、カメラが一度視点を外しても同じ場所に物体が残り続ける「対象の永続性」を実現しています。この構造的な整合性を保つための数学的処理が、モデルの巨大化と計算負荷の増大を招いています。この革新的なアプローチが、従来のAI動画に見られた不自然な消失や変形を防ぐ鍵となっています。

異常な計算負荷と家庭用ハードの限界

話者はLingbot Worldを実際に動かそうとし、ハイエンドGPUであるRTX 1590を8枚使用してもクラッシュするという衝撃的な結果に直面しました。その主な原因は、時間の経過とともに肥大化するシーンのメモリ量がRAMの上限を超え、メモリ不足エラー(OOM)を引き起こすことにあります。GoogleがGenie 3のアクセスを制限し、実行時間を数秒に留めているのも、この膨大な計算コストを回収しシステム崩壊を防ぐためです。8枚のGPUを揃えるだけで4万ドル以上の費用がかかるという事実は、この技術が現在いかに非現実的かを物語っています。このセクションでは、理想の技術と冷酷なハードウェアスペックのギャップが詳細に解説されています。

開発側の本音と従来のゲームの存続

開発者側も、現状の推論コストの高さや長期的な安定性の欠如といった問題を認めています。シーンの構造的整合性が失われる「環境ドリフト」が発生しやすく、数時間の対話にはまだ耐えられないのが実態です。Googleも直接的には認めないものの、利用時間を制限していることがその証拠であると話者は断言しています。したがって、現在のアーキテクチャでは家庭用ハードウェアでこれらのモデルを動かすことは不可能であり、従来のゲームがすぐに消える心配はありません。この技術が主流になるには、将来的な計算アルゴリズムの抜本的な解決が不可欠であると結論づけています。

実用的なセットアップと検証結果

最後に、Lingbot Worldを試したい人向けに、H200コンテナを利用した安価で効率的な実行方法がアドバイスされています。量子化バージョンを使用することで、GPUメモリの消費を抑えつつ一定の画質を維持できる可能性が示されています。話者がバイキングの画像を使って生成したデモでは、整合性は保たれていたものの特有のノイズが発生しており、評価が分かれる結果となりました。結論として、今のブームには冷静に対処すべきですが、オープンソース化によって仕組みが解明されることには感謝が述べられています。動画は、視聴者への意見募集とチャンネル登録の呼びかけで締めくくられています。

Community Posts

View all posts