Google、マルチモーダルAIの最大の問題を解決（Gemma 4 12B）

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

컴퓨터/소프트웨어가전제품/카메라

Transcript

00:00:00Googleが最新のGemma 4 120億パラメータモデルを発表しました。これはまさに革命的です。

00:00:06いえ、冗談ではありません。クリックベイトでもなく、このモデルはその構造において真の革命を起こしているのです。

00:00:13他のすべてのAIモデルと一線を画しているのは、完全に

00:00:18エンコーダーレスであるという点です。さて、それが何を意味し、どう機能し、なぜそれほど重要なのか？

00:00:24これらはすべて、今日の動画で解き明かしていく非常に興味深い疑問です。

00:00:29それでは深掘りしていきましょう。Gemma 4 120億パラメータモデルは、新しいアーキテクチャを採用しており、

00:00:39これまでのマルチモーダルモデルの仕組みを根本から覆しています。マルチモーダルモデル...おっと、

00:00:46噛んでしまいましたね。なぜこれが重要なのかを理解するには、

00:00:51現在他のマルチモーダルモデルがどう処理しているかを見る必要があります。言語モデルはテキストを

00:00:57数値に変換した「トークン」を読むように作られています。本来ピクセルや

00:01:05音波の意味はわかりません。そのため、通常は異なるモデルを組み合わせます。AIに画像を与えると、巨大な

00:01:11ビジョンエンコーダーがまず介入します。生のピクセルをLLMが理解できる

00:01:19言語に翻訳するために、膨大な処理能力を費やします。音声も同じで、別の音声エンコーダーが

00:01:25まず音波を翻訳しなければなりません。AIの脳本体にデータが届くまでに、

00:01:323つの別々のネットワークを同時に走らせることになります。標準的なノートPCではVRAMを使い果たし、

00:01:38全体の動作が遅くなります。しかしGoogle DeepMindはこの課題に着目し、中間層を

00:01:44排除できないかと考えました。Gemma 4 120億モデルでは、重いビジョンエンコーダーを完全に削除しました。代わりに、

00:01:51画像を入力すると、モデルはそれを48x48ピクセルのパッチに分割します。そして、

00:01:58それらのパッチを何十層もの別の視覚ネットワークに通すのではなく、生のピクセルを単一の

00:02:04「線形射影」と呼ばれる薄い数学的ステップに通します。この線形射影は巨大な数値グリッドであり、

00:02:112304個のピクセル値（48x48ピクセルに相当）を取り込み、それらを一度に掛け合わせ、

00:02:19LLMのテキストトークン形式に完璧に一致する単一の行へと引き伸ばします。

00:02:26画像の中身を分析するのではなく、モデルが処理できるように生のデータを再フォーマットしているだけです。

00:02:32従来のモデルを見ると、ビジョンエンコーダーは巨大です。例えば、

00:02:38このモデルは5億5000万パラメータを持っています。従来のエンコーダーは画像の形状、

00:02:45マップ、理解のために多くのデータを必要とするからです。内部には何十層ものアテンション層があり、

00:02:50ピクセル間の関係を計算し、エッジがどこにあるか、形が何か、物体が何かを

00:02:57テキストモデルに渡す前に突き止めようとします。しかしDeepMindは、その重い計算処理をすべて削除して縮小しました。

00:03:04言語バックボーン本体が既に非常に賢く、実際の視覚推論を行うための十分な層があることに気づいたのです。

00:03:10思考層をすべて取り除くことで、残ったのはわずか3500万パラメータでした。これは、

00:03:17画素グリッドをテキスト形式にマッピングするために必要な結合重みの物理的な数に過ぎません。

00:03:24つまり、あらゆる画像に対して機能する静的な単一レイヤーマップなのです。

00:03:30内部で思考をしないため、処理能力をほとんど消費せず、VRAMを解放して

00:03:37メインのLLMが本来の知能で処理できるようにしています。この単一ステップの仕組みを理解するには、

00:03:44言語モデルのバックボーン内で実際に何が起きているかを見る必要があります。あらゆる言語モデルには、

00:03:50内部フォーマットルールとしての「隠れ次元」が存在します。標準化されたトレーのサイズだと考えてください。

00:03:56「リンゴ」という言葉であれ、コードの一部であれ、句読点であれ、LLMに入力されるすべてのものは、

00:04:04行列の次元と一致させる必要があるため、この特定の巨大な数値リストに変換されなければなりません。そしてこの生データである

00:04:1148x48ピクセルのパッチは、2304個の色の数値グリッドです。この生データを

00:04:19直接LLMに入れようとすると、次元が一致しないために拒否されます。それこそが、

00:04:263500万パラメータのマッピング層が存在する理由です。これは文字通り、

00:04:332304個のピクセル値を掛け合わせ、LLMのトークン形式に完璧に合う1行へと引き伸ばす

00:04:40巨大な結合重みグリッドです。分析的な思考はせず、ただフォーマットを変換して、

00:04:48データがメインのトランスフォーマーへ流れ込み、そこで本来の視覚的推論が行われるようにしているのです。

00:04:54音声推論についても同様の処理が行われますが、音声の場合はさらにシンプルです。

00:05:01音声エンコーダーを排除できた理由は、16kHzの生の音声信号を取り、

00:05:07連続する40ミリ秒のフレームに分割しているからです。各フレームには正確に640個の浮動小数点数が含まれ、

00:05:15それが波形を表しています。モデルはその640個の浮動小数点数を、同様の

00:05:21単純な射影層に通して、言語モデルの入力空間に直接マッピングします。トランスフォーマー

00:05:28バックボーンにとって、40ミリ秒の音声ブロックは、連続するテキストトークンのストリームと同じに見えます。音声は

00:05:35単語の並びである文と同じく、時系列のシーケンスであるため、LLMは音声を

00:05:42正確にテキストとして扱います。このネイティブな統合により、120億パラメータモデルは、

00:05:49別の音声ネットワークをメモリに読み込むことなく、1回のフォワードパスでライブの文字起こし、翻訳、テキスト整形を

00:05:56行えます。この賢い手法は、自分のハードウェアでローカルにモデルを動かす上で大きな勝利です。

00:06:02エンコーダーの肥大化を取り除くことで、DeepMindは小さなフットプリントに驚異的な推論

00:06:08能力を詰め込みました。ベンチマークを見ると、260億パラメータという

00:06:15巨大なモデルに迫る性能を持ちながら、16GB以上のVRAMを搭載した標準的なノートPCに

00:06:21余裕を持って収まります。さらに、Googleはネイティブなマルチトークン予測ドラフターを搭載しており、

00:06:28モデルを圧縮することなく、高速なローカル推論速度で一度に複数のトークンを予測できます。

00:06:34さて、これだけ魅力的なので、私のM2 MacBook Proで試してみましょう。

00:06:41前回のOMLX動画で「VRAMはどれくらいあるのか？」と聞かれましたので、

00:06:48お答えします。24GBのVRAMを使っています。それが今の環境です。

00:06:53また、このEdge Galleryアプリは非常にバグが多いと言わざるを得ません。例えば、画像を

00:07:01追加して「この画像を分析して」と頼むと、即座に失敗してランダムなエラーが出ます。

00:07:13最新バージョンでもこうです。残念ながら、公式のAI Edge Galleryアプリでビジョンエンコーダーを

00:07:20テストできませんでしたが、別の方法で試すことができます。さて、

00:07:26Google AI Edge GalleryでGemma 4 120億モデルの画像処理を確実に

00:07:34テストできなかったので、OMLXで試すことにしました。OMLXについても以前動画を作りましたが、

00:07:42ローカル、特にApple SiliconでAIモデルを動かすための素晴らしい

00:07:47フレームワークです。ご覧の通り、このモデルの8bit量子化バージョンをダウンロードしました。

00:07:54ではチャットセクションに行き、リアルタイムでどれだけ速く画像推論ができるか見てみましょう。

00:08:01ここにテストフォルダーがあり、2つの画像があります。1つは空港の出発便情報のスクリーンショットです。

00:08:09この画像を使って、「何が見えますか？」と聞いてみます。動画の速度は一切上げていないことに注目してください。

00:08:18すべてリアルタイムです。どれほど高速に画像への推論ができるか見てください。

00:08:24開始しました。モデルをロードして、生成、ほら、これを見てください。

00:08:33いかに速く画像を解析し、有用な情報を抽出できているか。

00:08:41初めてOMLXでこれを見たとき、その速度に純粋に圧倒されました。本当に信じられません。

00:08:50ローカルでの画像推論用にテストした中で最高のモデルだと言わなければなりません。

00:08:57Wi-Fiをオフにしてオフラインで実行していることにも注目してください。

00:09:03ではもう一つ試しましょう。TV番組『ヴァイキング』のキャラクターが映ったぼやけた画像です。

00:09:10もう一度、この画像を開いて同じことを聞いてみます。「この画像に何が見えますか？」

00:09:21生成中です。

00:09:27ほら、見てください。

00:09:30つまり、これほど速いのです。本当に驚きました。

00:09:37この新しいモデルの画像処理性能には、正直非常に感銘を受けています。

00:09:43というわけで、これが新しいエンコーダーレスGemma 4 120億モデルの概要です。

00:09:50公式のAI Edge Galleryアプリで確実にテストできなかったのはかなり残念でしたが、

00:09:56見てきたように、ローカルで実行するための他のおそらくもっと良い方法があります。

00:10:01非常に優れたモデルであり、ローカルAIの未来を完全に変えるものだと思います。

00:10:07Google DeepMindは、単一の言語バックボーンだけで視覚と音声を

00:10:13ネイティブに処理するのに十分であることを証明しました。この新しい手法は、

00:10:19エッジデバイスで容易に実行できる、より効率的なマルチモーダル推論モデルの開発への扉を開くでしょう。

00:10:26この新しいGemmaモデルについてどう思いますか？試しましたか？使ってみますか？コメント欄で教えてください。

00:10:32皆さま、もしこういった技術的な解説動画が好きなら、動画下の「いいね」ボタンを押して教えてください。

00:10:37チャンネル登録もお忘れなく。BetterStackのアンドレスでした。

00:10:43また次の動画でお会いしましょう。

Key Takeaway

Gemma 4 12Bモデルは、重いエンコーダーを排除し、生のデータを線形射影によって言語モデルにネイティブ統合することで、低リソース環境での高速なマルチモーダル処理を実現している。

Highlights

GoogleのGemma 4 12Bモデルは、ビジョンエンコーダーを完全に排除したエンコーダーレス構造を採用している。
画像データは48x48ピクセルのパッチに分割され、3500万パラメータの線形射影層を通ることで言語モデルの入力形式へ直接変換される。
音声処理においては、16kHzの音声信号を40ミリ秒のフレームに分割し、言語モデルのトランスフォーマーバックボーンへ直接入力する。
120億パラメータモデルでありながら、16GB以上のVRAMを搭載した標準的なノートPCで動作する。
OMLXフレームワークを用いたApple Silicon上でのテストにおいて、リアルタイムでの画像解析推論が可能である。

Timeline

エンコーダーレス構造の画期性

従来のモデルは画像や音声の翻訳に巨大な外部エンコーダーを必要とする。
Gemma 4 12Bはビジョンエンコーダーを完全に削除した。
画像データは2304個のピクセル値を持つ線形射影層を通じてLLMの入力次元に変換される。

従来のマルチモーダルAIはピクセルや音声を理解するために複数の別ネットワークを走らせ、膨大な計算能力とVRAMを消費していた。これに対し、本モデルは画像を48x48のパッチに分割し、単一の数学的ステップを通すことで思考層を排除し、処理効率を劇的に向上させている。

言語バックボーンによるネイティブ推論

言語モデル内部の隠れ次元に合わせて生データを射影する。
音声信号は40ミリ秒のブロックに分割され、テキストと同様に時系列シーケンスとして処理される。
メモリ効率が最適化され、単一のフォワードパスでライブ処理が可能である。

モデルの本体である言語バックボーンが視覚推論を直接行えるという前提に基づき、データ形式の変換のみを行う軽量なマッピング層が採用されている。音声も同様に波形の数値を直接トランスフォーマーに入力することで、専用の音声ネットワークを個別にメモリへ読み込む必要がなくなった。

ローカル環境での性能評価

260億パラメータモデルに匹敵する推論性能を保持している。
OMLX環境においてリアルタイムで画像内のテキスト抽出や物体認識が可能である。
オフラインかつ標準的なノートPCのメモリ容量内で高速動作する。

実環境のテストでは、空港の出発案内スクリーンや画像内のキャラクター分析を即座に実行する高い能力が示された。特定の公式アプリではエラーが発生するものの、適切なローカルフレームワークを利用することで、エッジデバイスにおけるマルチモーダルAIの有用性が実証されている。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video