00:00:00強力なビジョンランゲージモデルを動かすには、巨大なGPUや
00:00:05クラウドサービスの有料サブスクリプションが必要だと思われがちです。
00:00:08しかし、Liquid AIが最近、ブラウザ上だけで完全に動作する
00:00:14最新のLFMモデルのデモを公開しました。
00:00:16WebGPUとONNX Runtimeを使用することで、画像や動画をローカルで処理できます。
00:00:23つまり、データがPCの外に出ることはなく、モデルを一度キャッシュすれば
00:00:28インターネット接続すら必要ありません。
00:00:30これは本当に素晴らしいことだと思うので、今回の動画では
00:00:34このモデルの性能をチェックし、テストを行い、本当に謳い文句通り
00:00:40パワフルなのかを確かめてみましょう。
00:00:41とても楽しみですね、さっそく見ていきましょう。
00:00:48さて、LFMとは「Liquid Foundation Model」の略です。
00:00:52Liquid AIは、トランスフォーマー構造だけに頼るのではなく、ハイブリッド設計を採用しています。
00:00:58畳み込みブロックと「Grouped Query Attention」と呼ばれるものを組み合わせています。
00:01:03この16億パラメータのモデルは、視覚と言語に特化して調整されています。
00:01:0928兆トークンという膨大なデータセットでトレーニングされており、そのサイズ以上の
00:01:15実力を発揮します。
00:01:16ベンチマークでは、自身の2倍のサイズのモデルに匹敵する性能を見せつつ、
00:01:21ノートPCやスマホなどのエッジデバイスで大幅に高速に動作します。
00:01:26では、どうやってこれほど高度な知能を1GB未満のRAMに
00:01:31収まるパッケージに凝縮したのでしょうか?
00:01:34巨大なクラウドモデルを削減・圧縮しただけの他の小型モデルとは異なり、
00:01:40Liquid AIは「設計による効率化」という哲学を掲げています。
00:01:44社名の「Liquid」は、彼らの「Linear Input Varying architecture(LIV)」に由来します。
00:01:51従来のトランスフォーマーは、やり取りが増えるほどメモリ消費が大きくなりますが、
00:01:56Liquidモデルは適応型畳み込みブロックのハイブリッドシステムを使用しています。
00:02:01これらのブロックはスマートフィルターのように機能し、最も関連性の高い局所的な情報のみを処理、
00:02:07モデル内を流れるデータを効果的に圧縮します。
00:02:11これにより、LFMは32,000トークンの広大なコンテキストウィンドウを維持しながら、
00:02:18従来のトランスフォーマーで見られる急激な速度低下やメモリの急増を回避しています。
00:02:23また、このモデルを際立たせている具体的な技術的詳細がいくつかあります。
00:02:28まず、ネイティブ解像度についてです。
00:02:30最大512x512ピクセルの画像を、歪みやアップスケーリングなしで処理できます。
00:02:37より大きな画像に対しては、画像をパッチに分割するタイリング戦略を用いつつ、
00:02:42全体の文脈を把握するためのサムネイルも保持します。
00:02:46次に、非常に効率的である点です。
00:02:47ハイブリッドアーキテクチャのおかげで、メモリフットプリントが非常に小さく、
00:02:52多くの場合、1GB未満のRAMで動作します。
00:02:54しかし、最も印象的なのはWebGPUの統合でしょう。
00:02:58Hugging Face Spaceのデモでは、Webカメラによるリアルタイムのキャプション生成が可能です。
00:03:04それでは、実際に試して、どれほどのパフォーマンスか見てみましょう。
00:03:08よし、実際にどう動くか見てみましょう。
00:03:11読み込むビジョンモデルを選べるようですね。
00:03:15一番パワフルなFP16(16ビット浮動小数点)を試してみましょう。
00:03:18これをロードします。
00:03:20このモデルのダウンロードには、かなりの時間がかかります。
00:03:23これらはすべて、あなたのデバイスにダウンロードされています。
00:03:25なので、次にアプリを開くときは、すべてキャッシュされた状態になります。
00:03:28よし。
00:03:29FP16量子化モデルのダウンロードが終わりました。
00:03:34「Start」をクリックして、動作を確認しましょう。
00:03:36おお、見てください。
00:03:38「ひげを生やし、フーディーを着た男性がカメラを見ている」と出ました。
00:03:40ビデオに映っているオブジェクトが何であるかを検出できていますね。
00:03:45これはすごいです。
00:03:46物体検出もできるわけですね。
00:03:50スマホを認識できるか試してみましょう。
00:03:51ええ、「黒いケースに入ったiPhoneを持っている」と認識しました。
00:03:57かなりクールですね。
00:03:58見てください。
00:04:00本当にリアルタイムで動いています。
00:04:02感動しました。
00:04:04これならどうでしょう?
00:04:05「手でピースサインを作っている」と認識するでしょうか?
00:04:10すごいですね。
00:04:12サムズアップ(親指を立てる)をしたら?
00:04:13はい、「サムズアップをしている」と出ました。
00:04:15このモデルは、私の動作をすべてリアルタイムで検出しています。
00:04:18マイクを検出できるか見てみましょう。
00:04:21おっと、「RØDE」という文字が書かれていることまで検出しました。
00:04:24ワォ、ケースの上の文字まで読めるなんて、本当に素晴らしいです。
00:04:29これらのキャプションをリアルタイムで得られるという事実は、
00:04:33このモデルがいかに強力であるかを示しています。
00:04:35ネット接続を切っても動くかどうか試してみましょう。
00:04:40今、Wi-Fiを切りました。ええ、相変わらず同じように認識されています。
00:04:50最高ですね。
00:04:51以上、
00:04:52最新のLiquid Foundation Modelの概要でした。
00:04:56量子化技術や、私のノートPCのようなエッジデバイスで動かせる能力など、
00:05:01AIモデルの進化には目を見張るものがあります。
00:05:05わずか2年前には、これが現実になるとは信じられませんでしたが、
00:05:10今やWebGPUでこれらのモデルを動かすことが当たり前になりつつあります。
00:05:14Liquid Foundation Modelについて、皆さんはどう思いますか?
00:05:16もう試してみましたか?
00:05:17使ってみたいですか?
00:05:18このようなモデルに最適なユースケースは何でしょうか?
00:05:21下のコメント欄で皆さんの考えを聞かせてください。
00:05:23また、このような技術解説が気に入ったら、ぜひ動画の下にある
00:05:27高評価ボタンを押し、チャンネル登録も忘れずにお願いします。
00:05:32Better StackのAndrisでした。また次の動画でお会いしましょう。