Googleが最強のエッジAIモデルを開発？ (Gemma 4)

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

Computing/SoftwareLanguagesConsumer ElectronicsCell PhonesInternet Technology

Transcript

00:00:00先週、Googleが予想外のことをしました。

00:00:02Apache 2.0ライセンスの下で、真のオープンソースモデルをリリースしたのです。

00:00:08それは「Gemma 4」と呼ばれ、23億パラメータという極小のエッジ専用バージョンも備えています。

00:00:14これらは、iPhoneやAndroidのフラッグシップ機、

00:00:21さらにはRaspberry Piなどのデバイス上で、完全にオフラインで動作するように設計されています。

00:00:23究極のスモールモデル構築に向けた競争は、まさに白熱しているようです。

00:00:28ほんの数週間前、私はQwen 3.5でテストを行い、ローカルAIの限界が

00:00:33どこまで押し広げられているかを確認しましたが、今度はGoogleがさらなる「知能密度」を約束しています。

00:00:39そこでこの動画では、Gemma 4でも同様のテストを行い、

00:00:44このモデルが本当に最高のスモールモデルなのかを検証します。

00:00:47面白い内容になりそうです。さっそく見ていきましょう。

00:00:53さて、この新しいGemma 4モデルの何がそれほどユニークなのでしょうか？

00:00:57技術的な大きな変化は、Googleが「層別埋め込み（per-layer embeddings）」と呼ぶものです。

00:01:03従来のトランスフォーマーでは、トークンは最初に1つの埋め込みを受け取り、

00:01:08それが全レイヤーを通じてすべての意味を運ぶ必要がありました。

00:01:11しかしGemma 4では、各レイヤーが独自の埋め込みセットを持っており、

00:01:16モデルが必要な場所に正確に新しい情報を導入できるようになっています。

00:01:19E2BやE4Bといったモデル名に「E」がついているのは、そのためです。

00:01:24これは「有効パラメータ（effective parameters）」を意味します。

00:01:2750億パラメータモデルと同等の推論深度で動作しながら、

00:01:32推論中に実際に使用するアクティブパラメータは約23億にすぎません。

00:01:36これにより知能密度が格段に高まり、1.5GB未満のRAM消費でありながら

00:01:42複雑なロジックを処理できるようになりました。

00:01:46テキスト性能だけでなく、Gemma 4はネイティブにマルチモーダルです。

00:01:50つまり、画像、テキスト、さらには音声までもが、別々のモジュールを後付けするのではなく、

00:01:56一つの統合されたアーキテクチャ内で処理されるのです。

00:01:59このアーキテクチャにより、回答を出す前に内部の推論チェーンを用いて

00:02:05自身の論理を検証する新しい「思考モード」が可能になりました。

00:02:08これは、スモールモデルにつきものの無限ループや

00:02:13論理エラーを防ぐために特別に設計されたものです。

00:02:15また、128Kのコンテキストウィンドウと140以上の言語サポートも備えており、

00:02:22複雑なOCRや局所的な言語識別といったタスクで大幅に能力を発揮するはずです。

00:02:29そしてこれらの能力を証明するために、Googleは驚くべきベンチマークを公開しました。

00:02:34内部テストにおいて、E4BモデルはAIME 2026数学ベンチマークで

00:02:4342.5%というスコアを記録しました。これは前世代のはるかに大きなモデルの2倍以上の数値です。

00:02:49また、T2ベンチにおけるエージェントとしての可能性も示されており、

00:02:54ツール利用の精度が飛躍的に向上しています。

00:02:57さらに「エージェント・スキル」と呼ばれる機能を通じて、モデルのポテンシャルを実証しました。

00:03:02単に静的なテキストを生成するだけでなく、ネイティブな関数呼び出しを利用して、

00:03:07Wikipediaでライブデータを検索したり、エンドツーエンドの

00:03:13「動物の鳴き声ウィジェット」を構築したりといったマルチステップのワークフローをこなしました。

00:03:15非常に印象的な話ですが、実際に自分たちで試して、どのように動作するか見てみましょう。

00:03:20前回のQwen 3.5の動画では、LM StudioとClineを使い、

00:03:25インターネット接続なしのローカル環境でスモールモデルをテストしました。

00:03:28Gemma 4のテストでも同じセットアップを使用します。

00:03:32まずLM Studioでモデルをダウンロードし、利用可能なコンテキストウィンドウを増やして、

00:03:37サーバーを起動します。

00:03:39次にClineに移動して、ローカルのLM Studioサーバーに接続し、E2Bモデルを選択、

00:03:45インターネット接続を切断してテストを開始します。

00:03:49前回、Qwen 3.5は最小クラスの2つのモデルを使って、HTML、CSS、JavaScriptで

00:03:55シンプルなカフェのウェブサイトをかなりうまく作成できました。

00:04:00同じプロンプトを再利用して、Gemma 4がこのコーディングタスクで同等の実力があるか見てみましょう。

00:04:05さて、E2Bモデルがこのタスクを完了するのに約1.5分かかりました。

00:04:10アクティブパラメータが23億あるモデルとしては、正直なところ、

00:04:16わずか8億パラメータだったQwenの結果と比較すると、少し物足りない印象でした。

00:04:22一番困ったのは、GemmaがHTMLファイルとCSSファイルの両方の末尾に

00:04:28タスクリストを追記してしまったことです。そのため、ページを開く前に

00:04:33両方のファイルから手動で削除する必要がありました。

00:04:34また、JavaScriptファイルを書いたと主張していましたが、実際には最終出力に

00:04:40JSファイルは生成されておらず、E2Bのテスト結果は少し期待外れでした。

00:04:45しかし、E4Bモデルに切り替えると、状況はかなり改善されました。

00:04:50完了までに約3.5分かかりましたが、最終的な成果物は明らかに

00:04:55優れたものでした。

00:04:56デザイン面では依然として非常に素っ気ないですが、このバージョンでは

00:05:00カート機能が実際に動作していました。これは、QwenやGemmaでのこれまでのテストで

00:05:06一度も成功していなかったことです。

00:05:08E4BはE2Bから大きな進化を遂げていますが、もちろんこれほど小さなモデルを

00:05:15本格的で複雑なコーディングに使用しようと考える人はいないでしょう。

00:05:20私は単に好奇心から、これほど少ないパラメータ数でも、

00:05:25与えられたコーディングタスクに対して意味のある結果を出せるかどうかをテストしたのです。

00:05:29さて次に、iPhoneのようなエッジデバイスでGemma 4がどう機能するか見てみましょう。

00:05:34Qwen 3.5の動画では、SwiftのMLXフレームワークを使用して、

00:05:40ネイティブのMetal GPU上でモデルを動かすカスタムiOSアプリを作りました。

00:05:44Gemma 4はオープンソースですが、残念ながら現時点では、このモデルを

00:05:49マルチモーダル機能付きでiOS上で動作させられるMLXバインディングは存在しません。

00:05:56Google自身は、独自の推論フレームワークであるLiteRT LLMを使用して

00:06:01AI Edge GalleryアプリでGemma 4を動かしていますが、悲しいことにこれについても

00:06:07現時点ではiOSバインディングはサポートされていません。

00:06:08そのため、iPhoneで試すための現状の最善策は、彼らのEdge Galleryアプリを使うことです。

00:06:13彼ら自身のアプリでテストを行い、パフォーマンスを確認してみましょう。

00:06:18まずはAIチャットセクションへ行きます。

00:06:20ここではGemma 4のE2Bバージョンをダウンロードするよう促されます。

00:06:25E4Bバージョンをダウンロードするオプションもありますが、なぜかアプリは

00:06:29「空き容量不足」と表示します。そんなはずはないので、

00:06:34おそらくアプリのバグでしょう。

00:06:36ともあれ、モデルをダウンロードしたので、ようやく使い始めることができます。

00:06:41まずは単純に「Hello」と入力してみましょう。

00:06:43わあ、レスポンスの速さを見ましたか？

00:06:46Qwen 3.5よりもずっと速いです。

00:06:48これが彼らが使用しているLiteRT LLMフレームワークの魔法かもしれません。

00:06:53では、有名な「洗車テスト」でGemmaが正しく答えられるか試してみましょう。

00:06:57わあ、かなり長い回答が返ってきました。

00:07:00最後の方を見ると、最終的な推奨は「運転すること」になっており、正解ですが、

00:07:06実際には論理的な事実ではなく、利便性や快適さを根拠にしているという点には

00:07:10留意する必要があります。

00:07:13なので、テストに合格したとも言えるし、合格していないとも言える、という感じです。

00:07:18さて次は「画像への質問」セクションに飛んで、Gemmaがこの写真の中の

00:07:24犬を識別できるか見てみましょう。

00:07:26確かに犬であることを識別し、画像に関する他の詳細も答えています。

00:07:31これはかなりいいですね。

00:07:32でも、「この犬の犬種は何？」と聞くと、

00:07:35ボーダー・コリーだと答えましたが、それは間違いです。

00:07:39実際にはコーギーです。

00:07:40とはいえ、わずか20億強のアクティブパラメータであることを考えれば、

00:07:45この回答はそれでも十分に優れていると言えるでしょう。

00:07:46最後に、OCR（文字認識）テストを試してみます。

00:07:48前回のQwen 3.5の動画を観た方は覚えているかもしれませんが、

00:07:54私の母国語であるラトビア語のテキストが含まれた画像でテストしました。

00:07:59Gemmaは最大140言語を理解できると謳っています。

00:08:05ですから、このテストは簡単にクリアするはずです。

00:08:08はい、その通り、言語がラトビア語であることを識別しました。

00:08:13驚いたことに、ほとんどのテキストがかなり正確に認識されています。

00:08:16いくつかの些細な例外として、存在しない単語があったり、

00:08:22文法構造が非常に奇妙だったりする箇所は見受けられます。

00:08:24それでも非常に印象的です。

00:08:26よって、このテストは合格とします。

00:08:28さて、そこで疑問が湧きます。このモデルとラトビア語でチャットできるでしょうか？

00:08:32次にそれを試してみましょう。

00:08:33回答は確かにラトビア語で返ってきました。

00:08:36しかし、やはり文法構造が非常に不自然です。

00:08:39あんな風に話す人は誰もいません。

00:08:41とはいえ、ラトビア語は非常に話者数の少ない言語です。

00:08:44これほど小さなモデルにそれだけの知識が入っていること自体、すでに驚きです。

00:08:48ついでに「現在の米国大統領は誰？」と聞いて、

00:08:53Gemma 4の知識のカットオフを確認してみます。

00:08:56答えはジョー・バイデンと返ってきました。

00:08:58そして「あなたの知識のカットオフはいつ？」と実際に聞くと、

00:09:022025年1月だと答えました。これは辻褄が合いますね。

00:09:06というわけで、以上です。

00:09:07これがGoogleによる最新のオープンソースモデル、Gemma 4です。

00:09:10正直なところ、このモデルはかなり良さそうです。

00:09:14宣伝通りの実力ですが、ウェブデザインに関しては少し創造性に欠けるかもしれません。

00:09:19ですがそれ以外については、今見たように、この小さなモデルでも

00:09:24与えたすべてのタスクを無事に完遂する能力を十分に備えています。

00:09:27このモデル用のMLXバインディングがまだ無いのは残念です。

00:09:32Gemma 4をカスタムiOSアプリ上でローカルに使ってみたいですからね。

00:09:36でも、Googleがこのリリースを一般に公開するまで、そう長くはかからないでしょう。

00:09:41それまでの間、私はSwiftLMのようなコミュニティプロジェクトに注目しています。

00:09:46これらはすでに、これらのモデル向けの非公式なネイティブバインディングに取り組んでいます。

00:09:50以上が、このモデルに対する私の個人的な見解です。

00:09:52皆さんはGemma 4についてどう思いますか？

00:09:54試してみましたか？

00:09:55使ってみたいですか？

00:09:56下のコメント欄で教えてください。

00:09:59皆さん、こうした技術的な解説が気に入ったら、

00:10:03動画の下にある高評価ボタンをぜひ押してください。

00:10:05チャンネル登録も忘れずにお願いします。

00:10:07BetterStackのAndresでした。また次の動画でお会いしましょう。

Key Takeaway

Gemma 4は層別埋め込み技術とネイティブマルチモーダル設計により、1.5GB未満のメモリで動作しながら数学ベンチマークで旧来の大型モデルを凌駕する知能密度を実現した。

Highlights

Gemma 4はApache 2.0ライセンスを採用したオープンソースモデルであり、23億パラメータのエッジ専用版を備えている。

層別埋め込み（per-layer embeddings）技術により、推論時に約23億のアクティブパラメータのみを使用しながら50億パラメータ規模の推論深度を実現した。

1.5GB未満のRAM消費で動作し、128Kのコンテキストウィンドウと140以上の言語サポートを統合している。

E4BモデルはAIME 2026数学ベンチマークで42.5%を記録し、前世代の大型モデルの2倍以上の性能を示した。

2025年1月までの知識を保持しており、オフライン環境のiPhone上でLiteRT LLMフレームワークを通じて高速なレスポンスを生成する。

Timeline

Gemma 4のアーキテクチャと層別埋め込み

各レイヤーが独自の埋め込みセットを持つ層別埋め込みを採用した。
推論に使用するアクティブパラメータを23億に抑えつつ、50億パラメータモデルと同等の推論深度を確保した。
1.5GB未満の低メモリ消費環境でも複雑なロジック処理が可能になった。

従来のトランスフォーマーは全レイヤーで一つの埋め込みを共有していたが、Gemma 4は必要な場所に新しい情報を導入できる。E2BやE4Bといったモデル名の「E」は有効パラメータを指しており、効率的なリソース活用が設計の核となっている。これによりRaspberry Piやスマートフォンなどのエッジデバイスでオフライン動作が可能になった。

マルチモーダル性能と思考モードの導入

画像、テキスト、音声を単一のアーキテクチャ内でネイティブに処理する。
回答生成前に論理を自己検証する内部推論チェーン「思考モード」を搭載した。
ネイティブな関数呼び出しによりWikipedia検索やウィジェット構築などのマルチステップタスクを実行する。

後付けのモジュールではなく統合されたアーキテクチャを持つことで、スモールモデルに特有の無限ループや論理エラーを抑制した。ベンチマークではAIME 2026で42.5%のスコアを出し、エージェントとしてのツール利用精度も飛躍的に向上した。エージェント・スキル機能により、ライブデータの検索といった動的なワークフローにも対応している。

ローカル環境およびコーディングタスクの検証

E2Bモデルは約1.5分でウェブサイトを構築したが、出力に不要なリストが含まれるなどのエラーが発生した。
E4Bモデルは約3.5分を要したものの、ショッピングカート機能が正常に動作する成果物を作成した。
23億パラメータ規模のモデルで意味のあるコーディング結果を出力できることを実証した。

LM StudioとClineを使用したオフライン環境でテストを実施した。E2BはJavaScriptファイルの生成に失敗したが、E4Bではデザインが簡素ながらも機能性を備えたコードを出力した。これは非常に小さなパラメータ数において、複雑なコーディングタスクへの適応性を示す結果となった。

iPhoneでの実機テストと多言語・知識制限の確認

LiteRT LLMフレームワークを使用することで、iPhone上で極めて高速なレスポンス速度を記録した。
ラトビア語のOCRテストにおいて、不自然な文法は見られるものの高い正確性でテキストを認識した。
モデルの知識カットオフは2025年1月であり、当時の米国大統領名を正確に回答した。

Google提供のEdge Galleryアプリを用いて、iPhone上での画像認識や対話性能を検証した。コーギーをボーダー・コリーと誤認するなどの限界はあるが、20億パラメータ級としては十分な認識能力を維持している。現在は公式のiOSバインディングが不足しているが、SwiftLMなどのコミュニティによるネイティブ実装の開発が進められている。

Community Posts

Gemma 4 ローカルサーバーで毎月のAPI費用200ドルを削減する方法

makedream10 days ago3170

Write about this video